• 제목/요약/키워드: N-Gram

검색결과 577건 처리시간 0.023초

한글 문서 검색에서 n-Gram 색인방법의 성능 분석 (Performance Analysis of n-Gram Indexing Methods for Korean text Retrieval)

  • 이준규;심수정;박혁로
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 컴퓨터소사이어티 추계학술대회논문집
    • /
    • pp.145-148
    • /
    • 2003
  • The agglutinative nature of Korean language makes the problem of automatic indexing of Korean much different from that of Indo-Eroupean languages. Especially, indexing with compound nouns in Korean is very problematic because of the exponential number of possible analysis and the existence of unknown words. To deal with this compound noun indexing problem, we propose a new indexing methods which combines the merits of the morpheme-based indexing methods and the n-gram based indexing methods. Through the experiments, we also find that the best performance of n-gram indexing methods can be achieved with 1.75-gram which is never considered in the previous researches.

  • PDF

미생물이 생산하는 새로운 대사길항물질에 관한 연구 (Studies on the New Antimetabolites Produced by Microorganisms)

  • 박부길
    • 한국미생물·생명공학회지
    • /
    • 제6권4호
    • /
    • pp.187-196
    • /
    • 1978
  • 미생물이 하는 생산하는 대사길항물질을 screening 한 결과 최소검정배지상에서 Gram 양성균과 Gram 음성균에 다같이 강한 항균작용을 나타내고 L-aspar tic acid와 L-g1utamic acid에 의하여 길항당하는 물질 N-2292를 생산하는 방선균을 분리하였다. 본 생산균을 분류동정한 결과, Streptomyces albulus 로 보거나 혹은 그 유연균으로 동정하였다. N-2292물질의 배양조건을 검토하여 최적조건에서 대량 배양하고 주로 ion 교환수지, Dowex 50을 사용하여 활성물질을 분리정제하였으며 배양액 약 10ι에서 약 40mg의 백색분말을 얻었다. 본물질은 그 의 이화학적 성질로 보아 indole 화합물을 함유하는 peptide 양 물질임을 추정할 수가 있었다. 생물학적 성질은 최소검정배지상에서 Gram 양성 및 Gram 음성세균에 항균력을 나타냈다. 이러한 항균력은 L-Asp. 및 L-Glu.의 첨가에 의해서 조해당하였다.

  • PDF

Protein Sequence Search based on N-gram Indexing

  • Hwang, Mi-Nyeong;Kim, Jin-Suk
    • Bioinformatics and Biosystems
    • /
    • 제1권1호
    • /
    • pp.46-50
    • /
    • 2006
  • According to the advancement of experimental techniques in molecular biology, genomic and protein sequence databases are increasing in size exponentially, and mean sequence lengths are also increasing. Because the sizes of these databases become larger, it is difficult to search similar sequences in biological databases with significant homologies to a query sequence. In this paper, we present the N-gram indexing method to retrieve similar sequences fast, precisely and comparably. This method regards a protein sequence as a text written in language of 20 amino acid codes, adapts N-gram tokens of fixed-length as its indexing scheme for sequence strings. After such tokens are indexed for all the sequences in the database, sequences can be searched with information retrieval algorithms. Using this new method, we have developed a protein sequence search system named as ProSeS (PROtein Sequence Search). ProSeS is a protein sequence analysis system which provides overall analysis results such as similar sequences with significant homologies, predicted subcellular locations of the query sequence, and major keywords extracted from annotations of similar sequences. We show experimentally that the N-gram indexing approach saves the retrieval time significantly, and that it is as accurate as current popular search tool BLAST.

  • PDF

Etiology of Bacteremia in Children With Hemato-Oncologic Diseases From 2013 to 2023: A Single Center Study

  • Sun Woo Park;Ji Young Park;Hyoung Soo Choi;Hyunju Lee
    • Pediatric Infection and Vaccine
    • /
    • 제31권1호
    • /
    • pp.46-54
    • /
    • 2024
  • 목적: 본 연구는 2013년부터 2023년까지 최근 10년간 분당서울대학교병원 소아 혈액종양 환자들에게 발생한 균혈증 발생 숫자를 확인하고, 원인균 발생 빈도 및 분포와 이들의 항생제 감수성을 분석하면서 경험적 항생제를 선택하는 데에 필요한 치료 지침의 기초 자료로 활용하고자 수행되었다. 방법: 2013년 1월부터 2023년 7월까지 분당서울대학교병원에 입원한 환자 중 기저혈액종양질환이 있으면서 혈류감염이 발생한 환자들을 대상으로 후향적 의무기록 분석을 하였다. 결과: 10년의 연구 기간동안 총 74명의 환자에게서 98례의 혈류감염이 확인되었고, 이 중 그람 양성균, 그람 음성균, 진균이 각각 57.1% (n=56), 38.8% (n=38), 4.1% (n=4)이었다. 가장 흔한 그람 양성균은 coagulase-negative staphylococci (n=21, 21.4%) 와 Staphylococcus aureus (n=14, 14.3%) 였고, 가장 흔한 그람 음성균은 Klebsiella species (n=16, 16.3%) 와 Escherichia coli (n=10, 10.2%) 였다. 전체 사망한 환자들 중 균혈증 발생으로부터 30일 이내로 사망한 사례는 총 6건 (6.1%) 이었다. 결론: 본 연구는 혈액종양질환을 진단받은 소아 환아들에게서 발생한 균혈증의 원인균 분포 및 각 원인균의 항생제 분포를 분석하였다. 연구결과를 토대로, 연구자들은 현재 사용하는 경험적 항생제 가이드라인을 유지할 수 있다는 점을 알 수 있었다. 소아 혈액종양질환 환아들에게서 발생한 균혈증에서 사용해야 할 적절한 경험적 항생제는 각 기관별로 조사한 항생제 감수성 양상에 기초하여 결정되어야 하며, 지속적인 모니터링은 반드시 이루어져야 한다.

영상검색엔진을 위한 가중치 N-Gram색인 방법 (Weighted N-Gram Indexing for Image Search Engine)

  • 이상열;정성호;황병곤
    • 한국정보기술응용학회:학술대회논문집
    • /
    • 한국정보기술응용학회 2002년도 추계공동학술대회 정보환경 변화에 따른 신정보기술 패러다임
    • /
    • pp.412-416
    • /
    • 2002
  • 멀티미디어 검색 시스템들은 아직까지 내용 기발에 의한 검색기술이 실용적으로 쓰일 만큼 높은 성능을 보이고 있지 않기 때문에 텍스트에 의한 검색만을 지원하고 있는 실정이다. HTML 문서에 나타나는 텍스트 중 이미지 아래에 붙은 표제나 이미지 링크에 붙어 있는 텍스트를 골라내어 이미지의 색인 정보로 이용하여 텍스트를 추출하는 기법을 제안하였다. 텍스트를 추출하기 위해 N-Gram 색인 방법을 사용하였으며 한편 검색 효율을 높이기 위해서 질의 의도가 큰 단어에 가중치를 부여하였다.

  • PDF

문형정보와 N-gram 단어정보를 이용한 연속음성인식 후처리 (A post processing of continuous speech recognition using N-gram words and sentence patterns)

  • 엄한용;황도삼
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.324-326
    • /
    • 2000
  • 본 논문에서는 항공편 예약이라는 제한 영역에서의 연속음성인식 시스템을 위한 후처리 본 논문에서는 항공편 예약이라는 제한 영역에서의 연속음성인식 시스템을 위한 후처리 방안을 제시한다. 제안하는 후처리 방안은 200 문장의 항공편 예약 텍스트 데이터를 이용하여 문형 정보를 추출한 뒤 특정 문형별로 분류하였다. 분류된 문형과 음성인식 후의 문장을 비교하여 가장 유사한 문형을 추론한다. 추론한 특정 문형에서 나올 수 있는 형태소를 형태소들간의 N-gram 정보가 수록된 데이터베이스를 이용하여 형태소를 수정하고 보완한 결과를 최종 문장으로 출력한다.

  • PDF

영상검색엔진을 위한 가중치 N-Gram색인 방법 (Weighted N-Gram Indexing for Image Search Engine)

  • 이상열;정성호;황병곤
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2002년도 추계공동학술대회
    • /
    • pp.412-416
    • /
    • 2002
  • 멀티미디어 검색 시스템들은 아직까지 내용 기반에 의한 검색기술이 실용적으로 쓰일 만큼 높은 성능을 보이고 있지 않기 때문에 텍스트에 의한 검색만을 지원하고 있는 실정이다. HTML 문서에 나타나는 텍스트 중 이미지 아래에 붙은 표제나 이미지 링크에 붙어 있는 텍스트를 골라내어 이미지의 색인 정보로 이용하여 텍스트를 추출하는 기법을 제안하였다. 텍스트를 추출하기 위해 N-Gram 색인 방법을 사용하였으며 한편 검색 효율을 높이기 위해서 질의 의도가 큰 단어에 가중치를 부여하였다.

  • PDF

숫자표기에 의한 포도당 비발효균의 동정시안(MCRCODE-N) (A Numerical Coding System (MCRCODE-N) for Identification of Glucose Nonfermenting Gram-Negative Bacilli)

  • 홍석일;김정숙
    • Journal of Yeungnam Medical Science
    • /
    • 제2권1호
    • /
    • pp.183-190
    • /
    • 1985
  • 본 시안(MCRCODE-N)은 말 그대로 시안인 바 많은 수정과 첨가가 필요할 것이라고 생각되나 국내 실정에 맞는 검사법이라고 생각된다. 본 시안을 이용하여 결정을 보완하는 일이 시급한 바 동학 선후배의 지도 편달을 바라는 바 이다.

  • PDF

대칭 조건부 확률과 TF-IDF 기반 텍스트 분류를 위한 N-gram 특질 선택 (N-gram Feature Selection for Text Classification Based on Symmetrical Conditional Probability and TF-IDF)

  • 최우식;김성범
    • 대한산업공학회지
    • /
    • 제41권4호
    • /
    • pp.381-388
    • /
    • 2015
  • The rapid growth of the World Wide Web and online information services has generated and made accessible a huge number of text documents. To analyze texts, selecting important keywords is an essential step. In this paper, we propose a feature selection method that combines a term frequency-inverse document frequency technique and symmetrical conditional probability. The proposed method can identify features with N-gram, the sequential multiword. The effectiveness of the proposed method is demonstrated through a real text data from the machine learning repository, University of California, Irvine.

음소인식 오류에 강인한 N-gram 기반 음성 문서 검색 (N-gram Based Robust Spoken Document Retrievals for Phoneme Recognition Errors)

  • 이수장;박경미;오영환
    • 대한음성학회지:말소리
    • /
    • 제67호
    • /
    • pp.149-166
    • /
    • 2008
  • In spoken document retrievals (SDR), subword (typically phonemes) indexing term is used to avoid the out-of-vocabulary (OOV) problem. It makes the indexing and retrieval process independent from any vocabulary. It also requires a small corpus to train the acoustic model. However, subword indexing term approach has a major drawback. It shows higher word error rates than the large vocabulary continuous speech recognition (LVCSR) system. In this paper, we propose an probabilistic slot detection and n-gram based string matching method for phone based spoken document retrievals to overcome high error rates of phone recognizer. Experimental results have shown 9.25% relative improvement in the mean average precision (mAP) with 1.7 times speed up in comparison with the baseline system.

  • PDF