• 제목/요약/키워드: N-GRAM

검색결과 577건 처리시간 0.029초

제한된 언어 자원 환경에서의 다국어 개체명 인식 (Multilingual Named Entity Recognition with Limited Language Resources)

  • 천민아;김창현;박호민;노경목;김재훈
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.143-146
    • /
    • 2017
  • 심층학습 모델 중 LSTM-CRF는 개체명 인식, 품사 태깅과 같은 sequence labeling에서 우수한 성능을 보이고 있다. 한국어 개체명 인식에 대해서도 LSTM-CRF 모델을 기본 골격으로 단어, 형태소, 자모음, 품사, 기구축 사전 정보 등 다양한 정보와 외부 자원을 활용하여 성능을 높이는 연구가 진행되고 있다. 그러나 이런 방법은 언어 자원과 성능이 좋은 자연어 처리 모듈(형태소 세그먼트, 품사 태거 등)이 없으면 사용할 수 없다. 본 논문에서는 LSTM-CRF와 최소한의 언어 자원을 사용하여 다국어에 대한 개체명 인식에 대한 성능을 평가한다. LSTM-CRF의 입력은 문자 기반의 n-gram 표상으로, 성능 평가에는 unigram 표상과 bigram 표상을 사용했다. 한국어, 일본어, 중국어에 대해 개체명 인식 성능 평가를 한 결과 한국어의 경우 bigram을 사용했을 때 78.54%의 성능을, 일본어와 중국어는 unigram을 사용했을 때 각 63.2%, 26.65%의 성능을 보였다.

  • PDF

Cohnella panacarvi sp. nov., a Xylanolytic Bacterium Isolated from Ginseng Cultivating Soil

  • Yoon, Min-Ho;Ten, Leonid N.;Im, Wan-Taek
    • Journal of Microbiology and Biotechnology
    • /
    • 제17권6호
    • /
    • pp.913-918
    • /
    • 2007
  • A Gram-positive, aerobic, rod-shaped, nonmotile, endospore-forming bacterium, designated Gsoil $349^T$, was isolated from soil of a ginseng field and characterized using a polyphasic approach. Comparative analysis of 16S rRNA gene sequences revealed that the strain Gsoil $349^T$ belongs to the family Paenibacillaceae, and the sequence showed closest similarity with Cohnella thermotolerans DSM $17683^T$ (94.1%) and Cohnella hongkongensis DSM $17642^T$ (93.6%). The strain showed less than 91.3% 16S rRNA gene sequence similarity with Paenibacillus species. In addition, the presence of MK-7 as the major menaquinone and $anteiso-C_{15:0},\;iso-C_{16:0},\;and\;C_{16:0}$ as major fatty acids suggested its affiliation to the genus Cohnella. The G+C content of the genomic DNA was 53.4 mol%. On the basis of its phenotypic characteristics and phylogenetic distinctiveness, strain Gsoil $349^T$ should be treated as a novel species within the genus Cohnella for which the name Cohnella panacarvi sp. nov. is proposed. The type strain is Gsoil $349^T\;(=KCTC\;13060^T=\;DSM\;18696^T)$.

Purification and Characterization of an Antilisterial Bacteriocin Produced by Leuconostoc sp. W65

  • Oh, Se-Jong;Kim, Myung-Hee;Churey, John-J.;Worobo, Randy-W.
    • Journal of Microbiology and Biotechnology
    • /
    • 제13권5호
    • /
    • pp.680-686
    • /
    • 2003
  • This study was carried out to characterize the antilisterial substances produced by Leuconostoc sp. W65 and to evaluate the effects of pH, temperature, and time on inhibitory activity using response surface methodology. Leucocin W65, an antilisterial substance produced by Leuconostoc sp. W65, markedly inhibited the growth of Listeria monocytogenes, L. innocua, and L. ivanovii, whereas other pathogens including Gram-negative bacteria were not susceptible. The pH was the most effective factor with regard to bacteriocin activity, while temperature and time of heat treatment had no significant effect. Fifty percent of inhibitory activity remained after 22.8 min at pH 4.2 and $121^{\circ}C$. Leucocin W65 was purified by ammonium sulfate precipitation, hydrophobic interaction chromatography, and tricine-SDS-PAGE. Compositional analysis originally estimated the peptide to be 56 amino acids in length without asparagine, glutamine, and tryptophane. The sequence of partial N-terminal amino acid residues of purified bacteriocin was identified as follows: $NH_{2}-XGXAGVXPXGGQQPXVPLXYP$.

한국어 자소 기반 Hybrid CTC-Attention End-to-End 음성 인식 (Hybrid CTC-Attention Based End-to-End Speech Recognition Using Korean Grapheme Unit)

  • 박호성;이동현;임민규;강요셉;오준석;서순신;;김지환
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.453-458
    • /
    • 2018
  • 본 논문은 한국어 자소를 인식 단위로 사용한 hybrid CTC-Attention 모델 기반 end-to-end speech recognition을 제안한다. End-to-end speech recognition은 기존에 사용된 DNN-HMM 기반 음향 모델과 N-gram 기반 언어 모델, WFST를 이용한 decoding network라는 여러 개의 모듈로 이루어진 과정을 하나의 DNN network를 통해 처리하는 방법을 말한다. 본 논문에서는 end-to-end 모델의 출력을 추정하기 위해 자소 단위의 출력구조를 사용한다. 자소 기반으로 네트워크를 구성하는 경우, 추정해야 하는 출력 파라미터의 개수가 11,172개에서 49개로 줄어들어 보다 효율적인 학습이 가능하다. 이를 구현하기 위해, end-to-end 학습에 주로 사용되는 DNN 네트워크 구조인 CTC와 Attention network 모델을 조합하여 end-to-end 모델을 구성하였다. 실험 결과, 음절 오류율 기준 10.05%의 성능을 보였다.

  • PDF

김으로부터 분리한 방사선 저항성 세균 (Identification of Radiation-Resistant Bacterium Isolated from Dried Laver (Porphyra tenera))

  • 안현주;육홍선;김동호;김성;변명우
    • 한국식품영양과학회지
    • /
    • 제30권1호
    • /
    • pp.193-195
    • /
    • 2001
  • A radiation-resistant bacterium was isolated from gamma irradiated dried laver (Porphyra tenera) and its microbiological characteristics were examined. As a result of resistance test to gamma irradiation, the isolate was survived $10^{3}$ CFU/mL even at 30 kGy and significant shoulder line zone was shown until 20 kGy. The $D_{10}$ value was 11.27 kGy. The isolate was gram-positive, non-motile coccus and catalase-positive. n culture, the red-pigmented smooth colony was observed. The biochemical test in API (analytical profile index) system showed that the isolate fermented glucose and fructose as the carbon source. Therefore, a radiation-resistant bacterium isolated from laver was potentially identified as Micrococcus roseus sp.

  • PDF

Prevalence of Soil-Transmitted Helminths and Molecular Clarification of Hookworm Species in Ethnic Ede Primary Schoolchildren in Dak Lak Province, Southern Vietnam

  • Bui, Khac Hung;Nguyen, Van De;Le, Van Duyet;Chai, Jong-Yil
    • Parasites, Hosts and Diseases
    • /
    • 제54권4호
    • /
    • pp.471-476
    • /
    • 2016
  • To know the infection status of helminths in primary schoolchildren of southern parts of Vietnam, we performed an epidemiological study in Krong Pac district, Dak Lak Province, Vietnam. A total of 1,206 stool specimens were collected from ethnic Ede schoolchildren in 4 primary schools in 2015 and examined by the Kato-Katz technique. In addition, stool cultures were done by the Harada-Mori method to obtain hookworm larvae and then to clarify the species of hookworms infected. The results showed that the helminth infection rate was 25.0%, including 2.0% Ascaris lumbricoides, 0.33% Trichuris trichiura, and 22.8% hookworm infections. The average intensity of infection was 102.0 eggs per gram of feces (EPG) for Ascaris, 36.0 EPG for Trichuris, and 218.0 EPG for hookworms. ITS1 gene sequences of the hookworm larvae were identical with those of Necator americanus (100% homology) reported in GenBank. It has been confirmed in this study that the hookworm, N. americanus, is a dominant helminth species infected in primary schoolchildren of a southern part of Vietnam. Public health attention is needed for control of hookworm infections among schoolchildren in surveyed areas of Vietnam.

Kinetics of Binding of LPS to Recombinant CD14, TLR4, and MD-2 Proteins

  • Shin, Han Jae;Lee, Hayyoung;Park, Jong Dae;Hyun, Hak Chul;Sohn, Hyung Ok;Lee, Dong Wook;Kim, Young Sang
    • Molecules and Cells
    • /
    • 제24권1호
    • /
    • pp.119-124
    • /
    • 2007
  • TLR4 together with CD14 and MD-2 forms a pattern recognition receptor that plays an initiating role in the innate immune response to Gram-negative bacteria. Here, we employed the surface plasmon resonance technique to investigate the kinetics of binding of LPS to recombinant CD14, MD-2 and TLR4 proteins produced in insect cells. The dissociation constants ($K_D$) of LPS for immobilized CD14 and MD-2 were $8.7{\mu}m$, and $2.3{\mu}m$, respectively. The association rate constant ($K_{on}$) of LPS for MD-2 was $5.61{\times}10^3M^{-1}S^{-1}$, and the dissociation rate constant ($K_{off}$) was $1.28{\times}10^2S^{-1}$, revealing slow association and fast dissociation with an affinity constant $K_D$ of $2.33{\times}10^6M$ at $25^{\circ}C$. These affinities are consistent with the current view that CD14 conveys LPS to the TLR4/MD-2 complex.

주변 문장 유사도를 이용한 문서 재사용 측정 모델 (A Text Reuse Measuring Model Using Circumference Sentence Similarity)

  • 최성원;김상범;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.179-183
    • /
    • 2005
  • 기존의 문서 재사용 탐지 모델은 문서 혹은 문장 단위로 그 내부의 단어 혹은 n-gram을 비교를 통해 문장의 재사용을 판별하였다. 그렇지만 문서 단위의 재사용 검사는 다른 문서의 일부분을 재사용하는 경우에 대해서는 문서 내에 문서 재사용이 이루어지지 않은 부분에 의해서 그 재사용 측정값이 낮아지게 되어 오류가 발생할 수 있는 가능성이 높아진다. 반면에 문장 단위의 문서 재사용 검사는 비교문서 내의 문장들에 대한 비교를 수행하게 되므로, 문서의 일부분에 대해 재사용물 수행한 경우에도 그 재사용된 부분 내의 문장들에 대한 비교를 수행하는 것이므로 문서 단위의 재사용에 비해 그런 경우에 더 견고하게 작동된다. 그렇지만, 문장 단위의 비교는 문서에 비해 짧은 문장을 단위로 하기 때문에 그 신뢰도에 문제가 발생하게 된다. 본 논문에서는 이런 문장단위 비교의 단점을 보완하기 위해 문장 단위의 문서 재사용 검사를 수행 후, 문장의 주변 문장의 재사용 검사 결과를 이용하여 문장 단위 재사용 검사에서 일어나는 오류를 감소시키고자 하였다.

  • PDF

다중색인에 의한 정보검색 시스템 구현 (Implementation of an Information Retrieval System with Multiple Indexing)

  • 이준영;강상배;양장모;박승;박현주;김민정;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.63-67
    • /
    • 1996
  • 이 논문에서는 대량의 신문기사나 일반 텍스트 문서를 효율적으로 저장 및 검색 할 수 있는 정보검색 시스템을 구현한다. 이 시스템은 문서의 주제, 저자, 날짜, 출판사 또는 사용자 정의에 의한 속성과 본문에 대한 색인어와 색인관련정보를 생성한다. 모든 색인어는 최대 64가지의 속성정보와 문서별 단어빈도(tf)를 가질 수 있다. 색인은 형태소 분석을 이용하는 방법과 N-gram을 이용하는 방법이 동시에 사용되며, 색인어는 가중치를 가진다. 이 논문에서 구현한 시스템을 이용하여 7개월치 신문자료를 색인한 결과, 생성된 데이터베이스의 크기는 원래 문서의 약 22%이며 문서의 개수가 증가함에 따라 점점 그 비율은 감소한다.

  • PDF

QUANTIFICATION OF Fasciola gigantica INFESTATION IN ZEBU CATTLE OF BANGLADESH

  • Chowdhury, S.M.Z.H.;Mondal, M.M.H.;Huq, S.;Akhter, N.;Islam, M.S.
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제7권3호
    • /
    • pp.343-346
    • /
    • 1994
  • A research study was undertaken to quantify fascioliasis in both live and slaughtered zebu cattle at Savar, Bangladesh. Eggs of Fasciola gigantica per gram of feces (EPG) was determined in a total of 213 fasciola infested live cattle. The EPG per animal ranged from 100 to 400 (mean $138.03{\pm}4.27SE$). Counting of F. gigantica was made in a total of 63 fasciola infested livers of slaughtered cattle. Number of immature flukes per liver ranged from 0 to 37 (mean $8.74{\pm}0.85SE$) and mature flukes ranged from 2 to 121 (mean $20.54{\pm}2.23SE$). Total load of flukes recovered per liver varied from 4 to 132 (mean $29.28{\pm}2.42SE$). Significantly higher EPG (p < 0.05) and higher load of flukes in the livers (p < 0.01) were observed from September to December (post monsoon and winter). The EPG and fluke counts were found significantly higher (p < 0.01) in animals after one year of age and these were also higher in female animals (p < 0.05) than the males.