• 제목/요약/키워드: N-GRAM

검색결과 575건 처리시간 0.029초

집합 기반 POI 검색을 이용한 문장 유사도 측정 기법 (Sentence Similarity Measurement Method Using a Set-based POI Data Search)

  • 고은별;이종우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권12호
    • /
    • pp.711-716
    • /
    • 2014
  • 최근 논문 표절 논란과 지능형 텍스트 검색서비스에 대한 관심이 증가하면서 문장 유사도 측정의 필요성이 증가하고 있다. n-gram, 편집거리, LSA 등 기존의 다양한 방향으로 선행 연구가 있었지만 각 기법마다 장단점이 존재한다. 본 논문에서는 집합 기반 POI 검색 기법을 이용한 새로운 방향의 문장 유사도 측정 기법을 제안한다. 집합 기반 POI 검색 기법은 하드매칭에 비해 단어의 도치, 누락, 삽입, 변경에 현저한 성능 향상을 보인다. 이 기법을 이용하면 보다 정확하고 빠른 문장 유사도 측정이 가능하다. 제안하는 기법은 기존 집합 기반 POI 검색 기법의 데이터 로딩 알고리즘과 텍스트 검색 알고리즘을 변형하고 어절 연산 알고리즘을 추가하여 두 문장의 유사도를 백분율로 표현한다. 실험을 통해 본 논문에서 제시하는 기법이 정확도와 속도에서 n-gram과 기존 집합 기반 POI 검색 기법에 비해 우수함을 확인하였다.

단백질 서열의 n-Gram 자질을 이용한 세포내 위치 예측 (Classification Protein Subcellular Locations Using n-Gram Features)

  • 김진숙
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2007년도 추계 종합학술대회 논문집
    • /
    • pp.12-16
    • /
    • 2007
  • 단백질의 기능은 그 기능을 발휘하는 세포내의 위치와 밀접한 연관이 있다. 따라서 새로운 단백질의 서열이 밝혀지면 이 단백질의 세포내 위치를 규명하는 것은 생물학적으로 매우 중요한 일이다. 이 논문에서는 단백질의 n-그램과 kNN (k-Nearest Neighbor) 분류기를 이용한 새로운 세포내 위치예측 방법을 다룬다. 이 방법은 입력 단백질 서열과 가장 유사한 가중치를 가지는 k개의 단백질이 가지는 세포내 위치 정보들을 취합하여 입력 단백질의 세포내 위치를 추정한다. 단백질간의 유사도 가중치는 두 단백질서열의 5-그램 자질의 유사도를 비교하여 계산된다. 단백질의 세포내 위치예측 정확도를 검증하기 위해 SWISS-PROT 단백질 데이터베이스로 부터 세포내 위치가 알려진 51,885개의 서열을 추출하여 대용량 테스트 컬렉션을 구축하였으며, 다른 연구자들이 제공하는 또 하나의 소용량 테스트 컬렉션을 실험에 사용하였다. 이 논문에서 사용한 예측방법은 대용량 테스트컬렉션에 대해 약 93%의 정확도를 보여주었으며, 소용량 데스트컬렉션을 이용하여 이전 실험과 비교하였을 때도 이 방법이 다른 시스템에 비해 성능이 우월함을 알 수 있었다.

  • PDF

Enhancement of a language model using two separate corpora of distinct characteristics

  • 조세형;정태선
    • 한국지능시스템학회논문지
    • /
    • 제14권3호
    • /
    • pp.357-362
    • /
    • 2004
  • 언어 모델은 음성 인식이나 필기체 문자 인식 등에서 다음 단어를 예측함으로써 인식률을 높이게 된다. 그러나 언어 모델은 그 도메인에 따라 모두 다르며 충분한 분량의 말뭉치를 수집하는 것이 거의 불가능하다. 본 논문에서는 N그램 방식의 언어모델을 구축함에 있어서 크기가 제한적인 말뭉치의 한계를 극복하기 위하여 두개의 말뭉치, 즉 소규모의 구어체 말뭉치와 대규모의 문어체 말뭉치의 통계를 이용하는 방법을 제시한다. 이 이론을 검증하기 위하여 수십만 단어 규모의 방송용 말뭉치에 수백만 이상의 신문 말뭉치를 결합하여 방송 스크립트에 대한 퍼플렉시티를 30% 향상시킨 결과를 획득하였다.

신문 사설의 특징적 표현들에 대한 연구 (Key Expressions in Editorial Texts: Determining the Unithood and Termhood of Word Sequences based on a 2009 Newspaper Corpus)

  • 김혜영;강범모
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.185-190
    • /
    • 2012
  • 본 논문은 동아, 조선, 중앙, 한겨레 신문의 2009년 신문 사설의 제목과 본문에서 나타나는 n-gram에 대한 논의이다. 구체적으로 자주 출현하는 단어들의 연속 단위 3~6개의 형태소를 추출하여 신문 사설에서 나타난 고빈도 형태소 연속체를 살펴본다. 또한 이들을 기사문에서 추출한 패턴과 로그공산비로 비교하여 신문 사설에서 더 특징적인 의미로 사용되는 어휘들을 살펴본다. 그 결과, 사설 본문에서는 3-gram은 '아야 한다'. 4-gram은 'ㄹ 것이다', 5-gram은 'ㄹ 수밖에 없다', 6-gram은 '아야 할 것이다' 등이, 사설 제목은 '것인가, 안 된다'가 하나의 용어처럼 사용되고 있었다. 이러한 형태소 연속체를 살펴봄으로써, 신문사설의 텍스트 특징과 정형적인 표현에 대해서 살펴볼 수 있다.

  • PDF

한글 문서의 효과적인 검색을 위한 n-gram 기반의 색인 방법 (An n-gram-based Indexing Method for Effective Retrieval of Hangul Texts)

  • 이준호;안정수;박현주;김명호
    • 정보관리학회지
    • /
    • 제13권1호
    • /
    • pp.47-63
    • /
    • 1996
  • 기존의 한글 자동 색인 방법들은 어절 단위 색인법과 형태소 단위 색인법으로 분류될 수 있다. 전자는 문서내의 어절에서 비색인 분절을 절단함으로써 색인어를 추출하는 방법으로, 문서들이 많은 복합 명사들을 포함할 경우 검색 효과가 저하된다. 후자는 형태소 해석이나 구문 해석을 이용하여 중요한 의미를 갖는 명사나 명사구를 추출하는 방법으로 단일 명사를 추출함으로써 복합 명사의 띄어쓰기 문제를 극복할 수 있다. 그러나 색인 과정에서 요구되는 많은 언어 정보를 개발하고 유지 보수해야 하는 부담을 지니고 있다. 본 논문에서는 기존의 색인 방법들의 문제점들을 완화할 수 있는 새로운 색인 방법을 제안한다. 그리고 실험을 통하여 제안하는 방법의 성능을 평가한다.

  • PDF

Biosynthesis of L-Ascorbic Acid by Microorganisms in Kimchi Fermentation Process

  • Cheigh, Hong-Sik;Rina Yu;Park, Hyun-Jeong;Jun, Hong-Ki
    • Preventive Nutrition and Food Science
    • /
    • 제1권1호
    • /
    • pp.37-40
    • /
    • 1996
  • Kinchi is and important source of various vitamins, minerals, dietary fiber, organic acids and other nutrients. In order to get a basic information for developing vitamins-rich funtional kimchi, we investigated microorganisms which are capable of synthesis of vitamin C in Kimchi system. Microorganisms isolated from aliquots of kimchi were screened and cultured by using MRS or nutrient agar medium. L-Ascorbic acid produced by microorganism in medium was measured with high performance liquid chromatography. As the result, we isolated two bacteria strins N7 and N5202 preducing L-ascorbic acid from the kimchi system. Morphological and Gram staining experiment showed that N7 was Gram positive bacilli, while N5202 was Gram negative. There were also several bacteria that were considered to synthesizs erythorbic acid which is an analog of ascorbic acid. These results suggested that vitamin C-rich functional food could be developed by using the kimchi microorganisms.

  • PDF

1세 이하의 발열성 소아 요로감염에서 Gram-Positive Uropathogens의 발생 빈도 및 임상적 의의 (Clinical Significance and Incidence of Gram-positive Uropathogens in Pediatric Patients Younger than 1 Year of Age with Febrile Urinary Tract Infection)

  • 양태환;임형은;유기환
    • Childhood Kidney Diseases
    • /
    • 제17권2호
    • /
    • pp.65-72
    • /
    • 2013
  • 목적: 요로감염은 대부분 그람 음성 균에 의해 발생한다고 알려져 있으나 최근 연구들에 의하면 병원내 감염의 주요원인으로 알려졌던 그람 양성균에 의한 요로감염이 증가하고 있고 일반적인 경험적 항생제에 내성이 증가하고 있어 균혈증 등으로 진행이 가능하지만 지역사회 획득 소아 요로감염에 미치는 연구들은 아직 미흡한 실정이다. 본 연구에서는 1세 이하의 지역사회 획득 발열성 소아 요로감염에서 그람 양성균이 요로감염의 중증도 및 동반 비뇨기계 기형과 연관이 있는지 알아보고자 하였다. 방법: 2008년 1월부터 2013년 5월까지 고려대학교 의료원에 입원 치료한 1세 이하의 발열성 요로감염 소아 566명을 대상으로 하였다. 치골 상부 방광 천자 및 도뇨관 으로 채취한 요 배양 검사에 따라 그람 양성균 군과 그람 음성균 군으로 나누어 입원 전후 발열 기간, 말초 혈액 내 백혈구 수와 혈청 C-반응성 단백, 수신증의 유무, 초기 신결손 및 신반흔의 유무, 방광요관역류의 유무 등의 항목들을 후향적으로 비교분석 하였다. 결과: 대상 환아 566명 중 그람 양성균 군은 23명, 그람 음성균 군은 543명 이었으며 그람 양성균 중 E. faecalis가 20주(71.4%)로 가장 많았고, 그람 음성균에서는 E. coli가 493주(86.8%)로 가장 높은 빈도를 보였다. 그람 양성균 군의 평균 입원 전후 발열 기간은 $3.4{\pm}1.2$일 이었으며 그람 음성균 군은 $2.9{\pm}1.6$일로 그람 양성균 군에서 유의하게 길었다. 또한, 배뇨 중 방광요도조영술상 방광요관역류는 그람 양성균 군에서 55.6%, 그람 음성균 군에서 17.8%로 그람 양성균 군에서 유의하게 높은 빈도로 나타났다. 그러나, 그 외 혈액 및 영상 검사 소견에서는 유의한 차이를 보이지 않았다. 결론: 저자들은 그람 양성균에 의한 1세 이하의 발열성 소아 요로감염에서 발열 기간 및 방광요관역류가 증가 할 수 있으므로 요로감염의 치료에 있어 경험적 항생제 선택에 신중을 기해야 하며 동반 기형을 찾기 위한 요로계 영상 검사와 추적 관찰이 꼭 필요함을 제시하는 바이다.

최근 5년(2006-2010)간 소아 혈액 종양 환자에서 발생한 균혈증의 원인균 및 임상 양상: 단일기관 연구 (Etiological Agents in Bacteremia of Children with Hemato-oncologic Diseases (2006-2010): A Single Center Study)

  • 강지은;석준영;윤기욱;강형진;최은화;박경덕;신희영;이환종;안효섭
    • Pediatric Infection and Vaccine
    • /
    • 제19권3호
    • /
    • pp.131-140
    • /
    • 2012
  • 목 적 : 소아 종양 환자의 균혈증의 원인균과 위험 인자에 대한 지속적인 감시 및 조사를 통해 적절한 치료와 생존율 향상에 기여하고자, 2006년부터 2010년의 최근 5년간 서울대학교 어린이 병원 소아 종양 환자에게 발생했던 균혈증의 원인균 분포와 이들의 항생제 감수성을 분석하여 항생제 선택에 실제적인 도움을 얻고자 하였다. 방 법 : 2006년 1월부터 2010년 12월까지 5년간 서울대학교 어린이병원에서 입원 치료를 받은 소아 종양환자들에게 발생한 균혈증에 대하여, 의무기록을 후향적으로 분석하였다. 의무기록 분석 시, 선행 질환 및 호중구 수치, 치료 경과 등을 조사하였고, 호중구 감소증, 중심 정맥관 등 균혈증의 예후 인자에 대한 분석을 함께 시행하였다. 결 과 : 총 176명의 소아 종양 환자에게 226례의 균혈증이 발생하였고, 246균주가 분리되었다. 이 중 그람 음성균, 그람 양성균, 진균이 각각 63.4%, 34.6%, 2.0%이었다. 그람 음성균 중에는 Klebsiella species, E. coli, 그람 양성균 중에는 coagulase-negative staphylococci, S. aureus 등이 높은 비율로 분리되었다. 그람 양성균의 penicillin, oxacillin, vanconycmin 내성률은 각각 85.7%, 65.9%, 9.5%이었으며, 그람 음성균의 cefotaxime, piperacillin/tazobactam, imipenem, gentamicin, amikacin 내성률은 각각 37.2%, 17.1%, 6.2%, 32.2%, 13.7%이었다. 전체 환자에서 치사율은 12.7%였다. 그람 음성균 균혈증의 쇼크 발생률이 그람 양성균 균혈증보다 유의하게 높았고(48.4% vs. 11.9%, P<0.01), 치사율 역시 그람 음성균이 더 높았다(12.1% vs. 3.0%, P=0.03). 쇼크 발생률은 호중구 감소증을 동반한 환자군에서 호중구 감소증을 동반하지 않은 환자군에서보다 유의하게 높았다(39.6% vs. 22.0%, P=0.04). 결 론 : 그람 음성균이 소아 종양 환자의 균혈증의 흔한 원인균이며, 불량한 예후와도 관련성이 높은 점들은 기존 연구결과들과 일치하였다. 향후 원인 균주의 분포와 항생제 내성률의 변화에 대한 지속적인 모니터링이 필요할 것으로 생각된다.

  • PDF

지지 벡터 기계와 토픽 시그너처를 이용한 댓글 분류 시스템 언어에 독립적인 댓글 분류 시스템 (Comments Classification System using Support Vector Machines and Topic Signature)

  • 배민영;은지현;장두성;차정원
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.263-266
    • /
    • 2009
  • 댓글은 일반적인 글에 비해 작성가능한 문장의 길이가 짧고, 띄어쓰기나 마침표를 잘 쓰지 않는 등 비정형화된 형식 구조를 가진다. 이러한 댓글의 악성 여부를 판별하기 위하여 본 논문에서는 문장을 n-gram으로 나누고 문서요약이나 문서분류에서 자질 선택에 많이 사용되는 토픽 시그너처(Topic Signature)를 이용하여 자질을 추출한다. 또한 지지 벡터 기계(Support Vector Machines)을 사용하여 댓글의 악성 여부를 판별한다. 본 논문에서는 한글과 영어 댓글에 대한 악성 여부를 판별하는 실험을 통하여 복잡한 전처리과정을 요구하는 기존에 제안된 방법들 보다 우수한 성능을 보이는 것을 확인할 수 있었다.

  • PDF

우편주소정보 추출모듈 개발 및 평가 (Development and Evaluation of Information Extraction Module for Postal Address Information)

  • 신현경;김현석
    • 창의정보문화연구
    • /
    • 제5권2호
    • /
    • pp.145-156
    • /
    • 2019
  • 본 연구에서는 명명된 실체 인식 기법에 기초한 정보 추출 모듈을 개발하고 평가하였다. 본 논문의 제시된 목적을 위해, 모듈은 사전 지식 없이 임의의 문서에서 우편 주소 정보를 추출하는 문제에 적용하도록 설계되었다. 정보 기술 실무의 관점에서, 우리의 접근방식은 유니그램 기반 키워드 매칭과 비교하여 일반화된 기법인 확률론적 n-gram(바이오그램 또는 트리그램) 방법이라고 말할 수 있다. 모델을 순차적으로 적용하지 않고 문장검출, 토큰화, POS 태그를 재귀적으로 적용하는 것이 우리의 접근법과 자연어 처리에 채택된 전통적인 방법 사이의 주요한 차이점이다. 이 논문에서는 약 2천 개의 문서를 포함한 시험 결과를 제시한다.