• 제목/요약/키워드: 최장일치

Search Result 57, Processing Time 0.028 seconds

Korean Word Spacing System Using Syllable N-Gram and Word Statistic Information (음절 N-Gram과 어절 통계 정보를 이용한 한국어 띄어쓰기 시스템)

  • Choi, Sung-Ja;Kang, Mi-Young;Heo, Hee-Keun;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.47-53
    • /
    • 2003
  • 본 논문은 정제된 대용량 말뭉치로부터 얻은 음절 n-gram과 어절 통계를 이용한 한국어 자동 띄어쓰기 시스템을 제안한다. 한 문장 내에서 최적의 띄어쓰기 위치는 Viterbi 알고리즘에 의해 결정된다. 통계 기반 연구에 고유한 문제인 데이터 부족 문제, 학습 말뭉치 의존 문제를 개선하기 위하여 말뭉치를 확장하고 실험을 통해 얻은 매개변수를 사용하고 최장 일치 Viable Prefix를 찾아 어절 목록에 추가한다. 본 연구에 사용된 학습 말뭉치는 33,641,511어절로 구성되어 있으며 구어와 문어를 두루 포함한다.

  • PDF

Automatic Word-Segmentation for Hangul Sentences (한글 문장의 자동 띄어쓰기)

  • Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.137-142
    • /
    • 1998
  • 자동 띄어쓰기는 띄어쓰기가 무시된 한글 문서의 자동색인이나 문자인식에서 줄바꿈 문자에 대한 공백 삽입 문제 등을 해결하는데 필요하다. 이러한 문서에서 공백이 삽입될 위치를 찾아 주는 띄어쓰기 알고리즘으로 어절 블록에 대한 문장 분할 기법과 양방향 최장일치법을 이용한 어절 인식 방법을 제안한다. 문장 분할은 한글의 음절 특성을 이용하여 어절 경계가 비교적 명확한 어절 블록을 추출하는 것이며, 어절 블록에 나타난 각 어절들을 인식하는 방법으로는 형태소 분석기를 이용한다. 4,500여 어절로 구성된 두 가지 유형의 문장 집합에 대하여 제안한 방법의 띄어쓰기 정확도를 평가한 결과 '공백 재현율'이 97.3%, '어절 재현율'이 93.2%로 나타났다.

  • PDF

A Noun Extractor using Connectivity Information (좌우접속정보를 이용한 명사추출기)

  • An, Dong-Un
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.173-178
    • /
    • 1999
  • 본 논문의 명사추출기는 정보검색시스템을 위한 색인어 추출기로 좌우접속정보를 이용한 형태소해석을 통하여 얻어진 형태소들 중에서 명사를 추출한다. 본 형태소해석기는 형태소해석을 위한 언어지식과 어절 분리 엔진을 분리하여 수정과 확장이 용이하게 하였다. 사용한 언어지식은 좌우접속정보로서 한 어절을 이루는 형태소들의 품사간의 접속여부를 행렬로 표현한 것이다. 어절 분리 엔진은 사전을 참조하여 한 어절에서 최장일치법에 의해 형태소를 분리하고 좌우접속정보를 참조하여 형태소 분리가 올바른지를 판단한다. 형태소들의 품사분류는 표준 태그셋을 기반으로 음절 정보를 추가하여 확장하였다. 형태소를 해석한 결과 미등록어가 발생하였을 때 미등록어에서 명사를 추정하는 모듈이 없기 때문에 재현율은 좋지 않았다.

  • PDF

Multi-path LR parsing for nonsegmental words using one-pass strategy (원-패스 전략을 사용하는 미분절어를 위한 다중-경로 LR 파싱)

  • Lee, Gi-O;Lee, Yong-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.146-154
    • /
    • 1994
  • 한국어는 단어들 사이에 공백이 없는 미분절어이기 때문에, 한국어를 분석하기 위해서는 단어의 경계를 식별하는 분절이 선행되어야 한다. 분절은 쉽지 않은 과정이고 잘못된 분절은 구문분석, 의미 분석 단계에서 심각한 오류를 유발하기 때문에 형태소 분석의 중요한 작업중의 하나가 되어왔다. 기존의 한국어 분석 시스템들은 분절의 어려움으로 인하여 입력 문자열의 끝까지 읽은 후, 우에서 좌로 분석하는 two-pass 전략이나 단어들 사이에 공백을 삽입하여 처리하는 방법을 사용하였다. 또한 이 시스템들은 형태소 분석이 완결된 후, 파서에게 결과를 전달하는 순차적인 전략을 사용하였다. 본 논문은 영어의 분석과 같이 형태소 분석 동안에 파싱을 할 수 있는 one-pass 전략을 사용하여 한국어를 효율적으로 처리하는 모델을 제안한다. 이를 위해 형태소 분석 방법으로써 확장된 최장일치법을 제시하며, 위 방법에서 생성되는 문제점인 다중-범주 구를 처리하기 위하여 다중-경로 LR 파싱을 제시한다.

  • PDF

Korean Morphology Analysis Implementation for Information Retrieval (정보검색용 한국어 형태소분석기 구현)

  • Son, So-Hyun;Yu, Byung-Sun;Lee, Tak-Hyun;Moon, Byung-Ju;Hong, Gi-Che;Jung, Hyun-Su
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.10a
    • /
    • pp.379-382
    • /
    • 2000
  • 본 논문은 정보검색을 위한 형태소분석기를 소개한다. 검색엔진의 속도향상을 지향한다면 형태소분석 알고리즘과 참조하는 사전의 구조를 어떻게 구성하는가에 따라 처리속도에 상당한 변화를 기대할 수 있으며, 본 논문에서는 알고리즘으로 최장일치법을 이용하고, 사전내부구조로 AVL+Trie 구조를 이용하여 사전참조의 속도향상을 기대하였다.

  • PDF

A Morph Analyzer For MATES/CK (중한 기계 번역 시스템을 위한 형태소 분석기)

  • 강원석;김지현;송영미;송희정;황금하;채영숙;최기선
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.331-336
    • /
    • 2000
  • MATES/CK는 기계번역 시스템에서 전통적으로 사용하고 있는 세 단계(분석/변환/생성)에 의해서 중한 번역을 수행하는 시스템이다. MATES/CK는 시스템 성능을 높히기 위해 패턴 기반과 통계적 정보를 이용한다. 태거(Tagger)는 중국어 단어 분리를 최장일치법으로 수행하기 때문에 일부 단어에 대해 오류를 범하게 되고 품사(POS : Part Of Speech) 태킹 시 확률적 정보만 이용하여 특정 단어가 다 품사인 경우 그 단어에 대해 특정 품사만 태깅되는 문제점이 발생한다. 또한 중국어 및 외국어 인명 및 지명에 대한 미등록들에 대해서도 올바른 결과를 도출하지 못한다. 사전에 있어서 텍스트 기반으로 존재하여 이를 관리하기에 힘이 든다. 본 논문에서는 단어 분리 오류 및 품사 태깅 오류를 해결하기 위해 중국어 태킹 제약 규칙을 적용하는 방법을 제시하고 중국어 및 외국어 인명/지명에 대한 미등록어 처리방법을 제시한다. 또한 중국어 사전 관리에 대해 알아본다.

  • PDF

Seasonal Expression of OMT Gene in Relation to Lignin biosynthesis in two Poplar Species (종의 포플라수종에서 리그닌생합성에 관계된 OMT유전자의 발현)

  • Park, Young-Goo;Park, Hee Sung;Choi, Jang Won;Sul, Ill Whan;Chung, Il Kyung;Shin, Dong Ill
    • Journal of Life Science
    • /
    • v.8 no.4
    • /
    • pp.443-448
    • /
    • 1998
  • We analyzed lignin content and wxpression of OMT gene during growth season in two hybrid poplar species. OMT gene expression was observed mainy in the developing secondary xylem where major quantity of lignin occurs. Lignin content in the xylem tissue increased as plant resumed growth in the spring and reached the highest in the late August. Change in lignin content was concurrent with that of OMT gene expression, indicating OMT is a key enzyme in lignin biosynthesis.

  • PDF

Bit-Map Trie for Fast Routing Lookups (비트-맵 트라이를 이용한 빠른 라우팅 검색)

  • 오승현;나승구;안종석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.329-330
    • /
    • 2000
  • 기가비트 속도를 지원하는 고속 라우터의 IP 주소 검색은 소프트웨어로 구현할 수 없다는 일부의 믿음과는 달리 소프트웨어만으로도 고속 IP 주소 검색의 구현이 가능하다. 기가비트 라우터의 IP 주소 검색은 최장 프로픽스일치 기법을 사용하여 라우팅 엔트리를 검색하는데, 56Gbps 속도를 지원하기위해서는 평균 513byte의 패킷을 800 nsec 이하의 속도로 처리하여야 한다. 본 논문에서는 범용 펜티엄 프로세서의 캐쉬 크기에 적합한 고속 라우팅을 위한 포워딩 테이블 구조를 제안하였으며, 400 MHz의 페티엄 II 프로세서를 이용한 실험에서 초당 수백만개의 IP 주소 검색을 실현하였다. 제안된 포워딩 테이블은 약 48,000여개의 실제 라우팅 엔트리에 대해 284Kbyte의 매우 작은 크기로 작성되었는데, 이 크기는 펜티엄 프로세서의 L2 케쉬에 저장될 수 있는 작은 크기이다. 제안된 포워딩 테이블을 이용한 평균 검색 시간은 라우팅 테이블 별로 320~530 nsec가 소요되었다.

  • PDF

Load flow applied for improved Newton-Raphson method (수정 뉴톤-랍손법을 적용한 조류 계산)

  • Kim, K.J.;Eum, J.S.;Choi, Ch.H.;Jang, K.Ch.;Chung, D.W.
    • Proceedings of the KIEE Conference
    • /
    • 1997.07c
    • /
    • pp.1094-1096
    • /
    • 1997
  • 이제까지 전력계통의 상태를 알기 위한 조류계산은 전력방정식에 대한 직접적인 풀이로써 이루어졌다. 그런데 만일 자코비안 행열이 singular나 유사 singular가 된다면 그 전력 방정식의 해를 구할 수가 없게 된다. singular나 유사 singular가 되는 자코비안 행열을 가지는 전력방정식을 풀기 위하여 보조 방정식을 추가하여 미분불능인 점을 미분가능으로 변환하는 continuous method가 있다. 그런데 continuous method에서 보조 방정식은 원함수의 성질에 따라 달라지므로 어떤 일반적인 형태를 가지지 않는다. 따라서 본 논문에서는 전력방정식을 제약조건으로 가지고 부하 모선의 전력이 수용가의 요구량과 거의 일치되도록 하는 것을 목적 함수로 하는 최적화 문제로 조류계산을 변환하여 풀이하였다. 이러한 최적화 기법을 이용함으로써 continuous method에서 보조방정식이 원함수에 따라 계속적으로 변하는 문제를 개선하였다.

  • PDF

A Study on extraction for Korean-English word pair by using LCS algorithm (LCS알고리즘을 이용한 한-영 대역어 추출 연구)

  • Park, Eun-Jin;Yang, Seong-Il;Kim, Young-Kil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.707-709
    • /
    • 2007
  • 매일 생성되는 웹 신문에서 독자가 접해보지 못한 단어는 독자의 이해를 돕기 위하여 괄호를 사용한다. 괄호를 사용하여 표기된 웹 신문의 한국어-영어 대역쌍은 특정 기사에는 출현빈도가 낮지만 전체적으로 여러 신문의 기사를 봤을 때, 최소한 한번 이상 출현하게 된다. 즉, 괄호 안의 동일한 영어 용어 두 개 이상의 문장을 최장일치법 알고리즘에 적용하면 한국어 단어 경계를 자동으로 인식할 수 있다. 본 논문에서는 이런 웹 신문의 괄호 표기 특성을 이용하여 한-영 대역어쌍을 추출하는 방법을 제안한다. 웹 신문 기사 43,648 건에서 최대 2,087개의 한-영 대역어를 추출하였다. 3 개의 서로 다른 테스트 그룹으로 실험한 결과 최대 84.2%의 정확도를 보였다.