A Method of Function-word Recognition by Relative Frequency

상대빈도를 이용한 문법형태소의 인식 방법

  • 강승식 (한성대학교 정보전산학부)
  • Published : 1999.06.01

Abstract

It is expected that some Josa/Eomi's are frequently used and others are not in the Korean documents. In this paper. we confirm it through the experiment and show that such information is very useful for Korean language processing. In case of Josa. most frequent 9 Josa's occupied 70% of total Josa's and 20. 32. 69 Josa's occupied 90%. 95%. and 99% respectively. Similarly, most frequent 10 numbers of Eomi's occupied 70% of total Eomi's and 33. 54. 117 Eomi's occupied 90%. 95%. and 99% respectively. We propose a dictionary construction method for Josa/Eomi dictionary that is classified by the frequency information. Furthermore. Josa/Eomi frequency results are very useful for the identification of unregistered morphemes and the disambiguation of lexical ambiguities.

한글 문서에서 일부 조사와 일부 어미들은 출현 빈도가 높은 반면에 그 외에 조사와 어미는 출현빈도가 낮을 것으로 추측되고 있다. 본 연구에서는 실험을 통해서 이러한 사실을 확인하고 한국어 분석 시스템에서 활용하기 위하여 조사와 어미의 상대적 출현 빈도를 조사하였다. 조사의 상대적 출현 빈도를 조사한 결과, 말 뭉치 분야에 따라 약간의 차이가 있으나 일반적으로 빈도수가 높은 9개의 조사가 전체 조사의 70%를 차지하고 상위 20개, 32개, 69개의 조사가 각각 90%, 95%, 99%를 차지하고 있음을 확인하였다. 어말 어미는 빈도수가 높은 10개의 어말 어미가 전체 어말 어미의 70%를 차지하고 상위 33개, 54개, 117개가 각각 90%, 95%, 99%를 차지하고 있다. 본 논문에서는 조사와 어미의 상대적 출현 빈도에 따라 문법형태소 사전을 구성하는 방법을 제안한다. 조사와 어미의 상대적 출현 빈도는 미등록 어 추정이나 형태론적 중의 성을 해결할 때도 활용된다.

Keywords

References

  1. 국어 형태론 연구 고영근
  2. 국어 접속조사와 어미 연구 김진수
  3. 국어 활용어미의 형태와 의미 서태룡
  4. 서울대학교 컴퓨터공학과 박사학위 논문 음절 정보와 복수어 단위 정보를 이용한 한국어 형태소 분석 강승식
  5. 어학연구 v.26 no.1 한국어 형태소 처리와 사전 - 접속정보를 이용한 한글 철자 및 띄어쓰기 검사기 - 김덕봉;최기선;강재우
  6. 제4회 한글 및 한국어 정보처리 학술발표 논문집 계층적 기호 접속정보를 이용한 한국어 형태소 분석기의 구현 이은철;이종혁
  7. 제9회 한글 및 한국어 정보처리 학술발표 논문집 한국어의 형태론적 모호성 유형 및 해결방안 강승식
  8. 제10회 한글 및 한국어 정보처리 학술발표 논문집 한글 문장의 자동 띄어쓰기 강승식
  9. 정보관리학회지 v.11 no.1 자동색인기 성능시험을 위한 Test Set 개발 김성혁(외5인)
  10. 뉴에이스 국어 사전 금성출판사
  11. Technical Report 90-1 조사의 유형 부산대학교
  12. Machines. Languages, and Computation P. Denning;J. Dennis;J. Qualitz
  13. 한국정보과학회 인공지능연구회 춘계 인공지능 학술발표회 논문집 Tabular Parsing 방법과 접속 정보를 이용한 한국어 형태소 분석기 김성용;최기선;김길창
  14. 제7회 한글 및 한국어 정보처리 학술발표 논문집 상대적 출현빈도를 이용한 조사/어미 사전의 구성 강승식
  15. Proceedings of Sixth Workshop on Very Large Corpora in Colling-Acl 98 Generalized unknown morpheme guessing for hybrid POS tagging of Korean J. W. Cha;G. B. Lee;J. H. Lee
  16. 정보과학회논문지 v.20 no.10 양방향 최장일치법에 의한 한국어 형태소 분석기에서의 사전 검색 횟수 감소 방안 최재혁;이상조
  17. Proceedings of Natural Language Processing Pacific Rim Symposium A Dictionary-based Morphological Analysis H. C. Kwon;Y. S. Chae;G. O. Jeong