• 제목/요약/키워드: 복합기능형태소

검색결과 6건 처리시간 0.018초

CRF기반 한국어 형태소 분할 및 품사 태깅에서 두 단계 복합형태소 분해 방법 (Two-Stage Compound Morpheme Segmentation in CRF-based Korean Morphological Analysis)

  • 나승훈;김창현;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.13-17
    • /
    • 2013
  • 본 논문은 CRF기반 한국어 형태소 분석 및 품사 태깅 과정에서 발생하는 미등록 복합형태소를 분해하기 위한 단순하고 효과적인 방법을 제안한다. 제안 방법은 1) 복합형태소를 내용형태소와 복합기능형태소로 분리하는 단계, 2) 복합기능형태소를 분해하는 두 단계로 구성된다. 실험 결과, 제안 알고리즘은 Sejong데이터에 대해, 기존의 lattice HMM 대비 높은 복합형태소 분해 정확률 및 두드러진 속도 개선을 보여준다.

  • PDF

효율적인 한국어 파싱을 위한 최장일치 기반의 형태소 분석기 기능 확장 (Functional Expansion of Morphological Analyzer Based on Longest Phrase Matching For Efficient Korean Parsing)

  • 이현영;이종석;강병도;양승원
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권3호
    • /
    • pp.203-210
    • /
    • 2016
  • 한국어는 문장 구성소의 생략과 수식 범위가 자유롭기 때문에 파싱보다는 형태소 분석 단계에서 처리하면 좋은 경우가 있다. 본 논문에서는 파싱의 부담을 덜어 줄 수 있는 형태소 분석기의 기능 확장 방안을 제안한다. 이 방법은 미지어의 추정, 복합 명사 및 복합동사의 처리, 숫자 및 심볼의 처리에 의해 여러 형태소 열이 하나의 구문 범주를 가질 때 이것을 최장일치 방법으로 결합하고 의미 자질을 부여하여 하나의 구문 단위로 처리하는 것이다. 제안한 형태소 분석 방법은 불필요한 형태론적 모호성이 제거되고 형태소 분석 결과가 줄어들어 태거 및 파서의 정확률이 향상되었다. 또한, 실험을 통해 파싱트리는 평균 73.4%, 파싱 시간은 평균 52.9%로 줄었음을 보인다.

한국어 형태소 분석기 CBKMA와 색인어 추출기 CBKMA/IX (A Korean Morphological Analyzer CBKMA and A Index Word Extractor CBKMA/IX)

  • 김남철;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.50-59
    • /
    • 1999
  • 본 논문은 한국어 형태소 분석기 CBKMA와 이 CBKMA를 이용한 색인어 추출기 CBKMA/IX를 소개하고, 각각의 특징들에 대해서 설명한다. CBKMA는 음절 정보를 이용하는 분석 알고리즘과, 효율적인 사전구성을 이용한 형태소 분석기로서, 과다한 분석 후보의 생성을 줄임으로써 처리 속도를 향상시켰다. 수행시 필요로 하는 컴퓨터 자원은 Main Memory 약 4Mb정도로, 작은 규모의 시스템에서도 수행이 가능한 특징을 갖는다. CBKMA/IX는 CBKMA의 형태소 분석 기능을 이용하는 색인어 자동 추출기로서, 처리 속도 향상을 위하여 대분류 수준의 품사 태그만을 이용한다. 또한 CBKMA의 분석 기능에 색인어 추출을 위해 불용어 사전, 사용자 키워드 사전 처리 부분과, 복합명사와 미등록어 분석 부분 및 한자어, 일본어 등에 대한 처리를 강화시켰다. 특히 비소설류 자료의 분석시 좋은 성능을 발휘한다.

  • PDF

심리학적 언어분석 프로그램 개발을 위한 융합연구: 기존 프로그램의 비교와 관련 문헌의 동향 분석 (A Convergence Study for Development of Psychological Language Analysis Program: Comparison of Existing Programs and Trend Analysis of Related Literature)

  • 김영준;최원일;김태훈
    • 한국융합학회논문지
    • /
    • 제12권11호
    • /
    • pp.1-18
    • /
    • 2021
  • 내용어 기반 빈도 분석은 의도적 기만이나 반어적 표현에 분명한 한계가 있지만, 많이 사용되는 한국어 분석 프로그램인 KLIWC는 기능어 분석을, KrKwic는 동시출현빈도를 시각화하는 방법으로 발전했다. 하지만 개발된 지 십수 년이 지나 여러 문제점으로 개선이 필요한 상황이다. 그래서 KLIWC와 KrKwic를 분석하여 새 심리학적 언어분석 프로그램을 개발하고자 하였다. 첫째로 두 프로그램의 특징을 분석하였다. 특히, 기능어 분석기능 제고를 위해서 KLIWC와 한국어 형태소 분석기의 형태소 분류를 비교하였고, 심리적 분석의 강화를 위해 심리사전의 구조와 체계를 분석하였다. 분석 결과 한나눔 품사 분석기가 가장 세분화되었지만, 인칭대명사에서는 KLIWC가, 어미와 어말어미에서는 KKMA의 품사 분류가 더 세분화되어 있어, 기능어 분석 강화를 위해 여러 품사 분석기의 통합적 사용을 제안하였다. 둘째로 이 프로그램들로 텍스트를 분석한 연구들의 연구동향을 분석하였다. 분석 결과 두 프로그램이 복합학 분야 등 다양한 학술분야에서 사용되고 있었다. 특히 논문과 보고서의 분석에는 KrKwic가 많이 사용되었고, 글쓴이의 생각, 정서, 성격 비교 연구에는 KLIWC가 많이 사용되었다. 이 결과를 바탕으로 새로운 심리학적 언어분석 프로그램의 필요성과 개발 방향에 대해 제언하였다.

한글 문서에서 형태적 중의 오류의 교정 (A method for morphological correction of ambiguous error)

  • 김민주;정준호;이현주;최재혁;김항준;이상조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.41-48
    • /
    • 1998
  • 교정 시스템에 나타나는 오류 유형들 중에는 전체적인 교정률에 차지하는 비중은 적지만 출현할 때마다 틀릴 가능성이 아주 높은 오류들이 있다. 기존의 교정 시스템에서는 이러한 오류들에 대한 처리가 미흡한데, 철자 오류와 띄어쓰기 오류 중 형태가 비슷하거나 같은 형태가 다른 기능을 함으로써 발생하는 오류들이다. 이러한 오류는 일반 문서 작성자뿐만 아니라 한글 맞춤법에 대해 어느 정도 지식을 가진 사람의 경우에도 구분이 모호하다. 복합 명사와 미등록어를 제외한 오류 중 약 30%가 여기에 속한다. 따라서 본 논문에서는 이러한 오류 유형들을 분류하고, 이 중에서 빈번하게 출현하는 오류에 대한 교정을 시도하고, 오류 유형들이 문장 내에서 어떤 분포를 가지는지 알아본다. 약 617만 어절의 말뭉치를 이용하여 해당 형태와 다른 성분들과의 관련성을 조사하여 교정 방법을 제시하고, 형태소 분석을 하여 교정을 행한다. 코퍼스 655만 어절 대상으로 실험한 결과 84.6%의 교정률을 보였다. 본 논문에서 제시한 교정 방법은 기존의 교정 시스템에 추가되어 교정 시스템의 전체 교정률을 향상시킬 수 있다. 또한 이와 비슷한 유형의 다른 어휘 교정에 대한 기초 자료로 사용될 수 있을 것이다.

  • PDF

언어 변화와 언어 처리 - '는게/는데' 문법 화와 자동 태깅 시스템- (The Language Change and Language Processing)

  • 최운호
    • 인지과학
    • /
    • 제10권2호
    • /
    • pp.35-43
    • /
    • 1999
  • 본 논문에서는 현대 한국어에서 나타나는 언어 변화 현상에 대한 설명과 그러한 언어 현상이 언어 처리 시스템에 미칠 수 있는 영향을 연구한다. 현대 한국어에서는〔관형형 어미 + 의존 명사 + (조사)〕와 같은 통사론적 구성이 형태론적 구성으로 변화되는 과정이 나타나고 있으며 몇몇 형태에서는 문자 언어 생활에서도 두드러지게 나타나고 있다. 이러한 예로 통사론적 구성〔관형형 어미 + 의존명사‘데’(+조사)〕이‘-는데’로,〔관형형 어미 + 의존명사‘것’+ 조사〕구성이‘-는게’로 나타나고 있으며, 음성 언어 생활에서는 더욱 두드러지고 있어서 다른 어미와 구별하기 어렵다. 이와 같은 유형의 형태는 다른 접속 문 어미나 내포문 어미처럼 복합문 구성에 관여하는 것으로 파악할 수 있는데, 다른 어미와는 달리 이 형태 자체에 문법적인 격 기능이 융합되어 있다. 따라서, 이러한 형태에 대한 분석 방법은 언어 처리 시스템의 구성에 영향을 미칠 수 있으며, 자동 태깅 시스템. 통사 분석 시스템 등에는 특히 그러하다. 그러므로, 언어 처리 시스템의 설계에 이러한 언어 변화 현상이 반영될 필요가 있다.

  • PDF