• 제목/요약/키워드: 한자 형태소 분석

검색결과 5건 처리시간 0.017초

의미처리 기반의 한글-한자 변환 시스템 (korean-Hanja Translation System based on Semantic Processing)

  • 김홍순;신준철;옥철영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.398-401
    • /
    • 2011
  • 워드프로세서에서의 한자를 가진 한글 어휘의 한자 변환 작업은 사용자에 의해 음절/단어 단위의 변환으로 많은 시간이 소요되어 효율이 떨어진다. 본 논문에서는 한글 문장의 의미처리를 통해 문맥에 맞는 한자를 자동 변환하는 시스템을 제안한다. 문맥에 맞는 한글-한자 변환을 위해서는 우선 정확한 형태소 분석 및 동형이의어 분별이 선행되어야 한다. 이를 위해 본 논문에서는 은닉마르코프모델 기반의 형태소 및 동형이의어 동시 태깅 시스템을 구현하였다. 제안한 시스템은 형태의미 세종 말뭉치 1,100만여 어절을 이용하여 unigram과 bigram을 추출 하였고, unigram을 이용하여 어절의 생성확률 사전을 구축하고 bigram을 이용하여 전이확률 학습사전을 구축하였다. 그리고 품사 및 동형이의어 태깅 후 명사를 표준국어대사전에 등재된 한자로 변환하는 시스템을 구현하였다. 구현된 시스템의 성능 확인을 위해 전체 세종 말뭉치를 문장단위로 비학습 말뭉치를 구성하여 실험하였고, 실험결과 한자를 가진 동형이의어에 대한 한자 변환에서 90.35%의 정확률을 보였다.

DaHae: 일한 기계번역을 위한 일본어 형태소 분석기 (DaHae: Japanese Morphological Analyzer for Japanese to Korean Machine Translation)

  • 여상화;정한민;장원;김태완;황도삼;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.195-207
    • /
    • 1995
  • 일본어는 한자, 히라가나, 가다가나 등 다양한 종류의 문자를 사용하며 이들의 혼용 비율이 매우 높아 띄어쓰기를 하지 않아도 문서의 가독성을 유지한다. ICOT 사전, EDR 사전, ATLAS I/JK사전 등 기존의 전자 사전에서 복합 자종의 표제어가 차지하는 비율(한자+히라가나의 표제어 제외)은 평균 8.8%로 그 수가 매우 작다. 따라서, 문장 내에서 자종의 변화는 단어를 구분하는 하나의 delimiter로 이용될 수 있다. 본 시스템에서는 형태소 분석의 전단계로 전처리기를 두어 자종정보(character type information)에 의한 fragment 분리 및 예외 단어, 정형표현 처리를 수행하며 각 fragment 의 형태소 분석 방법을 제시한다. 형태소 분석기는 전처리기의 처리 결과를 입력받아 각각의 fragment를 전처리기가 제시한 분석 방법에 따라 분석하여 입력 문장의 가능한 모든 분석을 추출한다. 이 방법은 불필요한 사전 탐색과 접속 체크 회수를 줄여 분석 성능을 향상시킨다.

  • PDF

"의미적 한 단어" 유형 분석 및 형태소 분석 기법 (Korean Morphological Analysis Considering a Term with Multiple Parts of Speech)

  • 허윤영;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.128-131
    • /
    • 1994
  • 한국어 문서중 신문이나 시사지, 법률관련문서, 경제학관련문서, 국문학관련문서와 같은 전문분야 문서에는 한글, 한자, 영어, 문장부호와 같은 기호들의 결합으로 이루어지면서 하나의 뜻으로 나타내는 "의미적 한 단어"가 많이 존재한다. 이러한 단어들은 이를 고려하지 못한 형태소 분석기의 분석률을 감소시키고, 오분석율을 증가시킨다. 본 논문은 "의미적 한 단어"의 유형과 분석과정에 따른 유형을 분류하였으며 그에 적합한 형태소 분석기법을 제시하였다. 유형 분류과 제사된 형태소 분석기법으로 구현된 형태소 분석기는 기존의 형태소 분석기보다 분석률이 증가되었으며 오분석률은 감소되었다.

  • PDF

새로운 단어의 학습에서 형태소 처리의 영향: 개인차 연구 (Morphological processing within the learning of new words: A study on individual differences)

  • 배성봉;이광오;마스다 히사시
    • 인지과학
    • /
    • 제27권2호
    • /
    • pp.303-323
    • /
    • 2016
  • 본 연구는 형태소 인식력에 따른 단어 학습 수행의 차이를 조사하였다. 참가자들을 형태소 인식력이 높은 집단과 낮은 집단으로 나누고, 문장 맥락 속에 제시된 새로운 단어의 의미를 추론하여 학습하도록 하였다. 단어는 형태소 분석이 가능한 문장 맥락 또는 불가능한 문장 맥락 속에 제시되었다. 실험 결과, 형태소 인식력이 높은 참가자들은 형태소 인식력이 낮은 참가자들에 비해 새로운 단어의 의미를 더 정확하게 추론하였고, 일주일 후에도 이러한 차이가 유지되었다. 의미 학습의 집단 간 차이는 형태소 분석이 가능한 문장 맥락 조건에서 크게 나타났으며, 형태소 분석이 불가능한 문장 맥락 조건에서는 차이가 아주 작았다. 본 연구의 결과는 새로운 한자어의 의미 학습에 형태소 분석이 관여하며, 형태소 인식력이 형태소 분석 과정에 영향을 미친다는 증거를 제공한다.

국한문 혼용 텍스트 색인어 추출기법 연구 『시사총보』를 중심으로 (An Experimental Approach of Keyword Extraction in Korean-Chinese Text)

  • 정유경;반재유
    • 정보관리학회지
    • /
    • 제36권4호
    • /
    • pp.7-19
    • /
    • 2019
  • 본 연구는 국한문 혼용 텍스트를 대상으로 한글 형태소 분석 기법과 한문 어조사를 반영한 색인어 추출기법을 제안하였다. 국한문 혼용체로 작성된 『시사총보』 논설을 대상으로 해당 시기에 사용된 고유명사 및 한자어 사전을 보완하였으며 한자어 불용어 리스트를 고려하여 색인어를 추출하였다. 본 연구에서 제안한 국한문 색인 시스템은 수작업 색인 결과를 기준으로, 중국어형태소 분석기에 비해 재현율과 정확률 측면에서 상대적으로 높은 성능을 보였으며, 어문법이 확립되지 않은 근현대 시기의 국한문 혼용체를 대상으로 한 첫 번째 색인어 추출기법을 제안하였다는 데에서 연구의 차별점이 있다.