• 제목/요약/키워드: 영 대용어

검색결과 8건 처리시간 0.024초

한국어 복합문의 영 대용어 해결 (Zero Anaphora Resolution in Korean Complex Sentences)

  • 김미진;강보영;구상옥;박미성;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.694-696
    • /
    • 2002
  • 본 논문은 한국어 복합문에서의 영 대용어 해결을 위해 복합문 분해 알고리즘과 영 대용어 복원규칙을 제안하고, 해결 방법을 제시한다. 복합문 분해를 위해서는 복합문 구성에 관여하는 활용 어미들을 이용하고, 영 대용어 복원을 위해서는 생략될 때 적용된 통사규칙을 역으로 이용한다. 제안한 방법을 이용한 결과 전체 영 대용어 중 83.53%가 해결 가능하며 11.52%는 부분적으로 해결 가능하다.

  • PDF

한국어 복합문에서의 제로 대용어 처리를 위한 분해 알고리즘과 복원규칙 (Splitting Algorithms and Recovery Rules for Zero Anaphora Resolution in Korean Complex Sentences)

  • 김미진;박미성;구상옥;강보영;이상조
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권10호
    • /
    • pp.736-746
    • /
    • 2002
  • 한국어에는 복합문에서 영 대용이 빈번하게 발생하여 해석을 어렵게 한다. 따라서 본 논문에서는 한국어 영 대용어 처리를 위해 복합문 분해 알고리즘과 복합문 영 대용어 복원 규칙을 제안하고, 해결방법을 제시한다. 본 논문은 신문 기사의 복합문 중에서 보조용언 내포문을 제외한 인용문, 접속문, 내포문을 처리 대상으로 한다. 복합문 분해를 위해서는 복합문 구성에 관여하는 어미들의 어미 분류표를 이용하고, 영 대용어 복원을 위해서는 생략될 때 적용된 통사규칙을 역으로 이용한다. 인용문은 주어 인칭제약에 따른 동일 명사구 탈락규칙을, 명사화 내포문은 동일 명사구 탈락규칙을, 관형화 내포문은 관계 명사구 탈락규칙을 그리고 접속문은 접속 삭감규칙을 역으로 이용하여 처리한다. 제안한 방법을 이용한 결과 전체 영 대용어 중 83.53%가 해결 가능하며 11.52%는 부분적으로 해결 가능하다.

한국어 영 대용어 처리를 통한 문서요약의 성능 향상 (Efficient Summarization Using Zero Anaphora Resolution)

  • 구상옥;전명희;김미진;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.555-557
    • /
    • 2003
  • 본 논문에서는 보다 간결한 요약문을 생성하기 위하여. 문장 전체를 추출하는 것이 아니라 문장의 일부분을 요약으로 추출한다. 그런데 한국어의 경우 문장 구조상 반복되는 문장성분을 생략하는 영 대용 문제가 빈번하게 발생하기 때문에, 문장의 일부분 추출시. 생략된 성분을 복원하지 않으면 요약문의 의미가 불완전하고 모호해 질 수 있다. 본 논문에서는 문서 안에서 중요한 부분을 추출한 뒤, 생략된 성분을 복원하여 요약문의 가독성을 놓이는 방법을 제안한다. Luhn의 방법을 이용하여 문서내의 중요 클러스터를 추출하였고, 기존의 문장분할 및 영 대용어 복원 알고리즘을 사용하여 생략된 성분을 복원하였다. 본 논문에서 제안된 요약 방법은 신문기사와 같이 문장의 수는 많지 않고, 문장의 길이가 비교적 긴 문서를 짧은 문장으로 요약하는 데 효율적이다.

  • PDF

영한기계번역과 대용어 조응문제에 대한 고찰 (English-to-Korean Machine Translation and the Problem of Anaphora Resolution)

  • Ruslan Mitkov
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.351-357
    • /
    • 1994
  • At least two projects for English-to-Korean translation have been already in action for the last few years, but so far no attention has been paid to the problem of resolving pronominal reference and a default pronoun translation has been considered instead. In this paper we argue that pronous cannot be handled trivially in an English-to-Korean translation and one cannot bypass the task of resolving anaphoric reference if aiming at good and natural translation. In addition, we propose lexical transfer rules for English-to-Korean anaphor translation and outline an anaphora resolution model for an English-to-Korean MT system in operation.

  • PDF

대용량 한국어 연속음성인식 시스템 개발 (On the Development of a Large-Vocabulary Continuous Speech Recognition System for the Korean Language)

  • 최인정;권오욱;박종렬;박용규;김도영;정호영;은종관
    • 한국음향학회지
    • /
    • 제14권5호
    • /
    • pp.44-50
    • /
    • 1995
  • 본 논문에서는 연속분포 HMM을 이용한 대용량 한국어 연속음성인식 시스템에 관하여 기술한다. 인식 시스템의 성능을 개선하기 위하여 음성 모델링 단위의 선정, 단어간 모델링, 탐색 알고리듬, 문법에 관하여 연구하였다. 기본 인식단위로 트라이존을 사용하며 학습성을 개선하고 기능어에서의 에러 발생을 줄이기 위하여 일반화된 트라이폰과 function word-de-pendent phone을 사용한다. 단어 사이에는 묵음 모델과 null transition을 사용하여 선택적으로 묵음을 추가하였다. 언어모델로는 단어 클래스에 근거한 word pair 문법과 bigram 모델이 이용된다. 또한 지식 정보들을 효율적으로 활용할 수 있도록 N개의 후보 문장들을 탐색할 수 있는 알고리듬을 구현하였다. 후처리기에서는 word triple문법을 사용하여 N개의 최적 문장을 재정렬하여 최종적인 인식 문장을 결정하며, 마지막으로 후치사와 관련된 사소한 에러들을 수정한다. 3천단어의 연속음성 데이타베이스에 대한 인식실험에서, 후처리로 word triple 문법을 사용하여 $93.1\%$의 단어 인식률과 $73.8\%$의 문장 인식률을 얻었다.

  • PDF

웹 영한 번역기로부터 특허 영한 번역기로의 특화 방법 (Method Customizing From Web-based English-Korean MT System To English-Korean MT System for Patent Documents)

  • 최승권;권오욱;이기영;노윤형;박상규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.57-64
    • /
    • 2006
  • 본 논문에서는 웹과 같은 일반적인 도메인의 영한 자동 번역기를 특허용 영한 자동번역기로 특화하는 방법에 대해 기술한다. 특허용 영한 파동번역기로의 특화는 다음과 같은 절차에 의해 이루어진다: 1) 대용량 특허 문서에 대한 언어학적 특성 분석, 2) 대용량 특허문서 대상 전문용어 추출 및 대역어 구축, 3) 기존 번역사전 대역어의 특화, 4) 특허문서 고유의 번역 패턴 추출 및 구축, 5) 언어학적 특성 분석에 따른 번역 엔진 모듈의 특화 및 개선, 6) 특화된 번역 지식 및 번역 엔진 모듈에 따른 번역률 평가. 이와 같은 절차에 의해 만들어진 특허 영한 자동 번역기는 특허 전문번역가의 평가에 의해 전분야 평균 81.03%의 번역률을 내었으며, 분야별로는 기계분야(80.54%), 전기전자분야(81.58%), 화학일반분야(79.92%), 의료위생분야(80.79%), 컴퓨터분야(82.29%)의 성능을 보였으며 계속 개선 중에 있다. 현재 본 논문에서 기술된 영한 특허 자동번역 시스템은 산업자원부의 특허지원센터에서 변리사 및 특허 심사관이 영어 전기전자분야 특허 문서를 검색할 때 한국어 번역서비스를 제공받도록 이용되고 있으며($\underline{http://www.ipac.or.kr}$), 2007년에는 전분야 특허문서에 대한 영한 자동번역 서비스를 제공할 예정이다.

  • PDF

문장의 화행을 반영한 한-영 대화체 기계번역 (A Korean to English Dialogue Machine Translation System Using Speech Acts)

  • 이현정;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.271-276
    • /
    • 1997
  • 대화체는 문어체와는 달리 화자와 청자 사이의 질의/응답으로 이루어진 형태의 문장들을 가지며, 생략과 대용어가 빈번히 발생하는 특징을 갖는다. 이러한 대화 형태에서 어떠한 한 문장에는 화자가 전달하고자 하는 의도를 포함하고 있다. 이러한 대화체 문장들을 번역하는 것은 단순한 언어적 분석에 의한 번역으로서는 많은 번역상의 오류가 발생하게 된다. 따라서 대화체 문장들의 올바른 번역을 위해서는 대화의 상황을 반영하는 문맥 정보가 부가적으로 요구된다. 본 연구에서는 이러한 문맥 정보로서 화행을 사용하여 대화체 기계번역을 수행하고자 한다. 화행(Speech Act)이란 화자에 의해 의도되어 발화 속에 포함된 언어적 행위를 나타내며, 이러한 화행을 분석함으로써 화자의 의도를 파악하고 이를 통해 올바른 번역을 수행할 수 있게 된다. 본 기계번역 시스템에 포함된 화행 분석 과정에서는 대화를 화행으로 모델링한 담화 문법과 유사한 형태의 재귀적 대화 전이망(Recursive Dialog Transition Network)을 사용하게 된다. 본 논문에서는 호텔 예약 영역에서의 기계번역 시스템에 대한 간단한 소개와 화행의 종류 및 분석 방법과 이를 통한 기계번역 방식에 대해 살펴보도록 하겠다.

  • PDF

도메인 특화 방법에 의한 영한 특허 자동 번역 시스템의 구축 (Construction of English-Korean Automatic Translation System for Patent Documents Based on Domain Customizing Method)

  • 최승권;권오욱;이기영;노윤형;박상규
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권2호
    • /
    • pp.95-103
    • /
    • 2007
  • 본 논문은 웹과 같은 일반적인 도메인의 영한 자동 번역기를 특정 도메인으로 특화하는 방법에 의해 구축된 영한 특허 자동번역 시스템을 기술하는 것을 목표로 한다. 특정 도메인으로서의 특허 자동번역기를 위한 특화 방법은 다음과 같은 단계로 이루어진다: 1) 대용량 특허 문서의 수집 및 언어학적 특성 분석, 2) 전문용어 추출 및 대역어 구축, 3) 기보유한 용어의 대역어 특화, 4) 특허 고유의 번역 패턴추출 및 구축, 5) 언어학적 특성 분석에 따른 기보유 번역 엔진 모듈의 특화 및 개선, 6) 특화된 번역 지식 및 번역 엔진 모듈에 따른 번역률 평가. 이와 같은 특화 절차에 따른 특허 영한 자동 번역기는 특허 전문번역가의 평가에 의해 전분야 평균 81.03%의 번역률을 내었으며, 분야별로는 기계(80.54%), 전기전자 (81.58%), 화학일반(79.92%), 의료위생(80.79%), 컴퓨터(82.29%)의 성능을 보였으며 계속 개선 중에 있다.