• 제목/요약/키워드: 번역 패턴

검색결과 61건 처리시간 0.02초

한영 기계번역을 위하 고정표현 지식의 기술 방법 (The Representation Method of Fixed Expression Knowledge for Korean-to-English Machine Translation)

  • 서진원;안동언;정성종;김재훈;서영애;김영길
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.366-368
    • /
    • 2000
  • 규칙기반 기계번역 시스템의 문제점을 보완하고자 제시된 예제기반 기계번역 시스템은 대량의 고품질 대역 코퍼스가 필요하다. 그리고, 빠른 N-best 예제 검색, 유사 예제 계산, 번역결과의 평가 등이 중요한 문제들이다. 또한, 무엇보다도 기본적인 것은 대역 예문들을 표현하고 기술하는 방법이다. 본 논문에서는 자연어 대역 예문들을 수집하여 기계번역 시스템에서 사용하는 고정 표현 지식을 기술하는 방법에 대해서 논의한다. 대역 패턴의 기술 방법을 CFG 형태로 정의하고 실제 용례를 통하여 기술 방법을 설명한다.

  • PDF

병렬 코퍼스를 이용한 한중 기계번역 오류 탐지 방법 (Method for Detecting Errors of Korean-Chinese MT Using Parallel Corpus)

  • 김운;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.113-117
    • /
    • 2008
  • 본 논문에서는 패턴기반 자동번역시스템의 효율적인 번역 성능 향상을 위해 병렬 코퍼스(parallel corpus)를 이용한 오류 자동 탐지 방법을 제안하고자 한다. 번역시스템에 존재하는 대부분 오류는 크게 지식 오류와 엔진 오류로 나눌 수 있는데 통상 이런 오류는 이중 언어가 가능한 훈련된 언어학자가 대량의 자동번역 된 결과 문장을 읽음으로써 오류를 탐지하고 분석하여 번역 지식을 수정/확장하거나 또는 엔진을 개선하게 된다. 하지만, 이런 작업은 많은 시간과 노력을 필요로 하게 된다. 따라서 본 논문에서는 병렬 코퍼스 중의 목적 언어(Target Language) 문장 즉, 정답 문장과 자동번역 된 결과 문장을 다양한 방법으로 비교하면서 번역시스템에 존재하고 있는 지식 및 엔진 오류를 자동으로 탐지하는 방법을 제안한다. 제안한 방법은 한-중 자동번역시스템에 적용하여 그 정확률과 재현률을 측정하였으며, 자동적으로 오류를 탐지하여 추출 할 수 있음을 증명하였다.

  • PDF

한중 기계번역 시스템을 위한 동사구 패턴 반자동 확장 방안 연구 (A Study on Semi-Automatic Construction of Verb Patterns for a Korean-Chinese MT System)

  • 홍문표;류철;김영길;박상규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.273-278
    • /
    • 2003
  • 본 논문에서는 한-중 기계번역 시스템에서 사용되는 한중 동사구 패턴의 반자동 생성을 위한 방법론을 제안한다. 한중 동사구 패턴은 한국어와 중국어간의 변환을 위한 정보를 제공할 뿐만 아니라, 한국어의 구문분석과 중국어의 생성을 위해 중요한 정보를 제공하는 고급 언어자원이다. 본 논문에서 제시하는 새로운 패턴 반자동확장 방안은 기존의 한중 동사구 패턴으로부터 대역어 정보를 이용하여 새로운 동사구 패턴을 생성해내는 방법이다. 본 방법론은 시스템 개발 초기에 일반적으로 이루어지는 사전기반 패턴 구축이 끝난 후, 패턴의 커버리지 문제를 해결하기 위해 실용적으로 적용할 수 있는 방법론으로서, 한국어와 중국어 같이 활용 가능한 대역 코퍼스가 아직 많지 않은 경우에 효과적이다. 본 논문에서 제시한 방법론은 실험 결과 67.15%의 정확률과 4.58배의 패턴 확장률을 나타냈다.

  • PDF

자동 평가 방법을 이용한 번역 지식 튜닝 시스템 (Translation Dictionary Tuning System By using of Auto-Evaluation Method)

  • 박은진;김운;권오욱;오영순;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.147-150
    • /
    • 2011
  • 본 논문에서는 병렬 말뭉치에서 오류가 있을 것으로 추정되는 문장을 자동 추출하여, 다수의 번역 사전 구축 작업자가 자동 번역시스템을 직접 사용하면서 번역 사전을 튜닝하는 방법에 대하여 제안하고자 한다. 작업자는 병렬 말뭉치의 대역문을 이용하여 자동 번역 결과의 BLEU를 측정하고, 사전 수정 전과 후의 BLEU 차이를 정량적으로 제시해 줌으로써 양질의 번역 사전을 구축하도록 하였다. 대량의 번역 사전이 이미 구축된 자동 번역시스템에서 추가적인 성능향상을 위해 대량의 말뭉치에서 미등록어, 번역패턴 등을 추출하여, 대량으로 구축하는 기존 방법에 비해 사전 구축 부작용이 적으며, 자동번역 성능향상에 더 기여하는 것을 실험을 통해 증명하였다. 이를 위해 본 논문에서는 중한 자동 번역시스템을 대상으로, 중국어 문장 2,193문장에 대해, 사전 구축 작업자 2명이 2주간 튜닝한 결과와 15만 말뭉치에서 추출한 미등록어 후보 2만 엔트리를 3명의 사전 구축 작업자가 미등록어 선별, 품사 및 대역어 부착한 결과 7,200 엔트리를 대상으로 자동평가를 실시하였다. 실험결과 미등록어 추가에 의한 BLEU 성능향상은 +3인데 반해, 약 2,000문장 튜닝 후 BLEU를 +12 향상시켰다.

  • PDF

일본의 한일(韓日) 기계번역(機械飜譯) 시스템에 있어서의 오역(誤譯)과 그 언어환경 (Errors and Their Circumstances in Korean Japanese M/T Systems in Japan)

  • 강용희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.303-310
    • /
    • 1997
  • 일본의 한일(韓日) 기계번역(機械飜譯) 시스템을 평가한 결과 각기 다른 번역 시스템임에도 불구하고 오역(誤譯)의 패턴에 있어서는 유사(類似)한 점이 많았다. 이는 사전(辭典)의 입력 단위와 구문(構文)분석의 해석단계에서 오역(誤譯)의 언어환경에 대비하지 못한 점을 지적할 수 있다. 본 연구는 오역(誤譯)의 TYPE을 언어적 환경과 기계적 환경으로 구분하여 그 영향관계를 밝혀서 오역(誤譯)의 환경에 대비한 사전(辭典)과 그 모듈의 작성을 목적으로 삼는다.

  • PDF

번역패턴 기반 한독 자동번역 ($\"{U}bersetzungspatternbasierte\;Koreanisch-Deutsche\;Automatische\;\"{U}bersetzung$)

  • 최승권
    • 한국독어학회지:독어학
    • /
    • 제6집
    • /
    • pp.305-322
    • /
    • 2002
  • Seit dem Ereignis des Tunnbaus zu Babel. versucht man, Sprachbarriere zu $\"{u}berwinden$. Eine dieser $Bem\"{u}hungen$ hat seit der 60er Jahre zur Anwendung von Computern in der $\"{U}bersetzung gef\"{u}hrt$. Bei der automatischen $\"{U}bersetzung\;\"{u}bernimmt$ der Computer die Aufgabe, Texte von einer $nat\"{u}rlichen$ Sprache in eine andere zu $\"{u}bertragen$. Die vorliegende Arbeit $besch\"{a}ftigt$ sich mit verschiedenen Arten von den sogenannten $\"{U}bersetzungspatterns\;f\"{u}r$ die automatische $\"{U}bersetzung$ Koreanisch­Deutsch. Zu den $\"{U}bersetzungspatterns\;geh\"{o}ren$ u.a. Verbphrasen-Pattern, Nominalphrasen-Pattern und Verbindungspattern. Unter 'Verbphrasen-Pattern' versteht man einen gekoppelten Subkategorisierungsrahmen der Verben zweier Sprachen. 'NominaIphrasen-Pattern' verstehen sich als $\"{U}bersetzungspattern$ der Nominalphrasen. Unter 'Verbindungs-Pattern' werden $\"{U}bersetzungspattern$ von komplexen $S\"{a}tze$ verstanden, wie z.B. Satzkoordinationen und $S\"{a}tze$ mit eingebetten $S\"{a}tzen$. Als Vorteil des Ansatzes $z\"{a}hlen$ u.a. die Wiederverwendbarkeit bzw. das leichte Management der Patterns, die $Beschreibungsm\"{o}glichkeit$ in der lexikalischen Ebene, die Generieung der naturlichen $Ziels\"{a}tze$ und die leichte Verbesserung der $\"{U}bersetzungsqualit\"{a}t$. Die in dieser Arbeit vorgestellten $\"{U}bersetzungspatterns\;k\"{o}nnen$ aIs Hilfsmittel $f\"{u}r$ Deutschunterrichte, Aufsatzhilfesysteme und elektronische Koreanisch-Deutsch $W\"{o}rterb\"{u}cher$ eingesetzt werden.

  • PDF

웹 영한 번역기로부터 특허 영한 번역기로의 특화 방법 (Method Customizing From Web-based English-Korean MT System To English-Korean MT System for Patent Documents)

  • 최승권;권오욱;이기영;노윤형;박상규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.57-64
    • /
    • 2006
  • 본 논문에서는 웹과 같은 일반적인 도메인의 영한 자동 번역기를 특허용 영한 자동번역기로 특화하는 방법에 대해 기술한다. 특허용 영한 파동번역기로의 특화는 다음과 같은 절차에 의해 이루어진다: 1) 대용량 특허 문서에 대한 언어학적 특성 분석, 2) 대용량 특허문서 대상 전문용어 추출 및 대역어 구축, 3) 기존 번역사전 대역어의 특화, 4) 특허문서 고유의 번역 패턴 추출 및 구축, 5) 언어학적 특성 분석에 따른 번역 엔진 모듈의 특화 및 개선, 6) 특화된 번역 지식 및 번역 엔진 모듈에 따른 번역률 평가. 이와 같은 절차에 의해 만들어진 특허 영한 자동 번역기는 특허 전문번역가의 평가에 의해 전분야 평균 81.03%의 번역률을 내었으며, 분야별로는 기계분야(80.54%), 전기전자분야(81.58%), 화학일반분야(79.92%), 의료위생분야(80.79%), 컴퓨터분야(82.29%)의 성능을 보였으며 계속 개선 중에 있다. 현재 본 논문에서 기술된 영한 특허 자동번역 시스템은 산업자원부의 특허지원센터에서 변리사 및 특허 심사관이 영어 전기전자분야 특허 문서를 검색할 때 한국어 번역서비스를 제공받도록 이용되고 있으며($\underline{http://www.ipac.or.kr}$), 2007년에는 전분야 특허문서에 대한 영한 자동번역 서비스를 제공할 예정이다.

  • PDF

도메인 특화 방법에 의한 영한 특허 자동 번역 시스템의 구축 (Construction of English-Korean Automatic Translation System for Patent Documents Based on Domain Customizing Method)

  • 최승권;권오욱;이기영;노윤형;박상규
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권2호
    • /
    • pp.95-103
    • /
    • 2007
  • 본 논문은 웹과 같은 일반적인 도메인의 영한 자동 번역기를 특정 도메인으로 특화하는 방법에 의해 구축된 영한 특허 자동번역 시스템을 기술하는 것을 목표로 한다. 특정 도메인으로서의 특허 자동번역기를 위한 특화 방법은 다음과 같은 단계로 이루어진다: 1) 대용량 특허 문서의 수집 및 언어학적 특성 분석, 2) 전문용어 추출 및 대역어 구축, 3) 기보유한 용어의 대역어 특화, 4) 특허 고유의 번역 패턴추출 및 구축, 5) 언어학적 특성 분석에 따른 기보유 번역 엔진 모듈의 특화 및 개선, 6) 특화된 번역 지식 및 번역 엔진 모듈에 따른 번역률 평가. 이와 같은 특화 절차에 따른 특허 영한 자동 번역기는 특허 전문번역가의 평가에 의해 전분야 평균 81.03%의 번역률을 내었으며, 분야별로는 기계(80.54%), 전기전자 (81.58%), 화학일반(79.92%), 의료위생(80.79%), 컴퓨터(82.29%)의 성능을 보였으며 계속 개선 중에 있다.

중한 대화체 자동번역을 위한 중국어 긴축문 처리 (The Method of Chinese Ellipsis Component Restoration for Chinese Dialog Machine Translation)

  • 김운;오영순;권오욱
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.300-302
    • /
    • 2012
  • 긴축문은 형식 상 복문이지만 문장의 일부를 생략하여 단일문처럼 표현하기 때문에 의미상 논리적인 관계를 가지고 있는 비구문적인 복문으로서, 중국어 대화체 비정형 데이터의 대표적인 유형이다. 이는 비구문적인 문장에 취약한 대화체 자동번역 성능 향상의 걸림돌이 되고 있다. 이를 위해 본 논문에서는 패턴기반의 긴축문 추정과 긴축문 복원이라는 두 단계 처리 방법을 제안하며, 긴축문 처리의 필요성과 유효성을 자동번역 성능 향상 여부 실험을 통해 검증하였다. 실험 결과, 긴축문 추정은 95.5% 정확률을 보였으며, 전체 번역문의 번역성능은 2.21% 향상되는 결과를 보였다.

중한 기계번역기 MATES/CK: 파이프라인 번역 (A Pipelined Multi-Engine Approach to Chinese-to-Korean Machine Translation: MATES/CK)

  • 장민;황금하;서충원;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.121-127
    • /
    • 1999
  • 기계번역기의 방법론인 규칙기반, 예제기반, 패턴기반, 통계기반 각각이 기계번역의 모든 면모를 만족시킬 수 없다는 데에는 이의가 없다. 이러한 여러 방법론의 적절한 융합을 위하여, 이 논문에서는 혼합형 파이프라인 다엔진형 기계번역기로서 중한기계번역기 MATES/CK에 대한 설계 철학, 부분 모듈, 구현 등에 관하여 소개하고자 한다. MATES/CK의 원형시스템(prototype system)은 이미 구축되었으며 전체 시스템은 여전히 구현 및 보완 중에 있다.

  • PDF