• Title/Summary/Keyword: Language Translation

Search Result 565, Processing Time 0.02 seconds

Coverage Modeling in Neural Machine Translation using Orthogonal Regularization (직교 정규화를 이용한 신경망 기계 번역에서의 커버리지 모델링)

  • Lee, Yo-Han;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.561-566
    • /
    • 2018
  • 최근 신경망 번역 모델에 주의 집중 네트워크가 제안되어 기존의 기계 번역 모델인 규칙 기반 번역 모델, 통계적 번역 모델에 비해 높은 번역 성능을 보이고 있다. 그러나 주의 집중 네트워크가 잘못 모델링되는 경우 과소 번역 현상이 나타난다. 신경망 번역 모델에 커버리지 메커니즘을 추가하여 과소 번역 현상을 완화하는 연구가 진행되었으나 이는 모델의 구조를 변경해야하는 불편함이 있다. 본 논문에서는 신경망 번역 모델의 구조를 변경하지 않고 새로운 손실 함수를 정의하여 과소 번역 현상을 완화하는 방법을 제안한다. 한-영 번역 실험을 통해 제안한 주의 집중 네트워크의 정규화 방법이 커버리지 메커니즘의 목적을 효율적으로 달성함을 보인다.

  • PDF

Head-based Pharse Structure Transfer Dictionary for Korean_English Machine Translation (한.영 기계번역을 위한 중심어 기반 구 구조 변환 사전)

  • Lee, San-Jo;Park, Sang-Kyu;Kim, Yung-Taek
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.157-162
    • /
    • 1994
  • 한국어로부터 자연스러운 영어 역어문장을 생성하기 위한 정보를 사전에 일관성있게 수록하는 방법을 제시하였다. 기계번역의 각 과정에서 필요한 정보는 가장 적당한 형태로 사전으로부터 제공되어야 하는 것이 일반적인 방법이다. 그러나 한국어는 어순의 부분적 자유성, 어미의 복잡한 활용규칙, 조사의 다양한 쓰임새로 인해 이러한 규칙들의 정보를 일관되게 사전에 수록하기가 어려운 실정이다. 본 논문에서는 한국어 문장과 역어 문장을 단어나 구 혹은 절등의 구성요소들의 다대다 매핑규칙을 찾고 이들 규칙을 적당한 형태로 사전에 수록하여야하는 어려움에서 벗어나 문장대 문장구조를 직접대응시켜 구구조단위로 분석된 형태의 부분 파서트리 형태의 트리구조를 역어와 함께 사전에 수록하므로써 사전정보를 손쉽게 구축, 유지하고자 하였다. 또 이들 정보를 추출해내는 알고리즘을 사용함으로써 주어진 한국어 문장에 대해 사전에 수록된 가장 자연스러운 형태의 역어문장을 생성할 수 있도록 하였다.

  • PDF

Solution Method and Embodying of Adverb's Positioning Restrictions and Orderings for Korean-English Machine Translation (한.영 기계 번역을 위한 부사의 위치 및 순서제약 해결의 방안 및 구현)

  • Jo, Jun-Mo;Lee, Sang-Jo
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.163-167
    • /
    • 1994
  • 본 논문에서는 한국어 문장을 입력으로 받아 영어문장을 생성해 내는 한 영 기계번역 시스템에서 부사를 처리함으로써 더욱 자연스러운 역어생성을 꾀하였다 특히, 한국어보다 어순의 제약이 심한 영어를 처리함에 있어서 이들 부사의 위치 및 순서는 자연스러운 역어생성을 하기 위해서는 중요한 요소가 된다. 즉, 부사의 종류에 따라서 문장에서의 위치가 다르며, 한 문장내에서 2개 이상의 부사가 존재 할 때는 이를 부사의 순서를 정해 주어야 한다. 또한, 부사의 처리 없이는 이와 관련된 완료시제와 같은 관련 영역의 처리가 어렵다. 이러한 처리를 위해서, 한 영 기계번역 시스템의 목적에 알맞게 부사들의 특성을 조사하여 이들을 분류하였고, 이것을 기초로 하여 부사의 위치, 순서등의 처리를 하도록 하였다.

  • PDF

A Study on Intermediate Representation for Korean-Chinese Machine Translation System (한-중 기계번역 시스템에서의 중간표현에 관한 연구)

  • Song, Seong-Dae;Lee, Jong-Hyeok;Lee, Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.168-172
    • /
    • 1994
  • 한국어와 중국어는 상이한 언어적 특성을 보이는 언어쌍으로, 기계번역 시스템을 개발하기 위한 접근 방식으로 중간언어 방식이 타당하다. 본 논문에서는 한-중 기계번역 시스템의 개발과 관련하여, 의미표현 구조로서의 중간언어에 대하여 논한다. 기존의 중간언어들을 비교, 분석하여 문제점을 파악하고 개선하며, 한국어의 특성을 반영함으로써 한-중 기계번역 시스템을 위한 중간언어를 제안한다. 본 논문을 통하여 국내적으로 미진한 중간언어 연구를 활성화하며, 더욱 효율적인 중간언어를 설계하기 위한 원형을 마련한다. 앞으로 의미 체계의 보완, 개선 등을 통하여, 본 논문에서 제안된 원형은 다언어 기계번역 시스템을 위한 중간언어로 확장, 개선될 것이다.

  • PDF

A Long Sentence Segmentation for the Efficient Analysis in English-Korean Machine Translation (영한 기계번역에서 효율적인 분석을 위한 긴 문장의 분할)

  • Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.89-96
    • /
    • 2005
  • 본 연구에서는 영한 기계 번역에서 20단어 이상의 긴 문장을 보다 정확히 분석하기 위하여 문장을 복수개의 의미 있는 절로 분할하고자 한다. 긴 문장은 구문 분석을 시도할 때, 시간적으로 또는 공간적으로 급격히 증가하는 자원을 소모시킨다. 이러한 문제를 해결하기 위하여, 본 연구에서는 긴 문장에서 분할 가능한 지점을 인식하여 이러한 지점을 중심으로 여러 개의 절을 생성한 후, 이 절을 개별적으로 분석하고자 하였다. 문장을 분할하기 위해서 일단 문장 내부에 존재하고 있는 분할이 가능한 지점을 선택하고, 선택된 지점을 중심으로 문맥 정보를 표현하는 입력 벡터를 생성하였다. 그리고 Support Vector Machine (SVM)을 이용하여 이러한 후보 지점의 특성을 학습하여 향후 긴 문장이 입력되었을 때 보다 정확하게 분할점을 찾고자 하였다. 본 논문에서는 SVM의 보다 좋은 학습과 분류를 위하여 내부 커널로써 다항 커널 (polynomial kernel)을 사용하였다. 그리고 실험을 통하여 약 0.97의 f-measure 값을 얻을 수 있었다.

  • PDF

A Study on the Construction Pattern of Korean Syntactic Word for Morphological Analysis (형태소 분석을 위한 한국어 어절의 구성 양상 연구)

  • Hwang, Hwa-Sang;Shi, Chung-Kon
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.25-32
    • /
    • 2001
  • 한국어 자연언어처리에서 부딪치는 첫 번째 어려움은 형태소 분석 대상으로서의 어절(통사적 단어)이 형태론적으로 다양한 유형을 갖는다는 데 있다. 따라서 정확하고 효율적인 형태소 분석기를 설계하고 구현하는 데 있어서 우선적으로 요구되는 것은 다양한 유형의 어절을 형태론적으로 분석하여 체계화하는 것이다. 이러한 문제 인식에 따라 본 연구에서는 형태소 결합 관계를 중심으로 체언 어절과 용언 어절의 구성 양상에 대해 살펴보았다.

  • PDF

Conceptual Interlingua Construction for Korean-English Query Translation (한영 질의어 변환을 위한 공통 중간개념 구축)

  • Choi, Yong-Seok;Seo, Chung-Won;Shin, Sa-Im;Kim, Jae-Ho;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.422-427
    • /
    • 2001
  • 질의어 변환 방법은 다국어 정보검색을 위한 방법중에 효율적인 방법이다. 양질의 질의어 변환을 위해서, 사전, 온톨로지, 병렬 코퍼스 통과 같은 자연언어 자원이 필요하다. 이러한 자연언어 자원은 양질로 대량으로 구축하려면 많은 비용이 튼다는 단점이 있다. 본 논문에서는 한영 질의어 변환에 적용할 수 있는 공통 중간개념 구축방법을 제안한다. 공통 중간개념은 동사들의 축으로 이루어지며, 통사들은 기본동사들의 조합으로 표현한수 있다고 가정한다. 공통 중간개념은 적은 자연언어 자원을 효율적으로 이용할 수 있도록 한다. 본 논문에서는 기본 동사 축을 특이값 분해(singular value decomposition) 방법으로 구하고, 그 기본 동사 축을 이용해서 질의어 변환하는 방법을 보여준다.

  • PDF

Processing '~n.ket.un' in Machine Translation: A Case Study of Patent Documents (한영자동번역에서의 '~ㄴ것은'의 처리: 특허문서를 중심으로)

  • Lee, Yong-Hun;Lee, Suk-Eui;Ryu, Byong-Rae
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.77-88
    • /
    • 2005
  • 한영자동번역에서 '~ㄴ것은'을 포함하는 문장들은 영어로 번역하기가 용이하지 않을 뿐만 아니라 번역할 때에 많은 오류들을 야기시킨다. 이것은 이러한 문장들이 한국어 원문에 '것'과 같은 의존명사를 포함하고 있기 때문인데, 이러한 의존명사들이 한영자동번역을 어렵게 만들고 있다. 본 논문에서는 '~ㄴ것은'을 포함하는 문장들을 한영자동번역에서 처리할 수 있는 방법을 제시하고자 한다. 자동번역에는 여러 방식이 있지만, 본 논문에서는 패턴기반 자동번역의 방식을 취한다. 따라서 본 논문에서는 '${\sim}$ㄴ것은'에 대한 한영대역패턴을 어떠한 방식으로 구축하며, 또 구축된 패턴들이 어떻게 한영자동번역에 활용되는 지를 살펴볼 것이다.

  • PDF

Japanese Predicate Generation in Korean-Japanese Machine Translation (한일 기계변역에서 일본어 술부생성)

  • Kwak, Jong-Geun;Kim, Eun-Ja;Lee, Jong-Hyeok;Lee, Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.173-176
    • /
    • 1994
  • 서로 다른 언어를 사용하는 사람들 사이에 언어의 장벽을 넘기 위한 수단으로 컴퓨터를 이용한 기계번역이 각광 받고 있다. 본 논문에서는 한일 기계번역 시스템에서 한국어로부터 일본어를 생성하는 과정에서 고려해야 할 사항에 관해 다룬다. 일본어는 한국어와 문법적 특성이 거의 유사하여 기계번역의 방법 가운데 직접 번역 방식이 선호되고 있다. 그러나 일본어의 한 술부내의 문법형태소들은 한국어와 비교해 볼 때, 상이한 점이 많아서 다른 부분에 비해 자연스러운 생성이 어렵다. 본 논문에서는 한일 기계번역에서 일본어의 생성시 발생하는 문제점들을 해결할 수 있는 방안을 제시한다.

  • PDF

A Semantic Case Scheme and a Feature Set for Processing Prepositional Phrases in English-to-Korean Machine Translation (영한 기계변역에서의 전치사구 처리를 위한 격의미 체계와 의미속성 집합)

  • Kang, Won-Seog;Seo, Jung-Yun;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.177-180
    • /
    • 1994
  • 영한 기계변역에서의 전치사구 처리는 자연어 처리의 중요한 연구과제 중 하나이다. 특히 전치사구의 격의미는 그에 대한 한국어 표현에 중요한 실마리가 된다. 본 논문은 영어의 전치사구에 대한 한국어 표현을 선택하기 위한 격의미 체계를 정의하고 그 격의미 체계를 실험한다. 이 격의미 체계는 전치사구에 대한 한국어의 격의미를 분별함으로 보다 좋은 한국어 격조사를 선택하게 해준다. 본 논문에서는 각 격의미의 구분을 위한 의미속성 집합도 정의한다. 이 의미속성 집합은 WordNet의 시소러스에서 제공한 상하위 관계와 변환표를 근거로 자동적으로 추출된다. 의미속성 집합의 자동획득은 격의미 체계의 표현과 기계변역의 성능 평가에 일반성을 부여한다. 격의미 체계와 의미속성 집합의 자동 획득은 영한 기계변역은 물론 한국어 생성과 자연어 처리에 중요한 기여를 할 것으로 보인다.

  • PDF