• Title/Summary/Keyword: parallel corpus

Search Result 66, Processing Time 0.022 seconds

Bilingual Word Embedding using Subtitle Parallel Corpus (자막 병렬 코퍼스를 이용한 이중 언어 워드 임베딩)

  • Lee, Seolhwa;Lee, Chanhee;Lim, Heuiseok
    • Proceedings of The KACE
    • /
    • 2017.08a
    • /
    • pp.157-160
    • /
    • 2017
  • 최근 자연 언어 처리 분야에서는 단어를 실수벡터로 임베딩하는 워드 임베딩(Word embedding) 기술이 많은 각광을 받고 있다. 최근에는 서로 다른 두 언어를 이용한 이중 언어 위드 임베딩(Bilingual word embedding) 방법을 사용하는 연구가 많이 이루어지고 있는데, 이중 언어 워드 임베딩에서 임베딩 절과의 질은 학습하는 코퍼스의 정렬방식에 따라 많은 영향을 받는다. 본 논문은 자막 병렬 코퍼스를 이용하여 밑바탕 어휘집(Seed lexicon)을 구축하여 번역 연결 강도를 향상시키고, 이중 언어 워드 임베딩의 사천(Vocabulary) 확장을 위한 언어별 연결 함수(Language-specific mapping function)을 학습하는 새로운 방식의 모델을 제안한다. 제안한 모델은 기존 모델과의 성능비교에서 비교할만한 수준의 결과를 얻었다.

  • PDF

The Design and Implementation of Alignment Workbench (정렬 워크벤치의 설계 및 구현)

  • Lee, Jae-Sung;Kang, Jung-Goo;Lee, Ju-Ho;Le, Hung;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.430-435
    • /
    • 1997
  • 통계적인 방법으로 병렬 코퍼스(parallel corpus)로부터 사전정보를 추출해 내는 정렬 시스템에 대한 연구가 세계 여러곳에서 진행되고 있다(신중호 1996; Dagan 1996; Fung 1995; Kupiec 1993). 그 결과로 만들어진 사전정보는 유용한 대역어와 대역 확률을 포함하고 있지만, 불필요하거나 잘못된 요소들도 많이 포함되어 있어 재조정 작업이 필요하다. 이는 사전정보를 직관적으로 확인함으로써 조정을 할 수도 있지만, 좀 더 정확한 조정을 위해 각각의 사전정보(정렬의 결과)가 코퍼스의 어떤 문장에서 나온 것인가 등을 확인할 필요가 있다. 정렬 워크벤치는 이와 같은 작업을 효율적으로 처리할 수 있도록 만들어졌으며, 현재 구현되어 작동되고 있다. 본 논문에서는 정렬 워크벤치를 위해 필요한 정렬시스템의 변형과 사전작업의 편의를 위해 제공되어져야 하는 기능 등에 관하여 설명하고, 간단한 평가 결과를 설명한다.

  • PDF

Toward A Bilingual Legal Term Glossary from Context Profiles

  • Kwong, Oi-Yee
    • Proceedings of the Korean Society for Language and Information Conference
    • /
    • 2002.02a
    • /
    • pp.249-258
    • /
    • 2002
  • We propose an algorithm for the automatic acquisition of a bilingual lexicon in the legal domain. We make use of a parallel corpus of bilingual court judgments, aligned to the sentence level, and analyse the bilingual context profiles to extract corresponding legal terms in both languages. Our method is different from those in past studies as it does not require any prior knowledge source, and naturally extends to multi-word terms in either language. A pilot test was done with a sample of ten legal terms, each with ten or more occurrences in the data. Encouraging results of about 75% average accuracy were obtained. This figure does not only reflect the effectiveness of the method for bilingual lexicon acquisition, but also its potential for bilingual alignment at the word or expression level.

  • PDF

Research about SMT Performance Improvement Through Automatic Corpus Expansion (말뭉치 자동 확장을 통한 SMT 성능 향상에 대한 연구)

  • Choi, Gyu-Hyun;Shin, Jong-Hun;Kim, Young-Kil
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.296-299
    • /
    • 2016
  • 현재 자동번역에는 통계적 방법에 속하는 통계기반 자동번역 시스템(SMT)이 많이 사용되고 있지만, 학습 데이터로 사용되는 대용량의 병렬 말뭉치를 수동으로 구축하는데 어려움이 있다. 본 연구의 목적은 통계기반 자동번역의 성능을 향상시키기 위해 기존 다른 언어쌍의 말뭉치와 SMT 자동번역 기술을 이용하여 대상이 되는 언어쌍의 SMT 병렬 말뭉치를 자동으로 확장하는 방법을 제안한다. 제안 방법은 서로 다른언어 B와 C의 병렬 말뭉치를 얻기 위해, A와 B의 SMT 자동번역 시스템을 구축하고 기존의 A-C 말뭉치의 A를 SMT를 통해 B로 번역하여 B와 C의 말뭉치를 자동으로 확장한다. 실험을 통해 확장한 병렬 말뭉치가 통계기반 자동번역 시스템의 성능을 향상시킬 수 있음을 확인한다.

  • PDF

An Effective Construction of a Korean-to-KSL Parallel Corpus (한국어-한국수화 병렬 코퍼스의 효율적 제작)

  • Kim, Jung-Ho;Park, Jong C.
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.13-17
    • /
    • 2014
  • 본 연구에서는 한국어와 한국수화 간의 병렬 코퍼스 제작과 함께 이에 따른 문제를 다룬다. 본 연구에서는 병렬 코퍼스를 효율적으로 제작하기 위해 키넥트와 립모션을 이용하였고, 이의 성능을 검증하기 위해 기존 연구에서 제시하고 있는 장갑을 통한 동작 인식 및 수집 방법과 본 연구에서 제시하고 있는 수집 방법을 비교하였으며, 비교 결과 장갑을 통해 수집한 결과와 유의미하게 차이가 나지 않음을 확인하였다. 이는 본 연구의 동작 수집 방식이 상대적으로 고비용인 장갑 수집 방식과 비교하여 경쟁력이 있음을 시사하고 있으며, 특히 보편적인 자료 수집 방식을 사용하는 특징까지 가지고 있어서 동시적으로 자료를 수집할 수 있어 규모가 있는 병렬 코퍼스 구축을 더욱 효율적으로 진행할 수 있을 것으로 기대된다.

  • PDF

Research about SMT Performance Improvement Through Automatic Corpus Expansion (말뭉치 자동 확장을 통한 SMT 성능 향상에 대한 연구)

  • Choi, Gyu-Hyun;Shin, Jong-Hun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.296-299
    • /
    • 2016
  • 현재 자동번역에는 통계적 방법에 속하는 통계기반 자동번역 시스템(SMT)이 많이 사용되고 있지만, 학습 데이터로 사용되는 대용량의 병렬 말뭉치를 수동으로 구축하는데 어려움이 있다. 본 연구의 목적은 통계기반 자동번역의 성능을 향상시키기 위해 기존 다른 언어쌍의 말뭉치와 SMT 자동번역 기술을 이용하여 대상이 되는 언어쌍의 SMT 병렬 말뭉치를 자동으로 확장하는 방법을 제안한다. 제안 방법은 서로 다른 언어 B와 C의 병렬 말뭉치를 얻기 위해, A와 B의 SMT 자동번역 시스템을 구축하고 기존의 A-C 말뭉치의 A를 SMT를 통해 B로 번역하여 B와 C의 말뭉치를 자동으로 확장한다. 실험을 통해 확장한 병렬 말뭉치가 통계기반 자동번역 시스템의 성능을 향상시킬 수 있음을 확인한다.

  • PDF

Automatic bilingual lexicon construction via bilingual parallel corpus and pivot language (이국어 병렬말뭉치와 중간언어를 활용한 이국어 사전 자동구축)

  • Seo, Hyeong-Won;Kwon, Hong-Seok;Kim, Jae-Hoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.307-310
    • /
    • 2013
  • 본 논문은 한국어-스페인어와 한국어-불어 간의 양방향 이국어 사전(Bi-directional bilingual lexicon)을 자동으로 구축하기 위한 새로운 방법을 제안한다. 일반적으로 한국어와 스페인어/불어 간의 병렬 말뭉치를 직접적으로 구축하기에는 어려움에 따르기 때문에, 영어를 중심언어로 하는 영어(EN)-한국어(KR)/스페인어(ES)/불어(FR) 병렬 말뭉치를 이용하여 문맥 벡터를 만들고 그들 간의 유사도를 계산하는 변형된 문맥 벡터 방법을 제안한다. 영어는 다른 언어와의 이국어 병렬 말뭉치가 비교적 많이 공개되어 있기 때문에 이 방법을 이용하면 비교적 쉽게 KR-ES와 KR-FR 양방향 이국어 사전을 구축할 수 있다. 본 논문에서 제안한 방법으로 실험해본 결과 최고 85%(ES${\rightarrow}$KR)의 정확도를 얻을 수 있었다.

Quality, not Quantity? : Effect of parallel corpus quantity and quality on Neural Machine Translation (양보다 질? : 병렬 말뭉치의 양과 질이 인공신경망 기계번역에 미치는 효과)

  • Park, Chanjun;Lee, Yeonsu;Lee, Chanhee;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.363-368
    • /
    • 2020
  • 글로벌 시대를 맞이하여 언어의 장벽을 해소하기 위하여 기계번역 연구들이 전 세계적으로 이루어지고 있다. 딥러닝의 등장으로 기존 규칙 및 통계기반 방법론에 비하여 눈에 띄는 성능향상을 이루어내고 있으며 많은 연구들이 이루어지고 있다. 인공신경망 기반 기계번역 모델을 만들 때 가장 중요한 요소는 병렬 말뭉치의 양과 질이다. 본 논문은 한-영 대용량의 말뭉치를 수집하고 병렬 말뭉치 필터링 기법을 적용하여 데이터의 양과 질을 충족시켰으며 한-영 기계번역 관련 객관적인 테스트셋인 Iwslt 16, Iwslt 17을 기준으로 기존 한-영 기계번역 관련 연구 중 가장 좋은 성능을 보였다.

  • PDF

Keyphrase Extraction of Directive Utterances via Discourse Component: Construction and Data Augmentation of Korean Parallel Corpus (담화 성분을 활용한 지시 발화의 키프레이즈 추출: 한국어 병렬 코퍼스 구축 및 데이터 증강 방법론)

  • Cho, Won Ik;Moon, Young Ki;Kim, Jong In;Kim, Nam Soo
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.241-245
    • /
    • 2019
  • 문서 요약, 키프레이즈 추출과 패러프레이징은 인간이, 혹은 기계가 문서를 보다 원활히 이해하는 데에 도움을 주는 방법론들이다. 우리는 본 연구에서 질문/요구 등의 지시성 발화를 대상으로, 핵심 내용을 추출하는 간단한 방법론을 통해 한국어 병렬 코퍼스를 구축한다. 또한, 우리는 인적 자원을 활용한 효율적인 데이터 증강 전략을 통해 부족하거나 필수적인 유형의 발화의 양을 보강하고, 약 5만 쌍 크기의 코퍼스를 제작하여 이를 공개한다.

  • PDF

An Use of the Patterns for an Efficient Example-Based Machine Translation (효율적인 예제 기반 기계번역을 위한 패턴의 사용)

  • Lee, Gi-Yeong;Kim, Han-U
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.37 no.3
    • /
    • pp.1-11
    • /
    • 2000
  • An example-based machine translation approach is a new paradigm for resolving various problems caused by the rules of conventional rule-based machine translation. But, in pure example-based machine translation, it is very hard to find similar examples matched with input sentences by using reasonable parallel corpus. This problem causes large overheads in the process of sentence generation. This paper proposes new method of English-Korean transfer using both patterns and examples. The patterns are composed of sentence patterns and phrase patterns. Meta parts of the patterns make the example-based machine translation more practical by raising the probability to find similar examples. The use of patterns and examples can reduce the ambiguities in source language analysis and give us a high quality of MT. And experimental results with a test corpus are discussed.

  • PDF