• 제목/요약/키워드: Data Translation

검색결과 644건 처리시간 0.019초

English-Korean speech translation corpus (EnKoST-C): Construction procedure and evaluation results

  • Jeong-Uk Bang;Joon-Gyu Maeng;Jun Park;Seung Yun;Sang-Hun Kim
    • ETRI Journal
    • /
    • 제45권1호
    • /
    • pp.18-27
    • /
    • 2023
  • We present an English-Korean speech translation corpus, named EnKoST-C. End-to-end model training for speech translation tasks often suffers from a lack of parallel data, such as speech data in the source language and equivalent text data in the target language. Most available public speech translation corpora were developed for European languages, and there is currently no public corpus for English-Korean end-to-end speech translation. Thus, we created an EnKoST-C centered on TED Talks. In this process, we enhance the sentence alignment approach using the subtitle time information and bilingual sentence embedding information. As a result, we built a 559-h English-Korean speech translation corpus. The proposed sentence alignment approach showed excellent performance of 0.96 f-measure score. We also show the baseline performance of an English-Korean speech translation model trained with EnKoST-C. The EnKoST-C is freely available on a Korean government open data hub site.

STEP을 이용한 CAD 데이터 변환 시스템의 구현 (Implementation of CAD Data Translation System using STEP)

  • 이영준;고굉욱;유상봉
    • 한국CDE학회논문집
    • /
    • 제1권2호
    • /
    • pp.87-96
    • /
    • 1996
  • IGES is a file format which has gained widespread use but has certain limitations such as limited information coverage and ambiguous definitions. In order to overcome the limitations of existing neutral file formats, STEP has been developed as a more comprehensive mechanism for product data exchange by ISO. This paper describes a file translation system between IGES and STEP. In this system, three EXPRESS schemata are defined for IGES, STEP and the translation relationship between IGES and STEP. Object codes are generated from the schemata and linked with file access libraries to IGES and STEP files. The translation was verified by visualization and reverse translation. The system developed in this study can easily applied to translate other file formats because the file structure and translation relationship are defined in EXPRESS - a high level information modeling language.

  • PDF

공공 한영 병렬 말뭉치를 이용한 기계번역 성능 향상 연구 (A Study on the Performance Improvement of Machine Translation Using Public Korean-English Parallel Corpus)

  • 박찬준;임희석
    • 디지털융복합연구
    • /
    • 제18권6호
    • /
    • pp.271-277
    • /
    • 2020
  • 기계번역이란 소스언어를 목적언어로 컴퓨터가 번역하는 소프트웨어를 의미하며 규칙기반, 통계기반 기계번역을 거쳐 최근에는 인공신경망 기반 기계번역에 대한 연구가 활발히 이루어지고 있다. 인공신경망 기계번역에서 중요한 요소 중 하나로 고품질의 병렬 말뭉치를 뽑을 수 있는데 이제까지 한국어 관련 언어쌍의 고품질 병렬 코퍼스를 구하기 쉽지 않은 실정이었다. 최근 한국정보화진흥원의 AI HUB에서 고품질의 160만 문장의 한-영 기계번역 병렬 말뭉치를 공개하였다. 이에 본 논문은 AI HUB에서 공개한 데이터 및 현재까지 가장 많이 쓰인 한-영 병렬 데이터인 OpenSubtitles와 성능 비교를 통해 각각의 데이터의 품질을 검증하고자 한다. 테스트 데이터로 한-영 기계번역 관련 공식 테스트셋인 IWSLT에서 공개한 테스트셋을 이용하여 보다 객관성을 확보하였다. 실험결과 동일한 테스트셋으로 실험한 기존의 한-영 기계번역 관련 논문들보다 좋은 성능을 보임을 알 수 있었으며 이를 통해 고품질 데이터의 중요성을 알 수 있었다.

Discriminative Models for Automatic Acquisition of Translation Equivalences

  • Zhang, Chun-Xiang;Li, Sheng;Zhao, Tie-Jun
    • International Journal of Control, Automation, and Systems
    • /
    • 제5권1호
    • /
    • pp.99-103
    • /
    • 2007
  • Translation equivalence is very important for bilingual lexicography, machine translation system and cross-lingual information retrieval. Extraction of equivalences from bilingual sentence pairs belongs to data mining problem. In this paper, discriminative learning methods are employed to filter translation equivalences. Discriminative features including translation literality, phrase alignment probability, and phrase length ratio are used to evaluate equivalences. 1000 equivalences randomly selected are filtered and then evaluated. Experimental results indicate that its precision is 87.8% and recall is 89.8% for support vector machine.

『국역본 <>·<>』 고찰 -표기적 특징과 이본적 성격을 중심으로- (A Study on 『Korean Translation of ·』 -Focused on declared characteristics and characteristics in different versions-)

  • 간호윤
    • 고전문학과교육
    • /
    • 제15호
    • /
    • pp.355-387
    • /
    • 2008
  • The purpose of the study was to decide Korean translation and the copying period of "Korean Translation of " and to look all around their characteristics in different versions carefully until now. The "Korean Translation" is a collection of Korean-translated romance and love stories excavated by a professor Kim,Il Geun, and there is not a little meaning in the context of novel history in the point of view of 'Korean translation of a court possession'. Arranging conclusion of the study generally, it is as follows. (1) Considering phonological phenomena, grammar and vocabulary in the study of Korean language, it is presumed that they would be translated into Korean and copied between the regime period of the King Sukjong and the regime period of the King Yungjo in the Joseon Dynasty. For, they were composed of a middle declaration of copied 'Myeoknambon "Korean Translation of Taepyeonggwanggi(태평광기)"' and 'NakseonJaebon(낙선재본)' between the middle of the 17th century and the middle of the 18th century and the regime period of the King Jeongjo in the Joseon Dynasty appointed as the background period of the novels should be excepted. Consequently, through the Korean Translation, we can confirm that the novel scope between the 17th century and the 18th century in Korean novel history was widened until 'The Royal Court' and 'Women'. (2) In the side of vocabulary, the "Korean Translation" also has not a little meaning in the side of a collection translated in the Royal Court. It doesn't have new vocabularies, but partial vocabularies as '(Traces:痕)' '(Clean eyes:明眸)', ' (Sail:帆)', '(Get up:起)', '글이플(Weak grass:弱草)', '쇼록(Owl:? 梟 or 鴉?)', '이 사라심(This life:此生)', and '노혀오매(Look for:訪)' are good data in the study of Korean language. (3) The "Korean Translation" is a valuable data about translation and copying of a court novel and we can discover intentionally changed parts and partially omitted sentences rather in the than in the . There are differences between a translation book and a copying book and we can catch sight of intention of translation and unsettledness of copying in the second work. Therefore, we can know that the "Korean Translation" has a double context which one work is translated and a work in different version is derived, compared to a simple copy. (4) The "Korean Translation" has a close relation with "Hangoldong(閒汨董)", but it doesn't regard the same copy as a foundation. The basic copy of translation of the "Korean Translation" is a different version of the same line as "Hangoldong" and "Jeochobon(저초본:정명기 소장본)" and is more similar line to "Hangoldong", but it is also not the same basic copy. (5) Considering that the "Korean Translation" doesn't has a distinct relation with the "Hangoldong", there is no correlation between the "Korean Translation" and and the "Hangoldong" and . In addition, we could not discover a writer's identity between the two.

Hindi Correspondence of Bengali Nominal Suffixes

  • Chatterji, Sanjay
    • Journal of Multimedia Information System
    • /
    • 제8권4호
    • /
    • pp.221-232
    • /
    • 2021
  • One bottleneck of Bengali to Hindi transfer based machine translation system is the translation of suffixes of noun. The appropriate translation of a nominal suffix often depends on the semantic role of the corresponding noun chunk in the sentence. With the availability of a high performance Bengali morphological analyzer and a basic Bengali parser it is possible to identify the role of each noun chunk. This information may be used for building rules for translating the ambiguous nominal suffixes. As there are some similarities between the uses of Bengali and Hindi nominal suffixes we find that the rules may be identified by linguistically analyzing corpus data. In this paper, we identify rules for the ambiguous four Bengali nominal suffixes from corpus data and evaluate their performances. This set of rules is able to resolve a majority of the nominal suffix ambiguities in Bengali to Hindi transfer based machine translation system. Using the rules, we are able to translate 98.17% Bengali nouns correctly which is much better than the baseline ILMT system's accuracy of 62.8%.

신경망 기계번역에서 최적화된 데이터 증강기법 고찰 (Optimization of Data Augmentation Techniques in Neural Machine Translation)

  • 박찬준;김규경;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.258-261
    • /
    • 2019
  • 딥러닝을 이용한 Sequence to Sequence 모델의 등장과 Multi head Attention을 이용한 Transformer의 등장으로 기계번역에 많은 발전이 있었다. Transformer와 같은 성능이 좋은 모델들은 대량의 병렬 코퍼스를 가지고 학습을 진행하였는데 대량의 병렬 코퍼스를 구축하는 것은 시간과 비용이 많이 드는 작업이다. 이러한 단점을 극복하기 위하여 합성 코퍼스를 만드는 기법들이 연구되고 있으며 대표적으로 Back Translation 기법이 존재한다. Back Translation을 이용할 시 단일 언어 데이터를 가상 병렬 데이터로 변환하여 학습데이터의 양을 증가 시킨다. 즉 말뭉치 확장기법의 일종이다. 본 논문은 Back Translation 뿐만 아니라 Copied Translation 방식을 통한 다양한 실험을 통하여 데이터 증강기법이 기계번역 성능에 미치는 영향에 대해서 살펴본다. 실험결과 Back Translation과 Copied Translation과 같은 데이터 증강기법이 기계번역 성능향상에 도움을 줌을 확인 할 수 있었으며 Batch를 구성할 때 상대적 가중치를 두는 것이 성능향상에 도움이 됨을 알 수 있었다.

  • PDF

숫자 기호화를 통한 신경기계번역 성능 향상 (Symbolizing Numbers to Improve Neural Machine Translation)

  • 강청웅;노영헌;김지수;최희열
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권6호
    • /
    • pp.1161-1167
    • /
    • 2018
  • 기계 학습의 발전은 인간만이 할 수 있었던 섬세한 작업들을 기계가 할 수 있도록 이끌었고, 이에 따라 많은 기업체들은 기계 학습 기반의 번역기를 출시하였다. 현재 상용화된 번역기들은 우수한 성능을 보이지만 숫자 번역에서 문제가 발생하는 것을 발견했다. 번역기들은번역할문장에 큰숫자가 있을경우종종숫자를잘못번역하며, 같은문장에서숫자만바꿔번역할 때문장의구조를 완전히바꾸어 번역하기도 한다. 이러한 문제점은오번역의 가능성을 높이기 때문에해결해야 될 사안으로여겨진다. 본 논문에서는 Bidirectional RNN (Recurrent Neural Network), LSTM (Long Short Term Memory networks), Attention mechanism을 적용한 Neural Machine Translation 모델을 사용하여 데이터 클렌징, 사전 크기 변경을 통한 모델 최적화를 진행 하였고, 최적화된 모델에 숫자 기호화 알고리즘을 적용하여 상기 문제점을 해결하는 번역 시스템을 구현하였다. 본논문은 데이터 클렌징 방법과 사전 크기 변경, 그리고 숫자 기호화 알고리즘에 대해 서술하였으며, BLEU score (Bilingual Evaluation Understudy score) 를 이용하여 각 모델의 성능을 비교하였다.

언어적 특성과 서비스를 고려한 딥러닝 기반 한국어 방언 기계번역 연구 (Deep Learning-based Korean Dialect Machine Translation Research Considering Linguistics Features and Service)

  • 임상범;박찬준;양영욱
    • 한국융합학회논문지
    • /
    • 제13권2호
    • /
    • pp.21-29
    • /
    • 2022
  • 본 논문은 방언 연구, 보존, 의사소통의 중요성을 바탕으로 소외될 수 있는 방언 사용자들을 위한 한국어 방언 기계번역 연구를 진행하였다. 사용한 방언 데이터는 최상위 행정구역을 기반으로 배포된 AIHUB 방언 데이터를 사용하였다. 방언 데이터를 바탕으로 Transformer 기반의 copy mechanism을 적용하여 방언 기계번역기의 성능 향상을 도모하는 모델링 연구와 모델 배포의 효율성을 도모하는 Many-to-one 기반의 방언 기계 번역기를 제안한다. 본 논문은 one-to-one 모델과 many-to-one 모델의 성능을 비교 분석하고 이를 다양한 언어학적 시각으로 분석하였다. 실험 결과 BLEU점수를 기준으로 본 논문이 제안하는 방법론을 적용한 one-to-one 기계번역기의 성능 향상과 many-to-one 기계번역기의 유의미한 성능을 도출하였다.

공간 데이타 변환 시스템의 설계 및 구현 (Design and Implementation of a Spatial Data Translation System)

  • 이기영;노경택
    • 한국컴퓨터정보학회논문지
    • /
    • 제8권4호
    • /
    • pp.41-46
    • /
    • 2003
  • 최근 다양한 분야에서 지리 정보의 활용이 증가함에 따라 지리 정보를 좀더 효율적으로 이용하고자 지리 정보 시스템을 구축하였다. 지리 정보 시스템은 고유한 데이타 포맷을 사용하여 지리 정보를 관리하였다. 시간이 지남에 따라 다양한 분야에서 기존에 구축해 놓은 다양한 지리 정보 시스템의 지리 정보를 자유롭게 유통 및 활용하려는 요구가 증가하게 되었다. 따라서, 기존에 구축된 지리 정보 시스템의 정보를 변환하여 이를 이용하고자 하는 지리 정보 시스템에 전달하여 주는 데이타 변환 과정이 필요하게 되었다. 따라서. 본 연구에서는 지리 정보 시스템간의 데이타 변환을 좀더 효율적이도록 국제 표준을 따르는 공간 데이타 변환 시스템을 설계 및 구현하였다.

  • PDF