• 제목/요약/키워드: Hybrid machine translation

검색결과 11건 처리시간 0.029초

Classification-Based Approach for Hybridizing Statistical and Rule-Based Machine Translation

  • Park, Eun-Jin;Kwon, Oh-Woog;Kim, Kangil;Kim, Young-Kil
    • ETRI Journal
    • /
    • 제37권3호
    • /
    • pp.541-550
    • /
    • 2015
  • In this paper, we propose a classification-based approach for hybridizing statistical machine translation and rulebased machine translation. Both the training dataset used in the learning of our proposed classifier and our feature extraction method affect the hybridization quality. To create one such training dataset, a previous approach used auto-evaluation metrics to determine from a set of component machine translation (MT) systems which gave the more accurate translation (by a comparative method). Once this had been determined, the most accurate translation was then labelled in such a way so as to indicate the MT system from which it came. In this previous approach, when the metric evaluation scores were low, there existed a high level of uncertainty as to which of the component MT systems was actually producing the better translation. To relax such uncertainty or error in classification, we propose an alternative approach to such labeling; that is, a cut-off method. In our experiments, using the aforementioned cut-off method in our proposed classifier, we managed to achieve a translation accuracy of 81.5% - a 5.0% improvement over existing methods.

제한된 도메인을 위한 코퍼스 기반의 하이브리드 번역 시스템 (A Corpus-based Hybrid Translation System for Limited Domain)

  • 강운구;김성현;이병문;이영호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권11호
    • /
    • pp.826-836
    • /
    • 2010
  • 본 논문은 RBMT, SMT, PBMT를 활용한 직렬 연결 방식의 하이브리드 번역 시스템을 제안한다. 번역 시스템은 입력된 문장에 대하여 구문 분석을 진행한 후, 이 정보를 바탕으로 구문 변환과 개체명 인식을 한다. 이 결과값을 의사 문장으로 변형, 문장 분리 규칙이 적용 가능할 경우, 분리된 문장에 대하여 다중 디코딩을 수행하고, 후처리기에서 접합 규칙에 따라 번역문을 생성하였다. 실험을 통하여 어순 배치의 경우 distortion 모델에 의존하지 않고 구문 변환(rule-based syntactic transfer)규칙을 사용하는 것이 더욱 효과적인 것으로 나타났다.

기계번역에서 동사 모호성 해결에 관한 하이브리드 기법 (A Hybrid Method of Verb disambiguation in Machine Translation)

  • 문유진;마르타파머
    • 한국정보처리학회논문지
    • /
    • 제5권3호
    • /
    • pp.681-687
    • /
    • 1998
  • 본 논문에서는 기계번역에서 동사 번역의 모호성 해결을 위한 하이브리드 기법을 제안한다. 제안된 기법은 동사 번역을 위해 개념기반의 기법과 통계기반의 기법을 수행하는 알고리즘이다. 이를 위해 연어사전, WordNet과 말뭉치에서 추출한 통계 정보를 이용한다. 동사 번역의 모호성을 해결하기 위하여 이 알고리즘은 기계번역의 트랜스퍼 단게에서 번역할 동사의 번역어를 찾는다. 그러나 만일 적절한 번역어를 찾지 못하게 되면, Wordnet을 참조하여 번역 문장에서 동사의 논리적 제약어와 연어사전의 논리적 제약어들 사이의 단어간 유사도를 측정하여 번역어를 찾는다. 그리고 이와 동시에 이 알고리즘은 말뭉치에서 추출한 통계 정보를 참조하여 공기 유사도를 측정하여 번역어를 찾는다. 실험 결과, 이 알고리즘은 번역 정확성에서 기존의 다른 알고리즘보다 우수하며, 특히 연어기반의 기법과 비교할 때 약 24.8% 정도의 번역 정확성이 향상된 것으로 나타나고 있다.

  • PDF

한영 병렬 코퍼스 구축을 위한 하이브리드 기반 문장 자동 정렬 방법 (A Hybrid Sentence Alignment Method for Building a Korean-English Parallel Corpus)

  • 박정열;차정원
    • 대한음성학회지:말소리
    • /
    • 제68권
    • /
    • pp.95-114
    • /
    • 2008
  • The recent growing popularity of statistical methods in machine translation requires much more large parallel corpora. A Korean-English parallel corpus, however, is not yet enoughly available, little research on this subject is being conducted. In this paper we present a hybrid method of aligning sentences for Korean-English parallel corpora. We use bilingual news wire web pages, reading comprehension materials for English learners, computer-related technical documents and help files of localized software for building a Korean-English parallel corpus. Our hybrid method combines sentence-length based and word-correspondence based methods. We show the results of experimentation and evaluate them. Alignment results from using a full translation model are very encouraging, especially when we apply alignment results to an SMT system: 0.66% for BLEU score and 9.94% for NIST score improvement compared to the previous method.

  • PDF

영한 기계번역에서 전치사구를 해석하는 시스템 (An Analysis System of Prepositional Phrases in English-to-Korean Machine Translation)

  • 강원석
    • 한국정보처리학회논문지
    • /
    • 제3권7호
    • /
    • pp.1792-1802
    • /
    • 1996
  • 영한 기계번역에서 전치사구의 해석 부착의 문제(Attachment Problem)와 의미 해석의 문제, 그리고 해석에 필요한 정보 획득의 문제가 있다. 이 세 가지 문제를 해결하기 위하여 본 논문은 전치사구 해석 시스템을 제시한다. 이 시스템은 규칙 제어기와 신경망의 하이브리드 구문해석 시스템, 격의미 해석 시스템, 그리고 신경망 의 입력 정보를 자동으로 생성하는 의미속성 생성기로 구성한다. 의미속성 생성기는 시스템의 입력이 되는 의미속성을 자동으로 생성하는 방법으로 인위적인 방법의 단점 을보완하여 객관성 있는 전치사구 해석을 하게 한다. 격의미 해석 시스템은 영한 기계 번역에 맞는 격의미를 찾아내어 자연스런 한국어 생성을 하게 하고 구문해석 시스템은 규칙 방법의 장점과 신경망 방법의 장점을 취한 하이브리드 방식의 시스템으로 전치사 구 부착의 문제를 해결한다.

  • PDF

Sign Language Translation Using Deep Convolutional Neural Networks

  • Abiyev, Rahib H.;Arslan, Murat;Idoko, John Bush
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권2호
    • /
    • pp.631-653
    • /
    • 2020
  • Sign language is a natural, visually oriented and non-verbal communication channel between people that facilitates communication through facial/bodily expressions, postures and a set of gestures. It is basically used for communication with people who are deaf or hard of hearing. In order to understand such communication quickly and accurately, the design of a successful sign language translation system is considered in this paper. The proposed system includes object detection and classification stages. Firstly, Single Shot Multi Box Detection (SSD) architecture is utilized for hand detection, then a deep learning structure based on the Inception v3 plus Support Vector Machine (SVM) that combines feature extraction and classification stages is proposed to constructively translate the detected hand gestures. A sign language fingerspelling dataset is used for the design of the proposed model. The obtained results and comparative analysis demonstrate the efficiency of using the proposed hybrid structure in sign language translation.

의미 분석을 위한 말뭉치 기반의 온톨로지 학습 (Corpus-Based Ontology Learning for Semantic Analysis)

  • 강신재
    • 한국산업정보학회논문지
    • /
    • 제9권1호
    • /
    • pp.17-23
    • /
    • 2004
  • 본 논문은 한국어정보처리에서 단어의 의미를 결정하기 위한 말뭉치 기반의 온톨로지 학습 방법을 제시하고 있다. 먼저 이미 확보된 전자사전의 정보를 이용하여 단어의 확실한 의미를 우선 결정한 후, 아직 결정하지 못한 단어의 의미는 온톨로지를 이용하여 최종 결정하는 절차를 거친다. 온톨로지를 단어 의미 중의성 해소를 위한 지식베이스로 사용하기 위해서는, 온톨로지 내 개념들간의 상호정보가 말뭉치의 통계 정보에 근거하여 미리 계산된다. 계산된 상호정보 값을 가중치로 간주하면 온톨로지는 가중치 그래프로 생각할 수 있으므로, 개념간 최소 경로를 통하여 개념간 연관도를 알아 볼 수 있다. 실제 기계번역 시스템에서 본 방법은 온톨로지를 사용하지 않은 방법보다 9%의 성능 향상을 가져오는 결과를 얻을 수 있었다.

  • PDF

Korean-Chinese Person Name Translation for Cross Language Information Retrieval

  • Wang, Yu-Chun;Lee, Yi-Hsun;Lin, Chu-Cheng;Tsai, Richard Tzong-Han;Hsu, Wen-Lian
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2007년도 정기학술대회
    • /
    • pp.489-497
    • /
    • 2007
  • Named entity translation plays an important role in many applications, such as information retrieval and machine translation. In this paper, we focus on translating person names, the most common type of name entity in Korean-Chinese cross language information retrieval (KCIR). Unlike other languages, Chinese uses characters (ideographs), which makes person name translation difficult because one syllable may map to several Chinese characters. We propose an effective hybrid person name translation method to improve the performance of KCIR. First, we use Wikipedia as a translation tool based on the inter-language links between the Korean edition and the Chinese or English editions. Second, we adopt the Naver people search engine to find the query name's Chinese or English translation. Third, we extract Korean-English transliteration pairs from Google snippets, and then search for the English-Chinese transliteration in the database of Taiwan's Central News Agency or in Google. The performance of KCIR using our method is over five times better than that of a dictionary-based system. The mean average precision is 0.3490 and the average recall is 0.7534. The method can deal with Chinese, Japanese, Korean, as well as non-CJK person name translation from Korean to Chinese. Hence, it substantially improves the performance of KCIR.

  • PDF

Comparison Thai Word Sense Disambiguation Method

  • Modhiran, Teerapong;Kruatrachue, Boontee;Supnithi, Thepchai
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2004년도 ICCAS
    • /
    • pp.1307-1312
    • /
    • 2004
  • Word sense disambiguation is one of the most important problems in natural language processing research topics such as information retrieval and machine translation. Many approaches can be employed to resolve word ambiguity with a reasonable degree of accuracy. These strategies are: knowledge-based, corpus-based, and hybrid-based. This paper pays attention to the corpus-based strategy. The purpose of this paper is to compare three famous machine learning techniques, Snow, SVM and Naive Bayes in Word-Sense Disambiguation on Thai language. 10 ambiguous words are selected to test with word and POS features. The results show that SVM algorithm gives the best results in solving of Thai WSD and the accuracy rate is approximately 83-96%.

  • PDF

영한 기계 번역을 위한 혼합형 N-best 품사 태거 (A Hybrid N-best Part-of-Speech Tagger for English-Korean Machine Translation)

  • 임희석;권철중;이재원;오기은
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.15-19
    • /
    • 1998
  • 기계 번역 시스템에서 품사 태거의 오류는 전체번역 정확률에 결정적인 영향을 미친다. 따라서 어휘 단계의 정보만으로는 중의성 해소가 불가능한 단어에 대해서는 중의성 해소에 충분한 정보를 얻을 수 있는 구문 분석이나 의미 분석 단계까지 완전한 중의성 해소를 유보하는 N-best 품사 태거가 요구된다. 또한 N-best 품사 태거는 단어에 할당되는 평균 품사 개수를 최소화함으로써 상위 단계의 부하를 줄이는 본연의 역할을 수행하여야 한다. 본 논문은 통계 기반 품사 태깅 방법을 이용하여 N-best 후보를 선정하고, 선정된 N-best 후보에 언어 규칙을 적용하여 중의성을 감소시키거나 오류를 보정하는 혼합형 N-best 품사 태깅 방법을 제안한다 제안된 N-best 품사 태거는 6만여 단어의 영어 코퍼스에서 실험한 결과, 단어 당 평균 1.09개의 품사를 할당할 때 0.43%의 오류율을 보인다.

  • PDF