• 제목/요약/키워드: automatic machine translation

검색결과 38건 처리시간 0.035초

특허 기계 번역에 대한 RIBES 한국어 자동평가 문제에 대한 고찰 (KoRIBES : A Study on the Problems of RIBES in Automatic Evaluation English-Korean Patent Machine Translation)

  • 장현진;장문석;노한성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.543-547
    • /
    • 2020
  • 자연어 처리에서 기계번역은 가장 많이 사용되고 빠르게 발전하고 있다. 기계번역에 있어서 사람의 평가가 가장 정확하고 중요하지만 많은 시간과 비용이 발생된다. 이에 기계번역을 자동 평가하는 방법들이 많이 제안되어 사용되고 있지만, 한국어 특성을 잘 반영한 자동평가 방법은 연구되지 않고 있다. BLEU와 같은 자동평가 방법을 많이 사용하고 있지만 언어의 특성 차이로 인해 원하는 평가결과를 얻지 못하는 경우가 발생하며, 특히 특허나 논문과 같은 기술문서의 번역에서는 더 많이 발생한다. 이에 본 논문에서는 단어의 정밀도와 어순이 평가에 영향이 있는 RIBES를 가지고 특허 기계 번역에서 영어→한국어로 기계 번역된 결과물의 자동평가에 대해 사람의 평가와 유사한 결과를 얻기 위해 tokenization 과정에서 복합 형태소 분리를 통한 평가방법을 제안하고자 한다.

  • PDF

BLEU 를 활용한 단기 서술형 답안의 자동 채점 (An Autonomous Assessment of a Short Essay Answer by Using the BLEU)

  • 조정현;정현기;박찬영;김유섭
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.606-610
    • /
    • 2009
  • 본 논문에서는 단기 서술형 답안의 자동 채점을 위하여 기계 번역 자동 평가에서 널리 사용되는 BLEU(BiLingual Evaluation Understudy)를 활용한 방법을 제안한다. BLEU 는 기계가 번역한 것이 사람이 번역한 것과 비슷할수록 기계번역의 질이 좋을 것이다 라는 것을 가정하여 평가한다. 즉, 특정 문장을 여러 사람이 번역한 문장을 기계가 번역한 문장과 n-gram 방식으로 비교해 점수를 매기는 것이다. 이와 비슷하게 본 연구에서는 여러 개의 정답 문장과 학생의 답안 문장을 BLEU 와 같은 방식으로 상호 비교하여 학생의 답안을 채점하였다. 실험에서는 이러한 채점 방식의 정확도를 평가하기 위하여 사람이 채점한 점수와의 상관관계를 계산하였다.

  • PDF

영한 기계번역의 자연어 생성 연구 (A Study on the Natural Language Generation by Machine Translation)

  • 홍성룡
    • 디지털콘텐츠학회 논문지
    • /
    • 제6권1호
    • /
    • pp.89-94
    • /
    • 2005
  • 기계번역에서 자연어 생성의 목적은 입력언어의 어구 분석을 이용하여 그 문장의 의미를 변환해주는 목적 언어를 생성하는 것이다. 그것은 언어적 구조 낱말 전사. 대화체 언어, 어휘적 정보 등을 포함해야 한다. 본 연구에서는 대화체 자동 기계번역 시스템 구현계획의 일부인 음성, 음운 분야에서 담당하게 될 음성인식과 음성합성 알고리듬을 확립하기 위한 한국어 특질에 대한 기초조사를 하고자 한다. 또한 기계번역의 단계를 분석하여 형태소 분석 단계와 구문 분석 단계, 의미 분석 단계로 구분한다. 형태소 분석은 입력 문장을 받아 분리된 형태소를 사전 내에서 검색하여·품사 정보를 얻고 이웃하는 단어와의 접속 관계가 문법적으로 올바르게 되었는지를 점검한다. 본 연구의 결과가 대화체 기계번역 시스템 구현계획의 종합적 입장에서는 단순한 기초조사일 수 있지만, 한국어의 교육 및 기계번역 이해의 측면에서는 그 자체로 가치를 지닌다고 할 수 있겠다. 따라서 교육적 측면에서의 직접적 활용을 여러 측면에서 고려할 수 있을 것이다.

  • PDF

신호의 복원된 위상 공간을 이용한 오디오 상황 인지 (A new approach technique on Speech-to-Speech Translation)

  • ;이승룡
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.239-240
    • /
    • 2009
  • We live in a flat world in which globalization fosters communication, travel, and trade among more than 150 countries and thousands of languages. To surmount the barriers among these languages, translation is required; Speech-to-Speech translation will automate the process. Thanks to recent advances in Automatic Speech Recognition (ASR), Machine Translation (MT), and Text-to-Speech (TTS), one can now utilize a system to translate a speech of source language to a speech of target language and vice versa in affordable manner. The three phase process establishes that the source speech be transcribed into a (set of) text of the source language (ASR) before the source text is translated into the target text (MT). Finally, the target speech is synthesized from the target text (TTS).

Multilingual Automatic Translation Based on UNL: A Case Study for the Vietnamese Language

  • Thuyen, Phan Thi Le;Hung, Vo Trung
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제5권2호
    • /
    • pp.77-84
    • /
    • 2016
  • In the field of natural language processing, Universal Networking Language (UNL) has been used by various researchers as an inter-lingual approach to automatic machine translation. The UNL system consists of two main components, namely, EnConverter for converting text from a source language to UNL, and DeConverter for converting from UNL to a target language. Currently, many projects are researching how to apply UNL to different languages. In this paper, we introduce the tools that are UNL's applications and discuss how to reuse them to encode a Vietnamese sentence into UNL expressions and decode UNL expressions into a Vietnamese sentence. The testing was done with about 1,000 Vietnamese sentences (a dictionary that includes 4573 entries and 3161 rules). In addition, we compare the proportion of sentences translated based on a direct method (Google Translator) and another one based on UNL.

머신 독립적인 마이크로코드 자동 생성 (A Machine Independent Automatic Microcode Generation)

  • 박병수;민경철;김의정;이상정;임인철
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1988년도 전기.전자공학 학술대회 논문집
    • /
    • pp.651-654
    • /
    • 1988
  • This paper proposes a microcode generating system which automatically generates the microcode of various target machine by inputing the intermediate language (MDIL) from the machine independent HLML-C (High Level Microprograming Language C) language. The MOP's (Microoperations) which is modeled 7-tuples generate to extend MDIL by table driven method with the information of translation table for each target machine. As compaction being considered and the hardware resource of target machine used, the conflicts of hardware elements are removed possibly. This proposed system is implemented with C language and yacc on VAX-11/750 (UNIX 4.3 BSD).

  • PDF

k-최근점 학습에 기반한 타동사-목적어 연어 사전의 최적화 (Optimization of Transitive Verb-Objective Collocation Dictionary based on k-nearest Neighbor Learning)

  • 김유섭;장병탁;김영택
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권3호
    • /
    • pp.302-313
    • /
    • 2000
  • 영한 기계번역에서 영어 문장의 동사구를 한국어로 정확하게 번역하기 위해서는 일반적으로 타동사와 목적어의 연어 관계를 이용한다. 본 논문에서는 k-최근점(k-nearest neighbor) 학습을 연어 관계에 적용하여 동사 번역을 선택하는 알고리즘을 제시하였는데 k-최근점 학습을 위해서 워드넷에서의 의미거리를 정의하여 사용하였다. 그리고 실시간 번역 시스템에 사용될 사전을 구성하기 위하여, 말뭉치로부터 타동사-목적어 쌍을 추출하여 학습예제를 구축하고, 이 예제의 크기를 번역률과 연관시켜 최적화시키는 알고리즘을 제시한다. 본 논문에서는 위의 알고리즘들을 사용하여 동사 'build'의 번역률을 약 90%로 유지하면서 사전의 크기를 최적화하였다.

  • PDF

영어 구문 분석의 효율 개선을 위한 3단계 구문 분석 (Three-Phase English Syntactic Analysis for Improving the Parsing Efficiency)

  • 김성동
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권1호
    • /
    • pp.21-28
    • /
    • 2016
  • 영어 구문 분석기는 영한 기계번역 시스템의 성능에 가장 큰 영향을 미치는 부분이다. 본 논문에서의 영어 구문 분석기는 규칙 기반 영한 기계번역 시스템의 한 부분으로서, 많은 구문 규칙을 구축하고 차트 파싱 기법으로 구문 분석을 수행한다. 구문 규칙의 수가 많기 때문에 구문 분석 과정에서 많은 구조가 생성되는데, 이로 인해 구문 분석 속도가 저하되고 많은 메모리를 필요로 하여 번역의 실용성이 떨어진다. 또한 쉼표를 포함하는 긴 문장들은 구문 분석 복잡도가 매우 높아 구문 분석 시간/공간 효율이 떨어지고 정확한 번역을 생성하기 매우 어렵다. 본 논문에서는 실제 생활에서 나타나는 긴 문장들을 효율적으로 번역하기 위해 문장 분할 방법을 적용한 3단계 구문 분석 방법을 제안한다. 구문 분석의 각 단계는 독립된 구문 규칙들을 적용하여 구문 분석을 수행함으로써 구문 분석의 복잡도를 줄이려 하였다. 이를 위해 구문 규칙을 3가지 부류로 분류하고 이를 이용한 3단계 구문 분석 알고리즘을 고안하였다. 특히 세 번째 부류의 구문 규칙은 쉼표로 구성되는 문장 구조에 대한 규칙으로 구성되는데, 이들 규칙들을 말뭉치의 분석을 통해 획득하는 방법을 제안하여 구문 분석의 적용률을 지속적으로 개선하고자 하였다. 실험을 통해 제안한 방법이 문장 분할만을 적용한 기존 2단계 구문 분석 방법에 비해 유사한 번역 품질을 유지하면서도 시간/공간 효율 면에서 우수함을 확인하였다.

딥러닝 기반 한국어 맞춤법 교정을 위한 오류 유형 분류 및 분석 (Classification and analysis of error types for deep learning-based Korean spelling correction)

  • 구선민;박찬준;소아람;임희석
    • 한국융합학회논문지
    • /
    • 제12권12호
    • /
    • pp.65-74
    • /
    • 2021
  • 최근 기계 번역 기술과 자동 노이즈 생성 방법론을 기반으로 한국어 맞춤법 교정 연구가 활발히 이루어지고 있다. 해당 방법론들은 노이즈를 생성하여 학습 셋과 데이터 셋으로 사용한다. 이는 학습에 사용된 노이즈 외의 노이즈가 테스트 셋에 포함될 가능성이 낮아 정확한 성능 측정이 어렵다는 한계점이 존재한다. 또한 실제적인 오류 유형 분류 기준이 없어 연구마다 사용하는 오류 유형이 다르므로 질적 분석에 어려움을 겪고 있다. 이를 해결하기 위해 본 논문은 딥러닝 기반 한국어 맞춤법 교정 연구를 위한 새로운 '오류 유형 분류 체계'를 제안하며 이를 바탕으로 기존 상용화 한국어 맞춤법 교정기(시스템 A, 시스템 B, 시스템 C)에 대한 오류 분석을 수행하였다. 분석결과, 세 가지 교정 시스템들이 띄어쓰기 오류 외에 본 논문에서 제시한 다른 오류 유형은 교정을 잘 수행하지 못했으며 어순 오류나 시제 오류의 경우 오류 인식을 거의 하지 못함을 알 수 있었다.

영한 기계번역에서 전치사구를 해석하는 시스템 (An Analysis System of Prepositional Phrases in English-to-Korean Machine Translation)

  • 강원석
    • 한국정보처리학회논문지
    • /
    • 제3권7호
    • /
    • pp.1792-1802
    • /
    • 1996
  • 영한 기계번역에서 전치사구의 해석 부착의 문제(Attachment Problem)와 의미 해석의 문제, 그리고 해석에 필요한 정보 획득의 문제가 있다. 이 세 가지 문제를 해결하기 위하여 본 논문은 전치사구 해석 시스템을 제시한다. 이 시스템은 규칙 제어기와 신경망의 하이브리드 구문해석 시스템, 격의미 해석 시스템, 그리고 신경망 의 입력 정보를 자동으로 생성하는 의미속성 생성기로 구성한다. 의미속성 생성기는 시스템의 입력이 되는 의미속성을 자동으로 생성하는 방법으로 인위적인 방법의 단점 을보완하여 객관성 있는 전치사구 해석을 하게 한다. 격의미 해석 시스템은 영한 기계 번역에 맞는 격의미를 찾아내어 자연스런 한국어 생성을 하게 하고 구문해석 시스템은 규칙 방법의 장점과 신경망 방법의 장점을 취한 하이브리드 방식의 시스템으로 전치사 구 부착의 문제를 해결한다.

  • PDF