• Title/Summary/Keyword: 기계 번역 시스템

Search Result 198, Processing Time 0.023 seconds

Study on the development of automatic translation service system for Korean astronomical classics by artificial intelligence - Focused on development results and test operation (천문 고문헌 특화 인공지능 자동번역 서비스 시스템 개발 연구 - 개발 결과 및 시험 운영 위주)

  • Seo, Yoon Kyung;Kim, Sang Hyuk;Ahn, Young Sook;Choi, Go-Eun;Choi, Young Sil;Baik, Hangi;Sun, Bo Min;Kim, Hyun Jin;Choi, Byung Sook;Lee, Sahng Woon;Park, Raejin
    • The Bulletin of The Korean Astronomical Society
    • /
    • v.45 no.1
    • /
    • pp.56.1-56.1
    • /
    • 2020
  • 한국의 고문헌 중에는 다양한 고천문 기록들이 한문 형태로 존재하며, 이를 학술적으로 활용하기 위해서는 전문 번역가 투입에 따른 많은 비용과 시간이 요구된다. 이에 인공신경망 기계학습에 의한 인공지능 번역기를 개발하여 비록 초벌 번역 수준일지라도 문장 형태의 한문을 한글로 자동번역해 주는 학술 도구를 소개하고자 한다. 이 자동번역기는 한국천문연구원이 한국정보화진흥원이 주관하는 2019년도 Information and Communication Technology 기반 공공서비스 촉진사업에 한국고전번역원과 공동 참여하여 개발 완료한 것이다. 이 연구는 고천문 도메인에 특화된 인공지능 기계학습용 데이터인 천문 고전 코퍼스를 구축하여 이를 기반으로 천문 고전 특화 자동번역 모델을 개발하고 번역 서비스하는 것을 목적으로 한다. 이를 위해 구축되는 시스템은 크게 세 가지이다. 첫째, 로그인이 필요 없이 누구나 웹 접속을 통해 사용이 가능한 클라우드 기반의 고문헌 자동번역 대국민서비스 시스템이다. 둘째, 참여 기관별로 구축된 코퍼스와 도메인 특화된 번역 모델의 생성 및 관리할 수 있는 클라우드 기반의 대기관 서비스 플랫폼 구축이다. 셋째, 개발된 자동번역 Applied Programmable Interface를 활용한 한국천문연구원 내 자체 서비스가 가능한 AITHA 시스템이다. 연구 결과로서 먼저 구축된 천문 고전 코퍼스 60,760건에 대한 샘플링 검수 결과는 품질 순도 99.9% 이상이다. 아울러 도출된 천문 고전 특화 번역 모델 총 20개 중 대표 모델에 대한 성능 평가 결과는 기계 번역 텍스트 품질 평가 알고리즘인 Bilingual Evaluation Understudy 평가에서 40.02점이며, 전문가에 의한 휴먼 평가에서 5.0 만점 중 4.05점이다. 이는 당초 연구 목표로 삼았던 초벌 번역 수준에 충분하며, 현재 개발된 시스템들은 자체 시험 운영 중이다. 이 연구는 특수 고문헌에 해당되는 고천문 기록들의 번역 장벽을 낮춰 관련 연구자들의 학술적 접근 및 다양한 연구에 도움을 줄 수 있다는 점에서 의의가 있다. 또한 고천문 분야가 인공지능 자동번역 확산 플랫폼 시범의 첫 케이스로써 추후 타 학문 분야 참여 시 시너지 효과도 기대해 볼 수 있다. 고문헌 자동번역기는 점차 더 많은 학습 데이터와 학습량이 쌓일수록 더 좋은 학술 도구로 진화할 것이다.

  • PDF

Korean-English Sentence Alignment using Length and Similarity Information (길이 정보와 유사도 정보를 이용한 한영 문장 정렬)

  • Hong, Jeen-Pyo;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.130-135
    • /
    • 2010
  • 문장 정렬은 두 개의 문서 간의 대응이 되는 문장을 찾는 작업이다. 이 방법은 통계적 기계 번역의 학습 문서인 병렬 말뭉치를 자동으로 구축하는데 필수적인 방법이다. 본 연구에서는 길이 정보에 추가적으로 유사도 정보를 반영하는 한영 문장 정렬 방법을 제안한다. 먼저 한국어로 된 문서를 기계번역 시스템에 적용하여 영어 문서로 변환한다. 그리고 번역된 영어로 된 문서 결과와 영어로 된 대상 문서 간의 정렬 작업을 수행한다. 정렬 완료된 결과와 원시 문서, 대상 문서로부터 최종적인 결과를 생성해낸다. 본 논문에서는 기계 번역을 이용하는 방법과 더불어 기존의 길이 기반 문장 정렬 프로그램에 문장 유사도 정보를 추가하여 단어 정렬의 성능 향상을 꾀하였다. 그 결과 "21세기 세종기획"의 최종 배포본 내에 포함된 한영 병렬 말뭉치에 대해 한영 문장 정렬 F-1 자질의 결과가 89.39%를 보였다. 이 수치는 기존의 길이 기반의 단어 정렬의 성능 평가 결과와 비교했을 때 약 8.5% 가량 성능이 향상되었다.

  • PDF

Parallel Corpus Filtering and Korean-Optimized Subword Tokenization for Machine Translation (병렬 코퍼스 필터링과 한국어에 최적화된 서브 워드 분절 기법을 이용한 기계번역)

  • Park, Chanjun;kim, Gyeongmin;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.221-224
    • /
    • 2019
  • 딥러닝을 이용한 Neural Machine Translation(NMT)의 등장으로 기계번역 분야에서 기존의 규칙 기반,통계기반 방식을 압도하는 좋은 성능을 보이고 있다. 본 논문은 기계번역 모델도 중요하지만 무엇보다 중요한 것은 고품질의 학습데이터를 구성하는 일과 전처리라고 판단하여 이에 관련된 다양한 실험을 진행하였다. 인공신경망 기계번역 시스템의 학습데이터 즉 병렬 코퍼스를 구축할 때 양질의 데이터를 확보하는 것이 무엇보다 중요하다. 그러나 양질의 데이터를 구하는 일은 저작권 확보의 문제, 병렬 말뭉치 구축의 어려움, 노이즈 등을 이유로 쉽지 않은 상황이다. 본 논문은 고품질의 학습데이터를 구축하기 위하여 병렬 코퍼스 필터링 기법을 제시한다. 병렬 코퍼스 필터링이란 정제와 다르게 학습 데이터에 부합하지 않다고 판단되며 소스, 타겟 쌍을 함께 삭제 시켜 버린다. 또한 기계번역에서 무엇보다 중요한 단계는 바로 Subword Tokenization 단계이다. 본 논문은 다양한 실험을 통하여 한-영 기계번역에서 가장 높은 성능을 보이는 Subword Tokenization 방법론을 제시한다. 오픈 된 한-영 병렬 말뭉치로 실험을 진행한 결과 병렬 코퍼스 필터링을 진행한 데이터로 만든 모델이 더 좋은 BLEU 점수를 보였으며 본 논문에서 제안하는 형태소 분석 단위 분리를 진행 후 Unigram이 반영된 SentencePiece 모델로 Subword Tokenization를 진행 하였을 시 가장 좋은 성능을 보였다.

  • PDF

Design of an Automatic Speech translation system on the Telephone Line (전화망을 통한 자동음성번역 서비스 시스템 설계)

  • Lee Sung-Joo;Lee Yunggik;Yang Jea-Woo
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.57-60
    • /
    • 2002
  • 본 논문에서는 현재 ETRI에서 개발 중인 유/무선 전화망을 통한 다국어간 대화체 음성번역서비스 시스템에 대해서 소개한다. 전화망을 통한 자동음성번역서비스 시스템은 여행대화영역을 서비스 대상영역으로 하고 있고 자동음성번역서비스를 필요로 하는 사용자들은 동일한 장소에서 대면하고 있으며 서로 다른 언어를 사용하기 때문에 서로 의사 소통에 어려움을 겪고 있다고 가정한다. 따라서 여기서 말하는 자동음성번역 시스템의 특징은 인간과 기계간의 인터페이스를 그 대상으로 하는 것이 아니라 인간과 인간사이의 인터페이스를 그 대상으로 하고 있다는 정이다. 인간과 인간사이의 인터페이스 상황에서는 인간의 이해력이 시스템 오류를 정정할 수 있는 여지를 지니고 있다. 따라서 시스템이 사용자의 말하는 의도 혹은 개념만 잘 전달할 수 있다면 서로 다른 언어를 사용하는 사용자들 사이에서도 이러한 시스템을 통한 의사소통이 가능하다. 자동음성번역서비스 시스템은 크게 음성인식모듈 문장해석 및 번역 모듈, 음성합성모듈, 시스템통합 모듈 그리고 전화망 인터페이스 모듈로 나뉜다. 여기서는 자동음성번역 서비스 시스템의 각 모듈들의 주요 특징과 상호 인터페이스 방법에 대해서 소개한다.

  • PDF

Development of an MT System on Distributed Environment : about lexicon construction and test environment (분산 환경에서의 번역 시스템의 개발 : 사전 구축과 테스트 환경을 중심으로)

  • Lee, Hyun-Ah;Jang, Byung-Gyu;Kang, In-Ho;Lee, Shin-Mok;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.344-349
    • /
    • 2000
  • 본 논문에서는 영한 기계번역 시스템 ALKOL의 개발 과정에서 사용된 분산 환경을 사전구축과 테스트 환경을 중심으로 설명한다. 번역 시스템 개발은 시스템 개발자, 사전 개발자, 검사자(tester)의 세 요소를 중심으로 이루어지는 작업으로, 효율적인 개발을 위해서는 개별 요소의 작업이 독립적으로 진행되면서 유기적으로 연결될 수 있는 환경이 마련되어야 한다. ALKOL에서는 이를 위하여 번역 시스템을 번역 서버, 사전 서버, 사전 편집기, 사용자 인터페이스의 클라이언트/서버 분산 환경으로 구성하고 검사자를 위한 테스트 환경을 제공하여 효율적인 번역 시스템 개발 환경을 구축한다. 번역 시스템을 분산 환경에서 개발하여 시스템 개발자, 사전 개발자, 검사자가 각자의 작업을 병렬적으로 진행할 수 있고 실시간으로 갱신되는 시스템과 사전 정보를 이용하여 작업을 진행할 수 있어 번역 시스템 개발의 효율성을 높일 수 있다.

  • PDF

Recent Automatic Post Editing Research (최신 기계번역 사후 교정 연구)

  • Moon, Hyeonseok;Park, Chanjun;Eo, Sugyeong;Seo, Jaehyung;Lim, Heuiseok
    • Journal of Digital Convergence
    • /
    • v.19 no.7
    • /
    • pp.199-208
    • /
    • 2021
  • Automatic Post Editing(APE) is the study that automatically correcting errors included in the machine translated sentences. The goal of APE task is to generate error correcting models that improve translation quality, regardless of the translation system. For training these models, source sentence, machine translation, and post edit, which is manually edited by human translator, are utilized. Especially in the recent APE research, multilingual pretrained language models are being adopted, prior to the training by APE data. This study deals with multilingual pretrained language models adopted to the latest APE researches, and the specific application method for each APE study. Furthermore, based on the current research trend, we propose future research directions utilizing translation model or mBART model.

Machine Translation of Korean-to-English spoken language Based on Semantic Patterns (의미패턴에 기반한 대화체 한영 기계 번역)

  • Jung, Cheon-Young;Seo, Young-Hoon
    • The Transactions of the Korea Information Processing Society
    • /
    • v.5 no.9
    • /
    • pp.2361-2368
    • /
    • 1998
  • This paper analyzes Korean spoken language and describes the machine translation o[ Korean to-English spoken language based on semantic patterns, In Korean-to-English machine translation. ambiguity of Korean sentence analysis using syntactic information can be resolved by semantic patterns, Therefore, for machine translation of spoken language, we estabilish the system based on semantic patterns extracted from Korean scheduling domain, This system obtains the robustness by skip ability of syllables in analysis of Korean sentence and we add options to semantic patterns in order to reduce pattern numbers, The data used [or the experiment are scheduling domain and performance of Korean-to-English translation is 88%.

  • PDF

Linguistic Modeling for Target Word Selection of Korean Adverbial Postpositions in a Multilingual MT-System (다국어 기계번역시스템에서 부사격 조사의 올바른 대역어 선정을 위한 언어학적 모델링)

  • Hong, Mun-Pyo;Choi, Sung-Kwon
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.310-316
    • /
    • 2001
  • 이 논문은 '에서', '으로'와 같은 한국어의 부사격 조사들을 다국어 기계번역 시스템에서 다룰 때 올바른 역어 선택을 위한 3단계 변환 방식과 이를 위한 부사격 조사의 언어학적 모델링 방법을 제시한다. 3단계 변환 방식은 부사격 조사의 의미 모호성 해소, 의사 중간언어표상 (Quasi-Interlingua Representation)으로의 변환, 전치사 선택의 3단계로 구성되어 있다. 본 논문에서 중점적으로 다루게 될 세번째 단계, 즉 영어나 독일어에서 한국어의 부사격 조사에 대한 전치사 선택의 단계에서 올바른 대역어 선정 방법론의 핵심이 되는 부사격 조사에 대한 언어학적 모델링을 위해 Pustejovsky (1995)의 생성 어휘부 이론 (Generative Lexicon Theory)을 도입한다. 이 논문에서 제시한 방법론은 그 타당성의 수학적 검증을 위해 통합기반 기계번역 시스템인 CAT2에서 구현되었으나, 방법론 자체는 특정 시스템에 제한됨 없이 범용적으로 적용될 수 있을 것이다.

  • PDF

Research about SMT Performance Improvement Through Automatic Corpus Expansion (말뭉치 자동 확장을 통한 SMT 성능 향상에 대한 연구)

  • Choi, Gyu-Hyun;Shin, Jong-Hun;Kim, Young-Kil
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.296-299
    • /
    • 2016
  • 현재 자동번역에는 통계적 방법에 속하는 통계기반 자동번역 시스템(SMT)이 많이 사용되고 있지만, 학습 데이터로 사용되는 대용량의 병렬 말뭉치를 수동으로 구축하는데 어려움이 있다. 본 연구의 목적은 통계기반 자동번역의 성능을 향상시키기 위해 기존 다른 언어쌍의 말뭉치와 SMT 자동번역 기술을 이용하여 대상이 되는 언어쌍의 SMT 병렬 말뭉치를 자동으로 확장하는 방법을 제안한다. 제안 방법은 서로 다른언어 B와 C의 병렬 말뭉치를 얻기 위해, A와 B의 SMT 자동번역 시스템을 구축하고 기존의 A-C 말뭉치의 A를 SMT를 통해 B로 번역하여 B와 C의 말뭉치를 자동으로 확장한다. 실험을 통해 확장한 병렬 말뭉치가 통계기반 자동번역 시스템의 성능을 향상시킬 수 있음을 확인한다.

  • PDF

Research about SMT Performance Improvement Through Automatic Corpus Expansion (말뭉치 자동 확장을 통한 SMT 성능 향상에 대한 연구)

  • Choi, Gyu-Hyun;Shin, Jong-Hun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.296-299
    • /
    • 2016
  • 현재 자동번역에는 통계적 방법에 속하는 통계기반 자동번역 시스템(SMT)이 많이 사용되고 있지만, 학습 데이터로 사용되는 대용량의 병렬 말뭉치를 수동으로 구축하는데 어려움이 있다. 본 연구의 목적은 통계기반 자동번역의 성능을 향상시키기 위해 기존 다른 언어쌍의 말뭉치와 SMT 자동번역 기술을 이용하여 대상이 되는 언어쌍의 SMT 병렬 말뭉치를 자동으로 확장하는 방법을 제안한다. 제안 방법은 서로 다른 언어 B와 C의 병렬 말뭉치를 얻기 위해, A와 B의 SMT 자동번역 시스템을 구축하고 기존의 A-C 말뭉치의 A를 SMT를 통해 B로 번역하여 B와 C의 말뭉치를 자동으로 확장한다. 실험을 통해 확장한 병렬 말뭉치가 통계기반 자동번역 시스템의 성능을 향상시킬 수 있음을 확인한다.

  • PDF