• Title/Summary/Keyword: 기계 번역 시스템

Search Result 198, Processing Time 0.035 seconds

An Interrupted and Uninterrupted Compound Unit Recognizer using Regular Expression (정규표현을 이용한 연속 및 불연속 복합단위 인식기)

  • Yuh, Sang-Hwa;Seo, Jung-Yun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11a
    • /
    • pp.487-490
    • /
    • 2003
  • 기계번역 시스템에서 복합단위 처리는 원문의 분석 부담을 줄이고 조합적으로 대역문의 의미를 생성하지 못하는 원문의 처리를 위해 필수적이다. 본 논문에서는 정규표현(Regular Expression)을 이용하여 영어의 연속(Non-Interrupted) 및 불연속(Interrupted) 복합 단위를 인식하는 복합단위 인식기를 제안한다. 제안된 방법은, 기존에 trie 와 같은 index 의 갱신 과정이 불필요하므로, 다수의 작업자에 의해 복합단위 사전을 동시에 구축하는 경우에, 한 작업자의 결과가 실시간으로 다른 작업자의 작업에 반영되는 장점이 있으며, 복합단위 인식에 있어 정규 표현을 이용함으로써 복합단위 인식기의 성능을 선언적으로 향상시킬 수 있다. 번역 실행시의 고속 탐색을 위해서는 전체 복합단위로부터 FSA(finite State Automata) 를 자동으로 구축하여 빠른 속도로 인식 가능하도록 하였다.

  • PDF

Corpus-Based Ontology Learning for Semantic Analysis (의미 분석을 위한 말뭉치 기반의 온톨로지 학습)

  • 강신재
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.9 no.1
    • /
    • pp.17-23
    • /
    • 2004
  • This paper proposes to determine word senses in Korean language processing by corpus-based ontology learning. Our approach is a hybrid method. First, we apply the previously-secured dictionary information to select the correct senses of some ambiguous words with high precision, and then use the ontology to disambiguate the remaining ambiguous words. The mutual information between concepts in the ontology was calculated before using the ontology as knowledge for disambiguating word senses. If mutual information is regarded as a weight between ontology concepts, the ontology can be treated as a graph with weighted edges, and then we locate the least weighted path from one concept to the other concept. In our practical machine translation system, our word sense disambiguation method achieved a 9% improvement over methods which do not use ontology for Korean translation.

  • PDF

An Automatic Extraction of English-Korean Bilingual Terms by Using Word-level Presumptive Alignment (단어 단위의 추정 정렬을 통한 영-한 대역어의 자동 추출)

  • Lee, Kong Joo
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.2 no.6
    • /
    • pp.433-442
    • /
    • 2013
  • A set of bilingual terms is one of the most important factors in building language-related applications such as a machine translation system and a cross-lingual information system. In this paper, we introduce a new approach that automatically extracts candidates of English-Korean bilingual terms by using a bilingual parallel corpus and a basic English-Korean lexicon. This approach can be useful even though the size of the parallel corpus is small. A sentence alignment is achieved first for the document-level parallel corpus. We can align words between a pair of aligned sentences by referencing a basic bilingual lexicon. For unaligned words between a pair of aligned sentences, several assumptions are applied in order to align bilingual term candidates of two languages. A location of a sentence, a relation between words, and linguistic information between two languages are examples of the assumptions. An experimental result shows approximately 71.7% accuracy for the English-Korean bilingual term candidates which are automatically extracted from 1,000 bilingual parallel corpus.

Selection of Postpositions and Translated Words by Sentence Pattern in the English-Korean Machine Translation (영-한 기계번역에서 문형에 의한 조사 및 대역어 선택)

  • Park, Y.J.;Kim, N.S.;Lee, J.S.;Lee, Y.S.
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.105-109
    • /
    • 1999
  • 영-한 기계번역 중 변환 단계에서 한국어 문장을 생성하기 위해서는 구구조 변환 후 조사 및 대역어 선택으로 이루어진다. 그러나 하나의 영어 단어는 여러 개의 한국어 의미들을 가지고 있기 때문에 문장에서 사용된 영어의 정확한 의미에 해당하는 한국어 대역어를 선택하는 것은 번역의 질을 높이고 시스템의 성능에 매우 중요한 역할을 한다. 특히 용언 및 체언의 대역어 선택은 문장에서 서로 간의 의미적인 관계를 고려하여야 올바른 대역어를 선택할 수 있다. 기존에는 전자 사전에 용언과 체언간의 연어 정보(collocation information)를 구축하여 대역어 선택의 문제를 해결하려고 하였으나 연어 정보가 사전에 존재하지 않을 때 올바른 대역어를 선택할 수 없었다. 또한 용언과 체언의 관계를 나타내는 조사를 선택하기 위하여 격(case)을 세분화하여 사전을 구축하였으나 격의 분류 및 사전을 구축할 경우 격을 선택하는 어려움이 있었다. 이에 따라 본 논문에서는 문형(sentence pattern)에 의한 방법으로 용언의 대역어 및 용언이 갖는 필수격 체언의 조사와 대역어 선택방법을 제안한다. 문형의 구조적인 정보에는 용언과 체언의 의미적 역할(thematic role)을 하는 조사 및 용언이 갖는 필수격 체언의 의미 자질(semantic feature)을 갖고 있다. 이러한 의미 자질을 wordnet과 한/영 및 영/한 사전을 이용하여 의미 지표(semantic marker)를 갖는 문형 사전을 구축한다. 또한 의미 지표를 갖는 문형 사전을 기반으로 조사 및 대역어 선택 알고리즘을 개발한다.

  • PDF

Application portable Part-Of-Speech tagger mapping (응용을 위한 폼사 태깅 시스템의 매핑)

  • 김준석;차정원;이근배
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.368-375
    • /
    • 2000
  • 품사 태깅 시스템은 자연 언어 처리의 가장 기본이 되는 부분으로 상위 자연 언어 처리 분야인 구문분석, 의미분석의 전처리로 사용되거나, 기계번역, 정보검색이나 음성인식 및 합성등과 같은 많은 응용 시스템을 위해서도 필요하다. 이렇게 여러 가지 목적을 위해 품사 태깅 시스템은 존재하는데, 각각의 응용을 위해서 최적화된 태깅 시스템을 따로 구성하기도 하고, 하나의 태깅 시스템을 여러 가지 응용을 위해서 사용하기도 한다. 이때, 문제가 되는 것 중에 하나는 각 응용마다 요구하는 품사 태그 세트가 다르다는 것이다. 품사 태그세트가 고정되어 있다면 어떤 응용을 위해서는 사용되는 품사 태그세트가 너무 적어서 문제가 되고, 반대로 품사태그세트가 너무 많아서 시스템의 수행속도가 중요시되는 응용에서 성능저하의 요인이 되기도 한다. 본 논문에서는 하나의 태깅 시스템의 품사태그세트를 조절할 수 있도록 하여 몇 가지 응용시스템에 맞게 최적화 시킬 수 있는 방법론을 제시하고 실험을 통해서 시스템의 성능, 유지보수 및 시스템의 여러 리소스 관리 측면에서도 가장 효율적인 방법론임을 입증하고자 한다.

  • PDF

A Reverse Segmentation Algorithm of Compound Nouns (복합명사의 역방향 분해 알고리즘)

  • 이현민;박혁로
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.56-59
    • /
    • 2000
  • 한국어에서 복합명사는 명사간 결합이 자유롭고, 단위명사로 띄어쓰는 것을 원칙으로 하나 붙여써도 무방하다. 따라서, 정보검색분야, 기계번역분야에서 복합명사의 정확한 분해는 시스템의 성능에 많은 영향을 미치게 된다. 본 논문에서는 ETRI의 태깅된 코퍼스로부터 추출한 복합명사를 역방향 분해 알고리즘을 이용하여 단위명사로 분해한다. 분해되지 않은 3119개의 복합명사에 대해 실험한 결과 약 96.6%의 정확도를 얻었다. 또한, 미등록이나 접사에 대한 처리에도 비교적 정확한 결과를 얻을 수 있었다.

  • PDF

The Construction of a German-Korean Machine Translation System for Nominal Phrases (독-한 명사구 기계번역시스템의 구축)

  • Lee, Minhaeng;Choi, Sung-Kwon;Choi, Kyung-Eun
    • Language and Information
    • /
    • v.2 no.1
    • /
    • pp.79-105
    • /
    • 1998
  • This paper aims to describe a German-Korean machine translation system for nominal phrases. Besides, we have two subgoals. First, we are going to revea linguistic differences between two languages and propose a language-informational method fo overcome the differences. The method is based on an integrated model of translation knowledge, efficient information structure, and concordance selection. Then, we will show the statistical results about translation experiment and its evaluation as an evidence for the adequacy of our linguistic method and translation system itself.

  • PDF

A Study on the Generation of Semantic Structure of Korean using Sentence Pattern Information based on Predicates (술어 기반 문형 정보를 이용한 한국어의 의미 구조 생성에 관한 연구)

  • Park, In-Cheol;Bae, Woo-Jeong;An, Dong-Un;Lee, Yong-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.43-49
    • /
    • 1995
  • 대부분 자연 언어 이해 시스템이나 중간 언어 방식을 이용한 기계 번역 시스템에서 자연 언어 문장을 이해하고 번역하기 위해서는 대량의 지식을 이용한 의미 구조의 생성이 요구된다. 따라서 개념 그래프를 이용하여 한국어 문장의 내부 의미 구조를 생성하기 위해서는 각 단어에 해당하는 개념과 개념들 사이의 개념적 관계를 나타내는 지식들이 요구된다. 그러나 이를 위한 의미 구조 생성 방법과 요구되는 지식 베이스를 정확하게 구축하는 것은 어렵고 응용 도메인에 종속한다는 문제가 있다. 본 논문에서 우리는 문형 이론을 도입하여 문형을 중심으로 의미 구조 생성을 위한 변환 규칙을 설계하고 이를 이용하여 방대한 지식 베이스의 구축없이 의미 구조를 생성할 수 있는 방법에 논의한다. 또한 본 논문에서 문형을 이용하면 몇 가지 모호성 문제를 해결할 수 있음을 보이고 문형의 한계에 대해서도 살펴본다.

  • PDF

OK-KGD:Open-domain Korean Knowledge Grounded Dialogue Dataset (OK-KGD:오픈 도메인 한국어 지식 기반 대화 데이터셋 구축)

  • Seona Moon;San Kim;Jinyea Jang;Minyoung Jeung;Saim Shin
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.342-345
    • /
    • 2023
  • 최근 자연어처리 연구 중 오픈 도메인 지식 기반 대화는 많은 관심을 받고 있다. 연구를 위해서는 오픈 도메인 환경을 갖추고 적절한 지식을 사용한 대화 데이터셋이 필요하다. 지금까지 오픈 도메인 환경을 갖춘 한국어 지식 기반 대화 데이터셋은 존재하지 않아 한국어가 아닌 데이터셋을 한국어로 기계번역하여 연구에 사용하였다. 이를 사용할 경우 두 가지 단점이 존재한다. 먼저 사용된 지식이 한국 문화에 익숙하지 않아 한국인이 쉽게 알 수 없는 대화 내용이 담겨있다. 그리고 번역체가 남아있어 대화가 자연스럽지 않다. 그래서 본 논문에서는 자연스러운 대화체와 대화 내용을 담기 위해 새로운 오픈 도메인 한국어 지식 기반 대화 데이터셋을 구축하였다. 오픈 도메인 환경 구축을 위해 위키백과와 나무위키의 지식을 사용하였고 사용자와 시스템의 발화로 이루어진 1,773개의 대화 세트를 구축하였다. 시스템 발화는 크게 지식을 사용한 발화, 사용자 질문에 대한 답을 주지 못한 발화, 그리고 지식이 포함되지 않은 발화 3가지로 구성된다. 이렇게 구축한 데이터셋을 통해 KE-T5와 Long-KE-T5를 사용하여 간단한 실험을 진행하였다.

  • PDF

Construction Entrepreneur Area - case through the ontology system (창업사례를 통한 온톨로지 시스템 구축)

  • Choi, Myeong-Gil;Jeon, Min-Jun
    • Proceedings of the KAIS Fall Conference
    • /
    • 2010.11b
    • /
    • pp.976-979
    • /
    • 2010
  • 온톨로지(Ontology)란 사람들이 세상에 대하여 보고 듣고 느끼고 생각하는 것에 대하여 서로 간의 토론을 통하여 합의를 이룬 바를 개념적이고 컴퓨터에서 다룰 수 있는 형태로 표현한 모델로, 개념의 타입이나 사용상의 제약조건들을 명시적으로 정의한 기술이다. 온톨로지는 일단 합의된 지식을 나타내므로 어느 개인에게 국한되는 것이 아니라 그룹 구성원이 모두 동의하는 개념이다. 그리고 프로그램이 이해할 수 있어야 하므로 여러 가지 정형화가 존재한다. 온톨로지는 자연어의 기계 번역과 인공지능 분야에서 활용되며, 최근에는 특정 분야의 인터넷 자원과 그 사이의 관계를 기술하는 온톨로지를 사용하는 시맨틱 웹과 이것에서 파생된 시맨틱 웹 서비스 등의 핵심 요소로서 주목받고 있다. 이 논문은 본 연구에서는 창업 시스템 사례를 통한 온톨로지 개발 및 구축을 제안한다. 온톨로지를 이용한 창업 시스템의 개발은 창업 영역에서 서비스 시스템 구현의 토대가 될 것이다.

  • PDF