• 제목/요약/키워드: Word translation

검색결과 146건 처리시간 0.023초

영한기계번역에서 계층적 한국어 어순 생성 (A Hierarchical Korean Word-order Generation in English-Korean Machine Translation)

  • 서진원;이신원;정성종;안동언
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.303-308
    • /
    • 2000
  • 본 논문에서는 영한기계번역 시스템에서 한국어 문장을 생성할 때 올바른 한국어 어순 규칙을 제안한다. 한국어 생성은 영한기계번역의 최종 단계로서 이전단계에서 얻어진 정보를 가지고 목적 언어인 한국어 문장을 만드는 곳이다. 본 논문에서 제안하는 계층적 어순 생성 규칙은 한국어 의존구조를 기본으로 하며 규칙 적용은 4가지 함수를 단계적으로 적용시킨다. 인터넷의 발달은 언어 장벽이라는 새로운 문제를 부각시켰으며 이를 위해서 기계번역은 활발히 연구가 진행되고 있는 분야이다. 한국어 문장에 대한 올바른 어순 생성 규칙은 번역 결과의 품질을 증가시키며, 기계 번역뿐만 아니라 한국어 생성을 필요로 하는 모든 시스템에 적용할 수 있다.

  • PDF

딥 러닝을 이용한 음성인식 오류 판별 방법 (Speech Recognition Error Detection Using Deep Learning)

  • 김현호;윤승;김상훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.157-162
    • /
    • 2015
  • 자동통역(Speech-to-speech translation)의 최우선 단계인 음성인식과정에서 발생한 오류문장은 대부분 비문법적 구조를 갖거나 의미를 이해할 수 없는 문장들이다. 이러한 문장으로 자동번역을 할 경우 심각한 통역오류가 발생하게 되어 이에 대한 개선이 반드시 필요한 상황이다. 이에 본 논문에서는 음성인식 오류문장이 정상적인 인식문장에 비해 비문법적이거나 무의미하다는 특징을 이용하여 DNN(Deep Neural Network) 기반 음성인식오류 판별기를 구현하였으며 84.20%의 오류문장 분류성능결과를 얻었다.

  • PDF

조어법 정보를 이용한 전문용어의 영/한 번역 시스템 개발 (English/korean Terminology Translation System Using Word Formation)

  • 서충원;배선미;최기선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.937-939
    • /
    • 2004
  • 전문용어 조어법 분석은 기존의 전문용어들의 어휘의 구성과 구조를 파악하여 전문용어 생성의 원리를 밝혀 여러 응용시스템에 이용하기 위한 기초 작업에다. 조어법 정보를 이용한 전문용어 번역 시스템은 조어법 분석 결과의 조어단위 정렬과 색인을 통하여, 새로운 영어 용어에 대한 한국어 대역이 후보 집합을 생성한다. 생성된 후보들은 언어 모델의 정보량의 차이를 이용한 가중치에 의하여 순서화된다. 본 논문에서 제안하는 가중치 방법을 이용하여 조어법 분석 결과에 포함되지 않은 용어들을 대상으로 성능을 평가했을 때, 영-한 조어단위 번역의 n-best 정확률에서 1순위 정확률은 약 61%, 10순위 정확률은 97%의 성능을 보였다.

  • PDF

한국어 어휘의미망을 이용한 자동 수화 번역 시스템의 개발 (Development of Automatic Sign Language Translation System using Korean WordNet)

  • 김민호;최성기;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1358-1361
    • /
    • 2013
  • 한국어와 한국 수화 간 자동 번역을 위해서는 한국어-한국 수화 대역어 사전이 필요하지만, 현재 한국 수화 사전으로 가장 공신력 있는 한국 수화 사전은 등재 어휘 수가 약 12,000개에 불과하다. 이 때문에 한국어를 한국 수화로 자동 번역을 할 때 대치어가 없어 완벽하게 번역이 되지 않는다. 본 연구에서는 한국 수화 사전의 미등재어로 말미암은 번역률 저하를 최소화하고자 한국어 어휘의미망의 동의어와 상 하위어 정보를 이용한다. 또한, 자동 번역에서 빈번하게 발생하는 어의 중의성 문제도 한국어 어휘의미망의 정보를 이용하여 어의 중의성 해소 규칙을 일반화한다.

영한 및 한영 통계기반 기계번역에서의 이중언어 간 어순처리 및 단어정렬 최적화 방안 연구 (The study of Method for Optimization of Phrase Ordering Process and Word Alignment between Parallel Languages in Korean-English Statistic Based Machine Translation)

  • 정상원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.293-296
    • /
    • 2013
  • 통계기반 기계번역 시스템 (SBMT system)은 기계번역시스템 중에서 최근 활발히 연구되고 있는 분야이다. 통계기반 기계번역은 대용량의 말뭉치를 사용할 수 있어 특정 언어 쌍에 제한을 덜 받아 모델을 자동으로 학습할 수 있으며 다른 언어에 일반화하여 적용이 가능하다는 장점이 있다. 그러나 영어와 한국어 간 통계기반 기계번역에 있어서는 어순의 차이로 인한 문제를 해결할 필요성이 여전히 남아 있다. 이에 본 연구에서는 영어와 한국어 간 이중언어 말뭉치를 구축하고 통계기반 기계번역 훈련 시스템인 Moses 에 기반하여 구현한 베이스 시스템을 이용하여 이중언어 간 어순처리 및 단어정렬의 최적화 방안을 연구하였다.

A Study on the Performance Analysis of Entity Name Recognition Techniques Using Korean Patent Literature

  • Gim, Jangwon
    • 한국정보기술학회 영문논문지
    • /
    • 제10권2호
    • /
    • pp.139-151
    • /
    • 2020
  • Entity name recognition is a part of information extraction that extracts entity names from documents and classifies the types of extracted entity names. Entity name recognition technologies are widely used in natural language processing, such as information retrieval, machine translation, and query response systems. Various deep learning-based models exist to improve entity name recognition performance, but studies that compared and analyzed these models on Korean data are insufficient. In this paper, we compare and analyze the performance of CRF, LSTM-CRF, BiLSTM-CRF, and BERT, which are actively used to identify entity names using Korean data. Also, we compare and evaluate whether embedding models, which are variously used in recent natural language processing tasks, can affect the entity name recognition model's performance improvement. As a result of experiments on patent data and Korean corpus, it was confirmed that the BiLSTM-CRF using FastText method showed the highest performance.

후기 한국어-영어 이중언어자의 의미체계 (The Semantic System in Late Korean-English Bilinguals)

  • 정우림;김민정;이승복
    • 인지과학
    • /
    • 제19권2호
    • /
    • pp.177-203
    • /
    • 2008
  • 본 연구는 후기 한국어(L1)-영어(L2) 이중언어자들에게서 두 언어에 따른 의미체계의 구조를 비교해 보려는 목적으로 수행되었다. 단어의 의미표상이라는 가장 기본적인 지식의 구조가 이중언어자의 두 언어에서 어떠한 양태로 나타날 것인지를 비교해 보고자, 자연범주 또는 인공범주에 속하는 기본수준의 단어를 보고 난 뒤 제시되는 그림을 보고 그 단어로 표상되는 의미인지를 판단하는 단어-그림 일치여부 판단과제를 실시하였다. 실험 1과 실험 2에서 단어-그림의 제시간격(SOA)을 각각 650ms, 250ms 로 하여, 과제를 수행할 때 번역전략의 사용여부를 확인하였다. 실험 결과 번역의 효과는 나타나지 않았다. 두 실험 모두에서 한국어로 단어가 제시되었을 때가 영어로 제시되었을 때보다 판단시간이 빨랐으며, 한국어에서는 자연범주를 판단하는 것이 인공범주를 판단하는 것보다 오래 걸렸지만, 영어에서는 범주에 따른 차이가 나타나지 않았다. 이 결과는 후기 이중언어자에게서 한국어(L1)의 의미구조는 체계적으로 구조화되어 있는 반면, 영어(L2)의 의미구조는 아직 충분히 발달하지 못한 미분화된 체계일 가능성을 시사한다.

  • PDF

The Parallel Corpus Approach to Building the Syntactic Tree Transfer Set in the English-to- Vietnamese Machine Translation

  • Dien Dinh;Ngan Thuy;Quang Xuan;Nam Chi
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 ICEIC The International Conference on Electronics Informations and Communications
    • /
    • pp.382-386
    • /
    • 2004
  • Recently, with the machine learning trend, most of the machine translation systems on over the world use two syntax tree sets of two relevant languages to learn syntactic tree transfer rules. However, for the English-Vietnamese language pair, this approach is impossible because until now we have not had a Vietnamese syntactic tree set which is correspondent to English one. Building of a very large correspondent Vietnamese syntactic tree set (thousands of trees) requires so much work and take the investment of specialists in linguistics. To take advantage from our available English-Vietnamese Corpus (EVC) which was tagged in word alignment, we choose the SITG (Stochastic Inversion Transduction Grammar) model to construct English- Vietnamese syntactic tree sets automatically. This model is used to parse two languages at the same time and then carry out the syntactic tree transfer. This English-Vietnamese bilingual syntactic tree set is the basic training data to carry out transferring automatically from English syntactic trees to Vietnamese ones by machine learning models. We tested the syntax analysis by comparing over 10,000 sentences in the amount of 500,000 sentences of our English-Vietnamese bilingual corpus and first stage got encouraging result $(analyzed\;about\;80\%)[5].$ We have made use the TBL algorithm (Transformation Based Learning) to carry out automatic transformations from English syntactic trees to Vietnamese ones based on that parallel syntactic tree transfer set[6].

  • PDF

단어 단위의 추정 정렬을 통한 영-한 대역어의 자동 추출 (An Automatic Extraction of English-Korean Bilingual Terms by Using Word-level Presumptive Alignment)

  • 이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권6호
    • /
    • pp.433-442
    • /
    • 2013
  • 기계번역 시스템 구축에 가장 필수적인 요소는 번역하고자 하는 언어간의 단어쌍을 담고 있는 대역어 사전이다. 대역어 사전은 기계번역뿐만 아니라 서로 다른 언어간의 정보를 교환하는 모든 응용프로그램의 필수적인 지식원(knowledge source)이다. 본 연구에서는 문서 단위로 정렬된 병렬 코퍼스와 기본적인 대역어 사전을 이용하여 영-한 대역어를 자동으로 추출하는 방법에 대해 소개한다. 이 방법은 수집된 병렬 코퍼스의 크기에 영향을 받지 않는 방법이다. 문서 단위로 정렬된 병렬 코퍼스로부터 문장 단위의 정렬을 수행하고 다시 단어 단위의 정렬을 수행한 후, 정렬이 채 되지 않은 부분에 대해 추정 정렬을 수행한다. 추정 정렬에는 문장에서의 위치, 다른 단어와의 관계, 두 언어간의 언어적 정보등 다양한 정보가 사용된다. 이렇게 추정 정렬된 단어쌍으로부터 영-한 대역어를 추출할 수 있다. 약 1,000개로 구성된 병렬 코퍼스로부터 추출한 영-한 대역어는 71.7%의 정확도를 얻을 수 있었다.

이중언어자의 위계모형 검증 : 암묵기억과제와 외현기억과제의 효과 (A Test of Hierarchical Model of Bilinguals Using Implicit and Explicit Memory Tasks)

  • 김미라;정찬섭
    • 인지과학
    • /
    • 제9권1호
    • /
    • pp.47-60
    • /
    • 1998
  • 이중언어자의 언어구조를 기억정보의 위계적 특성으로 설명하는 위계모형의 적합성을 외현기억검사와 암묵기억검사를 사용하여 살펴보았다. 위계모형에 따르면 단어의 기억표상은 모국어와 외국어의 심성어휘집 정보와 두 언어와 공유하는 개념표상 정보로 구성되어 있으며, 개념표상 정보의 활성화는 심성어휘집 활성화를 통해 이루어지고, 과제의 종류와 번역의 방향성에 따라 심성어휘집과 개념표상의 정보가 별개로 인출될 수 있다. 기억검사중에서 개념 정보의 활성화에 민감한 외현기억검사와 지각 정보의 활성화에 민감한 암묵기억검사는 심성어휘집 정보와 개념표상 정보의 활성화에 상이한 민감성을 보일 것이다. 실험 1에서는 명명과제의 단어들을 의미적으로 범주화하여 제시한 후에 암묵기억검사와 외현기억검사를 실시했고, 실험 2에서는 의미적으로 범주화된 단어목록을 순행 및 역행 번역을 하도록 한 후에 암묵기억검사와 외현기억검사를 했다. 명명과제와 역행번역 및 암묵기억검사에는 목록의 의미적 범주효과가 나타나지 않았고, 순행번역 및 외현기억검사에는 목록의 의미적 범주효과가 나타났다. 이런 결과를 이중언어자의 언어구조가 언어에 따르는 별개의 심성어휘집과 공통의 개념표상을 지니고 있다는 위계모형을 지지하는 것으로 해석하였다.

  • PDF