• Title/Summary/Keyword: 어휘 번역

Search Result 109, Processing Time 0.034 seconds

A Model of English Part-Of-Speech Determination for English-Korean Machine Translation (영한 기계번역에서의 영어 품사결정 모델)

  • Kim, Sung-Dong;Park, Sung-Hoon
    • Journal of Intelligence and Information Systems
    • /
    • v.15 no.3
    • /
    • pp.53-65
    • /
    • 2009
  • The part-of-speech determination is necessary for resolving the part-of-speech ambiguity in English-Korean machine translation. The part-of-speech ambiguity causes high parsing complexity and makes the accurate translation difficult. In order to solve the problem, the resolution of the part-of-speech ambiguity must be performed after the lexical analysis and before the parsing. This paper proposes the CatAmRes model, which resolves the part-of-speech ambiguity, and compares the performance with that of other part-of-speech tagging methods. CatAmRes model determines the part-of-speech using the probability distribution from Bayesian network training and the statistical information, which are based on the Penn Treebank corpus. The proposed CatAmRes model consists of Calculator and POSDeterminer. Calculator calculates the degree of appropriateness of the partof-speech, and POSDeterminer determines the part-of-speech of the word based on the calculated values. In the experiment, we measure the performance using sentences from WSJ, Brown, IBM corpus.

  • PDF

Noun and Verb Polysemy Word Sense Disambiguation Using UWordMap (어휘지도(UWordMap)를 활용한 명사와 용언의 다의어 중의성 해소)

  • Shin, Joon-Choul;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.216-219
    • /
    • 2015
  • 컴퓨터를 이용하여 명사와 용언의 의미를 자동으로 분별하는 것은 기계번역이나 검색 등의 기술에서 아주 중요한 기반 기술이다. 최근에 동형이의어 분별에 대한 연구 결과로 약 96%의 정확률을 보이는 시스템이 개발되었으나, 다의어 분별에 대한 연구는 아직 초기 단계로 일부 어휘만을 한정하여 연구되고 있다. 본 논문에서는 어휘지도를 이용하여 다의어를 분별하는 방법을 연구하였고, 어휘지도에 등록된 모든 일반 명사와 용언을 대상으로 실험하였다. 제안된 알고리즘은 문장에서 나타나는 명사와 용언의 관계를 어휘지도에서 찾고, 그 정보를 기반으로 다의어를 분별하였다. 아직은 그 정확률이 실용적인 수준이라고 볼 수는 없지만, 전체 다의어를 대상으로 실험하였고, 그 실험 결과를 분석함으로써 앞으로의 다의어 분별 연구 방향에 도움될 것으로 판단된다.

  • PDF

Spontaneous Speech Translation System Development (대화체 음성언어 번역 시스템 개발)

  • Park, Jun;Lee, Young-jik;Yang, Jae-woo
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.281-286
    • /
    • 1998
  • ETRI에서 개발 중인 대화체 음성언어번역 시스템에 대하여 기술한다. 현재, ETRI는 DAM성언어번역 국제 공동 연구콘서시움인 C-STAR에 핵심참가기관으로 참여하여, 한일, 한영음성언어번역 시스템을 개발하고 있으며 1999년 국제 공동시험을 계획하고 이?. 최근의 연구 진행상황을 간추리면, 먼저 음성인식분야에서 유무성음 및 묵음정보를 미리 추출하여 이를 탐색에 활용하였으며, 음향모델 규모의 설정을 위한 교차 엔트로피 기반 변이음 군집화 알고리즘이 구현되었다. 또한 대상어휘의 확장을 위하여 의사형태소의 개념을 도입하였다. 언어번역분야에서는 이전과 같은 개념기반의 번역을 시도하고 있으며, C-STAR 회원기관과 공동으로 중간언어 규격을 정의하고 있다. 음성합성분야에서는 훈련형 합성기를 개발하여 합성데이타베이스 구축기간을 현저하게 줄였다.

  • PDF

An Enhanced Method for Unsupervised Word Sense Disambiguation using Korean WordNet (한국어 어휘의미망을 이용한 비감독 어의 중의성 해소 방법의 성능 향상)

  • Kwon, Soonho;Kim, Minho;Kwon, Hyuk-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.693-696
    • /
    • 2010
  • 자연언어처리에서 어의 중의성 해소(word sense disambiguation)는 어휘의 의미를 정확하게 파악하는 기술로 기계번역, 정보검색과 같은 여러 응용 분야에서 중요한 역할을 한다. 본 논문에서는 한국어 어휘의미망(Korlex)을 이용한 비감독 어의 중의성 해소 방법을 제안한다. 의미미부착 말뭉치에서 추출한 통계 정보와 한국어 어휘의미망의 관계어 정보를 이용함으로써 자료 부족문제를 완화하였다. 또한, 중의성 어휘와 공기어휘 간의 거리 가중치, 의미별 사용 정보 가중치를 사용하여 언어적인 특징을 고려하여 본 논문의 기반이 되는 PNUWSD 시스템보다 성능을 향상하였다. 본 논문에서 제안하는 어의 중의성 해소 방법의 평가를 위해 SENSEVAL-2 한국어 데이터를 이용하였다. 중의성 어휘의 의미별 관계어와 지역 문맥 내 공기어휘 간의 카이제곱을 이용하였을 때 68.1%의 정확도를 보였고, 중의성 어휘와 공기어휘 간의 거리 가중치와 의미별 사용 정보 가중치를 사용하였을 때 76.9% 정확도를 보여 기존의 방법보다 정확도를 향상하였다.

An Extension of Grammar Writing Language for Machine Translation (기계 번역을 위한 문법 기술 언어의 확장)

  • 심철민;최승권;여상화
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.171-173
    • /
    • 1998
  • 변환 방식의 기계 번역 시스템에서 구조 변환은 번역의 품질을 결정하는 중요한 요소이다. 각 번역 시스템들은 이러한 구조 변환을 수행하기 위해 특별한 기법을 사용한다. 구조 변환을 수행하는 방안으로는 어휘 사전에 기술된 구조 변환 정보를 이용하는 방법, 변환 엔진에 언어 현상별 구조 변환 규칙을 프로그래밍하는 방법, 스크립트 언어를 이용하여 구조 변환 규칙을 기술하는 방법이 있다. 이 논문에서는 스크립트 형식의 범용 문법 기술 언어(Grammar Writing Language)를 제안한다. 이 논문에서 제안하는 문법 기술 언어는 규칙 기술을 용이하게 하기 위해 다양한 연산자와 기본 함수를 제공하며, 그 적용 대상에 따라 컴파일러 버전과 인터프리터 버전을 선택적으로 사용할 수 있다. 문법 기술 언어는 영한 기계번역의 변환 모듈뿐만 아니라 한영 변환 등의 트리 구조 변환을 요하는 다양한 응용 분야에 활용할 수 있다.

  • PDF

Restoration of Adnominal Case 'no' in Korean-to-Japanese MT System (한-일 기계번역 시스템에서 관형격조사 'no'의 복원)

  • Chung, Yu-Jin;Heo, Nam-Won;Lee, Jong-Hyeok;Kim, Tai-Suk
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.115-120
    • /
    • 1999
  • 기존의 한-일 기계번역 시스템에서는 합성명사의 번역시 별도의 처리과정을 두지 않고 단순히 단어 각각을 일본어로 직역하여 변환시키는 방법을 채택하고 있다. 이러한 합성명사의 번역 방법은 대부분의 경우 잘 적용되지만, 매우 부자연스러운 일본어 표현이 되는 경우도 많다. 본 논문에서는 이러한 번역 방법이 갖는 문제점을 지적하고 합성명사를 관형격조사가 삽입된 명사구로 변환시키기 위해 표층 레벨에서의 어휘간 결합력과 명사 간의 의미 관계를 이용한 관형격조사 'no'의 복원 방법을 제안함으로써 보다 자연스러운 일본어 문장을 생성할 수 있도록 하고자 한다.

  • PDF

A Study on Preprocessing in English-Korean Machine Translation (영한기계번역에서의 전처리에 관한 연구)

  • Kim, Sung-Dong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.249-253
    • /
    • 2010
  • 영한기계번역은 영어와 한국어 사이에 많은 언어적인 차이가 존재하며 이를 효과적으로 해결해야 한다. 규칙기반의 영한기계번역에서는 언어간의 차이를 어휘, 구문, 변환 등의 규칙을 이용하고 숙어 등의 사전정보를 활용하는 방법이 적용되고 있으나 한계가 있다. 본 논문에서는 두 언어간의 차이를 해소하는 방안으로 전처리를 적용하였으며 규칙기반의 영한기계번역에서 요구되는 전처리작업에 대해서 연구하였다. 전처리작업은 전처리문제와 해결방안으로 구성되는데, 언어간의 차이해소에 필요한 전처리문제를 조사하여 전처리문제가 영한기계번역의 어떤 단계에서 다루어져야 할지에 의해 문제들을 구분하였으며 이를 해결하기 위한 방안을 고안하여 본 논문에서 제시하였다.

  • PDF

Improving Query Translation by Extracting Parallel Sentences from Wikipedia for Cross-Language Information Retrieval (위키피디아로부터의 자동 병렬 문장 추출 기법을 이용한 영어-한국어 교차언어 정보검색의 번역 성능 개선)

  • Cheon, Juryong;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.35-40
    • /
    • 2015
  • 본 논문은 영어-한국어 교차언어 정보검색의 질의어 번역에 대한 중요한 자원으로 활용되는 병렬 말뭉치의 품질 향상을 위해서, 위키피디아의 비교 말뭉치로부터 자동으로 병렬 문장을 추출하여 활용하는 기법을 제안한다. 기존 연구에서 질의어 번역을 위해 위키피디아의 이중 어휘 사전 및 동의어, 다의어 정보를 구축하고, 기 기축된 병렬 말뭉치와 함께 활용하여 여러 의미를 가진 번역 후보 단어들 중, 최적의 단어를 선택하는 방법을 이용하고 있다. 여기서 활용되는 병렬 말뭉치는 질의어 번역에서 가장 중요한 자원이다. 하지만, 기 구축된 병렬 말뭉치는 양이 적거나, 특정 영역을 중심으로 구성되어 있는 문제가 있다. 이러한 문제를 해결하기 위해, 본 논문은 위키피디아로부터 자동 병렬 문장 추출 기법을 이용, 대량의 영어-한국어 간 병렬 말뭉치를 구축하고, 이를 교차언어 정보검색을 위한 질의어 번역에 적용하여 개선을 보인다. 실험의 성능 비교를 위해서 NTCIR-5 데이터를 이용하였으며 기 구축된 세종 병렬 말뭉치를 활용한 질의어 번역의 성능이 MAP 31.5%, R-P 33.0%에서, 새롭게 구축한 위키피디아 병렬 말뭉치를 활용한 질의어 번역의 성능이 MAP 34.6%, R-P 34.6%로, 각각 MAP 3.1%와 R-P 1.6%의 성능 향상을 보였다.

  • PDF

Conveying Subjectivity of a Lexicon of One Language into Another Using a Bilingual Dictionary (사전을 사용한 주관성 어휘 번역 방법)

  • Kim, Jun-Gi;Nam, Sang-Hyob;Lee, Ya-Ha;Lee, Jong-Hyeok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.274-278
    • /
    • 2008
  • 인터넷 사용의 증가로 인터넷이 사용자의 의견 표출의 장이 되었다. 이에 따라 사용자의 견해나 의견을 자동으로 인식 및 추출하는 방법들이 연구되어 오고 있다. 의견 분석 (opinion analysis)은 한국어에서는 아직 연구가 활발히 되지 않는 분야로 의견 분석에 필요한 자원 및 도구들이 미비하다. 본 논문은 다른 언어권에서 구축된 주관성 어휘를 사전을 이용해 번역하는 방법을 제시하고 문제점 및 개선방법과 향후 연구방향에 관하여 논의한다.

  • PDF

Aspects of Korean and English Translation of 'KURERU' in the Novel - about NATSUMESOSEKI 『KOKORO』 (소설 속의 'くれる類'동사에 대한 한국어와 영어의 번역양상 - 하목수석(夏目漱石)의 『こころ』를 중심으로 -)

  • Yang, Jungsoon
    • Cross-Cultural Studies
    • /
    • v.46
    • /
    • pp.327-353
    • /
    • 2017
  • This study analyzed how an aspect of translation can be shown on the 'Kureru type(くれる類)' verbs in "Kokoro", which was a Japanese modern novel when it was reproduced by translators. It focused on 'the use in accordance with a subject of expression and the other person' and 'the object of movement'. 'The use in accordance with a subject of expression and the other person' could be summarized as follows: The 'Kureru type' verbs were not translated only in accordance with the use of vocabulary in a dictionary. 'Kudasaru' was used in many examples of letter writing when 'the giver' was younger and it was translated to a polite form in Korean. 'Kureru' had a characteristic when 'the giver' was older in Korean translation. The act of parents was translated to an honorific form if parents were 'givers' regardless of whether a listener was an internal character or an external character in parent-child relationships. The degree of politeness was different in English translation when the 'Kureru type' verbs were used for asking a favor request command. 'Please' was used more for 'Kudasaru' than 'Kureru'. An aspect of translation in accordance with 'the object of movement' could be summarized as follows: The 'Kureru type' verbs were used as main verbs. 'Kureru' and 'Kudasaru' were translated to 'Juda' 'Jusida' in Korean translation, but they were translated to various vocabulary words in accordance with the characteristic of 'the object of movement' and were translated to imply a specific act, the process of possession and the result of possession in English translation. The 'Kureru type' verbs were also used as auxiliary verbs. The translated vocabulary words for Korean translation and English translation were different in accordance with whether the movement of things other than the movement of act was included or not. Examples were translated predominantly to expressions of profit such as '-Jada' '-Dalla' '-Jusida' when there was a movement of act as well as specific things in Korean translation. Also, some examples were translated to expressions of profit when there was the movement of act with an abstract matter and there was only the act of the object of movement, but many examples were translated to the act of first verbs. Examples were translated predominantly to the act of first verbs when there was the movement which included specific things and abstract matters or there was only the movement of act in English translation. Expressions of asking a favor request such as 'Kureru' and 'Kudasaru' were translated to '-Dalla' '-Juseyo' in Korean translation, but they were translated to expressions which specify an act while focusing on the structure of sentences or the function of language, such as 'must', 'ask', 'wish', 'would', and 'would like to' 'please' in English translation.