• 제목/요약/키워드: Parallel 말뭉치

검색결과 35건 처리시간 0.026초

정렬기법을 이용한 미등록 대역어의 자동 추출 (Automatically Extracting Unknown Translations Using Phrase Alignment)

  • 김재훈;양성일
    • 정보처리학회논문지B
    • /
    • 제14B권3호
    • /
    • pp.231-240
    • /
    • 2007
  • 이 논문은 정렬 기법을 이용한 미등록 대역어 추출 모델을 제안하고 그 추출 시스템을 구현한다. 제안된 미등록 대역어 추출 모델은 일종의 구절정렬 모델로서 경계모델과 언어모델 그리고 번역 모델로 구성된다. 제안된 추출 시스템은 병렬말뭉치 구축, 단어정렬, 미등록어 추출로 구성된다. 이 논문에서는 제안된 시스템을 평가하기 위해서 약 1,500여 개의 미등록어가 포함된 2,200문장의 평가말뭉치를 구축하여 다양한 실험을 수행하였다. 실험을 통해서 제안된 모델이 미등록 대역어 추출에 매우 유용함을 알 수 있었다. 앞으로 좀 더 객관적인 평가를 위해 대량의 평가말뭉치 구축이 선행되어야 하며 좀 더 양질의 병렬말뭉치의 구축이 필요할 것이다. 또한 미등록어 추출 모델을 개선하기 다양한 연구가 추진되어야 할 것이다.

위키피디아로부터의 자동 병렬 문장 추출 기법을 이용한 영어-한국어 교차언어 정보검색의 번역 성능 개선 (Improving Query Translation by Extracting Parallel Sentences from Wikipedia for Cross-Language Information Retrieval)

  • 천주룡;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.35-40
    • /
    • 2015
  • 본 논문은 영어-한국어 교차언어 정보검색의 질의어 번역에 대한 중요한 자원으로 활용되는 병렬 말뭉치의 품질 향상을 위해서, 위키피디아의 비교 말뭉치로부터 자동으로 병렬 문장을 추출하여 활용하는 기법을 제안한다. 기존 연구에서 질의어 번역을 위해 위키피디아의 이중 어휘 사전 및 동의어, 다의어 정보를 구축하고, 기 기축된 병렬 말뭉치와 함께 활용하여 여러 의미를 가진 번역 후보 단어들 중, 최적의 단어를 선택하는 방법을 이용하고 있다. 여기서 활용되는 병렬 말뭉치는 질의어 번역에서 가장 중요한 자원이다. 하지만, 기 구축된 병렬 말뭉치는 양이 적거나, 특정 영역을 중심으로 구성되어 있는 문제가 있다. 이러한 문제를 해결하기 위해, 본 논문은 위키피디아로부터 자동 병렬 문장 추출 기법을 이용, 대량의 영어-한국어 간 병렬 말뭉치를 구축하고, 이를 교차언어 정보검색을 위한 질의어 번역에 적용하여 개선을 보인다. 실험의 성능 비교를 위해서 NTCIR-5 데이터를 이용하였으며 기 구축된 세종 병렬 말뭉치를 활용한 질의어 번역의 성능이 MAP 31.5%, R-P 33.0%에서, 새롭게 구축한 위키피디아 병렬 말뭉치를 활용한 질의어 번역의 성능이 MAP 34.6%, R-P 34.6%로, 각각 MAP 3.1%와 R-P 1.6%의 성능 향상을 보였다.

  • PDF

말뭉치 자원 희소성에 따른 통계적 수지 신호 번역 문제의 해결 (Addressing Low-Resource Problems in Statistical Machine Translation of Manual Signals in Sign Language)

  • 박한철;김정호;박종철
    • 정보과학회 논문지
    • /
    • 제44권2호
    • /
    • pp.163-170
    • /
    • 2017
  • 통계적 기계 번역을 이용한 구어-수화 번역 연구가 활발해짐에도 불구하고 수화 말뭉치의 자원 희소성 문제는 해결되지 않고 있다. 본 연구는 수화 번역의 첫 번째 단계로써 통계적 기계 번역을 이용한 구어-수지 신호 번역에서 말뭉치 자원 희소성으로부터 기인하는 문제점들을 해결할 수 있는 세 가지 전처리 방법을 제안한다. 본 연구에서 제안하는 방법은 1) 구어 문장의 패러프레이징을 통한 말뭉치 확장 방법, 2) 구어 단어의 표제어화를 통한 개별 어휘 출현 빈도 증가 및 구어 표현의 번역 가능성을 향상시키는 방법, 그리고 3) 수지 표현으로 전사되지 않는 구어의 기능어 제거를 통한 구어-수지 표현 간 문장 성분을 일치시키는 방법이다. 서로 다른 특징을 지닌 영어-미국 수화 병렬 말뭉치들을 이용한 실험에서 각 방법론들이 단독으로 쓰일 때와 조합되어 함께 사용되었을 때 모두 말뭉치의 종류와 관계없이 번역 성능을 개선시킬 수 있다는 것을 확인할 수 있었다.

이국어 병렬말뭉치와 중간언어를 활용한 이국어 사전 자동구축 (Automatic bilingual lexicon construction via bilingual parallel corpus and pivot language)

  • 서형원;권홍석;김재훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.307-310
    • /
    • 2013
  • 본 논문은 한국어-스페인어와 한국어-불어 간의 양방향 이국어 사전(Bi-directional bilingual lexicon)을 자동으로 구축하기 위한 새로운 방법을 제안한다. 일반적으로 한국어와 스페인어/불어 간의 병렬 말뭉치를 직접적으로 구축하기에는 어려움에 따르기 때문에, 영어를 중심언어로 하는 영어(EN)-한국어(KR)/스페인어(ES)/불어(FR) 병렬 말뭉치를 이용하여 문맥 벡터를 만들고 그들 간의 유사도를 계산하는 변형된 문맥 벡터 방법을 제안한다. 영어는 다른 언어와의 이국어 병렬 말뭉치가 비교적 많이 공개되어 있기 때문에 이 방법을 이용하면 비교적 쉽게 KR-ES와 KR-FR 양방향 이국어 사전을 구축할 수 있다. 본 논문에서 제안한 방법으로 실험해본 결과 최고 85%(ES${\rightarrow}$KR)의 정확도를 얻을 수 있었다.

언어 자원과 토픽 모델의 순차 매칭을 이용한 유사 문장 계산 기반의 위키피디아 한국어-영어 병렬 말뭉치 구축 (Building a Korean-English Parallel Corpus by Measuring Sentence Similarities Using Sequential Matching of Language Resources and Topic Modeling)

  • 천주룡;고영중
    • 정보과학회 논문지
    • /
    • 제42권7호
    • /
    • pp.901-909
    • /
    • 2015
  • 본 논문은 위키피디아로부터 한국어-영어 간 병렬 말뭉치를 구축하기 위한 연구이다. 이를 위해, 언어 자원과 토픽모델의 순차 매칭 기반의 유사 문장 계산 방법을 제안한다. 먼저, 언어자원의 매칭은 위키피디아 제목으로 구성된 위키 사전, 숫자, 다음 온라인 사전을 단어 매칭에 순차적으로 적용하였다. 또한, 위키피디아의 특성을 활용하기 위해 위키 사전에서 추정한 번역 확률을 단어 매칭에 추가 적용하였다. 그리고 토픽모델로부터 추출한 단어 분포를 유사도 계산에 적용함으로써 정확도를 향상시켰다. 실험에서, 선행연구의 언어자원만을 선형 결합한 유사 문장 계산은 F1-score 48.4%, 언어자원과 모든 단어 분포를 고려한 토픽모델의 결합은 51.6%의 성능을 보였으나, 본 논문에서 제안한 언어자원에 번역 확률을 추가하여 순차 매칭을 적용한 방법은 58.3%로 9.9%의 성능 향상을 얻었고, 여기에 중요한 단어 분포를 고려한 토픽모델을 적용한 방법이 59.1%로 7.5%의 성능 향상을 얻었다.

한영 병렬 말뭉치를 이용한 한국어 조사 '가'와 '는'의 선택 원리 연구 (The Study on the Principles of Selecting Korean Particle 'Ka' and 'Nun' Using Korean-English Parallel Corpus)

  • 유현경;안예리;양수향
    • 한국언어정보학회지:언어와정보
    • /
    • 제11권1호
    • /
    • pp.1-23
    • /
    • 2007
  • This study aims to research into the meaning of Korean particle 'ka' and 'nun' inductively by examining the correspondences of those particles and English articles on the Korean-English parallel corpus. The correspondences were checked in three ways: semantically, syntactically and pragmatically. This study found that when the semantic or syntactic tier is not salient, the pragmatic tier is activated and particles are selected according to the pragmatic elements such as the amount of information or the change of topic. However, if the meaning of the particles is salient or if there is any syntactic motive, particles are selected in accordance with the semantic or syntactic elements. Former studies which focused on one of those three tiers cannot properly explain such correspondences on the Korean-English parallel corpus. This study shows that semantic, syntactic and pragmatic tiers hierarchically affect the selection of a particle and that the selection process is also related to speaker's intention. This dimensional analysis of particles is expected to contribute to theoretical studies and applied studies like Korean language education as well.

  • PDF

위키피디아로부터 한국어-영어 병렬 문장 추출 (Extracting Korean-English Parallel Sentences from Wikipedia)

  • 김성현;양선;고영중
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제41권8호
    • /
    • pp.580-585
    • /
    • 2014
  • 본 연구는 '위키피디아 데이터를 이용한 병렬 문장 추출'이라는 주제에 대해서, 기존에 해외에서 사용되었던 다양한 방법을 한국어 위키피디아 데이터에 실제로 적용해보고 그 결과를 정리하여 보고한다. 실험 방식은 두 가지로 나눌 수 있는데, 첫 번째는 번역 확률을 이용하는 방법으로 세종 병렬 말뭉치 등의 기존 자원으로부터 번역 확률을 추출하여 사용한다. 두 번째는 사전을 이용하는 방법으로, 위키피디아 타이틀로 구성된 위키 사전(Wiki dictionary)을 기본으로 하여, MRD(machine readable dictionary) 정보와 숫자 사전을 추가로 사용한다. 실험 결과, 기존 자원만 이용한 경우보다 위키피디아 데이터를 결합하여 사용한 경우에 매우 큰 폭의 성능 향상을 얻어, 최종적으로 F1-score 57.6%의 우수한 성능을 산출하였다. 또한 토픽 모델(topic model)을 이용한 실험도 추가로 수행하였는데, F1-score 51.6%로 최종 성능 면에서는 낮았지만 비지도 학습 방법이라는 장점을 고려할 때 추가 연구에 대한 여지가 있다고 볼 수 있다.

한국어 연결어미 '-면서'와 중국어 대응표현의 대조연구 -한·중 병렬 말뭉치를 기반으로 (A Comparative Study on Korean Connective Morpheme '-myenseo' to the Chinese expression - based on Korean-Chinese parallel corpus)

  • YI, CHAO
    • 비교문화연구
    • /
    • 제37권
    • /
    • pp.309-334
    • /
    • 2014
  • This study is based on the Korean-Chinese parallel corpus, utilizing the Korean connective morpheme '-myenseo' and contrasting with the Chinese expression. Korean learners often struggle with the use of Korean Connective Morpheme especially when there is a lexical gap between their mother language. '-myenseo' is of the most use Korean Connective Morpheme, it usually contrast to the Chinese coordinating conjunction. But according to the corpus, the contrastive Chinese expression to '-myenseo' is more than coordinating conjunction. So through this study, can help the Chinese Korean language learners learn easier while studying '-myenseo', because the variety Chinese expression are found from the parallel corpus that related to '-myenseo'. In this study, firstly discussed the semantic features and syntactic characteristics of '-myenseo'. The significant semantic features of '-myenseo' are 'simultaneous' and 'conflict'. So in this chapter the study use examples of usage to analyse the specific usage of '-myenseo'. And then this study analyse syntactic characteristics of '-myenseo' through the subject constraint, predicate constraints, temporal constraints, mood constraints, negatives constraints. then summarize them into a table. And the most important part of this study is Chapter 4. In this chapter, it contrasted the Korean connective morpheme '-myenseo' to the Chinese expression by analysing the Korean-Chinese parallel corpus. As a result of the analysis, the frequency of the Chinese expression that contrasted to '-myenseo' is summarized into

    . It can see from the table that the most common Chinese expression comparative to '-myenseo' is non-marker patterns. That means the connection of sentence in Korean can use connective morpheme what is a clarifying linguistic marker, but in Chinese it often connect the sentence by their intrinsic logical relationships. So the conclusion of this chapter is that '-myenseo' can be comparative to Chinese conjunction, expression, non-marker patterns and liberal translation patterns, which are more than Chinese conjunction that discovered before. In the last Chapter, as the conclusion part of this study, it summarized and suggest the limitations and the future research direction.

  • 한국어-영어 법률 말뭉치의 로컬 이중 언어 임베딩 (Utilizing Local Bilingual Embeddings on Korean-English Law Data)

    • 최순영;;임희석
      • 한국융합학회논문지
      • /
      • 제9권10호
      • /
      • pp.45-53
      • /
      • 2018
    • 최근 이중 언어 임베딩(bilingual word embedding) 관련 연구들이 각광을 받고 있다. 그러나 한국어와 특정 언어로 구성된 병렬(parallel-aligned) 말뭉치로 이중 언어 워드 임베딩을 하는 연구는 질이 높은 많은 양의 말뭉치를 구하기 어려우므로 활발히 이루어지지 않고 있다. 특히, 특정 영역에 사용할 수 있는 로컬 이중 언어 워드 임베딩(local bilingual word embedding)의 경우는 상대적으로 더 희소하다. 또한 이중 언어 워드 임베딩을 하는 경우 번역 쌍이 단어의 개수에서 일대일 대응을 이루지 못하는 경우가 많다. 본 논문에서는 로컬 워드 임베딩을 위해 한국어-영어로 구성된 한국 법률 단락 868,163개를 크롤링(crawling)하여 임베딩을 하였고 3가지 연결 전략을 제안하였다. 본 전략은 앞서 언급한 불규칙적 대응 문제를 해결하고 단락 정렬 말뭉치에서 번역 쌍의 질을 향상시켰으며 베이스라인인 글로벌 워드 임베딩(global bilingual word embedding)과 비교하였을 때 2배의 성능을 확인하였다.