• Title/Summary/Keyword: 병렬말뭉치

검색결과 70건 처리시간 0.026초

중간언어와 단어정렬을 통한 이중언어 사전의 자동 추출에 대한 성능 개선 (Performance Improvement of Bilingual Lexicon Extraction via Pivot Language and Word Alignment Tool)

  • 권홍석;서형원;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.27-32
    • /
    • 2013
  • 본 논문은 잘 알려지지 않은 언어 쌍에 대해서 병렬말뭉치(parallel corpus)로부터 자동으로 이중언어 사전을 추출하는 방법을 제안하였다. 이 방법은 중간언어(pivot language)를 매개로 하고 문맥 벡터를 생성하기 위해 공개된 단어 정렬 도구인 Anymalign을 사용하였다. 그 결과로 초기사전(seed dictionary)을 사용한 문맥벡터의 번역 과정이 필요 없으며 통계적 방법의 약점인 낮은 빈도수를 가지는 어휘에 대한 번역 정확도를 높였다. 또한 문맥벡터의 요소 값으로 특정 임계값 이상을 가지는 양방향 번역 확률 정보를 사용하여 상위 5위 이내의 번역 정확도를 크게 높였다. 본 논문은 두 개의 서로 다른 언어 쌍 한국어-스페인어 그리고 한국어-프랑스어 양방향에 대해서 각각 이중언어 사전을 추출하는 실험을 하였다. 높은 빈도수를 가지는 어휘에 대한 번역 정확도는 이전 연구에서 보인 실험 결과에 비해 최소 3.41% 최대 67.91%의 성능 향상을 보였고 낮은 빈도수를 가지는 어휘에 대한 번역 정확도는 최소 5.06%, 최대 990%의 성능 향상을 보였다.

  • PDF

효율적인 자동 주석을 위한 단어 임베딩 인공 신경 정리 증명계 구축 (Neural Theorem Prover with Word Embedding for Efficient Automatic Annotation)

  • 양원석;박한철;박종철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.79-84
    • /
    • 2016
  • 본 연구는 전문기관에서 생산되는 검증된 문서를 웹상의 수많은 검증되지 않은 문서에 자동 주석하여 신뢰도 향상 및 심화 정보를 자동으로 추가하는 시스템을 설계하는 것을 목표로 한다. 이를 위해 활용 가능한 시스템인 인공 신경 정리 증명계(neural theorem prover)가 대규모 말뭉치에 적용되지 않는다는 근본적인 문제를 해결하기 위해 내부 순환 모듈을 단어 임베딩 모듈로 교체하여 재구축 하였다. 학습 시간의 획기적인 감소를 입증하기 위해 국가암정보센터의 암 예방 및 실천에 대한 검증된 문서들에서 추출한 28,844개 명제를 위키피디아 암 관련 문서에서 추출한 7,844개 명제에 주석하는 사례를 통하여 기존의 시스템과 재구축한 시스템을 병렬 비교하였다. 동일한 환경에서 기존 시스템의 학습 시간이 553.8일로 추정된 것에 비해 재구축한 시스템은 93.1분 내로 학습이 완료되었다. 본 연구의 장점은 인공 신경 정리 증명계가 모듈화 가능한 비선형 시스템이기에 다른 선형 논리 및 자연언어 처리 모듈들과 병렬적으로 결합될 수 있음에도 현실 사례에 이를 적용 불가능하게 했던 학습 시간에 대한 문제를 해소했다는 점이다.

  • PDF

순환 신경망 병렬화를 사용한 의존 구문 분석 및 의미역 결정 통합 모델 (Joint Model for Dependency Parser and Semantic Role Labeling using Recurrent Neural Network Parallelism)

  • 박성식;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.276-279
    • /
    • 2019
  • 의존 구문 분석은 문장을 구성하는 성분들 간의 의존 관계를 분석하고 문장의 구조적 정보를 얻기 위한 기술이다. 의미역 결정은 문장에서 서술어에 해당하는 어절을 찾고 해당 서술어의 논항들을 찾는 자연어 처리의 한 분야이다. 두 기술은 서로 밀접한 상관관계가 존재하며 기존 연구들은 이 상관관계를 이용하기 위해 의존 구문 분석의 결과를 의미역 결정의 자질로써 사용한다. 그러나 이런 방법은 의미역 결정 모델의 오류가 의존 구문 분석에 역전파 되지 않으므로 두 기술의 상관관계를 효과적으로 사용한다고 보기 어렵다. 본 논문은 포인터 네트워크 기반의 의존 구문 분석 모델과 병렬화 순환 신경망 기반의 의미역 결정 모델을 멀티 태스크 방식으로 학습시키는 통합 모델을 제안한다. 제안 모델은 의존 구문 분석 및 의미역 결정 말뭉치인 UProbBank를 실험에 사용하여 의존 구문 분석에서 UAS 0.9327, 의미역 결정에서 PIC F1 0.9952, AIC F1 0.7312의 성능 보였다.

  • PDF

품사간 정렬 경향을 반영한 통계 기반 영한 단어 정렬 후처리 방법 (A Postprocessing method for Statistical English-Korean Word Alignment Reflecting Alignment Tendency Between Parts-of-Speeches)

  • 이재희;이승욱;황영숙;김상범;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.242-246
    • /
    • 2009
  • 병렬 말뭉치 내에서 서로 대응되는 단어를 찾아내는 단어 정렬 작업은 기계 번역에서 가장 기본적으로 수행되는 작업이고 다양한 분야에서 유용하게 사용된다. 본 논문에서는 영한 단어 정렬에서 기존의 통계 기반 정렬 모델의 문제점을 파악하고 이를 해결하기 위해 영한의 품사간 정렬 경향을 단어 정렬에 반영하는 방법을 제안한다. 실험을 통해서 기존 통계 기반 영한 단어 정렬 결과와 비교하여 제안된 방법이 정확률, 재현율, F-measure 측면에서 모두 향상시키는 것을 보였다.

  • PDF

웹 번역문서 판별과 병렬 말뭉치 구축 (Judging Translated Web Document & Constructing Bilingual Corpus)

  • Jee-hyung, Kim;Yill-byung, Lee
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.787-789
    • /
    • 2004
  • People frequently feel the need of a general searching tool that frees from language barrier when they find information through the internet. Therefore, it is necessary to have a multilingual parallel corpus to search with a word that includes a search keyword and has a corresponding word in another language, Multilingual parallel corpus can be built and reused effectively through the several processes which are judgment of the web documents, sentence alignment and word alignment. To build a multilingual parallel corpus, multi-lingual dictionary should be constructed in each language and HTML should be simplified. And by understanding the meaning and the statistics of document structure, judgment on translated web documents will be made and the searched web pages will be aligned in sentence unit.

  • PDF

아바타 수어 서비스를 위한 한국어-한국수어 변환 기술 연구 (Study on Korean-Korean Sign language Translation Technology for Avatar Sign language Service)

  • 최지훈;이한규;안충현
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.459-460
    • /
    • 2020
  • 한국수화언어가 2016년 2월 제정된 한국수화언어법(약칭, 한국수어법)을 통해 한국어와 동일한 대한민국 공식 언어로 인정받았지만, 사회적 인식 부족과 서비스 비용 문제로 널리 사용되지 못하고 있다. 그리고 일상생활에서 접하는 많은 한국어 정보들 조차도 농인들은 쉽게 이해하기 어렵기 때문에 정보 접근에 대한 차별성 문제가 지속적으로 언급되고 있다. 이를 해결하기 위한 대안으로 아바타를 이용한 수어 서비스가 대두되고 있지만, 한국어-한국수어 번역을 위한 자연어처리 기술의 한계로 인해 일기예보와 같이 탬플릿 기반의 서비스에 국한되거나 비수지신호 표현에 대한 기술 부족으로 인해서 서비스 상용화까지 도달하지 못하고 있는 상황이다. 본 논문에서는 딥러닝 기반으로 한국어에서 한국수어로 변환하기 위한 병렬 말뭉치 데이터 전사 및 변환 시스템 설계 방법을 제안하고자 한다.

  • PDF

다국어 정보 검색을 위한 적대적 언어 적응을 활용한 ColBERT (ColBERT with Adversarial Language Adaptation for Multilingual Information Retrieval)

  • 김종휘;김윤수;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.239-244
    • /
    • 2023
  • 신경망 기반의 다국어 및 교차 언어 정보 검색 모델은 타겟 언어로 된 학습 데이터가 필요하지만, 이는 고자원 언어에 치중되어있다. 본 논문에서는 이를 해결하기 위해 영어 학습 데이터와 한국어-영어 병렬 말뭉치만을 이용한 효과적인 다국어 정보 검색 모델 학습 방법을 제안한다. 언어 예측 태스크와 경사 반전 계층을 활용하여 인코더가 언어에 구애 받지 않는 벡터 표현을 생성하도록 학습 방법을 고안하였고, 이를 한국어가 포함된 다국어 정보 검색 벤치마크에 대해 실험하였다. 본 실험 결과 제안 방법이 다국어 사전학습 모델과 영어 데이터만을 이용한 베이스라인보다 높은 성능을 보임을 실험적으로 확인하였다. 또한 교차 언어 정보 검색 실험을 통해 현재 검색 모델이 언어 편향성을 가지고 있으며, 성능에 직접적인 영향을 미치는 것을 보였다.

  • PDF

병렬 말뭉치를 이용한 CEFR 기반 문장 작문 평가 (CEFR-based Sentence Writing Assessment using Bilingual Corpus)

  • 최승권;권오욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.54-57
    • /
    • 2023
  • CEFR(Common European Framework of Reference for Language)는 유럽 전역의 교육기관에서 언어구사 능력을 평가하는 평가 기준이다. 본 논문은 학습자가 문장 작문한 것을 CEFR 에 기반하여 평가하는 모델을 기술하는 것을 목표로 한다. CEFR 기반 문장 작문 평가는 크게 전처리 단계, 작문 단계, 평가 단계로 구성된다. CEFR 기반 문장 작문 평가 모델의 평가는 CEFR 수준별로 분류한 문장들이 전문가의 수동 분류와 일치하는 지의 정확도와 학습자가 작문한 결과의 자동 평가로 측정되었다. 실험은 독일어를 대상으로 하였으며 독일어 전공 41 명의 대학생에게 CEFR 6 등급별로 5 문장씩 총 30 문장의 2 세트를 만들어 실험을 실시하였다. 그 결과 CEFR 등급별 자동 분류는 전문가의 수동 분류와 61.67%로 일치하는 정확도를 보였다.

효율적인 병렬정보검색을 위한 색인어 군집화 및 분산저장 기법 (Term Clustering and Duplicate Distribution for Efficient Parallel Information Retrieval)

  • 강재호;양재완;정성원;류광렬;권혁철;정상화
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권1_2호
    • /
    • pp.129-139
    • /
    • 2003
  • 인터넷과 같은 대량의 정보에 대응할 수 있는 고성능 정보검색시스템을 구축하기 위해서는 지금까지 고가의 중대형컴퓨터를 주로 활용하여 왔으나. 최근 가격대 성능비가 높은 PC 클러스터 시스템을 활용하는 방안이 경제적인 대안으로 떠오르고 있다. PC 클러스터 상에서의 병렬정보검색시스템을 효율적으로 운영하기 위해서는 사용자가 입력한 질의를 처리하는데 요구되는 개별 PC의 디스크 I/O 및 검색관련 연산을 모든 PC에 가능한 균등하게 분배할 필요가 있다. 본 논문에서는 같은 질의에 동시에 등장할 가능성이 높은 색인어들끼리 군집화하고 생성된 군집을 활용하여 색인어들을 각 PC에 분배함으로써 보다 높은 수준의 병렬화를 달성할 수 있는 방안을 제시한다. 또한 일부 PC의 결함 또는 유지보수 등의 원인에 의한 서비스 중지상황에도 적극적으로 대처하기 위하여 색인어 역파일을 중복되게 분산저장하는 기법을 제안한다. 대용량 말뭉치를 활용한 실험결과 본 논문에서 제시하는 분산 및 중복저장기법이 충분한 효율성과 실용성이 있음을 확인하였다.

PDMT 번역 방법론에 기반한 대화체 음성 언어 번역 시스템 (Spoken language Translation System Based on PDMT)

  • 윤승;유초롱;최미란;오승신;박준;이영직
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.279-283
    • /
    • 2003
  • ETRI가 참여하고 있는 자동 통역 관련 국제 컨소시엄인 C-STAR에서는 여행자 영역의 대규모 다국어 병렬 말뭉치를 공동으로 구축하였고, 현재 각 기관에서는 이를 이용한 대화체 음성 언어 번역 시스템을 개발 중이다. ETRI에서는 핵심어 처리, 통계정보를 이용하는 구 단위 자동 설정, 설정된 구의 자동대응 및 재배치 등을 특징으로 하는 구 기반 직접 번역 방식(PDMT: Phrase-based Direct Machine Translation)의 번역 방법론을 제안하고 관련 연구를 진행하고 있다. 본 논문에서는 ETRI 대화체 음성 언어 번역 시스템의 구성에 대해 알아보고 PDMT 번역 방법론의 등장 배경과 그 구체적인 번역 방법 및 특징에 대해 자세히 논의하기로 한다.

  • PDF