• 제목/요약/키워드: Translation system

검색결과 885건 처리시간 0.025초

Korean Text to Gloss: Self-Supervised Learning approach

  • Thanh-Vu Dang;Gwang-hyun Yu;Ji-yong Kim;Young-hwan Park;Chil-woo Lee;Jin-Young Kim
    • 스마트미디어저널
    • /
    • 제12권1호
    • /
    • pp.32-46
    • /
    • 2023
  • Natural Language Processing (NLP) has grown tremendously in recent years. Typically, bilingual, and multilingual translation models have been deployed widely in machine translation and gained vast attention from the research community. On the contrary, few studies have focused on translating between spoken and sign languages, especially non-English languages. Prior works on Sign Language Translation (SLT) have shown that a mid-level sign gloss representation enhances translation performance. Therefore, this study presents a new large-scale Korean sign language dataset, the Museum-Commentary Korean Sign Gloss (MCKSG) dataset, including 3828 pairs of Korean sentences and their corresponding sign glosses used in Museum-Commentary contexts. In addition, we propose a translation framework based on self-supervised learning, where the pretext task is a text-to-text from a Korean sentence to its back-translation versions, then the pre-trained network will be fine-tuned on the MCKSG dataset. Using self-supervised learning help to overcome the drawback of a shortage of sign language data. Through experimental results, our proposed model outperforms a baseline BERT model by 6.22%.

인접 단어들의 접속정보를 이용한 일한 기계번역 시스템 (Japanese-Korean Machine Translation System Using Connection Forms of Neighboring Words)

  • 김정인
    • 한국멀티미디어학회논문지
    • /
    • 제7권7호
    • /
    • pp.998-1008
    • /
    • 2004
  • 일본어와 한국어는 문법적으로 많은 유사점을 가지고 있다. 이러한 유사점을 잘 이용한다면 일한 기계번역 시스템에서 구문해석이나 의미해석의 상당한 부분을 생략할 수 있다. 몇 년 전부터 우리는 유사성을 이용하여 번역율을 높이는 방법으로 번역테이블을 이용한 일한기계번역 시스템을 연구해 왔다. 그러나 이 시스템은 활용어미의 번역, 다의성 단어의 처리 등 몇 가지 문제점을 가지고 있었다. 본 논문에서는 번역테이블을 이용하는 시스템을 개선하여 이웃 하는 단어들과의 관계 정보를 이용한 일한 기계번역 시스템을 제안한다. 현재 시스템의 문제점들을 해결하기 위하여 우선 조사, 조동사의 접속 정보를 최대한 이용한다. 또한, 번역 테이블을 엔트리테이블과 접속정보 테이블로 나누어 설계하여 번역의 효율을 높인다. 즉, 하나의 역어만 가지는 단어인 경우, 우리는 일한 직접 대응 방법을 이용하여 바로 번역하고 2개 이상의 역어로 번역되어야 할 경우만 접속 정보 값을 평가하여 가장 가능성이 높은 번역어를 선택하도록 한다.

  • PDF

도메인 특화 방법에 의한 영한 특허 자동 번역 시스템의 구축 (Construction of English-Korean Automatic Translation System for Patent Documents Based on Domain Customizing Method)

  • 최승권;권오욱;이기영;노윤형;박상규
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권2호
    • /
    • pp.95-103
    • /
    • 2007
  • 본 논문은 웹과 같은 일반적인 도메인의 영한 자동 번역기를 특정 도메인으로 특화하는 방법에 의해 구축된 영한 특허 자동번역 시스템을 기술하는 것을 목표로 한다. 특정 도메인으로서의 특허 자동번역기를 위한 특화 방법은 다음과 같은 단계로 이루어진다: 1) 대용량 특허 문서의 수집 및 언어학적 특성 분석, 2) 전문용어 추출 및 대역어 구축, 3) 기보유한 용어의 대역어 특화, 4) 특허 고유의 번역 패턴추출 및 구축, 5) 언어학적 특성 분석에 따른 기보유 번역 엔진 모듈의 특화 및 개선, 6) 특화된 번역 지식 및 번역 엔진 모듈에 따른 번역률 평가. 이와 같은 특화 절차에 따른 특허 영한 자동 번역기는 특허 전문번역가의 평가에 의해 전분야 평균 81.03%의 번역률을 내었으며, 분야별로는 기계(80.54%), 전기전자 (81.58%), 화학일반(79.92%), 의료위생(80.79%), 컴퓨터(82.29%)의 성능을 보였으며 계속 개선 중에 있다.

Hindi Correspondence of Bengali Nominal Suffixes

  • Chatterji, Sanjay
    • Journal of Multimedia Information System
    • /
    • 제8권4호
    • /
    • pp.221-232
    • /
    • 2021
  • One bottleneck of Bengali to Hindi transfer based machine translation system is the translation of suffixes of noun. The appropriate translation of a nominal suffix often depends on the semantic role of the corresponding noun chunk in the sentence. With the availability of a high performance Bengali morphological analyzer and a basic Bengali parser it is possible to identify the role of each noun chunk. This information may be used for building rules for translating the ambiguous nominal suffixes. As there are some similarities between the uses of Bengali and Hindi nominal suffixes we find that the rules may be identified by linguistically analyzing corpus data. In this paper, we identify rules for the ambiguous four Bengali nominal suffixes from corpus data and evaluate their performances. This set of rules is able to resolve a majority of the nominal suffix ambiguities in Bengali to Hindi transfer based machine translation system. Using the rules, we are able to translate 98.17% Bengali nouns correctly which is much better than the baseline ILMT system's accuracy of 62.8%.

동시통역 학습을 위한 스마트 단말 기반의 문장구역 훈련 시스템 (Smart device based sight translation training system for simultaneous interpreting practice)

  • 표지혜;안동혁
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제8권7호
    • /
    • pp.759-768
    • /
    • 2018
  • 국가 간 다양한 분야에서의 교류가 증가함에 따라서 개최되는 국제회의의 수도 증가하고 있다. 이로 인해, 동시통역의 수요도 증가하고 있기 때문에 많은 학습자들이 동시통역을 학습하고 있다. 동시통역은 많은 학습 시간이 필요하기 때문에, 통역을 학습하는 학생들은 개별 학습을 수행한다. 자율적인 학습법 중 대표적으로 문장구역 훈련법이 있으나, 백트래킹으로 인한 학습 효과 저하 및 원활한 학습을 위한 파트너의 도움이 필요하다는 단점이 존재한다. 이를 해결하기 위해서 컴퓨터 기반 문장구역 훈련 시스템이 제안되어 학습자들의 학습 능률을 향상시켰다. 하지만, 컴퓨터의 경우 이동성이 매우 낮기 때문에 학습자들이 정해진 공간에서만 학습을 진행할 수 있기 때문에 활용도가 저하될 수 있다. 본 논문에서는 이동성으로 인한 활용도 저하 문제를 해결하기 위해 스마트 단말 기반의 문장구역 훈련 시스템을 제안한다. 스마트 단말은 컴퓨터에 비해 낮은 처리 용량을 가지고 있기 때문에 크기가 큰 파일을 처리할 때 성능이 저하된다. 이를 해결하기 위한 여러 알고리즘들을 제안한다. 제안한 스마트 단말 기반 문장구역 훈련 시스템을 구현하고 기능을 검증하였다.

MOSES를 이용한 한/일 양방향 통계기반 자동 번역 시스템 (A Bidirectional Korean-Japanese Statistical Machine Translation System by Using MOSES)

  • 이공주;이성욱;김지은
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제36권5호
    • /
    • pp.683-693
    • /
    • 2012
  • 통계기반 자동 번역 시스템은 구현과 유지보수의 용이함으로 최근 많은 관심을 받고 있다. 본 연구의 목적은 MOSES[1] 시스템을 이용하여 통계기반의 한/일 양방향 기계번역시스템을 구축하는 것이다. 한/일 문장단위 병렬 코퍼스를 구축하여 번역모델 학습에 이용하였고, 한/일 각각 대량의 원시 코퍼스를 이용하여 언어모델 학습에 이용하였다. 시스템 구축 결과 기존의 규칙기반 번역 시스템의 성능에 근접하는 결과를 얻었으며, 발생하는 오류의 대부분은 각 처리 단계에서 발생하는 노이즈에 기인하였다.

음성언어 번역 시스템을 위한 새로운 형태소 분석 (A New Morphological Analysis for the Spoken Language Translation System)

  • 양승원;김재훈
    • 한국음향학회지
    • /
    • 제18권4호
    • /
    • pp.17-22
    • /
    • 1999
  • 음성 처리부와 기계번역부를 통합하는 음성언어 번역 시스템에서는 각 모듈들이 다루는 자료나 처리단위 등이 서로 달라 통합이 어렵다. 따라서, 전체 시스템의 효율을 제고하면서 각 모듈에서 공통으로 사용할 수 있는 새로운 입출력 단위가 필요하다. 본 논문에서는 음성언어 번역 시스템에서 음성 처리 모듈들과 언어번역 모듈과의 인터페이스 단위로서 의사 형태소를 제안하고, 입력되는 문장을 의사 형태소 단위로 분석하는 형태소 분석기를 구현하였다. 의사형태소를 이용한 음성인식/합성은 어절이나 형태소단위의 음성인식/합성에서 보다 개선된 결과를 얻을 수 있게 해주며, 전체적인 음성언어 번역시스템의 성능도 높일 수 있다. 본 논문에서 구현한 의사 형태소 분석기의 분석율은 약98.9%로 일반 형태소 분석기와 동일한 수준의 성능을 보였다.

  • PDF

e-비즈니스 협업에 적합한 다중변환 시스템 연구 (A Study on multi-translation system for e-business collaboration)

  • 안경림;정진욱
    • 인터넷정보학회논문지
    • /
    • 제7권6호
    • /
    • pp.123-130
    • /
    • 2006
  • e-비즈니스 초창기의 트랜잭션은 단일 비즈니스 주체 또는 마켓 플레이스 내에서 발생하였으나 점차 복합적인 형태로 발전되고 있다. 특히 비즈니스 주체 또는 마켓 플레이스 간의 비즈니스 협업에 대한 필요성이 핵심 사상으로 대두되었다. 상호 교환되는 전자문서의 형태도 다양해짐에 따라 문서 간 형태 변환이 중요한 요소가 되었다. 본 논문에서는 이러한 객체 지향적인 비즈니스 트랜잭션의 흐름에 따라 상호 교환되는 문서의 기본 형태를 ebXML로 정의하였으며, 다양한 형태의 문서 변환을 지원하기 위해 다중-포맷 변환 기능을 갖는 변환 시스템을 설계하였다. 본 논문에서 제안한 시스템은 model-driven 방식으로 설계되어 시스템 환경에 따라 다양한 형태로 구성될 수 있다. 제안한 변환 시스템은 어떠한 형태의 데이터가 입력되더라도 파싱 모듈만 추가로 개발하면 적용할 수 있도록 설계하였다. 또한 공통 데이터 셋을 정의하여 데이터의 재사용성을 증가시켰다. 본 논문에서는 다양한 형태 변환에 대해 기존 변환 시스템과의 성능을 비교하여 제안한 시스템의 우위성을 증명하였다.

  • PDF

영한기계번역과 대용어 조응문제에 대한 고찰 (English-to-Korean Machine Translation and the Problem of Anaphora Resolution)

  • Ruslan Mitkov
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.351-357
    • /
    • 1994
  • At least two projects for English-to-Korean translation have been already in action for the last few years, but so far no attention has been paid to the problem of resolving pronominal reference and a default pronoun translation has been considered instead. In this paper we argue that pronous cannot be handled trivially in an English-to-Korean translation and one cannot bypass the task of resolving anaphoric reference if aiming at good and natural translation. In addition, we propose lexical transfer rules for English-to-Korean anaphor translation and outline an anaphora resolution model for an English-to-Korean MT system in operation.

  • PDF

자동 역점역을 가능하게 하는 한글점자 부호체계의 개선 (Improvement of korean Braille-Code System for Automatic Reverse Braille Translation)

  • 길태영;김석일;김홍기
    • 한국정보처리학회논문지
    • /
    • 제5권3호
    • /
    • pp.703-714
    • /
    • 1998
  • 기존의 점자 부호 체계에서 한글문장을 점자문장으로 번역하는 작업은 1 : 1의 대응관계가 있으므로 아무런 문제를 야기시키지 않는다. 그러나 점자문장을 한글문장으로 번역하는 작업은 점자부호와 한글부호간의 1 : N의 대응관계로 인하여 피할 수 없는 오류를 파생시킨다. 분석 결과, 점자 부호 체계에서는 한글 초성과 숫자와의 충돌, 한글 종성과 문장부호와의 충돌, 한글 소괄호 열기와 소괄호 닫기 부호를 동일한 부호로 처리하는 것, 영문 열기 및 닫기 부호와 한글 종성과의 충돌 등이 번역 오류의 중요한 원인임을 알 수 있다. 본 논문에서는 이러한 충돌을 해소하기 위한 역점역 규칙을 제정하여, 일차적으로 역점역시에 발생하는 애매성을 앞, 뒤 문맥에 따라 해결할 수 있는 경우에는 원래의 점자 부호를 사용하도록 하고, 만일 이 방법으로 해결되지 않을 경우에는 역점역시에 충돌을 근본적으로 방지하는 확장 점자 부호를 사용하도록 하였다. 여러 가지 파일에 대한 실험 결과, 기존의 점자 부호체계에서의 오류발생율이 평균 25%이었음에 비하여 확장된 점자 부호체계에서는 번역에 따른 오류가 발견되지 않았다.

  • PDF