통합 검색 | Korea Science

병렬 코퍼스 필터링과 한국어에 최적화된 서브 워드 분절 기법을 이용한 기계번역 (Parallel Corpus Filtering and Korean-Optimized Subword Tokenization for Machine Translation)

박찬준;김경민;임희석
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
- /
- pp.221-224
- /
- 2019
딥러닝을 이용한 Neural Machine Translation(NMT)의 등장으로 기계번역 분야에서 기존의 규칙 기반,통계기반 방식을 압도하는 좋은 성능을 보이고 있다. 본 논문은 기계번역 모델도 중요하지만 무엇보다 중요한 것은 고품질의 학습데이터를 구성하는 일과 전처리라고 판단하여 이에 관련된 다양한 실험을 진행하였다. 인공신경망 기계번역 시스템의 학습데이터 즉 병렬 코퍼스를 구축할 때 양질의 데이터를 확보하는 것이 무엇보다 중요하다. 그러나 양질의 데이터를 구하는 일은 저작권 확보의 문제, 병렬 말뭉치 구축의 어려움, 노이즈 등을 이유로 쉽지 않은 상황이다. 본 논문은 고품질의 학습데이터를 구축하기 위하여 병렬 코퍼스 필터링 기법을 제시한다. 병렬 코퍼스 필터링이란 정제와 다르게 학습 데이터에 부합하지 않다고 판단되며 소스, 타겟 쌍을 함께 삭제 시켜 버린다. 또한 기계번역에서 무엇보다 중요한 단계는 바로 Subword Tokenization 단계이다. 본 논문은 다양한 실험을 통하여 한-영 기계번역에서 가장 높은 성능을 보이는 Subword Tokenization 방법론을 제시한다. 오픈 된 한-영 병렬 말뭉치로 실험을 진행한 결과 병렬 코퍼스 필터링을 진행한 데이터로 만든 모델이 더 좋은 BLEU 점수를 보였으며 본 논문에서 제안하는 형태소 분석 단위 분리를 진행 후 Unigram이 반영된 SentencePiece 모델로 Subword Tokenization를 진행 하였을 시 가장 좋은 성능을 보였다.
PDF

양보다 질? : 병렬 말뭉치의 양과 질이 인공신경망 기계번역에 미치는 효과 (Quality, not Quantity? : Effect of parallel corpus quantity and quality on Neural Machine Translation)

박찬준;이연수;이찬희;임희석
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
- /
- pp.363-368
- /
- 2020
글로벌 시대를 맞이하여 언어의 장벽을 해소하기 위하여 기계번역 연구들이 전 세계적으로 이루어지고 있다. 딥러닝의 등장으로 기존 규칙 및 통계기반 방법론에 비하여 눈에 띄는 성능향상을 이루어내고 있으며 많은 연구들이 이루어지고 있다. 인공신경망 기반 기계번역 모델을 만들 때 가장 중요한 요소는 병렬 말뭉치의 양과 질이다. 본 논문은 한-영 대용량의 말뭉치를 수집하고 병렬 말뭉치 필터링 기법을 적용하여 데이터의 양과 질을 충족시켰으며 한-영 기계번역 관련 객관적인 테스트셋인 Iwslt 16, Iwslt 17을 기준으로 기존 한-영 기계번역 관련 연구 중 가장 좋은 성능을 보였다.
PDF

병렬컴퓨터, 병렬프로그래밍기술소개

이상호
- 기계저널
- /
- 제42권1호
- /
- pp.36-42
- /
- 2002
PDF

신경망 기반 기계 번역을 위한 역-번역을 이용한 한영 병렬 코퍼스 확장 (Expanding Korean/English Parallel Corpora using Back-translation for Neural Machine Translation)

허광호;고영중;서정연
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
- /
- pp.470-473
- /
- 2018
최근 제안된 순환 신경망 기반 Encoder-Decoder 모델은 기계번역에서 좋은 성능을 보인다. 하지만 이는 대량의 병렬 코퍼스를 전제로 하며 병렬 코퍼스가 소량일 경우 데이터 희소성 문제가 발생하며 번역의 품질은 다소 제한적이다. 본 논문에서는 기계번역의 이러한 문제를 해결하기 위하여 단일-언어(Monolingual) 데이터를 학습과정에 사용하였다. 즉, 역-번역(Back-translation)을 이용하여 단일-언어 데이터를 가상 병렬(Pseudo Parallel) 데이터로 변환하는 방식으로 기존 병렬 코퍼스를 확장하여 번역 모델을 학습시켰다. 역-번역 방법을 이용하여 영-한 번역 실험을 수행한 결과 +0.48 BLEU 점수의 성능 향상을 보였다.
PDF

공공 한영 병렬 말뭉치를 이용한 기계번역 성능 향상 연구 (A Study on the Performance Improvement of Machine Translation Using Public Korean-English Parallel Corpus)

박찬준;임희석
- 디지털융복합연구
- /
- 제18권6호
- /
- pp.271-277
- /
- 2020
기계번역이란 소스언어를 목적언어로 컴퓨터가 번역하는 소프트웨어를 의미하며 규칙기반, 통계기반 기계번역을 거쳐 최근에는 인공신경망 기반 기계번역에 대한 연구가 활발히 이루어지고 있다. 인공신경망 기계번역에서 중요한 요소 중 하나로 고품질의 병렬 말뭉치를 뽑을 수 있는데 이제까지 한국어 관련 언어쌍의 고품질 병렬 코퍼스를 구하기 쉽지 않은 실정이었다. 최근 한국정보화진흥원의 AI HUB에서 고품질의 160만 문장의 한-영 기계번역 병렬 말뭉치를 공개하였다. 이에 본 논문은 AI HUB에서 공개한 데이터 및 현재까지 가장 많이 쓰인 한-영 병렬 데이터인 OpenSubtitles와 성능 비교를 통해 각각의 데이터의 품질을 검증하고자 한다. 테스트 데이터로 한-영 기계번역 관련 공식 테스트셋인 IWSLT에서 공개한 테스트셋을 이용하여 보다 객관성을 확보하였다. 실험결과 동일한 테스트셋으로 실험한 기존의 한-영 기계번역 관련 논문들보다 좋은 성능을 보임을 알 수 있었으며 이를 통해 고품질 데이터의 중요성을 알 수 있었다.
https://doi.org/10.14400/JDC.2020.18.6.271 인용 PDF KSCI

한국어와 영어의 명사구 기계 번역 (Korea-English Noun Phrase Machine Translation)

조희영;서형원;김재훈;양성일
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
- /
- pp.273-278
- /
- 2006
이 논문에서 통계기반의 정렬기법을 이용한 한영/영한 양방향 명사구 기계번역 시스템을 설계하고 구현한다. 정렬기법을 이용한 기계번역 시스템을 구축하기 위해서는 않은 양의 병렬말뭉치(Corpus)가 필요하다. 이 논문에서는 병렬 말뭉치를 구축하기 위해서 웹으로부터 한영 대역쌍을 수집하였으며 수집된 병렬 말뭉치와 단어 정렬 도구인 GIZA++ 그리고 번역기(decoder)인 PARAOH(Koehn, 2004), RAMSES(Patry et al., 2002), MARIE(Crego et at., 2005)를 사용하여 한영/영한 양방향 명사구 번역 시스템을 구현하였다. 약 4만 개의 명사구 병렬 말뭉치를 학습 말뭉치와 평가 말뭉치로 분리하여 구현된 시스템을 평가하였다. 그 결과 한영/영한 모두 약 37% BLEU를 보였으나, 영한 번역의 성공도가 좀더 높았다. 앞으로 좀더 많은 양의 병렬 말뭉치를 구축하여 시스템의 성능을 향상시켜야 할 것이며, 지속적으로 병렬 말뭉치를 구축할 수 있는 텍스트 마이닝 기법이 개발되어야 할 것이다. 무엇보다도 한국어 특성에 적합한 단어 정렬 모델이 연구되어야 할 것이다. 또한 개발된 시스템을 다국어 정보검색 시스템에 직접 적용해서 그 효용성을 평가해보아야 할 것이다.
PDF

FlexSim 소프트웨어를 이용한 강화학습 기반 작업 할당 모형 개발 (Developing Reinforcement Learning based Job Allocation Model by Using FlexSim Software)

박진성;김준우
- 한국컴퓨터정보학회:학술대회논문집
- /
- 한국컴퓨터정보학회 2023년도 제67차 동계학술대회논문집 31권1호
- /
- pp.311-313
- /
- 2023
병렬 기계 작업장에서 자원을 효율적으로 활용하기 위해서는 처리할 작업을 적절한 기계에 할당해야 한다. 특정 작업을 처리할 기계를 선택할 때 휴리스틱을 사용할 수도 있으나, 특정 작업장에 맞춤화된 휴리스틱을 개발하는 것은 쉽지 않다. 반면, 본 논문에서는 이종 병렬 기계 작업장을 위한 작업 할당 모형을 개발하는데 강화학습을 응용하고자 한다. 작업 할당 모형을 학습하는데 필요한 에피소드들은 상용 시뮬레이션 소프트웨어인 FlexSim을 이용하여 생성하였다. 아울러, stable-baseline3 라이브러리를 이용하여 강화학습 알고리즘을 생성된 에피소드들에 적용하였다. 실험 결과를 통해 시뮬레이션과 강화학습이 작업장 운영관리에 유용함을 알 수 있었다.
PDF

병렬컴퓨팅을 이용한 터보기계 내부 유동장 해석 (Analysis of Turbomachinery Internal Flow Using Parallel Computing)

이장준;김유신;이동호
- 대한기계학회:학술대회논문집
- /
- 대한기계학회 2000년도 춘계학술대회논문집B
- /
- pp.586-592
- /
- 2000
터보머신 태부에 존재하는 정익 - 동익의 상호작용 유동현상을 수치모사 하는 코드를 병렬화 하였다 정익 - 동익의 상호작용을 해석하는 데에 편리하도륵 Multi-Block Grid System을 도입하여 계산영역을 형성하였고, 동익의 움직임으로 인해 발생하는 Sliding Interface부분은 Patched 알고리즘을 적용하여 해석하였다. 정익과 동익의 수를 1대 1로 단순화시켜 수치모사한 결과와 정익과 동익의 수를 실제 조건과 더 비슷하게 설정한 3대 4의 비율로 맞추어 수치모사한 결과를 비교하였다. 또한, 병렬컴퓨팅으로 인해 단축된 계산시간을 다른 연구에서의 계산시간들과 서로 비교하였다. 2차원 비정상 압축성 Navier-Stokes 방정식이 이용되었고, 난류모델링에는 K-w SST 모델링이 적응되었다. Roe의 FDS 기법을 사용하여 플럭스를 계산하였고, MUSCL 기법을 적용하여 3차의 공간정확도를 갖도록 하였다. 시간적분에는 이보성의 DP-SGS를 사용하였다. 해석결과의 분석에는 Time-averaged pressure distribution과 Pressure amplitude distribution 데이터를 사용했다.
PDF

병렬기구형 로봇 및 공작기계에 관한 연구 (Study on Parallel-Typed Robot and Machining Tool)

이민기;김태성;이원철
- 한국정밀공학회지
- /
- 제18권7호
- /
- pp.9-18
- /
- 2001
PDF

대역사전을 결합한 한/일 통계기계번역 (Integrating Bilingual Dictionary in Statistical Machine Translation between Korean and Japanese)

나휘동;이건일;이종혁
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
- /
- pp.288-290
- /
- 2012
서로 다른 분야에서 사용되는 어휘는 서로 다르게 번역된다. 본 논문에서는 특정 분야를 고려해 번역하기 위하여 대역 사전을 통계기계번역과 결합한 방법을 제안한다. 한/일 병렬 말뭉치를 500문장을 이용해 평가해 본 결과 학습용 병렬 말뭉치의 양이 너무 적거나 특정 분야의 병렬 말뭉치가 존재하지 않을때 대역 사전을 결합하면 번역 성능이 향상되었다.

검색결과 375건 처리시간 0.027초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)