• 제목/요약/키워드: 신경 기계 번역

검색결과 48건 처리시간 0.027초

Sequence-to-sequence 모델을 이용한 한국어 구구조 구문 분석 (Korean phrase structure parsing using sequence-to-sequence learning)

  • 황현선;이창기
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.20-24
    • /
    • 2016
  • Sequence-to-sequence 모델은 입력열을 길이가 다른 출력열로 변환하는 모델로, 단일 신경망 구조만을 사용하는 End-to-end 방식의 모델이다. 본 논문에서는 Sequence-to-sequence 모델을 한국어 구구조 구문 분석에 적용한다. 이를 위해 구구조 구문 트리를 괄호와 구문 태그 및 어절로 이루어진 출력열의 형태로 만들고 어절들을 단일 기호 'XX'로 치환하여 출력 단어 사전의 수를 줄였다. 그리고 최근 기계번역의 성능을 높이기 위해 연구된 Attention mechanism과 Input-feeding을 적용하였다. 실험 결과, 세종말뭉치의 구구조 구문 분석 데이터에 대해 기존의 연구보다 높은 F1 89.03%의 성능을 보였다.

  • PDF

한-X 신경기계번역시스템에서 동형이의어 분별에 따른 변역질 평가 (An Evaluation of Translation Quality by Homograph Disambiguation in Korean-X Neural Machine Translation Systems)

  • 원광복;신준철;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.504-509
    • /
    • 2018
  • Neural machine translation (NMT) has recently achieved the state-of-the-art performance. However, it is reported failing in the word sense disambiguation (WSD) for several popular language pairs. In this paper, we explore the extent to which NMT systems are able to disambiguate the Korean homographs. Homographs, words with different meanings but the same written form, cause the word choice problems for NMT systems. Consistent with the popular language pairs, we discover that NMT systems fail to translate Korean homographs correctly. We provide a Korean word sense disambiguation tool-UTagger to use for improvement of NMT's translation quality. We conducted translation experiments using Korean-English and Korean-Vietnamese language pairs. The experimental results show that UTagger can significantly improve the translation quality of NMT in terms of the BLEU, TER, and DLRATIO evaluation metrics.

  • PDF

Sequence-to-sequence 모델을 이용한 한국어 구구조 구문 분석 (Korean phrase structure parsing using sequence-to-sequence learning)

  • 황현선;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.20-24
    • /
    • 2016
  • Sequence-to-sequence 모델은 입력열을 길이가 다른 출력열로 변환하는 모델로, 단일 신경망 구조만을 사용하는 End-to-end 방식의 모델이다. 본 논문에서는 Sequence-to-sequence 모델을 한국어 구구조 구문 분석에 적용한다. 이를 위해 구구조 구문 트리를 괄호와 구문 태그 및 어절로 이루어진 출력열의 형태로 만들고 어절들을 단일 기호 'XX'로 치환하여 출력 단어 사전의 수를 줄였다. 그리고 최근 기계번역의 성능을 높이기 위해 연구된 Attention mechanism과 Input-feeding을 적용하였다. 실험 결과, 세종말뭉치의 구구조 구문 분석 데이터에 대해 기존의 연구보다 높은 F1 89.03%의 성능을 보였다.

  • PDF

인공지능의 역사, 분류 그리고 발전 방향에 관한 연구 (A Study on the History, Classification and Development Direction of Artificial Intelligence)

  • 조민호
    • 한국전자통신학회논문지
    • /
    • 제16권2호
    • /
    • pp.307-312
    • /
    • 2021
  • 인공지능은 오랜 역사가 있으며, 이미지 인식이나 자동번역 분야를 포함한 여러 분야에서 활용되고 있다. 그래서 처음 인공지능을 접하는 경우에 많은 용어와 개념, 기술 때문에 연구의 방향 설정이나 수행에 어려움을 겪는 경우가 많다. 이번 연구는 이러한 어려움을 겪는 연구자들에게 도움이 될 수 있도록 인공지능에 관련된 중요 개념을 정리하고, 지난 60년의 발전 과정을 요약한다. 이를 통하여 방대한 인공지능 기술 활용의 기초를 확립하고 올바른 연구의 방향성을 수립할 수 있다.

인공지능을 이용한 과일 가격 예측 모델 연구 (Fruit price prediction study using artificial intelligence)

  • 임진모;김월용;변우진;신승중
    • 문화기술의 융합
    • /
    • 제4권2호
    • /
    • pp.197-204
    • /
    • 2018
  • 현재 우리가 사는 21세기에서 가장 핫한 이슈중 하나는 AI이다. 농경사회에서 산업혁명을 통해 육체노동의 자동화를 이루었듯이 정보사회에서 SW혁명을 통해 지능정보사회가 도래햇다. Google '알파고'의 등장으로 인해 컴퓨터가 스스로 학습하고 예측하는 machine learning (머신러닝) 사례를 보면서 이제 바둑의 세계 까지 인간이 컴퓨터를 이길 수 없는, 다시 말하면 컴퓨터가 인간을 뛰어넘는 시대가 왔다. 기계학습ML(machine learning)은 인공 지능 분야로, 인공지능 컴퓨터가 인간을 뛰어넘는 시대가 도래했다. 기계학습ML(machine learning)은 인공지능의 분야로, 인공지능 컴퓨터가 혼자 학습 하도록 알고리즘 기술 개발을 하는 뜻을 의미하는데, 많은 기업들이 머신러닝을 바둑의 세계까지 인간이 컴퓨터를 이길 수 없는, 다시 말하면 컴퓨터가 인간을 뛰어넘는 시대가 왔다. 많은 기업들이 머신러닝을 용하는데 그 예로는 Facebook에서 이미지를 계속 학습하여 나중에 그 이미지가 누구인지 알려주는 것도 머신러닝의 한 사례이다. 또한 구글의 데이터 센터 최적화를 위해서 효율적인 에너지 사용 모델 구축을 위해 neural network(신경망)을 활용하였다. 또 다른 사례로 마이크로소프트의 실시간 통역 모델은 번역 학습을 통해 언어관련 인풋 데이터가 증가할수록 더 정교한 번역을 해주는 모델이다. 이처럼 많은 분야에 머신러닝이 점차 쓰이면서 이제 우리 21세기 사회에서 앞으로 나아가려면 AI산업으로 뛰어들어야 한다.

검색 기반의 질문생성에서 중복 방지를 위한 유사 응답 검출 (Detection of Similar Answers to Avoid Duplicate Question in Retrieval-based Automatic Question Generation)

  • 최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권1호
    • /
    • pp.27-36
    • /
    • 2019
  • 본 연구는 검색 기반의 질문 자동 생성 시스템에서 사용자가 이미 답변한 내용을 재질문하지 않도록 사용자의 응답과 유사도가 높은 응답을 질문-데이터베이스에서 찾는 방법을 제안한다. 유사도가 높게 검출된 응답의 질문은 이미 사용자가 아는 내용일 확률이 높기 때문에 질문 후보군에서 제거한다. 유사 응답 검출에는 두 응답간의 동일 단어, 바꿔쓰기 표현, 문장 내용을 모두 사용하였다. 바꿔쓰기 표현은 통계기반의 기계번역에서 사용하는 구절 테이블을 사용하여 구축하였다. 문장 내용은 두 문장을 주의-기반 컨볼루션 신경망으로 압축하여 유사도를 계산하였다. 평가를 위해 구축한 100개의 평가 응답에 질문-응답 데이터베이스로부터 가장 유사한 응답을 추출해서 얻은 결과는 MRR값 71%의 성능을 보였다.

문장에 포함된 외국어의 자연스러운 발음 표현을 위한 LSTM 방법 (An LSTM Method for Natural Pronunciation Expression of Foreign Words in Sentences)

  • 김성돈;정재희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권4호
    • /
    • pp.163-170
    • /
    • 2019
  • 한국어는 "을/를/이/가/와/과"와 같은 조사가 체언에 붙어 문장의 의미를 더해준다. 문장 중에 외국어 표기를 그대로 사용하는 경우나 외국어의 약자가 포함되어 있는 경우, 외국어의 발음에 따른 적절한 조사가 연결되지 않는 경우가 있다. 때로는 문장의 자연스러운 표현을 위하여 "을(를)"과 같이 괄호 형식으로 표현하여 조사를 두 개 다 수용 가능한 형태로 사용되어지기도 한다. 본 연구에서는 문장 내에 외국어가 포함되어 있는 경우, 조사가 부자연스럽게 연결되는 예를 찾고 체언의 종성 발음을 학습하여 자연스러운 조사 연결을 위한 방법을 알아보고자 한다. 제안하는 방법은 순환신경망 모델을 이용하여 외국어에 연결된 조사를 자연스럽게 표현하는 것이다. 제안된 모델로 학습 및 테스트하여 방법의 필요성을 입증함으로써, 향후 기계 번역에서 영문 약자나 새로운 외국어 삽입 시 자연스러운 조사 연결로 완전한 문장을 연결하는데 사용될 수 있을 것으로 기대한다.

양방향 RNN과 학술용어사전을 이용한 영문학술문서 교정 방법론 (Methodology of Automatic Editing for Academic Writing Using Bidirectional RNN and Academic Dictionary)

  • 노영훈;장태우;원종운
    • 한국전자거래학회지
    • /
    • 제27권2호
    • /
    • pp.175-192
    • /
    • 2022
  • 자연어 처리 기술을 접목한 컴퓨터 보조 언어 학습 연구가 진행되고 있지만, 기존 영문교정은 일반적인 영어 문장을 기반으로 연구되어, 격식을 갖춘 문체와 전문적인 기술 용어를 사용하는 학술 영문의 경우 그 특성을 반영하지 못한 교정 결과를 제공한다. 또한 문장의 문법적 완성도 향상을 위한 다수의 기존 연구는 교정을 통한 문장 전달력 향상의 한계점이 존재한다. 따라서, 본 논문은 전문적인 기술 용어 사용을 기반으로 문장의 명확한 의미 전달을 목적으로 하는 학술 영문을 위한 자동 교정 방법론을 제안한다. 제안 방법론은 오탈자 교정과 문장 전달력 개선 두 단계로 구성된다. 오탈자 교정 단계는 입력된 오탈자와 문맥에 적합한 교정 단어를 제공한다. 문장 전달력 개선 단계는 원문과 교정문의 쌍으로부터 학습할 수 있는 양방향 순환신경망 기계번역 사후교정 모델을 기반으로 문장의 전달력을 개선한다. 실제 교정 데이터를 이용한 실험을 수행하였으며, 정량적·정성적 분석을 통해 제안 방법론의 우수성을 검증하였다.