• 제목/요약/키워드: 기계 번역 시스템

검색결과 198건 처리시간 0.024초

영어 구문 분석의 효율 개선을 위한 3단계 구문 분석 (Three-Phase English Syntactic Analysis for Improving the Parsing Efficiency)

  • 김성동
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권1호
    • /
    • pp.21-28
    • /
    • 2016
  • 영어 구문 분석기는 영한 기계번역 시스템의 성능에 가장 큰 영향을 미치는 부분이다. 본 논문에서의 영어 구문 분석기는 규칙 기반 영한 기계번역 시스템의 한 부분으로서, 많은 구문 규칙을 구축하고 차트 파싱 기법으로 구문 분석을 수행한다. 구문 규칙의 수가 많기 때문에 구문 분석 과정에서 많은 구조가 생성되는데, 이로 인해 구문 분석 속도가 저하되고 많은 메모리를 필요로 하여 번역의 실용성이 떨어진다. 또한 쉼표를 포함하는 긴 문장들은 구문 분석 복잡도가 매우 높아 구문 분석 시간/공간 효율이 떨어지고 정확한 번역을 생성하기 매우 어렵다. 본 논문에서는 실제 생활에서 나타나는 긴 문장들을 효율적으로 번역하기 위해 문장 분할 방법을 적용한 3단계 구문 분석 방법을 제안한다. 구문 분석의 각 단계는 독립된 구문 규칙들을 적용하여 구문 분석을 수행함으로써 구문 분석의 복잡도를 줄이려 하였다. 이를 위해 구문 규칙을 3가지 부류로 분류하고 이를 이용한 3단계 구문 분석 알고리즘을 고안하였다. 특히 세 번째 부류의 구문 규칙은 쉼표로 구성되는 문장 구조에 대한 규칙으로 구성되는데, 이들 규칙들을 말뭉치의 분석을 통해 획득하는 방법을 제안하여 구문 분석의 적용률을 지속적으로 개선하고자 하였다. 실험을 통해 제안한 방법이 문장 분할만을 적용한 기존 2단계 구문 분석 방법에 비해 유사한 번역 품질을 유지하면서도 시간/공간 효율 면에서 우수함을 확인하였다.

한국어 목적격조사의 몽골어 격 어미 결정 (Determination of Mongolian's suffixes based on the object case markers of Korean)

  • 셋겔후 훌란;신준철;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.587-590
    • /
    • 2018
  • 한국어 목적격 조사를 몽골어 격 어미로 번역할 때 한국어 목적격 조사가 몽골어의 여러 격 어미로 번역이 될 수 있는데, 기존의 연구들은 한가지 격 어미로만 번역해 정확한 의미를 전달하지 못하는 문제점이 있다. 이런 문제점을 개선하기 위하여 본 논문에서는 한국어 형태소 분석과 동시에 품사 및 동형이의어 태깅 시스템인 유태거(UTagger)를 기반으로 한국어 목적격 조사의 몽골어 격 어미 결정 방법을 제안한다. 제안한 방법의 성능을 검증하기 위하여 한국어기초사전에서 데이터를 추출하고 유태거와 비교 실험하였다. 실험 결과 유태거의 정확률은 72%인데 반해 제안한 방법은 94%로 제안한 방법이 22%p 더 우수한 결과를 보였다.

  • PDF

한일기계번역시스템의 사전을 사용한 한국어 형태소분석시스템 (The Korean Analysis System by The Using of The Korean/Japanese Maching Translation's Dictionary)

  • 강용희;전중광일;송전순일
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.106-116
    • /
    • 1999
  • 한일기계번역시스템의 형태소 해석 프로그램의 중간버퍼를 표준안에 맞추어 명사추출 및 품사태킹을 시도해 보았다. 기존의 모델을 유지하면서 사전의 표제어를 보충하여 출력의 형태를 바꾸는 방법으로 표준안의 출력에 가깝게 출력을 함으로써 기존의 프로그램의 장점과 단점을 보완하는 것과, 표준안에 관한 문제제기가 본 연구의 목적이다. 특히 품사개념이 다른 사전에서 태킹 및 명사추출을 실시할 경우 표제어의 등록여부와 정확률의 인과관계는 높다고 판단된다. 그러므로 표준안의 품사기준은 그에 따른 시스템의 성패를 좌우한다.

  • PDF

한영 번역 시스템에서의 불특정 조사를 포함한 용언구 처리 (Predicative phrase processing including unexpectable JOSA in the Korean-English translation system)

  • 박홍원;심재석;이수진;석영민;오승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.523-529
    • /
    • 2001
  • 한국어의 용언구 중에서 [명사]+[불특정 조사]+[용언]의 형태를 보이는 '공부를 하다' '잠이나 자다'와 같은 어구는 [명사]와 [동사]의 결합이 비교적 자유로워 기계번역 시스템에서 이들을 처리하고자 할 때 몇가지 애로점이 있다. 우선, 기계번역 시스템의 특성상 이와 같은 용언구를 하나의 어구로 인식해서 역문을 생성해야 하는데 이들을 일일이 사전에 수록하기 어렵다는 점을 지적할 수 있다. 또한 이들 어구에 포함된 [명사] 부분이 [한정사]의 수식을 받을 때 영어 역문에서는 해당 수식어를 원래의 수식어의 의미 그대로 생성할 수 없다는 것도 중요한 문제점이다. 이러한 문제점을 해결하기 위하여 본 연구에서는 [명사] 부분과 [용언] 부분을 각각의 품사 사전에서 탐색하여 품사별로 인식한 후에 다시 통사적으로 하나의 용언으로 인식시켜 해당 역문을 생성하는 처리 방법을 제안한다. 또한, [한정사]의 수식을 올바로 생성하기 위하여 이런 종류의 용언구들을 분류하여 그 분류에 따라 [한정사]를 변형 생성하는 방법을 제시한다.

  • PDF

영한 기계번역에서 구문 분석 정확성 향상을 위한 구문 범주 예측 (Syntactic Category Prediction for Improving Parsing Accuracy in English-Korean Machine Translation)

  • 김성동
    • 정보처리학회논문지B
    • /
    • 제13B권3호
    • /
    • pp.345-352
    • /
    • 2006
  • 실용적인 영한 기계번역 시스템은 긴 문장을 빠르고 정확하게 번역할 수 있어야 한다. 보다 빠른 번역을 위해 문장 분할을 이용한 부분 파싱 방법이 제안되어 속도 향상에 기여하였다. 본 논문에서는 보다 정확한 분석을 위해 결정 트리를 이용한 구문 범주 예측 방법을 제안한다. 문장 분할을 적용한 영어 분석에서 각각의 분할된 부분은 개별적으로 분석되며 각 분석 결과들이 결합되어 문장의 구조가 생성된다. 여기서 각 분할의 구문 범주를 미리 예측하여 부분 파싱 후에 보다 정확한 분석 결과를 선정하고 예측된 구문 범주에 근거하여 올바르게 다른 문장의 분할결과와 결합함으로써 문장 분석의 정확도를 향상시키는 것이 본 논문에서 제안한 방법의 목적이다. 본 논문에서는 Wall Street Journal의 파싱된 말뭉치에서 구문 범주 예측에 필요한 특성을 추출하고 결정 트리를 이용하여 구문 범주 예측을 위한 결정 트리를 생성하였다. 실험에서는 사람이 구축한 규칙을 이용한 방법, trigram 확률을 이용한 방법, 신경망을 이용한 방법 등에 의한 구문 범주 예측 성능을 측정, 비교하였으며 제안된 구문 범주 예측이 번역의 품질 향상에 기여한 정도를 제시하였다.

ChatGPT 기반 한국어 Vision-Language Pre-training을 위한 고품질 멀티모달 데이터셋 구축 방법론 (High-Quality Multimodal Dataset Construction Methodology for ChatGPT-Based Korean Vision-Language Pre-training)

  • 성진;한승헌;신종훈;임수종;권오욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.603-608
    • /
    • 2023
  • 본 연구는 한국어 Vision-Language Pre-training 모델 학습을 위한 대규모 시각-언어 멀티모달 데이터셋 구축에 대한 필요성을 연구한다. 현재, 한국어 시각-언어 멀티모달 데이터셋은 부족하며, 양질의 데이터 획득이 어려운 상황이다. 따라서, 본 연구에서는 기계 번역을 활용하여 외국어(영문) 시각-언어 데이터를 한국어로 번역하고 이를 기반으로 생성형 AI를 활용한 데이터셋 구축 방법론을 제안한다. 우리는 다양한 캡션 생성 방법 중, ChatGPT를 활용하여 자연스럽고 고품질의 한국어 캡션을 자동으로 생성하기 위한 새로운 방법을 제안한다. 이를 통해 기존의 기계 번역 방법보다 더 나은 캡션 품질을 보장할 수 있으며, 여러가지 번역 결과를 앙상블하여 멀티모달 데이터셋을 효과적으로 구축하는데 활용한다. 뿐만 아니라, 본 연구에서는 의미론적 유사도 기반 평가 방식인 캡션 투영 일치도(Caption Projection Consistency) 소개하고, 다양한 번역 시스템 간의 영-한 캡션 투영 성능을 비교하며 이를 평가하는 기준을 제시한다. 최종적으로, 본 연구는 ChatGPT를 이용한 한국어 멀티모달 이미지-텍스트 멀티모달 데이터셋 구축을 위한 새로운 방법론을 제시하며, 대표적인 기계 번역기들보다 우수한 영한 캡션 투영 성능을 증명한다. 이를 통해, 우리의 연구는 부족한 High-Quality 한국어 데이터 셋을 자동으로 대량 구축할 수 있는 방향을 보여주며, 이 방법을 통해 딥러닝 기반 한국어 Vision-Language Pre-training 모델의 성능 향상에 기여할 것으로 기대한다.

  • PDF

영한번역 시스템에서 연어 사용에 의한 실용적인 대역어 선택 (Practical Target Word Selection Using Collocation in English to Korean Machine Translation)

  • 김성묵
    • 한국산업정보학회논문지
    • /
    • 제5권2호
    • /
    • pp.56-61
    • /
    • 2000
  • 기계번역시스템에서 번역의 우수성은 중의성이 심한 동사의 대역어 선택에 좌우된다. 동사의 의미분별은 함께 어울려 사용되는 연어들에 의해 해소될 수 있지만, 이러한 연어들을 획득하기에는 많은 어려움과 비용의 문제가 발생한다. 이에 따라 기존의 많은 연구 중에서 실용성을 검토해 볼 필요가 있다. 본 논문에서는 영한번역시스템의 성능 향상을 위해 기존에 획득된 연어에 최소한의 명사 의미자질을 구축하여 계산한 의미거리(Semantic Distance)에 의한 실용적인 대역어 선택 방법을 기술하고자 한다.

  • PDF

한/영 기계번역 시스템을 위한 시제 도우미의 설계와 구현 (Design and Implementation of a Tense Helper for a Korean-to-English Machine Translation System)

  • 이병희
    • 인터넷정보학회논문지
    • /
    • 제2권4호
    • /
    • pp.55-67
    • /
    • 2001
  • 최근 여러 상용 기계번역 시스템들이 발표되고 있다. 하지만 아직은 많은 시스템들이 오역된 결과를 출력하는 문제점을 안고 있다. 본 논문은 이러한 오역 중에서 시제처리 때문에 발생하는 오류에 중점을 둔다. 본 논문에서는 한국어의 시제를 영어의 현재, 과거, 미래, 현재완료 과거완료 미래완료 현재진행 과거진행, 미래진행, 현재완료진행, 과거완료진행, 미래완료진행 등 12시제와 비교한다. 이와 함께 한국어 시제의 의미를 분석하고, 시제의 구조를 개념그래프에 기반 하여 기술한다. 실험에서는 시제가 포함된 문장을 입력받아 개념그래프로 변환하는 프로그램을 구현하고 그 결과를 기술한다.

  • PDF

한국어-프랑스어 자동번역을 위한 과거시제 선어말어미 '-었'의 처리방안 (Past Tense Generation in Korean to French Machine Translation)

  • 임승희;노란;홍문표
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.173-174
    • /
    • 2014
  • 본 연구는 현재 개발 진행 중인 다국어 자동통번역시스템에서 발생하는 한국어 과거시제 선어말어미 '-었'의 생성문제를 다루었다. 한국어 과거시제 선어말 어미는 영어와 독일어의 경우에는 대부분 단순과거형으로 생성될 수 있으나, 프랑스어의 경우에는 복합과거의 형식과 반과거의 형식 중 하나를 선택해야 하는 문제가 발생한다. 본 연구에서는 이러한 문제의 해결을 위해 한-프랑스어 코퍼스 분석을 통해 복합과거와 반과거의 올바른 생성을 위한 네 가지의 자질을 선정하였고, 이에 SVM 알고리즘을 적용한 분류기를 구현하였다. 현재까지의 실험결과는 84.45%의 정확률이며 현재 성능개선을 위한 연구가 계속 진행 중이다.

  • PDF