• Title/Summary/Keyword: 영어 문장처리

Search Result 131, Processing Time 0.028 seconds

Internet English Newspaper Article Extraction Tool for English Corpus Construction (영어 말뭉치 구축을 위한 인터넷 영어 신문기사 추출 도구)

  • Kim, Sung-Dong;Eum, Jae-Young;Song, Chulmin
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.154-156
    • /
    • 2012
  • 영한 기계번역 시스템의 개발을 위해서는 여러 가지 사전이 필요하고, 다앙한 모호성 해소를 위한 연구를 위한 데이터가 필요하며, 번역 시스템의 테스트를 위해 많은 영어 문장이 필요하다. 따라서 영어 말뭉치를 구축하여 이로부터 사전에 필요한 정보, 모호성 해소 연구에 필요한 데이터, 번역 테스트를 위한 문장 등을 추출할 필요가 있다. 본 논문에서는 영어 말뭉치를 구축하기 위해 인터넷 영어 신문 사이트로부터 영어로 작성된 신문기사를 추출하는 도구를 개발하였다. 이를 통해 자동적으로 영어 신문기사를 추출하여 말뭉치를 구축할 수 있으며, 이를 통해 영한 기계번역 시스템의 성능 향상을 지원할 수 있다.

  • PDF

Comparison and Analysis of Unsupervised Contrastive Learning Approaches for Korean Sentence Representations (한국어 문장 표현을 위한 비지도 대조 학습 방법론의 비교 및 분석)

  • Young Hyun Yoo;Kyumin Lee;Minjin Jeon;Jii Cha;Kangsan Kim;Taeuk Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.360-365
    • /
    • 2022
  • 문장 표현(sentence representation)은 자연어처리 분야 내의 다양한 문제 해결 및 응용 개발에 있어 유용하게 활용될 수 있는 주요한 도구 중 하나이다. 하지만 최근 널리 도입되고 있는 사전 학습 언어 모델(pre-trained language model)로부터 도출한 문장 표현은 이방성(anisotropy)이 뚜렷한 등 그 고유의 특성으로 인해 문장 유사도(Semantic Textual Similarity; STS) 측정과 같은 태스크에서 기대 이하의 성능을 보이는 것으로 알려져 있다. 이러한 문제를 해결하기 위해 대조 학습(contrastive learning)을 사전 학습 언어 모델에 적용하는 연구가 문헌에서 활발히 진행되어 왔으며, 그중에서도 레이블이 없는 데이터를 활용하는 비지도 대조 학습 방법이 주목을 받고 있다. 하지만 대다수의 기존 연구들은 주로 영어 문장 표현 개선에 집중하였으며, 이에 대응되는 한국어 문장 표현에 관한 연구는 상대적으로 부족한 실정이다. 이에 본 논문에서는 대표적인 비지도 대조 학습 방법(ConSERT, SimCSE)을 다양한 한국어 사전 학습 언어 모델(KoBERT, KR-BERT, KLUE-BERT)에 적용하여 문장 유사도 태스크(KorSTS, KLUE-STS)에 대해 평가하였다. 그 결과, 한국어의 경우에도 일반적으로 영어의 경우와 유사한 경향성을 보이는 것을 확인하였으며, 이에 더하여 다음과 같은 새로운 사실을 관측하였다. 첫째, 사용한 비지도 대조 학습 방법 모두에서 KLUE-BERT가 KoBERT, KR-BERT보다 더 안정적이고 나은 성능을 보였다. 둘째, ConSERT에서 소개하는 여러 데이터 증강 방법 중 token shuffling 방법이 전반적으로 높은 성능을 보였다. 셋째, 두 가지 비지도 대조 학습 방법 모두 검증 데이터로 활용한 KLUE-STS 학습 데이터에 대해 성능이 과적합되는 현상을 발견하였다. 결론적으로, 본 연구에서는 한국어 문장 표현 또한 영어의 경우와 마찬가지로 비지도 대조 학습의 적용을 통해 그 성능을 개선할 수 있음을 검증하였으며, 이와 같은 결과가 향후 한국어 문장 표현 연구 발전에 초석이 되기를 기대한다.

  • PDF

Assessment of Writing Fluency For Automated English Essay Scoring (영어 논술 자동 평가를 위한 언어 유창성 측정 방법)

  • Yang, Min-Chul;Kim, Min-Jeong;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.25-29
    • /
    • 2011
  • 영어 논술 자동 평가 시스템은 수험자가 쓴 에세이에 대하여 전문 평가자가 직접 읽고 평가하는 방식에서 벗어나 웹상에서 자동으로 평가 받을 수 있는 실시간 시스템이다. 하지만 비영어권 수험자에게는 논리력 혹은 작문 능력보다 그것을 영어로 표현하는 유창성에서 더 큰 문제가 있을 수 있는데 기존 연구에서는 이런 측면에 대한 평가가 부족하였다. 본 연구에서는 보다 정확한 비영어권 수험자의 영어 논술 평가를 위해 어휘력, 문장 구조의 다양성, 문장의 혼잡도를 평가하여 언어 유창성에 집중된 기계학습 방법의 추가적인 자질을 제안한다. 실험 결과 전문 평가자의 점수와 1) 상관관계 2) 정확도 측면에서 제안하는 방법은 기존의 방법에 비해 더 나은 성능을 보였다.

  • PDF

On Implementation of Korean-English Machine Translation System through Program Reuse (프로그램 재사용을 통한 한/영 기계번역시스템의 구현에 관한 연구)

  • Kim, Hion-Gun;Yang, Gi-Chul;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.559-570
    • /
    • 1993
  • In this article we present a rapid development of a Korean to English translation system, by the help of general English generator, PENMAN. PENMAN is an English sentence generation system, of which input language is a language specially devised for sentence generation, named Sentence Planning Language(SPL). The language SPL has various features that are necessary for generating sentences, covering both syntactic and semantic features. In this development we integrated a Korean language parser based on dependency grammar and the English sentence generator PENMAN, bridging two systems through a converting module, which converts dependency structures produced by Korean parser into SPL for PENMAN.

  • PDF

Building an Automated Scoring System for a Single English Sentences (단문형의 영작문 자동 채점 시스템 구축)

  • Kim, Jee-Eun;Lee, Kong-Joo;Jin, Kyung-Ae
    • The KIPS Transactions:PartB
    • /
    • v.14B no.3 s.113
    • /
    • pp.223-230
    • /
    • 2007
  • The purpose of developing an automated scoring system for English composition is to score the tests for writing English sentences and to give feedback on them without human's efforts. This paper presents an automated system to score English composition, whose input is a single sentence, not an essay. Dealing with a single sentence as an input has some advantages on comparing the input with the given answers by human teachers and giving detailed feedback to the test takers. The system has been developed and tested with the real test data collected through English tests given to the third grade students in junior high school. Two steps of the process are required to score a single sentence. The first process is analyzing the input sentence in order to detect possible errors, such as spelling errors, syntactic errors and so on. The second process is comparing the input sentence with the given answer to identify the differences as errors. The results produced by the system were then compared with those provided by human raters.

Word-level Korean-English Quality Estimation (단어 수준 한국어-영어 기계번역 품질 예측)

  • Eo, Sugyeong;Park, Chanjun;Seo, Jaehyung;Moon, Hyeonseok;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.9-15
    • /
    • 2021
  • 기계번역 품질 예측 (Quality Estimation, QE)은 정답 문장에 대한 참조없이 소스 문장과 기계번역 결과를 통해 기계번역 결과에 대한 품질을 수준별 주석으로 나타내주는 태스크이며, 다양한 활용도가 있다는 점에서 꾸준히 연구가 수행되고 있다. 그러나 QE 모델 학습을 위한 데이터 구성 시 기계번역 결과에 대해 번역 전문가가 교정한 문장이 필요한데, 이를 제작하는 과정에서 상당한 인건비와 시간 비용이 발생하는 한계가 있다. 본 논문에서는 번역 전문가 없이 병렬 또는 단일 말뭉치와 기계번역기만을 활용하여 자동화된 방식으로 한국어-영어 합성 QE 데이터를 구축하며, 최초로 단어 수준의 한국어-영어 기계번역 결과 품질 예측 모델을 제작하였다. QE 모델 제작 시에는 Cross-lingual language model (XLM), XLM-RoBERTa (XLM-R), multilingual BART (mBART)와 같은 다언어모델들을 활용하여 비교 실험을 수행했다. 또한 기계번역 결과에 대한 품질 예측의 객관성을 검증하고자 구글, 아마존, 마이크로소프트, 시스트란의 번역기를 활용하여 모델 평가를 진행했다. 실험 결과 XLM-R을 활용하여 미세조정학습한 QE 모델이 가장 좋은 성능을 보였으며, 품질 예측의 객관성을 확보함으로써 QE의 다양한 장점들을 한국어-영어 기계번역에서도 활용할 수 있도록 했다.

  • PDF

A Development of Korean Sentence Processor using Surface Analysis (문장 표면 분석에 의한 한국어 문장 처리기 개발)

  • Lee, Ho-Suk
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.245-248
    • /
    • 2010
  • 현대 한국어 문장에는 (1) 여러 가지 부사절이 포함된 경우, (2) 길이가 긴 경우, (3) 여러 가지 기호를 포함한 경우, (4) 수와 단위 표현이 있는 경우, (5) 영어 등 외국어가 포함된 경우, (6) 혹은 (1)(2)(3)(4)(5)를 모두 포함한 경우가 많다. 따라서 현대 한국어 문장을 구문 처리하기 위해서는 전처리(preprocessing) 과정이 필수적이라고 생각한다. 전처리 과정에서는 문장 표면 분석을 수행하고 문장 분할도 수행하여 입력 문장을 구문 처리가 가능한 형태로 바꾸어야 한다. 본 논문에서는 현대 한국어 문장을 구문 처리하기 위한 표면 분석 방법과 분할 방법을 논의한다. 또한 한국어 구문을 나타내는 분할 구조 문법의 예도 제시한다.

  • PDF

A Preprocessor for English-to-Korean Machine Translation of Web Pages (웹용 영한 기계번역을 위한 문서 전처리기의 설계 및 구현)

  • An, Dong-Un;Ryu, Hong-Jin;Seo, Jin-Won;Lee, Young-Woo;Jeong, Sung-Jong;Yuh, Sang-Hwa;Kim, Tae-Wan;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.249-254
    • /
    • 1997
  • 영어 웹 문서를 한국어로 기계번역을 하기 위해서는 HTML 태그를 번역 대상 문장과 분리하는 처리가 필요하다. HTML 태그를 단순히 제거하는 것이 아니라 대상 문장의 기계번역이 종료된 후에 같은 형태의 한국어 웹 문서로 복원하기 위한 방안이 마련 되어야 한다. 또한 문서 전처리기에서는 영어 형태소해석기의 성능을 높이기 위하여 번역 단위가 되는 문장의 인식 및 분리, 타이틀의 처리, 나열된 단어의 처리, 하이픈 처리, 고유명사 인식, 특수 문자 처리, 대소문자 정규화, 날짜 인식 등을 처리하여 문서의 정규화를 수행한다.

  • PDF

Extraction of the Training Data for Building Case Frames from a Corpus (말뭉치로부터 격틀 구축에 필요한 학습 데이터 추출)

  • Yang, Dan-Hee;Song, Man-Suk
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.287-292
    • /
    • 1998
  • 실용적인 격틀(Case frame) 정보를 말뭉치로부터 자동구축하기 위해서는 대량의 홀문장이 필요하다. 그리고 국어 문장 형식은 영어와 많은 차이점이 있다. 또한 기존의 격틀 구축 연구에서 전제했던 광범위한 학습 데이터와 언어학적 지식은 국어에 대해 현재 존재하지 않는다. 그러므로 본 연구는 그러한 문제점들을 밝히고 현실적인 접근 방법을 제시한다. 그리고 겹문장을 홑문장 형태의 문장들로 바꾸기 위한 알고리즘을 제시한다.

  • PDF

Solving Automatically Algebra Math Word Problem in Korean (한국어 수학 문장제 문제 자동 풀이)

  • Woo, Changhyub;Gweon, Gahgene
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.310-315
    • /
    • 2018
  • 본 논문에서는 한국어 수학 문장제 문제 자동 풀이를 위한 방법을 소개한다. 수학 문장제 문제란 수학적 관계가 언어와 숫자로 주어질 때, 문제에서 요구하는 정보를 도출하는 수학 문제로, 언어 의미 분석과 수학적 관계 추출이 요구된다. 본 논문에서는 이원 일차 연립 방정식을 포함한 514 문제의 영어 데이터셋을 번역해 한국어 문제를 확보하였다. 또한 한국어의 수학적 관계 표현과 언어 유형적 특성을 고려한 자질 추출을 제안하고, 템플릿 기반 Log-linear 모델이 정답 방정식을 분류하도록 학습하였다. 5겹 교차 검증을 실시한 결과, 영어 문제를 풀이한 선행 연구의 정답률 79.7% 대비 1%p 낮은 78.6%의 정답률을 보였다.

  • PDF