• Title/Summary/Keyword: 영어 문장처리

Search Result 131, Processing Time 0.022 seconds

Integrated Clustering Method based on Syntactic Structure and Word Similarity for Statistical Machine Translation (문장구조 유사도와 단어 유사도를 이용한 클러스터링 기반의 통계기계번역)

  • Kim, Hankyong;Na, Hwi-Dong;Li, Jin-Ji;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.44-49
    • /
    • 2009
  • 통계기계번역에서 도메인에 특화된 번역을 시도하여 성능향상을 얻는 방법이 있다. 이를 위하여 문장의 유형이나 장르에 따라 클러스터링을 수행한다. 그러나 기존의 연구 중 문장의 유형 정보와 장르에 따른 정보를 동시에 사용한 경우는 없었다. 본 논문에서는 문장 사이의 문법적 구조 유사성으로 문장을 유형별로 분류하는 새로운 기법을 제시하였고, 단어 유사도 정보로 문서의 장르를 구분하여 기존의 두 기법을 통합하였다. 이렇게 분류된 말뭉치에서 추출한 모델과 전체 말뭉치에서 추출된 모델에서 보간법(interpolation)을 사용하여 통계기계번역의 성능을 향상하였다. 문장구조의 유사성과 단어 유사도 계산을 위하여 각각 커널과 코사인 유사도를 적용하였으며, 두 유사도를 적용하여 말뭉치를 분류하는 과정은 K-Means 알고리즘과 유사한 기계학습 기법을 사용하였다. 이를 일본어-영어의 특허문서에서 실험한 결과 최선의 경우 약 2.5%의 상대적인 성능 향상을 얻었다.

  • PDF

On the Effectiveness of the Special Token Cutoff Method for Korean Sentence Representation in Unsupervised Contrastive Learning (비지도 대조 학습에서 한국어 문장 표현을 위한 특수 토큰 컷오프 방법의 유효성 분석)

  • Myeongsoo Han;Yoo Hyun Jeong;Dong-Kyu Chae
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.491-496
    • /
    • 2023
  • 사전학습 언어모델을 개선하여 고품질의 문장 표현(sentence representation)을 도출하기 위한 다양한 대조 학습 방법에 대한 연구가 진행되고 있다. 그러나, 대부분의 대조학습 방법들은 문장 쌍의 관계만을 고려하며, 문장 간의 유사 정도를 파악하는데는 한계가 있어서 근본적인 대조 학습 목표를 저해하였다. 이에 최근 삼중항 손실 (triplet loss) 함수를 도입하여 문장의 상대적 유사성을 파악하여 대조학습의 성능을 개선한 연구들이 제안되었다. 그러나 많은 연구들이 영어를 기반으로한 사전학습 언어모델을 대상으로 하였으며, 한국어 기반의 비지도 대조학습에 대한 삼중항 손실 함수의 실효성 검증 및 분석은 여전히 부족한 실정이다. 본 논문에서는 이러한 방법론이 한국어 비지도 대조학습에서도 유효한지 면밀히 검증하였으며, 다양한 평가 지표를 통해 해당 방법론의 타당성을 확인하였다. 본 논문의 결과가 향후 한국어 문장 표현 연구 발전에 기여하기를 기대한다.

  • PDF

A Study of Null Instantiated Frame Element Resolution for Construction of Dialog-Level FrameNet (대화 수준 FrameNet 구축을 위한 생략된 프레임 논항 복원 연구)

  • Noh, Youngbin;Heo, Cheolhun;Hahm, Younggyun;Jeong, Yoosung;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.227-232
    • /
    • 2020
  • 본 논문은 의미역 주석(Semantic Role Labeling) 자원인 FrameNet을 준구어 말뭉치인 드라마 대본에 주석하는 과정과 주석 결과에 대해 서술한다. 본 논문에서는 프레임 - 프레임 논항 구조의 주석 범위를 한 문장에서 여러 발화로 이루어진 장면 (Scene) 단위의 대본으로 확장하여 문장 내에서 생략된 프레임 논항(Null-Instantiated Frame Elements)을 장면 단위 대본 내의 다른 발화에서 복원하였다. 본 논문은 프레임 자동 분석기를 통해 동일한 드라마의 한국어, 영어 대본에 FrameNet 주석을 한 드라마 대본을 선발된 주석자에 의해 대상 어휘 적합성 평가, 프레임 적합성 평가, 생략된 프레임 논항 복원을 실시하고, 자동 주석된 대본과 주석자 작업 후의 대본 결과를 비교한 결과와 예시를 제시한다. 주석자가 자동 주석된 대본 중 총 2,641개 주석 (한국어 1,200개, 영어 1,461개)에 대하여 대상 어휘 적합성 평가를 실시하여 한국어 190개 (15.83%), 영어 226개 (15.47%)의 부적합 대상 어휘를 삭제하였다. 프레임 적합성 평가에서는 대상 어휘에 자동 주석된 프레임의 적합성을 평가하여 한국어 622개 (61.68%), 영어 473개 (38.22%)의 어휘에 대하여 새로운 프레임을 부여하였다. 생략된 프레임 논항을 복원한 결과 작업된 평균 프레임 논항 개수가 한국어 0.780개에서 2.519개, 영어 1.290개에서 2.253개로 증가하였다.

  • PDF

A Comparative Study on Korean Relation Extraction with entity position information (엔터티 위치 정보를 활용한 한국어 관계추출 모델 비교 및 분석)

  • Son, Suhyune;Hur, Yuna;Lim, Jungwoo;Shim, Midan;Park, Chanjun;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.247-250
    • /
    • 2021
  • 관계추출(Relation Extraction)이란 주어진 문장에서 엔터티간의 관계를 예측하는 것을 목표로 하는 태스크이다. 이를 위해 문장 구조에 대한 이해와 더불어 두 엔터티간의 관계성 파악이 핵심이다. 기존의 관계추출 연구는 영어 데이터를 기반으로 발전되어 왔으며 그에 반해 한국어 관계 추출에 대한 연구는 부족하다. 이에 본 논문은 한국어 문장내의 엔터티 정보에 대한 위치 정보를 활용하여 관계를 예측할 수 있는 방법론을 제안하였으며 이를 다양한 한국어 사전학습 모델(KoBERT, HanBERT, KorBERT, KoELECTRA, KcELECTRA)과 mBERT를 적용하여 전반적인 성능 비교 및 분석 연구를 진행하였다. 실험 결과 본 논문에서 제안한 엔터티 위치 토큰을 사용하였을때의 모델이 기존 연구들에 비해 좋은 성능을 보였다.

  • PDF

Context-sensitive Word Error Detection and Correction for Automatic Scoring System of English Writing (영작문 자동 채점 시스템을 위한 문맥 고려 단어 오류 검사기)

  • Choi, Yong Seok;Lee, Kong Joo
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.4 no.1
    • /
    • pp.45-56
    • /
    • 2015
  • In this paper, we present a method that can detect context-sensitive word errors and generate correction candidates. Spelling error detection is one of the most widespread research topics, however, the approach proposed in this paper is adjusted for an automated English scoring system. A common strategy in context-sensitive word error detection is using a pre-defined confusion set to generate correction candidates. We automatically generate a confusion set in order to consider the characteristics of sentences written by second-language learners. We define a word error that cannot be detected by a conventional grammar checker because of part-of-speech ambiguity, and propose how to detect the error and generate correction candidates for this kind of error. An experiment is performed on the English writings composed by junior-high school students whose mother tongue is Korean. The f1 value of the proposed method is 70.48%, which shows that our method is promising comparing to the current-state-of-the art.

Analysis of limitations using only adjectives sentiment word dictionary (형용사만을 사용한 의견어 사전의 한계점 분석)

  • Yu, WonHui;Ji, Hye-Seong;Yang, Yeong-Uk;Lim, HeuiSeok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.11a
    • /
    • pp.373-375
    • /
    • 2011
  • 최근 많은 연구가 되고 있는 오피니언 마이닝은 의견어 사전의 구축이 가장 기본적으로 선행되어야 하는 연구이다. 오피니언 마이닝의 의견어 사전 구축 연구는 영어를 중심으로 많은 연구가 진행 되었다. 하지만 형용사 위주의 의견어 사전 구축으로 많은 부분의 문제들이 해결되는 영어에 비해서 한국어는 여러 가지 품사와 문장구조를 고려하여 의견어 사전을 구축해야한다. 이것을 실험으로 밝히기 위하여 형용사로만 구성되어진 의견어 사전을 구축하고 영화평에 적용하여 분석해 봄으로써 형용사로만 구성되어진 의견어 사전의 한계점을 확인한다. 실험은 세종계획 말뭉치에서 나타나는 형용사로 구성된 의견어 사전을 구축하고 네이버 랩에서 제공하는 영화평을 형용사로 구성된 의견어 사전으로 의견 분석하여 시행하였다. 분석 결과 재현율 약 50%, 정확률 약 60%정도의 성능을 보였다.

Korean Spoken Language Analysis System Using Concept and Syntactic Information (개념 및 구문 정보를 이용한 한국어 대화체 분석시스템)

  • Wang, Ji-Hyun;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.341-346
    • /
    • 1997
  • 개념기반 분석방법은 발화문에서 발화자가 전달하고자 하는 중요한 부분만을 추출하여 개념어로 대표하여 분석하기 때문에 문장에서 발생하는 불필요한 여러 언어현상을 무시하고 주요 의미만 추출할 수 있는 강건함을 가장 큰 장점으로 갖는다. 한국어는 영어권 언어와는 달리 교착어와 부분 자유 어순의 특징을 가지기 때문에 구문정보를 이용하지 않는 순수 개념 기반의 분석기법을 한국어에 그대로 적용하면 문법의 복잡도가 증가하여 시스템 성능이 크게 저하된다. 본 논문에서 제시하는 구문정보를 이용한 개념기반의 분석방법은 순수 개념 기반의 분석기법이나 구문정보만을 사용하는 방법보다 모호성이 적고, 문법의 기술이 용이하며, 대화체 처리의 어려운 점들을 상당수 극복할 수 있다. 또한 분석루틴의 skip기능은 자연 발화문의 분석률을 높여주며, 어근으로부터 분리한 어미를 일정한 개념으로 분류함으로써 교착어의 특성으로 인한 문법의 복잡도를 해소하였고, 분석문법으로 부분 자유 어순에 따른 다양한 문장들을 수용할 수 있다.

  • PDF

A Description Method of Korean Auxiliary Verbs (한국어 보조동사의 개념그래프적 기술 방안)

  • Lee, Byeong-Hui;Gwon, O-Seok
    • The KIPS Transactions:PartB
    • /
    • v.8B no.4
    • /
    • pp.373-380
    • /
    • 2001
  • 본 논문은 한국어 보조동사의 의미를 Sowa에 의해 제안되고 국제표준이 되고있는 개념그래프를 이용하여 형식적으로 기술하는 방법을 제안한다. 이를 위해 영어의 양상과 상에 관한 개념그래프를 알아보고 한국어 보조동사를 통사/의미론적으로 고찰한다. 한국어 보조동사의 개념그래프적 기술을 위해, 각종 논문과 국어사전에서 한국어 보조동사 40개의 여러 예문들을 수집하여 완료, 진행, 봉사, 시도, 강세, 원망, 지속, 추정의 8가지 의미로 분류하고 이들을 개념그래프로 기술한다. 실험에서는 이들 8가지 의미들을 인공지능언어의 일종인 LIPS과 유사한 KIF로 작성하고 C++를 이용하여 한국어 보조동사가 포함된 문장을 입력받아 개념그래프로 변환하는 프로그램을 구현한다. 문장 내의 모든 범주들의 개념과 개념 관계가 자연어의 모든 의미관계를 표시할 수 있는 개념그래프는 한국어 보조동사의 다양한 의미를 기술하는데 적합함을 알 수 있었다.

  • PDF

Word Segmentation for Korean with Syllable-Level Combinatory Categorial Grammar (음절단위 결합범주문법을 이용한 한국어 문장의 자동 띄어쓰기)

  • Lee, Ho-Joon;Park, Jong-C.
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.47-54
    • /
    • 2002
  • 한국어의 띄어쓰기 현상은 단어별로 정형화된 띄어쓰기를 하는 영어나 띄어쓰기가 발달하지 않은 중국어, 일본어와는 다르게 독특한 형태로 발전되어 왔다. 기존에는 부분적인 띄어쓰기 오류를 바로잡아주는 형태의 연구가 많이 진행되었지만 이제는 문자인식이나 음성인식 등의 연구와 결합하여 띄어쓰기가 완전히 무시된 문장의 띄어쓰기를 자동으로 처리하는 방법에 대한 연구가 활발히 진행 중이다. 본 논문에서는 한국어의 띄어쓰기 현상과 띄어쓰기 복원 방법에 대한 기존의 연구에 대해서 살펴보고 기존의 방법으로는 저리하기 힘들었던 형태를 음절단위 결합범주문법으로 설명한다.

  • PDF

Classification of Essay Discourse Elements Using Conditional Random Fields (CRF를 이용한 영어작문 구성요소 자동분류기법)

  • Rhee, John;Kwak, Dong-Min;Park, Sewon;Um, Jin-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.787-790
    • /
    • 2015
  • 본 연구에서는 글의 구성요소를 추측하는 가장 높은 성능을 나타내는 알고리즘을 제시한다. 실험 방법은 글의 각 문장에 대한 자질을 추출, 자질 선택, 그리고 데이터에 대해 여러 기계학습 알고리즘을 학습시킨 후 성능을 비교하여 진행하였다. 또한 이 중 가장 높은 성능을 보이는 CRF를 기존에 연구되어 있는 성능과도 비교하였다. 마지막으로 CRF가 구성요소를 추측하는 데 있어서 가장 높은 성능을 보이는 이유에 대해 분석하였다. 국내의 유명 어학원 및 토플 웹사이트를 통해 1969개의 토플 에세이를 수집했으며 2명의 전문 평가자를 통해 각 문장을 8개의 분류로 나누었다. 이를 CRF를 적용한 결과 87.2%의 F score가 나왔으며 기존 연구결과, 그리고 다른 알고리즘보다 높은 성능을 보였다.