• Title/Summary/Keyword: 패러프레이즈

Search Result 14, Processing Time 0.028 seconds

A Study on the Construction of keyphrase dataset for paraphrase extraction (패러프레이즈 추출을 위한 키프레이즈 데이터셋 구축 방법론 연구)

  • Kang, Hyerin;Kang, Yejee;park, Seoyoon;Jang, Yeonji;Kim, Hansaem
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.357-362
    • /
    • 2020
  • 자연어 처리 응용 시스템이 패러프레이즈 표현을 얼마나 정확하게 포착하는가에 따라 응용 시스템의 성능 측면에서 차이가 난다. 따라서 자연어 처리의 응용 분야 전반에서 패러프레이즈 표현에 대한 중요성이 커지고 있다. 시스템의 성능 향상을 위해서는 모델을 학습시킬 충분한 말뭉치가 필요하다. 특히 이러한 패러프레이즈 말뭉치를 구축하기 위해서는 정확한 패러프레이즈 추출이 필수적이다. 따라서 본 연구에서는 패러프레이즈를 추출을 위한 언어 자원으로 키프레이즈 데이터셋을 제안하고 이를 기반으로 유사한 의미를 전달하는 패러프레이즈 관계의 문장을 추출하였다. 구축한 키프레이즈 데이터셋을 패러프레이즈 추출에 활용한다면 본 연구에서 수행한 것과 같은 간단한 방법으로 패러프레이즈 관계에 있는 문장을 찾을 수 있다는 것을 보였다.

  • PDF

Various Paraphrase Generation Using Sentence Similarity (문장 유사도를 이용한 다양한 표현의 패러프레이즈 생성)

  • Park, Da-Sol;Chang, Du-Seong;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.576-581
    • /
    • 2021
  • 패러프레이즈란 어떤 문장을 같은 의미를 가지는 다른 단어들을 사용하여 표현한 것들을 의미한다. 이는 정보 검색, 다중 문서 요약, 질의응답 등 여러 자연어 처리 분야에서 중요한 역할을 한다. 특히, 양질의 패러프레이즈 코퍼스를 얻는 것은 많은 시간 및 비용이 소요된다. 이러한 문제점을 해소하기 위해 본 논문에서는 문장 유사도를 이용한 패러프레이즈 쌍을 구축하고, 또 구축한 패러프레이즈 쌍을 이용하여 기계 학습을 통해 새로운 패러프레이즈을 생성한다. 제안 방식으로 생성된 패러프레이즈 쌍은 기존의 구축되어 있는 코퍼스 내 나타나는 표현들로만 구성된 페러프레이즈 쌍이라는 단점이 존재한다. 이러한 단점을 해소하기 위해 기계 학습을 이용한 실험을 진행하여 새로운 표현에 대한 후보군을 추출하는 방법을 적용하여 새로운 표현이라고 볼 수 있는 후보군들을 추출하여 기존의 코퍼스 내 새로운 표현들이 생성된 것을 확인할 수 있었다.

  • PDF

An Automatic Evaluation Metric for Korean Paraphrase via Semantic Frame (시맨틱 프레임을 이용한 한국어 패러프레이즈 자동 평가 방법)

  • Park, Hancheol;Gweon, Gahgene;Choi, Ho-jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.761-764
    • /
    • 2014
  • 본 연구는 지능형 QA시스템과 관련한 연구에서, 자동 패러프레이즈 생성 시스템을 평가하는 새로운 방법을 제시한다. 기존의 패러프레이즈 생성 시스템의 자동 평가 방법은 참조할 수 있는 패러프레이즈 정보의 양이 크게 제한되어 있었으며, 원 문장의 콘텍스트(context)와 이에 의존하는 통사적 구조(syntactic structure) 및 의미적 구조의 유사성을 고려하지 않고, 단순 구/단어 수준의 의미 유사성을 기반으로 생성된 패러프레이즈를 평가하였다. 이러한 문제를 해결하기 위해 본 연구는 시맨틱 프레임(semantic frame)을 이용한 패러프레이즈 문장 평가 방법을 제시한다. 본 연구에서 제시하는 방법론은 문장의 콘텍스트를 표현하는 프레임과 이러한 프레임이 발생시키는 통사적, 의미적 구조의 유사성을 바탕으로 원 문장과 패러프레이즈 문장의 '의미 유사성', '어휘 형태 비 유사성'을 평가하는 방식이다.

Constraints for Controllable Korean Paraphrase Generation (제어가능한 한국어 패러프레이즈 생성을 위한 제약들)

  • Choi, Sung-Kwon;Kwon, Oh-Woog;Kim, Young-Gil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.544-546
    • /
    • 2022
  • 언어학적 다양성을 가지는 고품질의 한국어 패러프레이즈 생성을 위해 패러프레이즈의 생성을 제어할 수 있는 제약이 필요하다. 원문을 패러프레이즈로 변경하기 위한 생성용 제약으로 6 개의 제약을 제시한다: 키워드 치환, 키워드 확장, 품사 변경, 패턴 변경, 구조 변경, 키워드 리스트, 생성 길이. 원문으로부터 패러프레이즈를 생성할 때 제약이 적용되는 정도를 시물레이션해 보았다. 10 어절 이하의 원문은 평균 2.05 번의 제약이 적용되면 패러프레이즈가 생성되었으며 키워드 치환, 마스킹에 의한 키워드 확장과 패턴 변경에 관한 제약이 가장 많이 적용되는 것을 확인하였다.

Pivot Weighting Approach to Extract Korean Paraphrases (피봇 가중치 접근을 통한 한국어 패러프레이즈 추출)

  • Park, Esther;Lee, Hyoung-Gyu;Kim, Min-Jeong;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.31-36
    • /
    • 2010
  • 이중 언어 병렬 말뭉치를 이용하는 패러프레이즈 추출 과정에서는 일반적으로 다른 언어를 피봇 언어로 하여 단어 및 구 정렬 과정을 두 번 거친다. 따라서 단어 정렬의 오류 전파 문제가 큰 단점이 된다. 특히 한국어와 영어와 같이 언어의 구조적인 차이가 큰 경우, 단어 정렬 오류가 더 많고 이로 인해 잘못된 피봇 프레이즈가 선정되는 문제가 더욱 심각하다. 이런 문제를 보완하기 위해, 본 논문에서는 패러프레이즈 추출 과정에서 피봇 프레이즈를 차별화하는 방안으로서, 올바른 피봇 프레이즈에 더 높은 가중치를 부여 하는 방법을 제안한다. 실험 결과, 기존의 패러프레이즈 추출 방법에 제안하는 피봇 가중치 부여 방법을 추가적으로 적용했을 때, 패러프레이즈 추출 정확률과 재현율이 모두 향상됨을 확인할 수 있었다.

  • PDF

Pivot Discrimination Approach for Paraphrase Extraction from Bilingual Corpus (이중 언어 기반 패러프레이즈 추출을 위한 피봇 차별화 방법)

  • Park, Esther;Lee, Hyoung-Gyu;Kim, Min-Jeong;Rim, Hae-Chang
    • Korean Journal of Cognitive Science
    • /
    • v.22 no.1
    • /
    • pp.57-78
    • /
    • 2011
  • Paraphrasing is the act of writing a text using other words without altering the meaning. Paraphrases can be used in many fields of natural language processing. In particular, paraphrases can be incorporated in machine translation in order to improve the coverage and the quality of translation. Recently, the approaches on paraphrase extraction utilize bilingual parallel corpora, which consist of aligned sentence pairs. In these approaches, paraphrases are identified, from the word alignment result, by pivot phrases which are the phrases in one language to which two or more phrases are connected in the other language. However, the word alignment is itself a very difficult task, so there can be many alignment errors. Moreover, the alignment errors can lead to the problem of selecting incorrect pivot phrases. In this study, we propose a method in paraphrase extraction that discriminates good pivot phrases from bad pivot phrases. Each pivot phrase is weighted according to its reliability, which is scored by considering the lexical and part-of-speech information. The experimental result shows that the proposed method achieves higher precision and recall of the paraphrase extraction than the baseline. Also, we show that the extracted paraphrases can increase the coverage of the Korean-English machine translation.

  • PDF

Korean Paraphrase Sentence Recognition Model Robust Against Adversarial Examples (적대적 예제에 강건한 한국어 패러프레이즈 문장 인식 모델)

  • Kim, Minho;Hur, Jeong;Kim, Hyun;Lim, Joonho
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.453-454
    • /
    • 2020
  • 본 연구는 적대적 예제에 강건한 한국어 패러프레이즈 문장 인식 기술을 다룬다. 구글에서 적대적 예제를 포함하는 PAWS-X 다국어 말뭉치를 공개하였다. 이로써, 한국어에서도 적대적 예제를 다룰 수 있는 실마리가 제공되었다. PAWS-X는 개체 교환형을 대표로 하는 적대적 예제를 포함하고 있다. 이 말뭉치만으로도 개체 교환형 이외의 적대적 예제 타입을 위한 인식 모델을 구축할 수 있을지, 다앙한 타입의 실(real) 패러프레이즈 문장 인식에서도 적용할 수 있는지, 학습에 추가적인 타입의 패러프레이즈 데이터가 필요한지 등에 대해 다양한 실험을 통해 알아보고자 한다.

  • PDF

Towards General Purpose Korean Paraphrase Sentence Recognition Model (범용의 한국어 패러프레이즈 문장 인식 모델을 위한 연구)

  • Kim, Minho;Hur, Jeong;Lim, Joonho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.450-452
    • /
    • 2021
  • 본 논문은 범용의 한국어 패러프레이즈 문장 인식 모델 개발을 위한 연구를 다룬다. 범용의 목적을 위해서 가장 걸림돌이 되는 부분 중의 하나는 적대적 예제에 대한 강건성이다. 왜냐하면 패러프레이즈 문장 인식에 대한 적대적 예제는 일반 유형의 말뭉치로 학습시킨 인식 모델을 무력화 시킬 수 있기 때문이다. 또한 적대적 예제의 유형이 다양하기 때문에 다양한 유형에 대해서도 대응할 수 있어야 하는 어려운 점이 있다. 본 논문에서는 다양한 적대적 예제 유형과 일반 유형 모두에 대해서 패러프레이즈 문장 여부를 인식할 수 있는 딥 뉴럴 네트워크 모델을 제시하고자 한다.

  • PDF

Construction of a Bidirectional Transformer Model for Paraphrasing Detection (패러프레이즈 문장 검출을 위한 양방향 트랜스포머 모델 구축)

  • Ko, Bowon;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.465-469
    • /
    • 2019
  • 자연어 처리를 위해서 두 문장의 의미 유사성을 분석하는 것은 아주 중요하다. 이 논문은 패러프레이즈 검출 태스크를 수행하기 위한 Paraphrase-BERT를 제안한다. 우선 구글이 제안한 사전 학습된 BERT를 그대로 이용해서 패러프레이즈 데이터 (MRPC)를 가지고 파인 튜닝하였고 추가적으로 최근에 구글에서 새로 발표한 Whole Word Masking 기술을 사용하여 사전 학습된 BERT 모델을 새롭게 파인 튜닝하였다. 그리고 마지막으로 다중 작업 학습을 수행하여 성능을 향상시켰다. 구체적으로 질의 응답 태스크와 패러프레이즈 검출 태스크를 동시에 학습하여 후자가 더 잘 수행될 수 있도록 하였다. 결과적으로 점점 더 성능이 개선되었고 (11.11%의 정확도 향상, 7.88%의 F1 점수 향상), 향후 작업으로 파인 튜닝하는 방법에 대해서 추가적으로 연구할 계획이다.

  • PDF

Korean Paraphrase Corpus and Building Guidelines for Sentence Similarity Analysis (문장 유사성 분석을 위한 한국어 패러프레이즈 말뭉치 및 구축 가이드라인)

  • Oh, Kyo-Joong;Kim, Hyunmin;Ko, Bowon;Nam, Jehyun;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.527-530
    • /
    • 2019
  • 최근 각 산업분야에서 대화 시스템과 챗봇 기술의 업무로의 도입이 활발해짐에 따라 한국어 패러프레이즈 기술에 대한 관심이 높아지고 있다. 기존에는 연구와 평가 목적으로 규모는 작아도 잘 정제된 평가셋을 만드는 것이 중요했으나, 최근에는 기계학습 기술의 발달로 학습을 위한 일정 수준의 품질을 보장하는 대량의 말뭉치를 빠르게 확보하는 방법이 중요해지고 있다. 본 논문에서는 현재 수행하고 있는 한국어 패러프레이즈 말뭉치 구축 경험과 방법에 대해 소개한다.

  • PDF