• Title/Summary/Keyword: 키프레이즈

Search Result 3, Processing Time 0.015 seconds

A Study on the Construction of keyphrase dataset for paraphrase extraction (패러프레이즈 추출을 위한 키프레이즈 데이터셋 구축 방법론 연구)

  • Kang, Hyerin;Kang, Yejee;park, Seoyoon;Jang, Yeonji;Kim, Hansaem
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.357-362
    • /
    • 2020
  • 자연어 처리 응용 시스템이 패러프레이즈 표현을 얼마나 정확하게 포착하는가에 따라 응용 시스템의 성능 측면에서 차이가 난다. 따라서 자연어 처리의 응용 분야 전반에서 패러프레이즈 표현에 대한 중요성이 커지고 있다. 시스템의 성능 향상을 위해서는 모델을 학습시킬 충분한 말뭉치가 필요하다. 특히 이러한 패러프레이즈 말뭉치를 구축하기 위해서는 정확한 패러프레이즈 추출이 필수적이다. 따라서 본 연구에서는 패러프레이즈를 추출을 위한 언어 자원으로 키프레이즈 데이터셋을 제안하고 이를 기반으로 유사한 의미를 전달하는 패러프레이즈 관계의 문장을 추출하였다. 구축한 키프레이즈 데이터셋을 패러프레이즈 추출에 활용한다면 본 연구에서 수행한 것과 같은 간단한 방법으로 패러프레이즈 관계에 있는 문장을 찾을 수 있다는 것을 보였다.

  • PDF

Keyphrase Extraction of Directive Utterances via Discourse Component: Construction and Data Augmentation of Korean Parallel Corpus (담화 성분을 활용한 지시 발화의 키프레이즈 추출: 한국어 병렬 코퍼스 구축 및 데이터 증강 방법론)

  • Cho, Won Ik;Moon, Young Ki;Kim, Jong In;Kim, Nam Soo
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.241-245
    • /
    • 2019
  • 문서 요약, 키프레이즈 추출과 패러프레이징은 인간이, 혹은 기계가 문서를 보다 원활히 이해하는 데에 도움을 주는 방법론들이다. 우리는 본 연구에서 질문/요구 등의 지시성 발화를 대상으로, 핵심 내용을 추출하는 간단한 방법론을 통해 한국어 병렬 코퍼스를 구축한다. 또한, 우리는 인적 자원을 활용한 효율적인 데이터 증강 전략을 통해 부족하거나 필수적인 유형의 발화의 양을 보강하고, 약 5만 쌍 크기의 코퍼스를 제작하여 이를 공개한다.

  • PDF

A System for Keyword Extraction and Keyword-based Sentiment Analysis for Topic Analysis in Discussion (토론 대화에서의 토픽 분석을 위한 키워드 추출 및 키워드 기반 감성분석 시스템)

  • Yong-Bin Jeong;Yu-Jin Oh;Jae-Wan Park;Sae-Mi Jang;Young-Gyun Hahm
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.164-169
    • /
    • 2022
  • 토픽 모델링은 비즈니스 분석이나 기술 동향 파악 등 다방면에서 많이 사용되고 있는 기술이다. 하지만 대표적인 방법인 LDA와 같은 비지도학습의 경우, 그 알고리즘 구조상 문서의 수가 많을 때 토픽 모델링이 가능하다. 본 논문에서는 문서의 수가 적은 경우도, 키워드 및 키프레이즈를 이용한 군집화를 통해 토픽 모델링을 하고 감성분석을 통해 토픽에 대한 분석도 제시하였다. 이에 필요한 데이터 제작 및 키워드 추출, 키워드 기반 감성분석, 키워드 임베딩 및 군집화를 구현하였고, 결과를 정성적으로 보았을 때 유의미한 분석이 되는 것을 확인하였다.

  • PDF