• Title/Summary/Keyword: 문맥 요약

Search Result 30, Processing Time 0.028 seconds

Domain-Adaptive Pre-training for Korean Document Summarization (도메인 적응 사전 훈련 (Domain-Adaptive Pre-training, DAPT) 한국어 문서 요약)

  • Hyungkuk Jang;Hyuncheol, Jang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.843-845
    • /
    • 2024
  • 도메인 적응 사전 훈련(Domain-Adaptive Pre-training, DAPT)을 활용한 한국어 문서 요약 연구에서는 특정 도메인의 문서에 대한 이해도와 요약 성능을 향상시키기 위해 DAPT 기법을 적용했다. 이 연구는 사전 훈련된 언어 모델이 일반적인 언어 이해 능력을 넘어 특정 도메인에 최적화된 성능을 발휘할 수 있도록 도메인 특화 데이터셋을 사용하여 추가적인 사전 훈련을 진행한다. 구체적으로, 의료, 법률, 기술 등 다양한 도메인에서 수집한 한국어 텍스트 데이터를 이용하여 모델을 미세 조정하며, 이를 통해 얻은 모델은 도메인에 특화된 용어와 문맥을 효과적으로 처리할 수 있음을 보여준다. 성능 평가에서는 기존 사전 훈련 모델과 DAPT를 적용한 모델을 비교하여 DAPT의 효과를 검증했다. 연구 결과, DAPT를 적용한 모델은 도메인 특화 문서 요약 작업에서 성능 향상을 보였으며, 이는 실제 도메인별 활용에서도 유용할 것으로 기대된다.

Generative Evidence Inference Method using Document Summarization Dataset (문서 요약 데이터셋을 이용한 생성형 근거 추론 방법)

  • Yeajin Jang;Youngjin Jang;Harksoo Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.137-140
    • /
    • 2023
  • 자연어처리는 인공지능 발전과 함께 주목받는 분야로 컴퓨터가 인간의 언어를 이해하게 하는 기술이다. 그러나 많은 인공지능 모델은 블랙박스처럼 동작하여 그 원리를 해석하거나 이해하기 힘들다는 문제점이 있다. 이 문제를 해결하기 위해 설명 가능한 인공지능의 중요성이 강조되고 있으며, 활발히 연구되고 있다. 연구 초기에는 모델의 예측에 큰 영향을 끼치는 단어나 절을 근거로 추출했지만 문제 해결을 위한 단서 수준에 그쳤으며, 이후 문장 단위의 근거로 확장된 연구가 수행되었다. 하지만 문서 내에 서로 떨어져 있는 근거 문장 사이에 누락된 문맥 정보로 인하여 이해에 어려움을 줄 수 있다. 따라서 본 논문에서는 사람에게 보다 이해하기 쉬운 근거를 제공하기 위한 생성형 기반의 근거 추론 연구를 수행하고자 한다. 높은 수준의 자연어 이해 능력이 필요한 문서 요약 데이터셋을 활용하여 근거를 생성하고자 하며, 실험을 통해 일부 기계독해 데이터 샘플에서 예측에 대한 적절한 근거를 제공하는 것을 확인했다.

  • PDF

LSTM based Language Model for Topic-focused Sentence Generation (문서 주제에 따른 문장 생성을 위한 LSTM 기반 언어 학습 모델)

  • Kim, Dahae;Lee, Jee-Hyong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.07a
    • /
    • pp.17-20
    • /
    • 2016
  • 딥러닝 기법이 발달함에 따라 텍스트에 내재된 의미 및 구문을 어떠한 벡터 공간 상에 표현하기 위한 언어 모델이 활발히 연구되어 왔다. 이를 통해 자연어 처리를 기반으로 하는 감성 분석 및 문서 분류, 기계 번역 등의 분야가 진보되었다. 그러나 대부분의 언어 모델들은 텍스트에 나타나는 단어들의 일반적인 패턴을 학습하는 것을 기반으로 하기 때문에, 문서 요약이나 스토리텔링, 의역된 문장 판별 등과 같이 보다 고도화된 자연어의 이해를 필요로 하는 연구들의 경우 주어진 텍스트의 주제 및 의미를 고려하기에 한계점이 있다. 이와 같은 한계점을 고려하기 위하여, 본 연구에서는 기존의 LSTM 모델을 변형하여 문서 주제와 해당 주제에서 단어가 가지는 문맥적인 의미를 단어 벡터 표현에 반영할 수 있는 새로운 언어 학습 모델을 제안하고, 본 제안 모델이 문서의 주제를 고려하여 문장을 자동으로 생성할 수 있음을 보이고자 한다.

  • PDF

A Study on Classifying and Analyzing the News Form in the Web for Automatic Summarization (자동 요약을 위한 웹 기사들의 유형 구분과 주연문맥 추출에 관한 연구)

  • Lee Tae-Young
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2006.08a
    • /
    • pp.169-174
    • /
    • 2006
  • 웹 상의 기사들의 종류를 보도, 기획/해설, 인터뷰/대담, 논설, 신변잡기로 나누어 자동요약을 위한 프레임을 작성하였다. 각 기사 프레임들은 글 구조적으로 분석되어 '사건, 상황, 연관, 과정, 원인, 결과, 결론, 전망, 방안, 평가 등'과 같은 문단 슬롯이 부여되었고 문단 슬롯은 다시 문장 슬롯으로 세분되었다. 'if-needed' 패싯으로 육하원칙인 '주체, 객체, 시간, 장소, 원인, 방법'을 택하였다. 슬롯이나 패싯의 실제값들을 추출 표현하는 과정에서 문구의 수사적 역할과 단어 최상위 범주 및 줄거리 단위를 참조하였다. 기사의 유형과 문단 및 문장 슬롯을 판별하기 위해서 유형 판별 규칙과 슬롯 판별 규칙을 구비하였다.

  • PDF

solution of ambiguity in Static Slicing of C# Programs (C#프로그램의 정적 분할에서의 모호성 해결)

  • 강성관;고훈준;김기태;조선문;유원희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.757-759
    • /
    • 2004
  • C# 언어로 작성된 프로그램을 정적으로 분할할 때 기존의 객체 지향 프로그램에 이용하던 방법을 일반적으로 적용할 수 있다. 그러나 기존의 두 경로 그래프 도달 가능성 분할 알고리즘을 적용하였을 때 프로시져들 간의 전지적인 종속 관계를 표현하는 요약 간선만을 이용하면 두 번째 경로에서 역추적 할 때 모호성이 발생한다. 이러한 모호성 C#의 이벤트, 델리게이트(delegate)들과 메소드의 다형적 호출 관계에서 발생될 수 있다. 본 논문은 호출된 프로시져의 호출하는 문맥을 설명하기 위하여 호출 지점에서 요약간선 및 경로 간선을 이용하여 C#에서 다형적 호출에 대한 시스템 종속성 그래프(system dependence graph)에 대한 새로운 표현을 제안한다. 이 방법은 다형적 호출에서 발생하는 모호성을 해결할 수 있다.

  • PDF

Static Slicing of C# Programs (C# 프로그램의 정적 분할)

  • Kang, Sung-Kwan;Kouh, Hoon-Joon;Kim, Ki-Tae;Jo, Sun-Moon;Yoo, Weon-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.925-928
    • /
    • 2004
  • C# 언어로 작성된 프로그램에서 기존의 객체 지향 프로그램에서 이용하던 정적 분할 방법을 적용한다. 기존의 두 경로 그래프 도달 가능성 분할 알고리즘을 적용하였을 때 프로시져들 간의 전이적인 종속 관계를 표현하는 요약 간선만을 이용하면 두 번째 경로에서 역 추적 할 때 모호성이 발생한다. 이러한 모호성은 C#의 이벤트, 델리게이트(delegate)들과 메소드의 다형적 호출 관계에서 발생될 수 있다. 본 논문은 호출된 프로시져의 호출하는 문맥을 설명하기 위하여 호출 지점에서 요약 간선 및 경로 간선을 이용하여 C#에서 다형적 호출에 대한 시스템 종속성 그래프(system dependence graph)에 대한 새로운 표현을 제안한다. 이 방법은 다형적 호출에서 발생하는 모호성을 해결할 수 있다.

  • PDF

Product Evaluation Summarization Through Linguistic Analysis of Product Reviews (상품평의 언어적 분석을 통한 상품 평가 요약 시스템)

  • Lee, Woo-Chul;Lee, Hyun-Ah;Lee, Kong-Joo
    • The KIPS Transactions:PartB
    • /
    • v.17B no.1
    • /
    • pp.93-98
    • /
    • 2010
  • In this paper, we introduce a system that summarizes product evaluation through linguistic analysis to effectively utilize explosively increasing product reviews. Our system analyzes polarities of product reviews by product features, based on which customers evaluate each product like 'design' and 'material' for a skirt product category. The system shows to customers a graph as a review summary that represents percentages of positive and negative reviews. We build an opinion word dictionary for each product feature through context based automatic expansion with small seed words, and judge polarity of reviews by product features with the extracted dictionary. In experiment using product reviews from online shopping malls, our system shows average accuracy of 69.8% in extracting judgemental word dictionary and 81.8% in polarity resolution for each sentence.

KorQATeC2.0: Construction of Test Collection for Evaluation of Question Answering System (KorQATeC2.0: 질의/응답 시스템의 성능 평가를 위한 평가집합 구축)

  • Kim, Jae-Ho;Lee, Kyung-Soon;Oh, Jong-Hoon;Chang, Du-Seong;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.397-404
    • /
    • 2001
  • 본 논문에서는 질의/응답 시스템의 평가를 위해 구축된 평가집합 (Korean Question Answering Test Collection 2.0: KorQATeC2.0)에 대하여 기술한다. KorQATeC2.0은 총 120개의 질의와 207,067개의 문서로 구성되어 있으며, 120개의 질의는 질의에 대한 정답을 제시하는 방식에 따라 기본 과제 질의, 나열 과제 질의, 문맥 과제 질의, 요약 과제 질의로 나누어진다. 또한 KorQATeCl.0과는 달리 여러 문서를 참조하여 정답을 구성하는 질의와 문서집합에 정답이 존재하지 않는 질의를 포함시킴으로써 질의/응답 시스템의 평가를 다양하게 할 수 있도록 하였다. 본 논문에서 기술하는 평가집합은 질의/응답 시스템의 객관적 평가를 가능하게 한다는 점에서 그 의의가 있다.

  • PDF

A Korean Product Review Analysis System Using a Semi-Automatically Constructed Semantic Dictionary (반자동으로 구축된 의미 사전을 이용한 한국어 상품평 분석 시스템)

  • Myung, Jaeseok;Lee, Dongjoo;Lee, Sang-Goo
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.68-75
    • /
    • 2007
  • 웹 2.0 시대에 사용자가 작성한 리뷰는 다양한 활용성을 갖는 가치있는 데이터이다. 특히 온라인 쇼핑몰에서의 상품평은 사용자의 구매 결정에 직접적인 영향을 미치는 중요한 정보이다. 본 논문에서는 실제 쇼핑몰 사이트에 있는 상품평을 분석하여 각 상품의 특징과 이에 대한 사용자의 의견을 요약하는 상품평 분석 시스템을 설계하고 구현하였다. 각 상품평을 분석하는 과정에서는 자연언어처리 기법과 의미 사전을 사용한다. 의미 사전에는 상품의 특징을 표현하는 어휘와 각 어휘들의 극성(Polarity) 정보들을 반자동으로 정의할 수 있도록 구현하였다. 이에 더하여 문맥에 따라 다른 의미를 갖는 어휘에 대한 처리 방법에 대해서도 논의한다. 실험은 2개 상품 분류의 63개 실제 리뷰를 대상으로 수행하였으며 결과로 평균 88.94%의 정확률, 47.92%의 재현율을 나타냈다.

  • PDF

Contextual In-Video Advertising Using Situation Information (상황 정보를 활용한 동영상 문맥 광고)

  • Yi, Bong-Jun;Woo, Hyun-Wook;Lee, Jung-Tae;Rim, Hae-Chang
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.11 no.8
    • /
    • pp.3036-3044
    • /
    • 2010
  • With the rapid growth of video data service, demand to provide advertisements or additional information with regard to a particular video scene is increasing. However, the direct use of automated visual analysis or speech recognition on videos virtually has limitations with current level of technology; the metadata of video such as title, category information, or summary does not reflect the content of continuously changing scenes. This work presents a new video contextual advertising system that serves relevant advertisements on a given scene by leveraging the scene's situation information inferred from video scripts. Experimental results show that the use of situation information extracted from scripts leads to better performance and display of more relevant advertisements to the user.