• Title/Summary/Keyword: 대화 생성 요약

Search Result 10, Processing Time 0.045 seconds

KMSS: Korean Media Script Dataset for Dialogue Summarization (대화 요약 생성을 위한 한국어 방송 대본 데이터셋 )

  • Bong-Su Kim;Hye-Jin Jun;Hyun-Kyu Jeon;Hye-in Jung;Jung-Hoon Jang
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.198-204
    • /
    • 2022
  • 대화 요약은 다중 발화자와 발화문으로 이루어진 멀티턴 형식의 문서에 대해 핵심내용을 추출하거나 생성하는 태스크이다. 대화 요약 모델은 추천, 대화 시스템 등에 콘텐츠, 서비스 기록에 대한 분석을 제공하는 데 유용하다. 하지만 모델 구축에 필요한 한국어 대화 요약 데이터셋에 대한 연구는 부족한 실정이다. 본 논문에서는 생성 기반 대화 요약을 위한 데이터셋을 제안한다. 이를 위해 국내 방송사의 대용량 콘텐츠로 부터 원천 데이터를 수집하고, 주석자가 수작업으로 레이블링 하였다. 구축된 데이터셋 규모는 6개 카테고리에 대해 약 100K이며, 요약문은 단문장, 세문장, 2할문장으로 구분되어 레이블링 되었다. 또한 본 논문에서는 데이터의 특성을 내재화하고 통제할 수 있도록 대화 요약 레이블링 가이드를 제안한다. 이를 기준으로 모델 적합성 검증에 사용될 디코딩 모델 구조를 선정한다. 실험을 통해 구축된 데이터의 몇가지 특성을 조명하고, 후속 연구를 위한 벤치마크 성능을 제시한다. 데이터와 모델은 aihub.or.kr에 배포 되었다.

  • PDF

Prompt-based Data Augmentation for Generating Personalized Conversation Using Past Counseling Dialogues (과거 상담대화를 활용한 개인화 대화생성을 위한 프롬프트 기반 데이터 증강)

  • Chae-Gyun Lim;Hye-Woo Lee;Kyeong-Jin Oh;Joo-Won Sung;Ho-Jin Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.209-213
    • /
    • 2023
  • 최근 자연어 이해 분야에서 대규모 언어모델 기반으로 프롬프트를 활용하여 모델과 상호작용하는 방법이 널리 연구되고 있으며, 특히 상담 분야에서 언어모델을 활용한다면 내담자와의 자연스러운 대화를 주도할 수 있는 대화생성 모델로 확장이 가능하다. 내담자의 상황에 따라 개인화된 상담대화를 진행하는 모델을 학습시키려면 동일한 내담자에 대한 과거 및 차기 상담대화가 필요하지만, 기존의 데이터셋은 대체로 단일 대화세션으로 구축되어 있다. 본 논문에서는 언어모델을 활용하여 단일 대화세션으로 구축된 기존 상담대화 데이터셋을 확장하여 연속된 대화세션 구성의 학습데이터를 확보할 수 있는 프롬프트 기반 데이터 증강 기법을 제안한다. 제안 기법은 기존 대화내용을 반영한 요약질문 생성단계와 대화맥락을 유지한 차기 상담대화 생성 단계로 구성되며, 프롬프트 엔지니어링을 통해 상담 분야의 데이터셋을 확장하고 사용자 평가를 통해 제안 기법의 데이터 증강이 품질에 미치는 영향을 확인한다.

  • PDF

Text summarization of dialogue based on BERT

  • Nam, Wongyung;Lee, Jisoo;Jang, Beakcheol
    • Journal of the Korea Society of Computer and Information
    • /
    • v.27 no.8
    • /
    • pp.41-47
    • /
    • 2022
  • In this paper, we propose how to implement text summaries for colloquial data that are not clearly organized. For this study, SAMSum data, which is colloquial data, was used, and the BERTSumExtAbs model proposed in the previous study of the automatic summary model was applied. More than 70% of the SAMSum dataset consists of conversations between two people, and the remaining 30% consists of conversations between three or more people. As a result, by applying the automatic text summarization model to colloquial data, a result of 42.43 or higher was derived in the ROUGE Score R-1. In addition, a high score of 45.81 was derived by fine-tuning the BERTSum model, which was previously proposed as a text summarization model. Through this study, the performance of colloquial generation summary has been proven, and it is hoped that the computer will understand human natural language as it is and be used as basic data to solve various tasks.

VOC Summarization and Classification based on Sentence Understanding (구문 의미 이해 기반의 VOC 요약 및 분류)

  • Kim, Moonjong;Lee, Jaean;Han, Kyouyeol;Ahn, Youngmin
    • KIISE Transactions on Computing Practices
    • /
    • v.22 no.1
    • /
    • pp.50-55
    • /
    • 2016
  • To attain an understanding of customers' opinions or demands regarding a companies' products or service, it is important to consider VOC (Voice of Customer) data; however, it is difficult to understand contexts from VOC because segmented and duplicate sentences and a variety of dialog contexts. In this article, POS (part of speech) and morphemes were selected as language resources due to their semantic importance regarding documents, and based on these, we defined an LSP (Lexico-Semantic-Pattern) to understand the structure and semantics of the sentences and extracted summary by key sentences; furthermore the LSP was introduced to connect the segmented sentences and remove any contextual repetition. We also defined the LSP by categories and classified the documents based on those categories that comprise the main sentences matched by LSP. In the experiment, we classified the VOC-data documents for the creation of a summarization before comparing the result with the previous methodologies.

A PageRank-based Bug Report Summarization Technique using Bug Report Relationships (버그 리포트 사이의 연관 관계를 이용한 PageRank 기반 버그 리포트 요약 기법)

  • Kim, Beom-Jun;Kang, Sung-Won;Lee, Seonah
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.653-656
    • /
    • 2019
  • 소프트웨어의 유지보수 단계에서 소프트웨어의 버그 리포트는 개발자에게 유용한 정보를 제공한다. 개발자들은 버그 수정이나 변경 내역 열람 등 다양한 작업을 위해 버그 리포트를 열람한다. 하지만, 대화 형식으로 작성되는 버그 리포트의 특징 때문에 버그 리포트는 종종 매우 길거나 장황하여 이를 읽고 이해하기 어려운 경우가 많다. 이러한 문제점을 해결하기 위한 방법으로 버그 리포트의 요약문을 자동으로 생성하는 기법을 제안하였고, 다양한 관련 연구가 진행되었다. 그러나, 기존에 제안된 버그 리포트 요약 기법들은 버그 리포트만의 고유한 특성들을 활용하지 않는 경우가 많다. 본 연구에서는 버그 리포트들 사이의 중복(duplicates), 의존(depends-on), 역의존(blocks) 관계들을 이용한 PageRank 알고리즘 기반 버그 리포트 요약 기법을 제안한다. 실험 결과 제안 기법이 기존 버그 리포트 요약 기법보다 요약 품질과 적용 범위 측면에서 뛰어남을 확인하였다.

Automatic Electronic Medical Record Generation System using Speech Recognition and Natural Language Processing Deep Learning (음성인식과 자연어 처리 딥러닝을 통한 전자의무기록자동 생성 시스템)

  • Hyeon-kon Son;Gi-hwan Ryu
    • The Journal of the Convergence on Culture Technology
    • /
    • v.9 no.3
    • /
    • pp.731-736
    • /
    • 2023
  • Recently, the medical field has been applying mandatory Electronic Medical Records (EMRs) and Electronic Health Records (EHRs) systems that computerize and manage medical records, and distributing them throughout the entire medical industry to utilize patients' past medical records for additional medical procedures. However, the conversations between medical professionals and patients that occur during general medical consultations and counseling sessions are not separately recorded or stored, so additional important patient information cannot be efficiently utilized. Therefore, we propose an electronic medical record system that uses speech recognition and natural language processing deep learning to store conversations between medical professionals and patients in text form, automatically extracts and summarizes important medical consultation information, and generates electronic medical records. The system acquires text information through the recognition process of medical professionals and patients' medical consultation content. The acquired text is then divided into multiple sentences, and the importance of multiple keywords included in the generated sentences is calculated. Based on the calculated importance, the system ranks multiple sentences and summarizes them to create the final electronic medical record data. The proposed system's performance is verified to be excellent through quantitative analysis.

A Computer Graphic Based Interactive Modeling System with Application to Ship Scheduling (선박운항 일정계획 문제에 대한 컴퓨터 그래픽 기반 상호대화식 모델링 시스템)

  • 이희용;김시화
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.4 no.5
    • /
    • pp.919-930
    • /
    • 2000
  • This paper treats a development of visual interactive modeling(VIM) system for ship scheduling problem in integer formulation. The ship scheduling problem can be described as "A problem which assigns ships and cargos to achieve maximum revenue from transportation" in brief. Since late 1970s there has been rapid growth in development and use of VIM as MS10R technology due to the development of computer technology and now VIM has become a important discipline in MS/OR and MIS society. Visual Interactive Modeling is a process that decision maker takes part in modeling life cycle -data collection, formulation, derivation of optimal solution and representation of solution - and interacts with a modeling system to achieve a user-solution appropriate for his/her ultimate goal. This paper suggests the methodology how to collect data, build and modify model, and represent solution using computer graphics as a major driving tool and demonstrates effective performance of a prototype system.pe system.

  • PDF

Template-based Auto Social Magazine and Video Creation Service (템플릿 기반의 자동 소셜 매거진 및 영상 합성 서비스)

  • Lee, Jae-Won;Jang, Dal-Won;Kim, Mi-Ji;Kim, Ji-Su;Kim, Seo-Yul;Lee, Jong-Seol
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2019.06a
    • /
    • pp.129-132
    • /
    • 2019
  • 최근 자연어 처리 기술에 대한 중요도가 높아지고, 발전 속도가 빨라지면서, 산업 전반에 걸쳐 챗봇에 대한 수요가 증가하고 있다. 본 논문은 챗봇을 이용한 소셜 매거진 생성 및 배포, 그리고 이를 활용하여 사용자에게 텍스트를 음성으로 변환하여 동영상의 형태로 전달해 주는 시스템을 다루고 있다. 챗봇이 사용자 대화를 수집, 분석하여 상황에 맞는 키워드를 추출하고, 중복 콘텐츠 제거, 텍스트 요약 등 일련의 과정을 거쳐 소셜 매거진을 생성 및 배포하는 서비스와, 매거진의 각 콘텐츠를 구성하는 이미지, 텍스트 정보를 가지고 음성 합성, 자막 생성, 영상 효과 등을 이용하여 영상을 합성하는 서비스에 관한 것이다. 본 논문에서 제안한 시스템에 대한 성능은 실험을 통하여 검증하였다.

  • PDF

Generation Methodology Using Super In-Context Learning (Super In-Context Learning을 활용한 생성 방법론)

  • Seongtae Hong;Seungjun Lee;Gyeongmin Kim;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.382-387
    • /
    • 2023
  • 현재 GPT-4와 같은 거대한 언어 모델이 기계 번역, 요약 및 대화와 같은 다양한 작업에서 압도적인 성능을 보이고 있다. 그러나 이러한 거대 언어 모델은 학습 및 적용에 상당한 계산 리소스와 도메인 특화 미세 조정이 어려운 등 몇 가지 문제를 가지고 있다. In-Context learning은 데이터셋에서 추출한 컨택스트의 정보만으로 효과적으로 작동할 수 있는 효율성을 제공하여 앞선 문제를 일부 해결했지만, 컨텍스트의 샷 개수와 순서에 민감한 문제가 존재한다. 이러한 도전 과제를 해결하기 위해, 우리는 Super In-Context Learning (SuperICL)을 활용한 새로운 방법론을 제안한다. 기존의 SuperICL은 적용한 플러그인 모델의 출력 정보를 이용하여 문맥을 새로 구성하고 이를 활용하여 거대 언어 모델이 더욱 잘 분류할 수 있도록 한다. Super In-Context Learning for Generation은 다양한 자연어 생성 작업에 효과적으로 최적화하는 방법을 제공한다. 실험을 통해 플러그인 모델을 교체하여 다양한 작업에 적응하는 가능성을 확인하고, 자연어 생성 작업에서 우수한 성능을 보여준다. BLEU 및 ROUGE 메트릭을 포함한 평가 결과에서도 성능 향상을 보여주며, 선호도 평가를 통해 모델의 효과성을 확인했다.

  • PDF

Understanding of Generative Artificial Intelligence Based on Textual Data and Discussion for Its Application in Science Education (텍스트 기반 생성형 인공지능의 이해와 과학교육에서의 활용에 대한 논의)

  • Hunkoog Jho
    • Journal of The Korean Association For Science Education
    • /
    • v.43 no.3
    • /
    • pp.307-319
    • /
    • 2023
  • This study aims to explain the key concepts and principles of text-based generative artificial intelligence (AI) that has been receiving increasing interest and utilization, focusing on its application in science education. It also highlights the potential and limitations of utilizing generative AI in science education, providing insights for its implementation and research aspects. Recent advancements in generative AI, predominantly based on transformer models consisting of encoders and decoders, have shown remarkable progress through optimization of reinforcement learning and reward models using human feedback, as well as understanding context. Particularly, it can perform various functions such as writing, summarizing, keyword extraction, evaluation, and feedback based on the ability to understand various user questions and intents. It also offers practical utility in diagnosing learners and structuring educational content based on provided examples by educators. However, it is necessary to examine the concerns regarding the limitations of generative AI, including the potential for conveying inaccurate facts or knowledge, bias resulting from overconfidence, and uncertainties regarding its impact on user attitudes or emotions. Moreover, the responses provided by generative AI are probabilistic based on response data from many individuals, which raises concerns about limiting insightful and innovative thinking that may offer different perspectives or ideas. In light of these considerations, this study provides practical suggestions for the positive utilization of AI in science education.