• 제목/요약/키워드: 문서 기반 대화 시스템

검색결과 28건 처리시간 0.02초

SVD에 기반한 모델 경량화를 통한 문서 그라운딩된 응답 생성 (Lightweight Language Models based on SVD for Document-Grounded Response Generation)

  • 이검;서대룡;전동현;강인호;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.638-643
    • /
    • 2023
  • 문서 기반 대화 시스템은 크게 질문으로부터 문서를 검색하는 과정과 응답 텍스트를 생성하는 과정으로 나뉜다. 이러한 대화 시스템의 응답 생성 과정에 디코더 기반 LLM을 사용하기 위해서 사전 학습된 LLM을 미세 조정한다면 많은 메모리, 연산 자원이 소모된다. 본 연구에서는 SVD에 기반한 LLM의 경량화를 시도한다. 사전 학습된 polyglot-ko 모델의 행렬을 SVD로 분해한 뒤, full-fine-tuning 해보고, LoRA를 붙여서 미세 조정 해본 뒤, 원본 모델을 미세 조정한 것과 점수를 비교하고, 정성평가를 수행하여 경량화된 모델의 응답 생성 성능을 평가한다. 문서 기반 대화를 위한 한국어 대화 데이터셋인 KoDoc2Dial에 대하여 평가한다.

  • PDF

응답 생성을 위한 지식 및 임베딩 확장 방법 (Methods of Expanding Knowledge and Embeddings for Response Generation)

  • 김보은;장영진;황금하;권오욱;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.371-375
    • /
    • 2021
  • 문서 기반 대화 시스템은 주어진 배경 지식 문서와 이전 대화를 바탕으로 대화에 이어지는 적절한 응답을 생성하는 시스템이다. 문서 기반 대화 시스템은 지식 추출 작업과 응답 생성 작업으로 나뉘며, 두 하위 작업은 서로 긴밀한 관계를 가지고 있다. 즉, 주어진 배경 지식 문서와 관련된 올바른 응답을 생성하기 위해서는 정확한 지식 추출이 필수적이며, 응답 생성에 필요한 지식을 정확히 추출하지 못하는 경우 생성 응답에 배경 지식이 반영되기 힘들다. 따라서, 본 논문에서는 추출된 지식을 확장하는 방법을 통해 생성에 필요한 지식의 재현율을 높이고 이를 활용할 수 있는 임베딩 확장 방법을 제안함으로써 SacreBLEU 기준 3.51의 성능 향상을 보였다.

  • PDF

증강된 질문을 이용한 RoBERTa 기반 Dense Passage Retrieval (Dense Retrieval using Pretrained RoBERTa with Augmented Query)

  • 박준범;홍범석;최원석;한영섭;전병기;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.141-145
    • /
    • 2022
  • 다중 문서 기반 대화 시스템에서 응답 시스템은 올바른 답변을 생성하기 위해서 여러 개의 문서 중 질문과 가장 관련 있는 문서를 검색하는 것부터 시작해야 한다. DialDoc 2022 Shared Task[1]를 비롯한 최근의 연구들은 대화 시스템의 문서 검색 과정을 위해 Dense Passage Retrieval(DPR)[2] 모델을 사용하고 있으며 검색기의 성능 개선을 위해 Re-ranking과 Hard negative sampling 같은 방법들이 연구되고 있다. 본 논문에서는 문서에 기반하는 대화 데이터의 양이 적거나 제한될 경우, 주어진 데이터를 효율적으로 활용해 보고자 검색기를 생성 모델을 이용하여 문서의 엔티티를 기반으로 질문을 생성하고 기존 데이터에 증강하는 방법을 제시했으며 실험의 결과로 MRR metric의 경우 0.96 ~ 1.56의 성능 향상을, R@1 metric의 경우 1.2 ~ 1.57의 성능 향상을 확인하였다.

  • PDF

피드백 기법을 이용한 LLama2 모델 기반의 Zero-Shot 문서 그라운딩된 대화 시스템 성능 개선 (LLaMA2 Models with Feedback for Improving Document-Grounded Dialogue System)

  • 정민교;홍범석;최원석;한영섭;전병기;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.275-280
    • /
    • 2023
  • 문서 그라운딩된 대화 시스템의 응답 성능 개선을 위한 방법론을 제안한다. 사전 학습된 거대 언어 모델 LLM(Large Language Model)인 Llama2 모델에 Zero-Shot In-Context learning을 적용하여 대화 마지막 유저 질문에 대한 응답을 생성하는 태스크를 수행하였다. 본 연구에서 제안한 응답 생성은 검색된 top-1 문서와 대화 기록을 참조해 초기 응답을 생성하고, 생성된 초기 응답을 기반으로 검색된 문서를 대상으로 재순위화를 수행한다. 이 후, 특정 순위의 상위 문서들을 이용해 최종 응답을 생성하는 과정으로 이루어진다. 검색된 상위 문서를 이용하는 응답 생성 방식을 Baseline으로 하여 본 연구에서 제안한 방식과 비교하였다. 그 결과, 본 연구에서 제안한 방식이 검색된 결과에 기반한 실험에서 Baseline 보다 F1, Bleu, Rouge, Meteor Score가 향상한 것을 확인 하였다.

  • PDF

지식 기반 다중 대화 시스템을 위한 주의 집중 지식 선택 모델 (Attentive Knowledge Selection Model for Knowledge-Grounded Multi-turn Dialogue System)

  • 이도행;장영진;황금하;오욱;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.361-364
    • /
    • 2021
  • 지식 기반 다중 대화 시스템은 지식 정보를 포함한 응답을 생성하는 대화 시스템이다. 이 시스템은 응답 생성에 필요한 지식 정보를 찾아내는 지식 선택 작업과 찾아낸 지식 정보를 바탕으로 문맥을 고려한 응답을 생성하는 응답 생성 작업으로 구성된다. 본 논문에서는 지식 선택 작업을 기계독해 프레임워크에 적용하여 해결하는 방법을 제안한다. 지식 선택 작업은 여러 개의 발화로 이루어진 대화 기록을 바탕으로 지식 문서 내에 존재하는 지식을 찾아내는 작업이다. 본 논문에서는 대화 기록 모델링 계층을 활용해 마지막 발화와 관련 있는 대화 기록을 찾아내고, 주의 집중 풀링 계층을 활용해 긴 길이의 지식을 효과적으로 추출하는 방법을 제안한다. 실험 결과, 목적지향 지식 문서 기반 대화 데이터 셋인 Doc2dial 데이터의 지식 선택 작업에서 F1 점수 기준 76.52%, EM 점수 기준 66.21%의 성능을 기록해 비교 모델 보다 높은 성능을 기록하는 것을 확인할 수 있었다.

  • PDF

온라인 대화 행위에서 XML 기반 메시지를 이용한 미디어 지원 (Supporting Media using XML-based Messages on Online Conversational Activity)

  • 김경덕
    • 정보처리학회논문지B
    • /
    • 제11B권1호
    • /
    • pp.91-98
    • /
    • 2004
  • 본 논문에서는 온라인 대화 행위에서 다양한 미디어를 지원하기 위하여 XML(eXtensible Markup Language)을 이용하는 방법을 제안한다. 제안한 방법은 온라인 대화 행위에서 미디어 정보를 XML 기반 메시지로 변환하여 기존 텍스트 기반 메시지와 유사하게 처리한다. 이때 XML 기반 메시지와 미디어는 서버에 저장되며, XML 기반 메시지는 하나의 XML 문서로 통합된 후 XSLT 문서를 적용하여 HTML 문서를 생성한다. 각 클라이언트의 대화자는 HTML 문서의 하이퍼링크를 이용하여 미디어를 재생 및 프레젠테이션 한다. 제안한 방법은 온라인 대화 행위에서 텍스트, 이미지, 오디오, 비디오 등의 다양한 미디어의 사용을 효율적으로 지원하고, 또한 XML 태그의 확장 및 변경에 따라 텍스트 기반 메시지의 글자 크기, 색깔, 스타일 등의 유지보수에 효율적이다. 적용 예로서, 온라인 대화 행위에서 미디어를 지원하기 위하여 클라이언트-서버구조를 가지는 시스템을 구현하였으며, 각 대화자는 웹 브라우저에서 JAVA 애플릿과 서블릿을 사용하여 텍스트 및 미디어 기반 메시지를 입력하며, 대화자가 메시지를 입력할 때마다 대화 메시지가 자동으로 갱신되도록 하였다. 대화자는 사용자 인터페이스상의 대화 메시지에서 하이퍼링크의 클릭으로 미디어를 재생 및 프레젠테이션 한다. 제안한 방법의 응용 분야로는 원격 교육, 게임, 협업 등이다.

Zero-shot 기반 다중 문서 그라운딩된 대화 시스템 (Zero-shot Dialogue System Grounded in Multiple Documents)

  • 박준범;홍범석;최원석;한영섭;전병기;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.399-403
    • /
    • 2023
  • 본 논문에서는 다중 문서 기반의 대화 시스템을 통한 효율적인 정보 검색과 응답 생성에 중점을 둡니다. 대규모 데이터 집합에서 정확한 문서를 선택하는 데 필요한 검색의 중요성을 강조하며, 현재 검색 방법의 한계와 문제점을 지적합니다. 또한 더 자연스러운 답변을 생성하기 위해 대규모 언어 모델을 사용하게 되면서 fine-tuning 시에 발생하는 제약과 낭비를 모델의 제로샷 생성 능력을 활용하여 개선하려는 방안을 제안하며, 모델의 크기와 자원의 효율성에 대한 고려사항을 논의합니다. 우리의 접근 방식은 대규모 언어 모델을 프롬프트와 함께 다중 문서로 학습 없이 정보를 검색하고 응답을 생성하는 방향으로 접근하여 대화 시스템의 효율성과 유용성을 향상시킬 수 있음을 제시합니다.

  • PDF

웹 문서 재구조화를 위한 XML 기반의 대화식 코드 변환 시스템 설계 (XML-based Interactive Transcoding System for Reconstructing Web Pages)

  • 송동리;황인준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (3)
    • /
    • pp.385-387
    • /
    • 2001
  • 최근에 웹을 통한 기업 이미지의 부각과 기업 활동의 홍보는 기업 경영에 중요한 수단이 되고 있다. 이를 위해, 웹사이트는 사용자에게 다양한 정보와 사용의 편리함을 제공하여야 하지만 아직 많은 웹사이트들이 비규칙적으로 구성되어 있기 때문에 사용자에게 편리한 정보 전달을 제공하지 못하고 있다. 이러한 문제를 해결하기 위한 방법 중 하나는 웹 사이트 내의 문서들간의 공통적인 구성 요소를 알아내고 문서내의 정보를 중심으로 재구성하는 것이다. 본 논문에서는 XML을 이용한 문서의 재구성과 사이트를 구성하는 정보의 분류를 통하여 원하는 유형의 정보를 추출해 내는 대화식 코드 변환 시스템을 제안한다.

  • PDF

DBERT: 멀티턴 문맥의 특징을 고려한 대조 학습 기반의 임베딩 모델링 (DBERT: Embedding Model Based on Contrastive Learning Considering the Characteristics of Multi-turn Context )

  • 박상민;이재윤;김재은
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.272-274
    • /
    • 2022
  • 최근에는 사람과 기계가 자유롭게 대화를 주고받을 수 있는 자유 주제 대화 시스템(Open-domain Dialogue System)이 다양한 서비스에 활용되고 있다. 자유 주제 대화 시스템이 더욱 다양한 답변을 제공할 수 있도록 사전학습 기반의 생성 언어모델이 활용되고 있지만, 답변 제공의 안정성이 떨어져 검색을 활용한 방법 또한 함께 활용되고 있다. 검색 기반 방법은 사용자의 대화가 들어오면 사전에 구축된 데이터베이스에서 유사한 대화를 검색하고 준비되어있는 답변을 제공하는 기술이다. 하지만 멀티턴으로 이루어진 대화는 일반적인 문서의 문장과 다르게 각 문장에 대한 발화의 주체가 변경되기 때문에 연속된 발화 문장이 문맥적으로 밀접하게 연결되지 않는 경우가 있다. 본 논문에서는 이와 같은 대화의 특징을 고려하여 멀티턴 대화를 효율적으로 임베딩 할 수 있는 DBERT(DialogueBERT) 모델을 제안한다. 기존 공개된 사전학습 언어모델 기반의 문장 임베딩 모델과 비교 평가 실험을 통해 제안하는 방법의 우수성을 입증한다.

  • PDF

RDBMS를 이용한 VoiceXML 문서 저장 시스템 설계와 구현 (Design and Implementation of VoiceXML Document Storage System Using RDBMS)

  • 박주현;진민
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2001년도 추계학술발표논문집
    • /
    • pp.397-401
    • /
    • 2001
  • 대화형 음성 응답 시스템은 비용이 많이 들고 폐쇄된 환경에서만 개발이 가능했었지만 VoiceXML이라는 표준화된 문서의 개발로 인하여 새로운 국면을 맞이하게 되었다. 본 논문에서는 관계형 데이터베이스를 기반으로 한 다이얼로그 단위로 분리 저장하는 VoiceXML 문서 저장 시스템을 설계하고 구현하였다. 음성을 서비스할 수 있는 VoiceXML 문서를 관계 데이터베이스를 이용하여 VoiceXML 문서 저장 모델을 설계하고 VoiceXML 문서의 구조적 정보를 효과적으로 표현하고 저장하는 방법을 제안한다.

  • PDF