• Title/Summary/Keyword: 연속대화

Search Result 93, Processing Time 0.028 seconds

Daily conversation service platform (일상 대화 서비스 플랫폼)

  • Yun, Jae-Min;Jee, Min-Seong;Shin, Dong-Chun;Ko, Yeon-Jeong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.01a
    • /
    • pp.243-244
    • /
    • 2021
  • 본 논문에서는 한국어 일상대화를 연속적으로 제공하기 위한 서비스 플랫폼을 제안하였다. 본 플랫폼을 통해서 자동으로 일상대화를 수집하고, 정제하고, 학습하여, 사람과 시스템간의 일상대화를 연속적으로 진행할 수 있게 함으로써, 현재 트랜드가 반영된 대화를 실시간으로 수행할 수 있게 되었다.

  • PDF

Analysis of Korean Spontaneous Speech Characteristics for Spoken Dialogue Recognition (대화체 연속음성 인식을 위한 한국어 대화음성 특성 분석)

  • 박영희;정민화
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.3
    • /
    • pp.330-338
    • /
    • 2002
  • Spontaneous speech is ungrammatical as well as serious phonological variations, which make recognition extremely difficult, compared with read speech. In this paper, for conversational speech recognition, we analyze the transcriptions of the real conversational speech, and then classify the characteristics of conversational speech in the speech recognition aspect. Reflecting these features, we obtain the baseline system for conversational speech recognition. The classification consists of long duration of silence, disfluencies and phonological variations; each of them is classified with similar features. To deal with these characteristics, first, we update silence model and append a filled pause model, a garbage model; second, we append multiple phonetic transcriptions to lexicon for most frequent phonological variations. In our experiments, our baseline morpheme error rate (WER) is 31.65%; we obtain MER reductions such as 2.08% for silence and garbage model, 0.73% for filled pause model, and 0.73% for phonological variations. Finally, we obtain 27.92% MER for conversational speech recognition, which will be used as a baseline for further study.

A Study on Conversational AI Agent based on Continual Learning

  • Chae-Lim, Park;So-Yeop, Yoo;Ok-Ran, Jeong
    • Journal of the Korea Society of Computer and Information
    • /
    • v.28 no.1
    • /
    • pp.27-38
    • /
    • 2023
  • In this paper, we propose a conversational AI agent based on continual learning that can continuously learn and grow with new data over time. A continual learning-based conversational AI agent consists of three main components: Task manager, User attribute extraction, and Auto-growing knowledge graph. When a task manager finds new data during a conversation with a user, it creates a new task with previously learned knowledge. The user attribute extraction model extracts the user's characteristics from the new task, and the auto-growing knowledge graph continuously learns the new external knowledge. Unlike the existing conversational AI agents that learned based on a limited dataset, our proposed method enables conversations based on continuous user attribute learning and knowledge learning. A conversational AI agent with continual learning technology can respond personally as conversations with users accumulate. And it can respond to new knowledge continuously. This paper validate the possibility of our proposed method through experiments on performance changes in dialogue generation models over time.

A Study on the Multiple Pronunciation Dictionary for Spontaneous Speech Recognition (대화체 연속음성인식을 위한 확장 다중발음 사전에 관한 연구)

  • Kang ByungOk
    • Proceedings of the KSPS conference
    • /
    • 2003.10a
    • /
    • pp.65-68
    • /
    • 2003
  • 본 논문에서는 대화체 연속음성인식 과정에서 사용되는 다중발음사전의 개념을 확장하여 대화체 발화에 빈번하게 나타나는 불규칙한 발음변이 현상을 포용하도록 한 확장된 발음사전의 방법을 적용하여 대화체 연속음성인식에서 인식성능의 향상을 가져오게 됨을 실험을 통해 보여준다. 대화체 음성에서 빈번하게 나타나는 음운축약 및 음운탈락, 전형적인 오발화, 양성음의 음성음화 등의 발음변이는 언어모델의 효율성을 떨어뜨리고 어휘 수를 증가시켜 음성인식의 성능을 저하시키고, 또한 음성인식 결과로 나타나는 출력형태가 정형화되지 못하는 단점을 가지고 있다. 이에 이러한 발음변이들을 발음사전에 수용할 때 각각의 대표어휘에 대한 변이발음으로 처리하고, 언어모델과 어휘사전은 대표어휘만을 이용해 구성하도록 한다. 그리고, 음성인식기의 탐색부에서는 각각의 변이발음의 발음열도 탐색하되 대표어휘로 언어모델을 참조하도록 하고, 인식결과를 출력하도록 하여 결과적으로 인식성능을 향상시키고, 정형화된 출력패턴을 얻도록 한다. 본 연구에서는 어절단위 뿐 아니라 의사형태소[2] 단위의 발음사전에도 발음변이를 포용하도록 하여 실험을 하였다. 실험을 통해 어절단위의 다중발음사전 구성을 통해 ERR 10.9%, 의사형태소 단위의 다중발음 사전의 구성을 통해 ERR 4.3%의 성능향상을 보였다.

  • PDF

A Study on Functional Structure in Conversation of Family Therapy (가족치료 대화의 구조와 기능에 대한 대화분석적 연구)

  • Cho, Yong-Gil;Yu, Myung-Yee;Park, Tai-Young
    • Korean Journal of Social Welfare
    • /
    • v.60 no.4
    • /
    • pp.253-276
    • /
    • 2008
  • This study investigated dialog sequence prototype that was the structure of communication, which could be shown in family counseling conversation between therapists and clients. The study was intended to review the process stages of family counseling through literature review, and divided functional phases into 'atmosphere formation phase', 'family evaluation phase', 'persuasion phase of cognitive change', 'confirmation phase of change experience', and 'termination phase'. The study selected two family therapists and 30 clients for research objects. They allowed data collections for the study after the explanation about the research objects. The transcribers were trained by the consent of transcription, which used particular symbol for verbal and nonverbal contents in conversation. The transcribed data were analyzed by dialog grammar, one of the linguistic dialog analysis method developed by Hundsnurscher(1994). This study described and explained dialog sequence prototype that displayed in conversation between family therapist and client through the total sessions in family therapy. The study found three types of dialog sequence prototype in 'atmosphere formation phase', eight types in 'family evaluation phase', nine types in 'persuasion phase of cognitive change', eight types in 'confirmation phase of change experience', and eight types of 'termination phase'. Even if the dialog sequence prototype mentioned above cannot be applied to the process of family therapy at its face value, these findings may contribute to beginners in counseling and graduate students majoring family therapy to do practice in counseling. The research has a limitation in which the study investigated dialog sequence prototype of conversation in two persons. Future research needs to include dialog sequence prototype of conversation among more than three persons. Specifically, when a family therapist do family counseling, he/she treats more than three family members as usual. Therefore, the researchers hope that future study investigates dialog sequence prototype between therapist and client, client and client, among therapist, client and other family members.

  • PDF

Incremental Early Risk Detection using Dialogue State Tracking for Panic Disorder (대화 상태 추적 모델을 활용한 공황 장애 점진적 조기 위험 검출 시스템)

  • Chaebin Lee;Geunbae Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.497-501
    • /
    • 2022
  • 대화 상태 추적(Dialogue State Tracking)은 특정 목적을 달성하기 위한 대화 시스템인 목적 지향 대화 시스템의 핵심 부분으로, 대화에서 표현된 사용자의 목적을 추출한다. 조기 위험 검출 시스템은 연속적으로 들어오는 정보를 바탕으로 분류 대상인지 아닌지를 판별하며, 정확도 저하를 피하면서 최대한 빠르게 분류하는 것을 목표로 한다. 본 연구에서는 대화 상태 추적 시스템에서 나온 은닉층을 입력으로 하여 실시간으로 공황 장애 여부를 점진적으로 조기 분류하는 시스템과 조기 분류를 위한 새로운 손실 함수를 제안한다. 조기 위험 검출 시스템에 대화 상태인 belief state의 정보를 함께 사용했을 때, 큰 성능 향상을 보였으며 대화 상태가 조기 위험 검출에 필요한 정보를 담고 있음을 확인할 수 있다.

  • PDF

Analysis of Discourse Structure using Neural Network in Dialogue Sentences (신경망을 이용한 대화체 문장의 담화 구조 분석)

  • 김학수
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.419-424
    • /
    • 1998
  • 담화 구조를 파악하기 위한 대표적인 방법으로 Litman과 Allen 의 계획 기법에 의한 것과 RDTN을 이용한 것을 들 수 있다. 그 중에서도 RDTN을 이용하여 대화의 흐름을 파악하려는 시도는 간단하며, 결정적이라는 장점이 있는 반면에 몇 가지 단점도 가지고 있다. RETN을 이용한 대화 분석의 가장 큰 단점은 정확히 분석된 화행을 입력으로 사용한다는 것이다. 즉, 현 상태에서 다음 상태로의 전이에 정의된 화행 이외의 화행이 입력으로 사용되면 분석을 실패하게 된다. 또 하나의 단점은 RDTN 이 어느정도 영역에 의존적인 특성을 보인다는 것이다. 본 논문에서는 이러한 확장성에 대한 문제점을 해결하고, 화행 분석의 어려움을 덜기 위해 신경망을 이용한 새로운 대화 전이망을 제안한다. 제안된 대화 전이 신경망은 지역적 대화 전이 신경망과 전역적 대화 전이 신경망은 이전의 두 발화와 현재 발화와의 관계를 살펴서 현재 발화가 이전 대화의 연속인지, 새로운 대화이 시작인지, 아니면 부대화의 시작인지를 결정하는 역할은 한다.전역적 대화전이 신경망은 담화 스택과의 상호 작용을 통해 담화의 전체구조를 살피고,전체 담화 구조에서 현재 발화가 어떤 역할을 하는지를 결정한다.

  • PDF

DBERT: Embedding Model Based on Contrastive Learning Considering the Characteristics of Multi-turn Context (DBERT: 멀티턴 문맥의 특징을 고려한 대조 학습 기반의 임베딩 모델링)

  • Sangmin Park;Jaeyun Lee;Jaieun Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.272-274
    • /
    • 2022
  • 최근에는 사람과 기계가 자유롭게 대화를 주고받을 수 있는 자유 주제 대화 시스템(Open-domain Dialogue System)이 다양한 서비스에 활용되고 있다. 자유 주제 대화 시스템이 더욱 다양한 답변을 제공할 수 있도록 사전학습 기반의 생성 언어모델이 활용되고 있지만, 답변 제공의 안정성이 떨어져 검색을 활용한 방법 또한 함께 활용되고 있다. 검색 기반 방법은 사용자의 대화가 들어오면 사전에 구축된 데이터베이스에서 유사한 대화를 검색하고 준비되어있는 답변을 제공하는 기술이다. 하지만 멀티턴으로 이루어진 대화는 일반적인 문서의 문장과 다르게 각 문장에 대한 발화의 주체가 변경되기 때문에 연속된 발화 문장이 문맥적으로 밀접하게 연결되지 않는 경우가 있다. 본 논문에서는 이와 같은 대화의 특징을 고려하여 멀티턴 대화를 효율적으로 임베딩 할 수 있는 DBERT(DialogueBERT) 모델을 제안한다. 기존 공개된 사전학습 언어모델 기반의 문장 임베딩 모델과 비교 평가 실험을 통해 제안하는 방법의 우수성을 입증한다.

  • PDF

Prompt-based Data Augmentation for Generating Personalized Conversation Using Past Counseling Dialogues (과거 상담대화를 활용한 개인화 대화생성을 위한 프롬프트 기반 데이터 증강)

  • Chae-Gyun Lim;Hye-Woo Lee;Kyeong-Jin Oh;Joo-Won Sung;Ho-Jin Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.209-213
    • /
    • 2023
  • 최근 자연어 이해 분야에서 대규모 언어모델 기반으로 프롬프트를 활용하여 모델과 상호작용하는 방법이 널리 연구되고 있으며, 특히 상담 분야에서 언어모델을 활용한다면 내담자와의 자연스러운 대화를 주도할 수 있는 대화생성 모델로 확장이 가능하다. 내담자의 상황에 따라 개인화된 상담대화를 진행하는 모델을 학습시키려면 동일한 내담자에 대한 과거 및 차기 상담대화가 필요하지만, 기존의 데이터셋은 대체로 단일 대화세션으로 구축되어 있다. 본 논문에서는 언어모델을 활용하여 단일 대화세션으로 구축된 기존 상담대화 데이터셋을 확장하여 연속된 대화세션 구성의 학습데이터를 확보할 수 있는 프롬프트 기반 데이터 증강 기법을 제안한다. 제안 기법은 기존 대화내용을 반영한 요약질문 생성단계와 대화맥락을 유지한 차기 상담대화 생성 단계로 구성되며, 프롬프트 엔지니어링을 통해 상담 분야의 데이터셋을 확장하고 사용자 평가를 통해 제안 기법의 데이터 증강이 품질에 미치는 영향을 확인한다.

  • PDF

Adaptive Rate Control Scheme for Guaranteeing the Delay Bounds of Interactive Multimedia Service (대화형 멀티미디어 서비스의 지연한계 보장을 위한 적응적 전송률 조절 기법)

  • Jeong, Uk-Heon;Chung, Kwang-Sue
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06d
    • /
    • pp.404-406
    • /
    • 2012
  • 최근 네트워크 기술의 발달과 모바일 기기 성능의 향상으로 대화형 멀티미디어 서비스에 대한 요구가 증가하고 있다. 대화형 멀티미디어 서비스는 음성과 영상을 실시간으로 주고받는 서비스로 지연에 민감한 특성을 가진다. 따라서 대화형 멀티미디어 서비스의 품질을 보장하기 위해서는 재생 지연한계를 고려해야 한다. 본 논문에서는 대화형 멀티미디어 서비스의 단대단 지연한계를 보장하기 위해서 네트워크와 송신버퍼 그리고 수신버퍼에서 발생하는 지연을 고려하여 전송률을 조절하는 기법을 제안한다. 제안하는 기법은 송신버퍼와 수신버퍼에 지연한계를 설정하고 이를 보장하기 위해 전송률을 조절함으로써 지연한계와 재생의 연속성을 보장하였다. 실험을 통해 본 논문이 대화형 멀티미디어 서비스의 단대단 지연한계를 보장함을 보였다.