• 제목/요약/키워드: 멀티모달정보

검색결과 186건 처리시간 0.024초

공황장애 상담을 위한 멀티모달 과제 지향 대화 태스크 구축 (Building a multimodal task-oriented dialogue task for panic disorder counseling)

  • 김수빈;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.258-262
    • /
    • 2023
  • 과제 지향 대화 시스템은 발화 의도 및 요구사항을 파악하여 사용자가 원하는 과제를 달성한다는 점에서 유용하다. 대화 상태 추적은 과제 지향 대화 시스템의 핵심 모듈이며, 최근에는 텍스트뿐만 아니라 시각 정보까지 활용하여 대화 상태를 추적하는 멀티모달 대화 상태 추적 연구가 활발히 진행되는 중이다. 본 논문에서는 멀티모달 공황장애 상담 대화 속 내담자의 상태를 추적하는 과제를 제안하였다. ChatGPT를 통한 멀티모달 공황장애 상담 과제 지향 대화 데이터셋 구축 프레임워크와, 구축한 데이터셋의 품질을 증명하기 위한 분석도 함께 제시하였다. 사전학습 언어 모델인 GPT-2를 벤치마크 데이터셋에 대해 학습한 성능을 측정함으로써 향후 멀티모달 대화 추적 성능이 능가해야 할 베이스라인 성능을 제시하였다.

  • PDF

랜덤 하이퍼그래프 모델을 이용한 순차적 멀티모달 데이터에서의 문장 생성 (Sentence generation on sequential multi-modal data using random hypergraph model)

  • 윤웅창;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.376-379
    • /
    • 2010
  • 인간의 학습과 기억현상에 있어서 멀티모달 데이터를 사용하는 것은 단순 모달리티 데이터를 사용하는 것에 비해서 향상된 효과를 보인다는 여러 연구 결과가 있어왔다. 이 논문에서는 인간의 순차적인 정보처리와 생성현상을 기계에서의 시뮬레이션을 통해서 기계학습에 있어서도 동일한 현상이 나타나는지에 대해서 알아보고자 하였다. 이를 위해서 가중치를 가진 랜덤 하이퍼그래프 모델을 통해서 순차적인 멀티모달 데이터의 상호작용을 하이퍼에지들의 조합으로 나타내는 것을 제안 하였다. 이러한 제안의 타당성을 알아보기 위해서 비디오 데이터를 이용한 문장생성을 시도하여 보았다. 이전 장면의 사진과 문장을 주고 다음 문장의 생성을 시도하였으며, 단순 암기학습이나 주어진 룰을 통하지 않고 의미 있는 실험 결과를 얻을 수 있었다. 단순 텍스트와 텍스트-이미지 쌍의 단서를 통한 실험을 통해서 멀티 모달리티가 단순 모달리티에 비해서 미치는 영향을 보였으며, 한 단계 이전의 멀티모달 단서와 두 단계 및 한 단계 이전의 멀티모달 단서를 통한 실험을 통해서 순차적 데이터의 단계별 단서의 차이에 따른 영향을 알아볼 수 있었다. 이를 통하여 멀티 모달리티가 시공간적으로 미치는 기계학습에 미치는 영향과 순차적 데이터의 시간적 누적에 따른 효과가 어떻게 나타날 수 있는지에 대한 실마리를 제공할 수 있었다고 생각된다.

  • PDF

능동적 멀티모달 프르젠테이션 시스템 설계 및 구현 (Design and Implementation of an Active Multi-modal Presentation System)

  • 손문식;이지근;이은숙;김희숙;정석태;정성태
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2002년도 추계학술발표논문집
    • /
    • pp.661-664
    • /
    • 2002
  • 최근 인터넷의 대중화와 웹 기술이 발달함에 따라, 인간친화적인 프리젠테이션을 위하여 캐릭터 에이전트를 이용한 멀티모달 프리젠테이션에 대한 연구가 활성화 되고 있다. 그런데, 기존의 멀티모달 프리젠테이션 시스템은 정보제공자의 일방적인 프리젠테이션방식을 사용하기 때문에 청중과의 쌍방향 통신은 미비한 실정이다. 따라서, 본 논문에서는 캐릭터 에이전트를 이용하여 정보제공자와 청중 사이에 질의와 응답이 실시간으로 가능하도록 하는 능동적 멀티모달 프리젠이션 시스템을 설계 및 구현하고자 한다.

  • PDF

FiD를 이용한 멀티 모달 오픈 도메인 질의 응답 (Fusion-in-Decoder for Open Domain Multi-Modal Question Answering)

  • 박은환;이성민;서대룡;전동현;강인호;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.95-99
    • /
    • 2022
  • 오픈 도메인 질의 응답 (ODQA, Open-Domain Question Answering)은 주어진 질문에 대한 답을 찾는 과업으로서 질문과 관련있는 지식을 찾는 "검색" 단계를 필요로 한다. 최근 이미지, 테이블 등의 검색을 요구하는 멀티 모달 ODQA에 대한 연구가 많이 진행되었을 뿐만 아니라 산업에서의 중요도 또한 높아지고 있다. 본 논문은 여러 종류의 멀티 모달 ODQA 중에서도 테이블 - 텍스트 기반 멀티 모달 ODQA 데이터 집합으로 Fusion-in-Decoder (FiD)를 이용한 멀티 모달 오픈 도메인 질의 응답 연구를 제안하며 베이스라인 대비 최대 EM 20.5, F1 23.2 향상을 보였다.

  • PDF

대화를 중심으로 다양한 멀티모달 융합정보를 포함하는 동영상 기반 인공지능 학습용 데이터셋 구축 (Dialogue based multimodal dataset including various labels for machine learning research)

  • 신사임;장진예;김보은;박한무;정혜동
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.449-453
    • /
    • 2019
  • 미디어방송이 다양해지고, 웹에서 소비되는 콘텐츠들 또한 멀티미디어 중심으로 재편되는 경향에 힘입어 인공지능 연구에 멀티미디어 콘텐츠를 적극적으로 활용하고자 하는 시도들이 시작되고 있다. 본 논문은 다양한 형태의 멀티모달 정보를 하나의 동영상 콘텐츠에 연계하여 분석하여, 통합된 형태의 융합정보 데이터셋을 구축한 연구를 소개하고자 한다. 구축한 인공지능 학습용 데이터셋은 영상/음성/언어 정보가 함께 있는 멀티모달 콘텐츠에 상황/의도/감정 정보 추론에 필요한 다양한 의미정보를 부착하여 활용도가 높은 인공지능 영상 데이터셋을 구축하여 공개하였다. 본 연구의 결과물은 한국어 대화처리 연구에 부족한 공개 데이터 문제를 해소하는데 기여하였고, 한국어를 중심으로 다양한 상황 정보가 함께 구축된 데이터셋을 통하여 다양한 상황 분석 기반 대화 서비스 응용 기술 연구에 활용될 것으로 기대할 수 있다.

  • PDF

기억 회상 현상에 대한 순차적 멀티 모달리티 데이터의 영향 비교 (Comparison of Sequential Multi-Modality Data Effects on Memory Recall)

  • 윤웅창;;장병탁
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2010년도 춘계학술대회
    • /
    • pp.66-71
    • /
    • 2010
  • 본 논문에서는 멀티 모달리티가 인간의 기억 현상 중에서 특히 회상 현상에 도움이 될 것이 라는 아이디어를 인간 실험과 컴퓨터 시뮬레이션을 통해서 비교 확인한다. 우리는 순차적 멀티모달리티 정보가 기억회상 현상에 미치는 영향을 알아보기 위해서 확률 하이퍼그래프 메모리모델을 사용하여 컴퓨터 시뮬레이션을 수행하였으며, 시뮬레이션 결과를 동일한 데이터를 사용한 인간 실험 결과와 비교하였다. 본 실험에서는 TV 드라마의 비디오 데이터를 이용하여 이전시점의 사진과 문장 정보가 다음 시점의 문장 생성에 미치는 영향을 확인하였다. 본 실험의 목적은 이전 시점의 문장 정보와 문장/사진 정보를 활용하여 멀티 모달리티의 영향을 확인하는 것이며 다양한 시점의 정보를 활용하여 순차성이 회상에 갖는 영향을 확인하는 것이다. 이를 통해서 기억 회상 현상에 있어서 멀티 모달리티가 미치는 영향과 순차적 데이터가 미치는 영향을 보일 수 있었으며, 기계를 통해서 인간의 기억 회상 현상을 재현할 수 있는 시뮬레이션 모델을 구현 하는데 실마리를 제공하였다.

  • PDF

GUI 기반의 EMPML저작도구의 설계 및 구현 (Korea Information Science Society)

  • 석지문;이지근;이은숙;김희숙;정석태;정성태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.568-570
    • /
    • 2002
  • 컴퓨터 기술의 급속한 발전에 따라 정보의 프리젠테이션 방법도 다양하게 변화해 가고 있다. 기존의 텍스트와 이미지를 이용한 프리젠테이션에서부터 멀티미디어 프리젠테이션에 이르기까지 사람들에게 좀더 효과적으로 정보론 프리젠테이션 할 수 있는 방법들이 개발되어 왔다. 그러나 컴퓨터를 이용한 프리젠테이션은 발표자의 사고와 감정 통 인간적인 요소를 표현하고 전달하는 데에는 많은 제약을 가지고 있다. 최근에는 좀더 인간 친화적인 프리젠테이션을 위하여 발표자의 감정과 제스처 등을 캐릭터 에이전트론 통하여 전달할 수 있도록 해주는 멀티 모달 정보 프리젠테이션에 대한 연구가 활성화되고 있다. 본 논문에서는 멀티모달 정보 프리젠테이션을 위해 개발된 언어인 EMPML(Extended Multimodal Presentation Markup Language)를 통해서 정보 제공자가 멀티모달 정보를 좀더 쉽게 저작할 수 있고, 저작된 멀티모달 정보를 확인할 수 있도록 해주는 GUI 기반의 저작도구론 설계, 구현하고자 한다.

  • PDF

3 차원 오브젝트 직접조작을 위한 데이터 글러브 기반의 멀티모달 인터페이스 설계 (Design of dataglove based multimodal interface for 3D object manipulation in virtual environment)

  • 임미정;박범
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2006년도 학술대회 1부
    • /
    • pp.1011-1018
    • /
    • 2006
  • 멀티모달 인터페이스는 인간의 제스처, 시선, 손의 움직임, 행동의 패턴, 음성, 물리적인 위치 등 인간의 자연스러운 행동들에 대한 정보를 해석하고 부호화하는 인지기반 기술이다. 본 논문에서는 제스처와 음성, 터치를 이용한 3D 오브젝트 기반의 멀티모달 인터페이스를 설계, 구현한다. 서비스 도메인은 스마트 홈이며 사용자는 3D 오브젝트 직접조작을 통해 원격으로 가정의 오브젝트들을 모니터링하고 제어할 수 있다. 멀티모달 인터랙션 입출력 과정에서는 여러 개의 모달리티를 병렬적으로 인지하고 처리해야 하기 때문에 입출력 과정에서 각 모달리티의 조합과 부호화 방법, 입출력 형식 등이 문제시된다. 본 연구에서는 모달리티들의 특징과 인간의 인지구조 분석을 바탕으로 제스처, 음성, 터치 모달리티 간의 입력조합방식을 제시하고 멀티모달을 이용한 효율적인 3D Object 인터랙션 프로토타입을 설계한다.

  • PDF

XML을 이용한 MIML(Multimodal Information Markup Language)의 설계 및 구현 (Design and Implementation of MIML using XML)

  • 김주리;이지근;김희숙;정석태;정성태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.289-291
    • /
    • 2001
  • www의 등장으로 디지털 정보의 표현이 단순한 텍스트 위주의 프리젠테이션에서 이제는 멀티미디어 내용의 증가와 함께 멀티모달 정보 프리젠테이션을 요구하는 변화를 가져오고 있다. 그러나 대다수의 사람들이 멀티모달 정보를 표현하기란 쉽지 않다. 본 논문에서는 이러한 사람들이 보다 쉽고 재미있는 멀티모달 정보 프리젠테이션을 쉽게 사용할 수 있도록 구두 대화 능력에 상호 작용하는 캐릭터 에이전트를 응용하여 MIML을 개발하였다. MIML은 XML 규격에 준거한 Markup Language로써 구두 발표 및 캐릭터 에이전트 행동을 통제하기 위한 기능을 지원한다. 본 논문에서는 다양한 캐릭터 에이전트의 감정 표현 기능과 멀티모달 정보 프리젠테이션을 구성하는 DTD에 대하여 기술하였다.

  • PDF

멀티모달 정보를 이용한 응급상황 인식 시스템의 설계 및 구현 (Design and Implementation of Emergency Recognition System based on Multimodal Information)

  • 김영운;강선경;소인미;권대규;이상설;이용주;정성태
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권2호
    • /
    • pp.181-190
    • /
    • 2009
  • 본 논문은 비주얼 정보, 오디오 정보, 중력 센서 정보에 기반한 멀티 모달 응급상황 인식 시스템을 제안한다. 제안된 시스템은 비디오 처리 모듈, 오디오 처리 모듈, 중력 센서 처리 모듈, 멀티모달 통합 모듈로 구성된다. 비디오 처리 모듈과 오디오 처리 모듈 각각은 이동, 정지 기절 등의 동작을 인식하여 멀티모달 통합 모듈에 전달한다. 멀티 모달 통합 모듈은 전달된 정보로부터 응급 상황을 인식하고 오디오 채널을 통하여 사용자에게 질문을 하고 대답을 인식함으로써 응급 상황을 재확인한다. 실험결과 영상에서는 91.5%, 착용형 중력센서는 94% 인식률을 보였으나 이들을 통합하면 응급상황을 100% 인식하는 결과를 보였다.