• Title/Summary/Keyword: 멀티모달정보

Search Result 187, Processing Time 0.026 seconds

Social Network Analysis of TV Drama via Location Knowledge-learned Deep Hypernetworks (장소 정보를 학습한 딥하이퍼넷 기반 TV드라마 소셜 네트워크 분석)

  • Nan, Chang-Jun;Kim, Kyung-Min;Zhang, Byoung-Tak
    • KIISE Transactions on Computing Practices
    • /
    • v.22 no.11
    • /
    • pp.619-624
    • /
    • 2016
  • Social-aware video displays not only the relationships between characters but also diverse information on topics such as economics, politics and culture as a story unfolds. Particularly, the speaking habits and behavioral patterns of people in different situations are very important for the analysis of social relationships. However, when dealing with this dynamic multi-modal data, it is difficult for a computer to analyze the drama data effectively. To solve this problem, previous studies employed the deep concept hierarchy (DCH) model to automatically construct and analyze social networks in a TV drama. Nevertheless, since location knowledge was not included, they can only analyze the social network as a whole in stories. In this research, we include location knowledge and analyze the social relations in different locations. We adopt data from approximately 4400 minutes of a TV drama Friends as our dataset. We process face recognition on the characters by using a convolutional- recursive neural networks model and utilize a bag of features model to classify scenes. Then, in different scenes, we establish the social network between the characters by using a deep concept hierarchy model and analyze the change in the social network while the stories unfold.

Service Technology Prospect for Next Generation Smart TV (차세대 스마트TV 서비스 기술 전망)

  • Hong, Jin-Woo
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2012.05a
    • /
    • pp.368-371
    • /
    • 2012
  • Smart TV is approaching as a new media service to integrate the broadcasting and the internet according to the technology evaluation of convergence to broadcasting, telecommunication, and computing. Therefore, This paper looks out the next generation smart TV(Smart TV 2.0) technology based on CPNT which supports those services such as the broadcasting, telecommunication, a convergence of broadcasting & communication, and computer service through multi-screen.

  • PDF

Data model of Multimodal Visual Interface (멀티모달 비주얼 인터페이스의 테이터형)

  • Malyanov, Ilya;d'Auriol, Brian J.;Lee, Sung-Young;Lee, Young-Koo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06b
    • /
    • pp.240-241
    • /
    • 2011
  • Contemporary electronic healthcare systems are getting more and more complex, providing users a broad functionality, but often fail to have accessible interfaces. However, the importance of a good interface is nearly as great as of the rest of the system. Development of an intuitive multimodal interface for a healthcare system is the goal of our research work. This paper discusses data model of the interface.

CPNT Based Next Generation Smart TV Service Technology (CPNT 기반 차세대 스마트TV 서비스 기술)

  • Hong, Jin-Woo
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.16 no.6
    • /
    • pp.1209-1216
    • /
    • 2012
  • Smart TV is approaching as a new media service to integrate the broadcasting and the internet according to the technology evaluation of convergence to broadcasting, telecommunication, and computing. Therefore, This paper proposes the next generation smart TV(Smart TV 2.0) technology based on CPNT which supports those services such as the broadcasting, telecommunication, a convergence of broadcasting & communication, and computer service through multi-screen. Also, this paper describes the concept and details of the related technologies.

Multimodal biosignal measurement sensor and analysis system (멀티모달 바이오신호 측정센서 및 분석 시스템)

  • Jeong, Kwanmoon;Moon, Chanki;Nam, Yunyoung;Lee, Jinsook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.1049-1050
    • /
    • 2015
  • e-health보드를 이용하여 측정한 생체신호를 실시간으로 블루투스통신을 통한 무선통신을 함으로서 PC와 연결한다. PC에서 송신된 데이터를 텍스트로 저장한 뒤 c#으로 체온, 심전도, 근전도, 피층 전기 반응, 호흡 5가지의 결과 값을 그래프로 보여준다.

Authoring Toolkit for Interaction with a Virtual Human (가상 휴먼 상호작용 저작 툴킷)

  • Chung, Jin-Ho;Jo, Dongsik
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.564-566
    • /
    • 2021
  • 최근 가상 휴먼은 국방, 의료, 교육, 엔터테인먼트 등 다양한 분야에서 널리 활용되고 있다. 가상 휴먼을 이용한 상호작용은 사용자가 현실 세계의 실제 친구와 대화하는 것처럼 자연스럽게 소통하는 방식으로 운용이 되고, 이를 위해서는 사용자의 음성, 동작, 감정 등 다양한 입력을 기반으로 반응하는 가상 휴먼 출력 등 상호작용 매핑 관계를 제작하여야 한다. 하지만, 기존 가상 휴먼 상호작용 방법은 미리 정해진 패턴을 수작업인 프로그래밍을 통해 제작하여 개발 기간이 오래 걸리고, 수정이 용이하지 못한 단점이 있다. 본 논문에서는 가상 휴먼 상호작용을 위해 음성, 동작, 감정 등 사용자의 멀티모달 입력과 가상 휴먼 반응에 대한 저작을 수행하는 툴킷을 제시한다. 본 논문에서 제시한 저작도구를 통해 쉽고 빠르게 사용자와 가상 휴먼 상호작용 표현을 생성할 수 있다.

Development of a Depression Prevention Platform using Multi-modal Emotion Recognition AI Technology (멀티모달 감정 인식 AI 기술을 이용한 우울증 예방 플랫폼 구축)

  • HyunBeen Jang;UiHyun Cho;SuYeon Kwon;Sun Min Lim;Selin Cho;JeongEun Nah
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.916-917
    • /
    • 2023
  • 본 연구는 사용자의 음성 패턴 분석과 텍스트 분류를 중심으로 이루어지는 한국어 감정 인식 작업을 개선하기 위해 Macaron Net 텍스트 모델의 결과와 MFCC 음성 모델의 결과 가중치 합을 분류하여 최종 감정을 판단하는 기존 82.9%였던 정확도를 텍스트 모델 기준 87.0%, Multi-Modal 모델 기준 88.0%로 개선한 모델을 제안한다. 해당 모델을 우울증 예방 플랫폼의 핵심 모델에 탑재하여 covid-19 팬데믹 이후 사회의 문제점으로 부상한 우울증 문제 해소에 기여 하고자 한다.

Semi-automatic Event Structure Frame tagging of WordNet Synset (워드넷 신셋에 대한 사건구조 프레임 반자동 태깅)

  • Im, Seohyun
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.101-105
    • /
    • 2018
  • 이 논문은 가장 잘 알려진 어휘부중 하나인 워드넷의 활용 범위 확장을 위해 워드넷 신셋에 "사건구조 프레임(Event Structure Frame)"을 주석하는 연구에 관한 것이다. 워드넷을 비롯하여 현재 사용되고 있는 어휘부는 풍부한 어휘의미정보가 구조화되어 있지만, 사건구조에 관한 정보를 포함하고 있지는 않다. 이 연구의 가장 큰 기여는 워드넷에 사건구조 프레임을 추가함으로써 워드넷과의 연결만으로 핵심적인 어휘의미정보를 모두 추출할 수 있도록 해준다는 점이다. 예를 들어 텍스트 추론, 자연어처리, 멀티 모달 태스크 등은 어휘의미정보와 배경지식(상식)을 이용하여 태스크를 수행한다. 워드넷에 대한 사건구조 주석은 자동사건구조 주석 시스템인 GESL을 이용하여 워드넷 신셋에 있는 예문에 먼저 자동 주석을 하고, 오류에 대해 수동 수정을 하는 반자동 방식이다. 사전 정의된 23개의 사건구조 프레임에 따라 예문에 출현하는 타겟 동사를 분류하고, 해당 프레임과 매핑한다. 현재 이 연구는 시작 단계이며, 이 논문에서는 빈도 순위가 가장 높은 100개의 동사와 각 사건구조 프레임별 대표 동사를 포함하여 총 106개의 동사 레마에 대해 실험을 진행하였다. 그 동사들에 대한 전체 워드넷 신셋의 수는 1337개이다. 예문이 없어서 GESL이 적용될 수 없는 신셋을 제외하면 1112개 신셋이다. 이 신셋들에 대해 GESL을 적용한 결과 F-Measure는 73.5%이다. 향후 연구에서는 워드넷-사건구조 링크를 계속 업데이트하면서 딥러닝을 이용해 GESL 성능을 향상 할 수 있는 방법을 모색할 것이다.

  • PDF

Product-oriented Omni Channel technology using multi-modal information (멀티모달 정보를 이용한 제품정보 중심의 옴니 채널 기술)

  • OH, Weon-Geun;Lee, Seung-Jae;Lee, Keun-Dong;Jung, Da-Un;Son, Hyung-Kwan;Ko, Jong-Kook
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2017.06a
    • /
    • pp.14-17
    • /
    • 2017
  • 인터넷의 발달과 스마트 디바이스의 등장은 기존의 쇼핑구조 및 쇼핑방식에 큰 변화를 가지고 왔으며, 소비자의 일상생활에도 주목할 만한 질적 성장과 발전을 이루게 하였다. 특히, 쇼핑구조는 소매점에서 대형 쇼핑몰로 오프라인 구매에서 인터넷과 스마트 디바이스를 통한 온라인 구매로 변화하고 있고, 쇼핑방식도 오프라인 매장에서 인터넷, 모바일 등 복수 채널을 종합해 고객경험 관리를 최대화하기 위한 옴니 채널의 형태로 급격하게 변하고 있다. 그러나 기존의 옴니 채널은, 고객의 상품 구매 경험을 극대화 시키는 데 중점을 두었기 때문에, 고객 입장에서 보면 채널별 제품정보(가격, 환불정책, 배송정보, 공급점포의 위치 등)의 부족 및 일관성이 결여되어 있어 최종 구매결정까지는 시간이 걸리고, 구매한 제품에 대한 만족도가 낮아서 반품 비율이 상당히 높은 것이 현실이다. 마찬가지로, 유통업체 입장에서 보면 제품의 유효기간, 재고 관리 등 유통과정에 있어서의 제품정보의 일관성이 결여되어 있어, 완전하고 정확한 최신 제품정보의 제공을 통한 소비자의 구매 유도에 큰 어려움을 겪고 있다. 본 논문은 멀티미디어(영상 및 음성) 식별기술을 이용하여, 기존(고객중심)의 옴니 채널이 가지고 있는 문제점을 해결하여, 소비자 및 유통업체에게 구매 및 관리에 충분하고 일관성이 있는 "제품정보 중심의 옴니 채널" 유통모델 및 구현에 관한 방법을 설명한다.

  • PDF

Audio and Image based Emotion Recognition Framework on Real-time Video Streaming (실시간 동영상 스트리밍 환경에서 오디오 및 영상기반 감정인식 프레임워크)

  • Bang, Jaehun;Lim, Ho Jun;Lee, Sungyoung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.1108-1111
    • /
    • 2017
  • 최근 감정인식 기술은 다양한 IoT 센서 디바이스의 등장으로 단일 소스기반의 감정인식 기술 연구에서 멀티모달 센서기반 감정인식 연구로 변화하고 있으며, 특히 오디오와 영상을 이용한 감정인식 기술의 연구가 활발하게 진행되는 있다. 기존의 오디오 및 영상기반 감정신 연구는 두 개의 센서 테이터를 동시에 입력 저장한 오픈 데이터베이스를 활용하여 다른 이벤트 처리 없이 각각의 데이터에서 특징을 추출하고 하나의 분류기를 통해 감정을 인식한다. 이러한 기법은 사람이 말하지 않는 구간, 얼굴이 보이지 않는 구간의 이벤트 정보처리에 대한 대처가 떨어지고 두 개의 정보를 종합하여 하나의 감정도 도출하는 디시전 레벨의 퓨저닝 연구가 부족하다. 본 논문에서는 이러한 문제를 해결하기 위해 오디오 및 영상에 내포되어 있는 이벤트 정보를 추출하고 오디오 및 영상 기반의 분리된 인지모듈을 통해 감정들을 인식하며, 도출된 감정들을 시간단위로 통합하여 디시전 퓨전하는 실시간 오디오 및 영상기반의 감정인식 프레임워크를 제안한다.