• 제목/요약/키워드: Audio-Vision Fusion

검색결과 9건 처리시간 0.019초

Intelligent User Pattern Recognition based on Vision, Audio and Activity for Abnormal Event Detections of Single Households

  • Jung, Ju-Ho;Ahn, Jun-Ho
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권5호
    • /
    • pp.59-66
    • /
    • 2019
  • According to the KT telecommunication statistics, people stayed inside their houses on an average of 11.9 hours a day. As well as, according to NSC statistics in the united states, people regardless of age are injured for a variety of reasons in their houses. For purposes of this research, we have investigated an abnormal event detection algorithm to classify infrequently occurring behaviors as accidents, health emergencies, etc. in their daily lives. We propose a fusion method that combines three classification algorithms with vision pattern, audio pattern, and activity pattern to detect unusual user events. The vision pattern algorithm identifies people and objects based on video data collected through home CCTV. The audio and activity pattern algorithms classify user audio and activity behaviors using the data collected from built-in sensors on their smartphones in their houses. We evaluated the proposed individual pattern algorithm and fusion method based on multiple scenarios.

음성-영상 융합 음원 방향 추정 및 사람 찾기 기술 (Audio-Visual Fusion for Sound Source Localization and Improved Attention)

  • 이병기;최종석;윤상석;최문택;김문상;김대진
    • 대한기계학회논문집A
    • /
    • 제35권7호
    • /
    • pp.737-743
    • /
    • 2011
  • 서비스 로봇은 비전 카메라, 초음파 센서, 레이저 스캐너, 마이크로폰 등과 같은 다양한 센서를 장착하고 있다. 이들 센서들은 이들 각각의 고유한 기능을 가지고 있기도 하지만, 몇몇을 조합하여 사용함으로써 더욱 복잡한 기능을 수행할 수 있다. 음성영상 융합은 서로가 서로를 상호보완 해주는 대표적이면서도 강력한 조합이다. 사람의 경우에 있어서도, 일상생활에 있어 주로 시각과 청각 정보에 의존한다. 본 발표에서는, 음성영상 융합에 관한 두 가지 연구를 소개한다. 하나는 음원 방향 검지 성능의 향상에 관한 것이고, 나머지 하나는 음원 방향 검지와 얼굴 검출을 이용한 로봇 어텐션에 관한 것이다.

지능형 오디오 및 비전 패턴 기반 1인 가구 이상 징후 탐지 알고리즘 (Intelligent Abnormal Event Detection Algorithm for Single Households at Home via Daily Audio and Vision Patterns)

  • 정주호;안준호
    • 인터넷정보학회논문지
    • /
    • 제20권1호
    • /
    • pp.77-86
    • /
    • 2019
  • 1인 가구의 수가 증가함에 따라 1인 가구의 구성원이 집안에서 심각한 부상을 당할 경우 혼자 도움을 청하기 쉽지 않다. 본 연구는 집안에서 1인 가구의 구성원이 심각한 부상을 당했을 때 비일상적인 상태를 탐지한다. 홈 CCTV를 기반으로 수집된 영상을 통해 패턴을 분석 및 인식하는 영상 탐지 알고리즘을 제안한다. 또한, 스마트폰을 기반으로 집안에서 발생하는 소리의 패턴을 분석 및 인식하는 음성탐지 알고리즘도 제안한다. 각각의 알고리즘만 사용할 경우, 단점이 존재하여 넓은 영역에서 심각한 부상과 같은 상황을 탐지하기 어렵다. 그래서 두 알고리즘을 효율적으로 결합한 융합 방식을 제안한다. 각각 탐지 알고리즘의 성능과 제안된 융합 방식의 정확한 탐지성능을 평가했다.

영상, 음성, 활동, 먼지 센서를 융합한 딥러닝 기반 사용자 이상 징후 탐지 알고리즘 (Deep Learning-Based User Emergency Event Detection Algorithms Fusing Vision, Audio, Activity and Dust Sensors)

  • 정주호;이도현;김성수;안준호
    • 인터넷정보학회논문지
    • /
    • 제21권5호
    • /
    • pp.109-118
    • /
    • 2020
  • 최근 다양한 질병 때문에 사람들은 집 안에서 많은 시간을 보내고 있다. 집 안에서 다치거나 질병에 감염되어 타인의 도움이 필요한 1인 가구의 경우 타인에게 도움을 요청하기 어렵다. 본 연구에서는 1인 가구가 집 안에서 부상이나 질병 감염 등 타인의 도움이 필요로 하는 상황인 이상 징후를 탐지하기 위한 알고리즘을 제안한다. 홈 CCTV를 이용한 영상 패턴 탐지 알고리즘과 인공지능 스피커 등을 이용한 음성 패턴 탐지 알고리즘, 스마트폰의 가속도 센서를 이용한 활동 패턴 탐지 알고리즘, 공기청정기 등을 이용한 먼지 패턴 탐지 알고리즘을 제안한다. 하지만, 홈 CCTV의 보안 문제로 사용하기 어려울 경우 음성, 활동, 먼지 패턴 센서를 결합한 융합 방식을 제안한다. 각 알고리즘은 유튜브와 실험을 통해 데이터를 수집하여 정확도를 측정했다.

음성, 영상, 먼지 센서를 활용한 1인 가구 이상 행동 패턴 탐지 (Abnormal Behavior Pattern Identifications of One-person Households using Audio, Vision, and Dust Sensors)

  • 김시원;안준호
    • 인터넷정보학회논문지
    • /
    • 제20권6호
    • /
    • pp.95-103
    • /
    • 2019
  • 최근 1인 가구가 다양한 연령대에서 증가하고 있으며 무연고자의 사망도 점차 증가한다. 1인 가구의 무연고사의 경우 주위에 돌봐줄 사람이 없어 많이 발생하며 최근에는 노인뿐만 아니라 다양한 연령대에서 발생한다. 우리는 혼자 사는 사람의 이상 징후를 탐지하고자 홈 CCTV를 이용한 영상 패턴 알고리즘과 음성을 인식하는 음성 패턴 알고리즘, 움직임 및 요리 등에서 발생하는 먼지를 탐지하는 센서로 먼지 패턴 알고리즘을 연구 및 개발하였다. 개별적으로 제안된 패턴 알고리즘은 탐지 영역을 벗어나게 되면 탐지하지 못하는 단점이 존재한다. 개별 패턴 알고리즘의 성능을 향상시키기 위해 융합 방식을 연구했으며, 다수의 사용자 행동 패턴을 분석하여 그 성능을 검증하였다.

CNN-based Visual/Auditory Feature Fusion Method with Frame Selection for Classifying Video Events

  • Choe, Giseok;Lee, Seungbin;Nang, Jongho
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권3호
    • /
    • pp.1689-1701
    • /
    • 2019
  • In recent years, personal videos have been shared online due to the popular uses of portable devices, such as smartphones and action cameras. A recent report predicted that 80% of the Internet traffic will be video content by the year 2021. Several studies have been conducted on the detection of main video events to manage a large scale of videos. These studies show fairly good performance in certain genres. However, the methods used in previous studies have difficulty in detecting events of personal video. This is because the characteristics and genres of personal videos vary widely. In a research, we found that adding a dataset with the right perspective in the study improved performance. It has also been shown that performance improves depending on how you extract keyframes from the video. we selected frame segments that can represent video considering the characteristics of this personal video. In each frame segment, object, location, food and audio features were extracted, and representative vectors were generated through a CNN-based recurrent model and a fusion module. The proposed method showed mAP 78.4% performance through experiments using LSVC data.

준 지도학습과 여러 개의 딥 뉴럴 네트워크를 사용한 멀티 모달 기반 감정 인식 알고리즘 (Multi-modal Emotion Recognition using Semi-supervised Learning and Multiple Neural Networks in the Wild)

  • 김대하;송병철
    • 방송공학회논문지
    • /
    • 제23권3호
    • /
    • pp.351-360
    • /
    • 2018
  • 인간 감정 인식은 컴퓨터 비전 및 인공 지능 영역에서 지속적인 관심을 받는 연구 주제이다. 본 논문에서는 wild 환경에서 이미지, 얼굴 특징점 및 음성신호로 구성된 multi-modal 신호를 기반으로 여러 신경망을 통해 인간의 감정을 분류하는 방법을 제안한다. 제안 방법은 다음과 같은 특징을 갖는다. 첫째, multi task learning과 비디오의 시공간 특성을 이용한 준 감독 학습을 사용함으로써 영상 기반 네트워크의 학습 성능을 크게 향상시켰다. 둘째, 얼굴의 1 차원 랜드 마크 정보를 2 차원 영상으로 변환하는 모델을 새로 제안하였고, 이를 바탕으로 한 CNN-LSTM 네트워크를 제안하여 감정 인식을 향상시켰다. 셋째, 특정 감정에 오디오 신호가 매우 효과적이라는 관측을 기반으로 특정 감정에 robust한 오디오 심층 학습 메커니즘을 제안한다. 마지막으로 소위 적응적 감정 융합 (emotion adaptive fusion)을 적용하여 여러 네트워크의 시너지 효과를 극대화한다. 제안 네트워크는 기존의 지도 학습과 반 지도학습 네트워크를 적절히 융합하여 감정 분류 성능을 향상시켰다. EmotiW2017 대회에서 주어진 테스트 셋에 대한 5번째 시도에서, 제안 방법은 57.12 %의 분류 정확도를 달성하였다.

스마트 홈 사용자를 위한 라이다, 영상, 오디오 센서를 이용한 인공지능 이상징후 탐지 알고리즘 (Intelligent Abnormal Situation Event Detections for Smart Home Users Using Lidar, Vision, and Audio Sensors)

  • 김다현;안준호
    • 인터넷정보학회논문지
    • /
    • 제22권3호
    • /
    • pp.17-26
    • /
    • 2021
  • 최근 COVID-19가 확산하고 외출 자제 권고와 같은 방역지침에 따라 집에서 생활하는 시간이 늘고 있다. 이에 따라 집에서 생활하는 1인 가구가 증가하고 있지만 1인 가구는 다인 가구보다 집 안에서 위급한 상황이 발생할 때 외부에 알리기 어렵다. 본 연구는 집안에서 발생하는 다양한 상황을 라이다, 영상, 음성 센서로 수집하고 센서에 따른 데이터를 각각의 알고리즘을 통해 분석하였다. 이를 이용해 위급상황 등의 비정상 패턴을 분석하여 사람의 이상징후를 탐지하는 연구를 진행했다. 각 센서에 따른 사람의 이상징후를 탐지하는 인공지능 알고리즘을 연구하였으며 센서에 따른 이상징후 탐지 정확도를 측정했다. 또한, 본 연구는 다양한 상황에 대한 센서의 탐지 가능 여부를 실험하여 센서 간의 장단점을 보완한 융합 방식을 제안한다.

시각장애인 안전을 위한 영상 기반 저비용 보행 공간 인지 알고리즘 (Vision-based Low-cost Walking Spatial Recognition Algorithm for the Safety of Blind People)

  • 강성현;이세훈;안준호
    • 인터넷정보학회논문지
    • /
    • 제24권6호
    • /
    • pp.81-89
    • /
    • 2023
  • 현대사회에서 시각장애인들은 도보, 승강기, 횡단보도 등 일반적인 환경에서 보행을 하는데 어려움이 있다. 시각장애인의 불편 해소를 위한 연구로 영상이나 음성을 이용한 연구가 있으며, 이런 연구는 고비용의 웨어러블 장치, 고성능 CCTV, 음성 센서 등을 사용하여 실생활에 적용하는 데는 한계가 있다. 본 논문에서 시각장애인이 보행 중에 안전한 이동을 위해서 스마트폰에 포함된 저비용의 영상 센서를 활용하여 주변 도보 공간을 인지하는 인공지능 융합 알고리즘을 제안한다. 제안된 알고리즘은 이동 중인 사람 탐지를 위해서 모션 캡처 알고리즘과 장애물 탐지를 위한 객체 탐지 알고리즘을 융합하여 개발하였다. 모션 캡처 알고리즘으로 mediapipe을 사용하여 이동 중에 있는 주변 보행자들을 모델링 및 탐지하였다. 객체 탐지 알고리즘을 사용했으며 도보 중에 발생하는 다양한 장애물을 모델링 하였다. 실험을 통하여 인공지능 융합 알고리즘을 검증했으며, 정확도 0.92, 정밀도 0.91, 재현율 0.99. F1 score 0.95로 결과를 얻어서 알고리즘의 성능을 확인하였다. 본 연구로 보행 중에 발생하는 볼라드, 공유 킥보드, 자동차 등의 주변 장애물 및 이동 중인 보행자 회피하여 시각장애인들의 통행에 도움을 줄 수 있다.