• 제목/요약/키워드: Video classification

검색결과 352건 처리시간 0.032초

Social Pedestrian Group Detection Based on Spatiotemporal-oriented Energy for Crowd Video Understanding

  • Huang, Shaonian;Huang, Dongjun;Khuhroa, Mansoor Ahmed
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권8호
    • /
    • pp.3769-3789
    • /
    • 2018
  • Social pedestrian groups are the basic elements that constitute a crowd; therefore, detection of such groups is scientifically important for modeling social behavior, as well as practically useful for crowd video understanding. A social group refers to a cluster of members who tend to keep similar motion state for a sustained period of time. One of the main challenges of social group detection arises from the complex dynamic variations of crowd patterns. Therefore, most works model dynamic groups to analysis the crowd behavior, ignoring the existence of stationary groups in crowd scene. However, in this paper, we propose a novel unified framework for detecting social pedestrian groups in crowd videos, including dynamic and stationary pedestrian groups, based on spatiotemporal-oriented energy measurements. Dynamic pedestrian groups are hierarchically clustered based on energy flow similarities and trajectory motion correlations between the atomic groups extracted from principal spatiotemporal-oriented energies. Furthermore, the probability distribution of static spatiotemporal-oriented energies is modeled to detect stationary pedestrian groups. Extensive experiments on challenging datasets demonstrate that our method can achieve superior results for social pedestrian group detection and crowd video classification.

비-파라미터 기반의 움직임 분류를 통한 비디오 검색 기법 (Video retrieval method using non-parametric based motion classification)

  • 김낙우;최종수
    • 대한전자공학회논문지SP
    • /
    • 제43권2호
    • /
    • pp.1-11
    • /
    • 2006
  • 본 논문에서는 샷(shot) 기반 비디오 색인 구조에서 비-파라미터(non-parametric) 기반의 움직임 분류를 통한 비디오 영상 검색 기법을 제안한다. 본 논문에서 제안하는 비디오 검색 시스템은 장면 전환 기법을 통해 얻은 샷 단위의 짧은 비디오로부터 대표 프레임과 움직임 정보를 취득한 후, 이를 통해 시각적 특징과 움직임 특징을 추출하여 유사도를 비교함으로써 시-공간적 특징을 이용한 실시간 검색이 가능하도록 구현되었다. 비-파라미터 기반의 움직임 특징의 추출은 MPEG 압축 스트림으로부터 정규화된 움직임 벡터계(界)를 추출한 후, 각각의 정규화된 움직임 벡터를 여러 개의 각도 빈(bin)으로 양자화하고 이의 평균과 분산, 방향 등을 고려함으로써 효과적으로 이루어진다. 대표 프레임에서의 시각 특징 검출을 위해서는 에지 기반의 공간 기술자를 이용하였다. 실험 결과는 영상 색인 및 검색에 있어서 제안된 시스템이 매우 효과적임을 잘 나타내고 있다. 데이터베이스 내 영상의 색인을 위해서는 R*-tree 구조를 이용한다.

Video augmentation technique for human action recognition using genetic algorithm

  • Nida, Nudrat;Yousaf, Muhammad Haroon;Irtaza, Aun;Velastin, Sergio A.
    • ETRI Journal
    • /
    • 제44권2호
    • /
    • pp.327-338
    • /
    • 2022
  • Classification models for human action recognition require robust features and large training sets for good generalization. However, data augmentation methods are employed for imbalanced training sets to achieve higher accuracy. These samples generated using data augmentation only reflect existing samples within the training set, their feature representations are less diverse and hence, contribute to less precise classification. This paper presents new data augmentation and action representation approaches to grow training sets. The proposed approach is based on two fundamental concepts: virtual video generation for augmentation and representation of the action videos through robust features. Virtual videos are generated from the motion history templates of action videos, which are convolved using a convolutional neural network, to generate deep features. Furthermore, by observing an objective function of the genetic algorithm, the spatiotemporal features of different samples are combined, to generate the representations of the virtual videos and then classified through an extreme learning machine classifier on MuHAVi-Uncut, iXMAS, and IAVID-1 datasets.

DNN 학습을 이용한 퍼스널 비디오 시퀀스의 멀티 모달 기반 이벤트 분류 방법 (A Personal Video Event Classification Method based on Multi-Modalities by DNN-Learning)

  • 이유진;낭종호
    • 정보과학회 논문지
    • /
    • 제43권11호
    • /
    • pp.1281-1297
    • /
    • 2016
  • 최근 스마트 기기의 보급으로 자유롭게 비디오 컨텐츠를 생성하고 이를 빠르고 편리하게 공유할 수 있는 네트워크 환경이 갖추어지면서, 퍼스널 비디오가 급증하고 있다. 그러나, 퍼스널 비디오는 비디오라는 특성 상 멀티 모달리티로 구성되어 있으면서 데이터가 시간의 흐름에 따라 변화하기 때문에 이벤트 분류를 할 때 이에 대한 고려가 필요하다. 본 논문에서는 비디오 내의 멀티 모달리티들로부터 고수준의 특징을 추출하여 시간 순으로 재배열한 것을 바탕으로 모달리티 사이의 연관관계를 Deep Neural Network(DNN)으로 학습하여 퍼스널 비디오 이벤트를 분류하는 방법을 제안한다. 제안하는 방법은 비디오에 내포된 이미지와 오디오를 시간적으로 동기화하여 추출한 후 GoogLeNet과 Multi-Layer Perceptron(MLP)을 이용하여 각각 고수준 정보를 추출한다. 그리고 이들을 비디오에 표현된 시간순으로 재 배열하여 비디오 한 편당 하나의 특징으로 재 생성하고 이를 바탕으로 학습한 DNN을 이용하여 퍼스널 비디오 이벤트를 분류한다.

항공비디오와 Landsat-TM 자료를 이용한 지피의 분류와 평가 - 태안 해안국립공원을 사례로 - (Land Cover Classification and Accuracy Assessment Using Aerial Videography and Landsat-TM Satellite Image -A Case Study of Taean Seashore National Park-)

  • 서동조;박종화;조용현
    • 한국조경학회지
    • /
    • 제27권4호
    • /
    • pp.131-136
    • /
    • 1999
  • Aerial videography techniques have been used to inventory conditions associated with grassland, forests, and agricultural crop production. Most recently, aerial videography has been used to verity satellite image classifications as part of the natural ecosystem survey. The objectives of this study were: (1) to use aerial video images of the study area, one part of Taean Seashore National Park, for the accuracy assessment, and (2) to determine the suitability of aerial videography as an accuracy assessment, of the land cover classification with Landsat-TM data. Video images were collected twice, summer and winter seasons, and divided into two kinds of images, wide angle and narrow angle images. Accuracy assessment methods include the calculation of the error matrix, the overall accuracy and kappa coefficient of agreement. This study indicates that aerial videography is an effective tool for accuracy assessment of the satellite image classifications of which features are relatively large and continuous. And it would be possible to overcome the limits of the present natural ecosystem survey method.

  • PDF

Automatic Video Genre Identification Method in MPEG compressed domain

  • Kim, Tae-Hee;Lee, Woong-Hee;Jeong, Dong-Seok
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 ITC-CSCC -3
    • /
    • pp.1527-1530
    • /
    • 2002
  • Video summary is one of the tools which can provide the fast and effective browsing fur a lengthy video. Video summary consists of many key-frames that could be defined differently depending on the video genre it belongs to. Consequently, the video summary constructed by the uniform manner might lead into inadequate result. Therefore, identifying the video genre is the important first step in generating the meaningful video summary. We propose a new method that can classify the genre of the video data in MPEG compressed bit-stream domain. Since the proposed method operates directly on the com- pressed bit-stream without decoding the frame, it has merits such as simple calculation and short processing time. In the proposed method, only the visual information is utilized through the spatial-temporal analysis to classify the video genre. Experiments are done for 6 genres of video: Cartoon, Commercial, Music Video, News, Sports, and Talk Show. Experimental result shows more than 90% of accuracy in genre classification for the well-structured video data such as Talk Show and Sports.

  • PDF

Multimodal Biometrics Recognition from Facial Video with Missing Modalities Using Deep Learning

  • Maity, Sayan;Abdel-Mottaleb, Mohamed;Asfour, Shihab S.
    • Journal of Information Processing Systems
    • /
    • 제16권1호
    • /
    • pp.6-29
    • /
    • 2020
  • Biometrics identification using multiple modalities has attracted the attention of many researchers as it produces more robust and trustworthy results than single modality biometrics. In this paper, we present a novel multimodal recognition system that trains a deep learning network to automatically learn features after extracting multiple biometric modalities from a single data source, i.e., facial video clips. Utilizing different modalities, i.e., left ear, left profile face, frontal face, right profile face, and right ear, present in the facial video clips, we train supervised denoising auto-encoders to automatically extract robust and non-redundant features. The automatically learned features are then used to train modality specific sparse classifiers to perform the multimodal recognition. Moreover, the proposed technique has proven robust when some of the above modalities were missing during the testing. The proposed system has three main components that are responsible for detection, which consists of modality specific detectors to automatically detect images of different modalities present in facial video clips; feature selection, which uses supervised denoising sparse auto-encoders network to capture discriminative representations that are robust to the illumination and pose variations; and classification, which consists of a set of modality specific sparse representation classifiers for unimodal recognition, followed by score level fusion of the recognition results of the available modalities. Experiments conducted on the constrained facial video dataset (WVU) and the unconstrained facial video dataset (HONDA/UCSD), resulted in a 99.17% and 97.14% Rank-1 recognition rates, respectively. The multimodal recognition accuracy demonstrates the superiority and robustness of the proposed approach irrespective of the illumination, non-planar movement, and pose variations present in the video clips even in the situation of missing modalities.

Frontal Face Video Analysis for Detecting Fatigue States

  • Cha, Simyeong;Ha, Jongwoo;Yoon, Soungwoong;Ahn, Chang-Won
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권6호
    • /
    • pp.43-52
    • /
    • 2022
  • 사람이 느끼는 피로는 다양한 생체신호로부터 측정이 가능한 것으로 알려져 있으며, 기존 연구는 질병과 관련된 심각한 피로수준을 산정하는데 주된 목적을 두고 있다. 본 연구에서는 피실험자의 영상을 이용하여 딥러닝 기반의 영상 분석 기술을 적용, 피로 여부를 판단하기 위한 모델을 제안한다. 특히 화상 분석에서 통상적으로 사용되는 객체 인식, 요소 추출과 함께 영상 데이터의 시계열적 특성을 고려하여 방법론을 교차한 3개 분석모델을 제시했다. 다양한 피로상황에서 수집된 정면 얼굴 영상 데이터를 이용하여 제시된 모델을 실험하였으며, CNN 모델의 경우 0.67의 정확도로 피로 상태를 분류할 수 있어 영상 분석 기반의 피로 상태 분류가 유의미하다고 판단된다. 또한 모델별 학습 및 검증 절차 분석을 통해 영상 데이터 특성에 따른 모델 적용방안을 제시했다.

다중 오디오 특징을 이용한 유해 동영상의 판별 (Classification of Phornographic Video with using the Features of Multiple Audio)

  • 김정수;정명범;성보경;권진만;구광효;고일주
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.522-525
    • /
    • 2009
  • 본 논문에서는 인터넷의 역기능으로 현대 사회에 큰 문제를 야기 시키는 음란성 유해 동영상을 내용기반으로 판별하기 위한 방법을 제안하였다. 유해 동영상에서 오디오 데이터를 이용하여 특징을 추출하였다. 사용된 오디오 특징은 주파수 스펙트럼, 자기상관, MFCC이다. 음란성의 내용이 될 수 있는 소리의 특징을 추출하였고 동영상 전체 오디오에서 해당 소리의 특징과 일치하는지를 측정하여 유해성을 판별하였다. 제안한 방법의 실험은 각 특징마다 유해 판별 측정 결과와 다중 특징을 이용한 측정 결과를 비교 수행하였다. 하나의 오디오 특징만을 추출하여 사용하였을 때 보다 다중 특징의 사용이 좋은 결과를 얻을 수 있었다.

  • PDF

비디오에서 소매치기의 분류에 관한 연구 (A Study on Classification of Pickpocket in Video)

  • 이양원;신광성
    • 한국산업정보학회논문지
    • /
    • 제17권7호
    • /
    • pp.95-100
    • /
    • 2012
  • 현대의 범죄는 날로 치밀해지고 있으며 수법 또한 매우 교묘하다. 범죄 중에서 절도죄인 소매치기는 대부분 붐비거나 혼잡한 곳에서 발생한다. 그러나 현재에는 인적이 드문 한적한 곳에서 더 많이 발생하고 있다. 본 논문에서는 소매치기의 수법과 종류에 대하여 알아본다. 그리고 비디오를 분류하여 현실적으로 제출하기 위하여 서있는 경우, 앉아있는 경우, 그리고 누워있는 경우로 분류한다. 이는 소매치기를 대상으로 영상 포렌식의 증거 자료로 제출하기 위하여 분류하는 것이다. 본 논문은 소매치기 예방은 물론 소매치기 범죄의 대처를 위해서 반드시 필요하다고 사료된다.