• 제목/요약/키워드: video action recognition

검색결과 65건 처리시간 0.019초

교통사고 영상 분석을 통한 과실 판단을 위한 딥러닝 기반 방법 연구 (Research on Deep Learning-Based Methods for Determining Negligence through Traffic Accident Video Analysis)

  • 이서영;유연휘;박효경;박병주;문일영
    • 한국항행학회논문지
    • /
    • 제28권4호
    • /
    • pp.559-565
    • /
    • 2024
  • 자율주행 차량에 대한 연구가 활발하게 이뤄지고 있다. 자율주행 차량이 등장함에 따라 기존의 차량과 자율주행 차량이 공존하는 과도기가 올 것이며, 이러한 과도기에는 사고율이 더욱 높아질 것이라 예상된다. 현재 교통사고 발생 시 손해보험협회의 '자동차 사고 과실 비율 인정기준'에 따라서 과실 비율을 측정한다. 그러나, 발생한 사고가 어떠한 유형의 사고인지 조사하는 데 소모되는 비용이 매우 크다. 또한 이미 과실 비율 책정이 완료된 사례에 대해서도 재심의를 요구하는 과실 비율 분쟁도 늘어나는 추세이다. 이러한 시간적, 물적 비용을 줄이기 위해 자동으로 과실 비율을 판단하는 딥러닝 모델을 제안하고자 한다. 본 논문에서는 ResNet-18 이미지 분류 모델과 TSN을 통한 비디오 행동 인식을 통해 사고 영상을 바탕으로 과실 비율을 판단하고자 한다. 모델이 상용화된다면, 과실 비율을 측정하는데 소요되는 시간을 획기적으로 단축할 수 있다. 또한 피의자에게 제공할 수 있는 과실 비율에 대한 객관적인 지표가 생기므로 과실 비율 분쟁도 완화될 것으로 기대된다.

플랫폼에 따른 테니스 게임 플레이어 액션의 추상화 연구 (Abstraction of players action in tennis games over various platform)

  • 정돈욱
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권4호
    • /
    • pp.635-643
    • /
    • 2015
  • 본 연구에서는 게임에서 플레이어가 행하는 동작이 게임에서 추상화되는데 있어 어떤 형태를 가지는지 테니스 게임을 중심으로 다양한 플랫폼을 통해 사례연구를 수행하였다. 특히 추상화되어진 테니스 액션에서 얻을 수 있는 플레이어 경험의 형태를 로렐(laurel)이 제시한 모델에 따라 이동, 스윙, 방향과 세기, 스킬의 4가지로 축약하여, 초기 비디오 게임, 콘솔 게임, 모바일 게임, 동작인식 게임, 웨어러블 게임 등에서 조망하고 이를 도식화 하였다. 결론적으로 기술에 발전에 따른 플랫폼의 변화는 버튼을 누르던 단조로운 게임 플레이에서 직접 라켓을 휘두르는 것과 같은 물리적 유사 행위로 치환되어 확장된 경험을 플레이어에게 제공한다. 나아가 인터페이스에 따라 행위의 차이는 약간씩 발견되나 문맥 자체는 일관성이 있음을 알 수 있었다.

멀티미디어 공연에서 비디오를 활용한 리얼리티 구축하기 - 샤우뷔네의 <햄릿>과 리니아 드 솜브라의 <아마릴로>를 중심으로 - (Weaving the realities with video in multi-media theatre centering on Schaubuhne's Hamlet and Lenea de Sombra's Amarillo)

  • 최영주
    • 한국연극학
    • /
    • 제53호
    • /
    • pp.167-202
    • /
    • 2014
  • When video composes mise-en-scene during the performance, it reflects the aspect of contemporary image culture, where the individual as creator joins in the image culture through the device of cell phone and computer remediating the former video technology. It also closely related with the contemporary theatre culture in which 1960's and 1970's video art was weaved into the contemporary performance theatre. With these cultural background, theatre practitioners regarded media-friendly mise-en-scene as an alternative facing the cultural landscape the linear representational narrative did not correspond to the present culture. Nonetheless, it can not be ignored that video in the performance theatre is remediating its historical function: to criticize the social reality. to enrich the aesthetic or emotional reality. I focused video in the performance theatre could feature the object with the image by realizing the realtime relay, emphasizing the situation within the frame, and strengthening the reality by alluding the object as a gesutre. So I explored its two historical manuel. First, video recorded the spot, communicated the information, and arose the audience's recognition of the object to its critical function. Second, video in performance theatre could redistribute perceptual way according to the editing method like as close up, slow motion, multiple perspective, montage and collage, and transformation of the image to the aesthetic function. Reminding the historical function of video in contemporary performance theatre, I analyzed two shows, Schaubuhne's Hamlet and Lenea de Sombra's Amarillo which were introduced to Korean audiences during the 2010 Seoul Theatre Olympics. It is known to us that Ostermeir found real social reality as a text and made the play the context. In this, he used video as a vehicle to penetrate the social reality through the hero's perspective. It is also noteworthy that Ostermeir understood Hamlet's dilemma as these days' young generation's propensity. They delayed action while being involved in image culture. Besides his use of video in the piece revitalized the aesthetic function of video by hypermedial perceptual method. Amarillo combined documentary theatre method with installation, physical theatre, and video relay on the spot, and activated aesthetic function with the intermediality, its interacting co-relationship between the media. In this performance theatre, video has recorded and pursued the absent presence of the real people who died or lost in the desert. At the same time it fantasized the emotional aspect of the people at the moment of their death, which would be opaque or non prominent otherwise. As a conclusion, I found the video in contemporary performance theatre visualized the rupture between the media and perform their intermediality. It attempted to disturb the transparent immediacy to invoke the spectator's perception to the theatrical situation, to open its emotional and spiritual aspect, and to remind the realities as with Schaubuhne's Hamlet and Lenea de Sombra's Amarillo.

An ANN-based gesture recognition algorithm for smart-home applications

  • Huu, Phat Nguyen;Minh, Quang Tran;The, Hoang Lai
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권5호
    • /
    • pp.1967-1983
    • /
    • 2020
  • The goal of this paper is to analyze and build an algorithm to recognize hand gestures applying to smart home applications. The proposed algorithm uses image processing techniques combing with artificial neural network (ANN) approaches to help users interact with computers by common gestures. We use five types of gestures, namely those for Stop, Forward, Backward, Turn Left, and Turn Right. Users will control devices through a camera connected to computers. The algorithm will analyze gestures and take actions to perform appropriate action according to users requests via their gestures. The results show that the average accuracy of proposal algorithm is 92.6 percent for images and more than 91 percent for video, which both satisfy performance requirements for real-world application, specifically for smart home services. The processing time is approximately 0.098 second with 10 frames/sec datasets. However, accuracy rate still depends on the number of training images (video) and their resolution.

Artificial Intelligence-based Echocardiogram Video Classification by Aggregating Dynamic Information

  • Ye, Zi;Kumar, Yogan J.;Sing, Goh O.;Song, Fengyan;Ni, Xianda;Wang, Jin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권2호
    • /
    • pp.500-521
    • /
    • 2021
  • Echocardiography, an ultrasound scan of the heart, is regarded as the primary physiological test for heart disease diagnoses. How an echocardiogram is interpreted also relies intensively on the determination of the view. Some of such views are identified as standard views because of the presentation and ease of the evaluations of the major cardiac structures of them. However, finding valid cardiac views has traditionally been time-consuming, and a laborious process because medical imaging is interpreted manually by the specialist. Therefore, this study aims to speed up the diagnosis process and reduce diagnostic error by providing an automated identification of standard cardiac views based on deep learning technology. More importantly, based on a brand-new echocardiogram dataset of the Asian race, our research considers and assesses some new neural network architectures driven by action recognition in video. Finally, the research concludes and verifies that these methods aggregating dynamic information will receive a stronger classification effect.

휴먼 보행 동작 구조 분석을 위한 통계적 모델링 방법 (Statistical Modeling Methods for Analyzing Human Gait Structure)

  • 신봉기
    • 스마트미디어저널
    • /
    • 제1권2호
    • /
    • pp.12-22
    • /
    • 2012
  • 최근 비디오 감시, 로봇 시각 휴대폰 등 무수히 많은 카메라가 생활 속에 파고들면서 휴먼 동작 인식은 컴퓨터 시각 분야의 새로운 붐을 일으키고 있다. 자체로 그다지 흥미 있는 동작은 아니지만 걸음걸이 또는 보행은 가장 보편적으로 많이 관찰되는, 의심할 여지없이 사람의 대표적인 동작이다. 그리 오래되지 않은 과거에 보행자 인식의 관점에서 반짝 연구가 있었지만 관심의 길이가 짧은 만큼 보행 동작에 관한 체계적인 분석과 이해 없이 이루어졌었다. 본 연구에서는 일련의 점진적인 모델을 이용하여 보행 동작의 구조를 체계적으로 분석하고자 한다. 입력 영상 신호의 다양한 변형과 불완전성을 극복할 수 있는 동적 베이스망 기반의 보행자 모델과 보행 모델을 제시한다. 그리고 이변량 폰 미제스 분포의 조건부 밀도 함수를 기반으로 마르코프 체인의 이산 상태 공간을 연속 공간으로 확장하는 방법을 제안한다. 제안된 모형화 프레임워크를 이용한 일련의 시험, 분석에서 보행자를 91.67% 인식하며 보행 동작을 보행 방향과 보행 자세의 두 가지 독립적인 성분으로 분리 해석할 수 있었다.

  • PDF

360 도 ERP 영상에서 행동 인식 모델 성능 향상을 위한 전처리 기법 (Preprocessing Methods for Action Recognition Model in 360-degree ERP Video)

  • 박은수;유재성;김승환;류은석
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 추계학술대회
    • /
    • pp.252-255
    • /
    • 2019
  • 본 논문에서 Equirectangular projection(ERP) 영상을 행동 인식 모델에 입력하기전 제안하는 전처리를 통하여 성능을 향상시키는 것을 보인다. ERP 영상의 특성상 행동 인식을 하는데 불필요한 영역이 일반적인 2D 카메라로 촬영한 영상보다 많다. 또한 행동 인식은 사람이 Object of Interest(OOI)이다. 따라서 객체 인식모델로 인간 객체를 인식한 후 Region of Interest(ROI)를 추출하여 불필요한 영역을 없애고, 왜곡 또한 줄어든다. 본 논문에서 제안하는 기법으로 전처리 후 CNN-LSTM 모델로 성능을 테스트했다. 제안하는 방법으로 전처리를 한 데이터와 하지 않은 데이터로 행동 인식을 한 정확도로 비교하였으며 제안하는 기법으로 전처리 한 데이터로 행동 인식을 한 경우 데이터의 특성에 따라 다르지만, 최대 61%까지 성능향상을 보였다.

  • PDF

동영상에서 MGH을 이용한 실시간 다수 동작 인식 (Real-Time Multiple Action Recognition on Video using Motion Gradient Histogram)

  • 김태형;변혜란
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.325-327
    • /
    • 2006
  • 본 논문은 모션 그래디언트 히스토그램(Motion Gradient Histogram : 이하 'MGH')을 적용하여 동영상에서 나타나는 다수 객체들의 동작 검출 및 인식을 실시간으로 구현하는 방법을 제안한다. 인식하고자 하는 대상에 대한 기본적인 템플릿 동영상들의 MGH와 일정 프레임 간격마다 동영상의 MGH를 비교하여 검출 및 인식이 이루어진다. 동시에 다수의 동작이 있는 경우 동작이 발생하는 영역을 모션 에너지 영상(Motion Energy Image : MEI) 기법으로 추출하여 해당 영역별 MGH를 구함으로써 다수 동작을 인식할 수 있도록 한다.

  • PDF

안드로이드 기반 자연과학 교육용 디지털 앱북 개발을 위한 사용자 상호작용 라이브러리 (User Interaction Library for Natural Science Education Digital App-Book on Android Platform)

  • 이강운;백아람;최해철
    • 방송공학회논문지
    • /
    • 제20권1호
    • /
    • pp.110-121
    • /
    • 2015
  • 디지털 앱북은 기존의 전자책에서 발전한 형태의 멀티미디어 콘텐츠로서 동영상, 소리뿐만 아니라 모바일 기기의 센서를 이용한 다양한 상호작용을 지원할 수 있는 장점이 있다. 모바일 기기의 발전으로 이러한 디지털 앱북의 수요는 폭발적으로 증가하고 있지만, 상호작용을 지원하기 위해서는 프로그래밍 제작 노력이 많이 필요하기 때문에 공급이 그 늘어난 수요를 따라가기 힘든 실정이다. 이러한 문제를 해결하고자, 본 논문은 자연과학 교육용 디지털 앱북의 흥미를 느끼게 해주는 핵심 요소인 사용자-기기간 상호작용 기능들을 라이브러리로 구현하고 검증하였다. 제안 라이브러리는 사용자 동작 인식부, 기기 동작부, 콘텐츠 동작부로 구성되며, 각 부의 명령을 조합하여 다양한 상호작용 함수를 제공한다. 이러한 설계는 코드의 재사용성, 개발자의 쉬운 이해와 활용성, 넓은 확장성을 지원할 수 있다. 구현된 라이브러리는 상용화를 위한 자연과학 교육용 디지털 앱북 콘텐츠 제작에 직접 이용되었으며, 그 결과 코드 사용량을 크게 줄이고 개발 시간을 단축함으로써 제작 효율을 높일 수 있었다.

YOLOv5 based Anomaly Detection for Subway Safety Management Using Dilated Convolution

  • Nusrat Jahan Tahira;Ju-Ryong Park;Seung-Jin Lim;Jang-Sik Park
    • 한국산업융합학회 논문집
    • /
    • 제26권2_1호
    • /
    • pp.217-223
    • /
    • 2023
  • With the rapid advancement of technologies, need for different research fields where this technology can be used is also increasing. One of the most researched topic in computer vision is object detection, which has widely been implemented in various fields which include healthcare, video surveillance and education. The main goal of object detection is to identify and categorize all the objects in a target environment. Specifically, methods of object detection consist of a variety of significant techniq ues, such as image processing and patterns recognition. Anomaly detection is a part of object detection, anomalies can be found various scenarios for example crowded places such as subway stations. An abnormal event can be assumed as a variation from the conventional scene. Since the abnormal event does not occur frequently, the distribution of normal and abnormal events is thoroughly imbalanced. In terms of public safety, abnormal events should be avoided and therefore immediate action need to be taken. When abnormal events occur in certain places, real time detection is required to prevent and protect the safety of the people. To solve the above problems, we propose a modified YOLOv5 object detection algorithm by implementing dilated convolutional layers which achieved 97% mAP50 compared to other five different models of YOLOv5. In addition to this, we also created a simple mobile application to avail the abnormal event detection on mobile phones.