Visual Verb and ActionNet Database for Semantic Visual Understanding

동영상 시맨틱 이해를 위한 시각 동사 도출 및 액션넷 데이터베이스 구축

  • 배창석 (대전대학교 전자정보통신공학과) ;
  • 김보경 (대전대학교 전자정보통신공학과)
  • Received : 2018.08.09
  • Accepted : 2018.10.16
  • Published : 2018.10.31

Abstract

Visual information understanding is known as one of the most difficult and challenging problems in the realization of machine intelligence. This paper proposes deriving visual verb and construction of ActionNet database as a video database for video semantic understanding. Even though development AI (artificial intelligence) algorithms have contributed to the large part of modern advances in AI technologies, huge amount of database for algorithm development and test plays a great role as well. As the performance of object recognition algorithms in still images are surpassing human's ability, research interests shifting to semantic understanding of video contents. This paper proposes candidates of visual verb requiring in the construction of ActionNet as a learning and test database for video understanding. In order to this, we first investigate verb taxonomy in linguistics, and then propose candidates of visual verb from video description database and frequency of verbs. Based on the derived visual verb candidates, we have defined and constructed ActionNet schema and database. According to expanding usability of ActionNet database on open environment, we expect to contribute in the development of video understanding technologies.

영상 데이터에 대한 시맨틱 정보를 정확하게 이해하는 것은 인공지능 및 기계학습 분야에서 가장 어려운 도전과제의 하나로 알려져 있다. 본 논문에서는 동영상 시맨틱 이해를 위한 시각 동사 도출과 이를 바탕으로 하는 동영상 데이터베이스인 액션넷 데이터베이스 구축에 관해 제안하고 있다. 오늘날 인공지능 기술의 눈부신 발달에는 인공지능 알고리즘의 발전이 크게 기여하였지만 알고리즘의 학습과 성능 평가를 위한 방대한 데이터베이스의 제공도 기여한 바가 매우 크다고 할 수 있다. 인공지능이 도전하기 어려운 분야였던 시각 정보 처리에 있어서도 정지 영상 내의 객체인식에 있어서는 인간의 수준을 능가하기 시작하면서 점차 동영상에서의 내용에 대한 시맨틱 이해 기술 개발로 발전하고 있다. 본 논문에서는 이러한 동영상 이해를 위한 학습 및 테스트 데이터베이스로서 액션넷 구축에 요구되는 시각 동사의 후보를 도출한다. 이를 위해 언어학 기반의 동사 분류체계를 살펴보고, 영상에서의 시각 정보를 명세한 데이터 및 언어학에서의 시각 동사 빈도 등으로부터 시각 동사의 후보를 도출한다. 시각 동사 분류체계와 시각 동사후보를 바탕으로 액션넷 데이터베이스 스키마를 정의하고 구축한다. 본 논문에서 제안하는 시각 동사 및 스키마와 이를 바탕으로 하는 액션넷 데이터베이스를 개방형 환경에서 확장하고 활용성을 제고함으로써 동영상 이해 기술 발전에 기여할 수 있을 것으로 기대한다.

Keywords

Acknowledgement

Supported by : 한국연구재단

References

  1. IDC, Digital Universe Study: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East. IDC 2012.12.
  2. Riding the multimedia big data wave, SIGIR 2013 Keynote, 2013.7.
  3. David G. Lowe, "Object recognition from local scale-invariant features", Proceedings of the International Conference on Computer Vision 2. pp. 1150-1157. 1999.
  4. Kyuchang Kang, Yongjin Kwon, Jinyoung Moon, and Changseok Bae, "Challenging Issues in Visual Information Understanding Researches", LNCS, vol. 8936, pp. 458-469, Jan. 2015.
  5. 이경민, 이용일, 정재승, 장선희, "시선추적 기법을 활용한 발레의 비언어적 스토리텔링 연구", 한국차세대컴퓨팅학회논문지, 제10권, 제4호, pp. 89-99, 2014.
  6. 배창석, Yuk Ying Chung, 이전우, "영상 특징 기반의 3-계층 Haar 웨이블릿 변환을 이용한 비디오 쿼리 알고리즘", 한국차세대컴퓨팅학회논문지, 제12권, 제5호, pp. 78-86, 2016.
  7. W. Liu, O. Russakovsky, J. Deng, F. Li, and A. Berg, "ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2015", ICCV 2015.
  8. DARPA, Video and Image Retrieval and Analysis Tool (VIRAT), Broad Agency Announcement, Mar. 3, 2008.
  9. DARPA, Mind's Eye Program, Broad Agency Announcement, Mar. 25, 2010.
  10. G. A. Miller, "WordNet: A Lexical Database for English", Communications of the ACM, vol. 38, no. 11, pp. 39-41, 1995. https://doi.org/10.1145/219717.219748
  11. 선동한, 유태경, 이기준, 황수찬, "내용 기반의 부분검색을 위한 동영상 장기보존 시스템", 한국차세대컴퓨팅학회논문지, 제12권, 제1호, pp. 45-54, 2016.
  12. 칸 무함마드, 이르판 메흐무르, 이미영, 지수미, 백성욱, "의미적으로 중요한 시각적 내용의 온토로지 기반의 보안검색", 한국차세대컴퓨팅학회논문지, 제11권, 제3호, pp. 87-96, 2015.
  13. P. Vossen, EuroWordNet Project, 1999.
  14. K. Ahrens, Siaw-Fong Chung and Chu-Ren Huang, "From Lexical Semantics to Conceptual Metaphors: Mapping Principle Verification with WordNet and SUMO", Proceedings of the 5th Chinese Lexical Semantics Workshop (CLSW-5), Singapore. June, 2004.
  15. J. Ruppenhofer, M. Ellsworth, M. Petruck, C. Johnson, C. Baker, and J. Scheffczyk, FrameNet II: Extended Theory and Practice, Nov. 2016.
  16. C. Biemann, S. Shin, and K. Choi, "Semiautomatic Extension of CoreNet (Korean WordNet) using a Bootstrapping Mechanism on Corpusbased Co-occurrences", The 20th International Conference on Computational Linguistics, Geneva, Switzerland, 2004. 8.
  17. 황순희, 권혁철, 윤애선, "한국어 수분류사 어휘의미망 KorLexClas 1.5", 한국정보과학회논문지 : 소프트웨어 및 응용, 37권, 1호, pp. 60-73, 2010. 1.
  18. 옥철영, 어휘의미 체계 기반 입체적 국어사전 확장, 국립국어원, 2009.
  19. K. Reddy, and M. Shah, "Recognizing 50 Human Action Categories of Web Videos", Machine Vision and Applications Journal (MVAP), Sep., 2012.
  20. S. Sadanand and J. J. Corso, "Action bank: A high-level representation of activity in video", Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2012.
  21. K. Kipper, A. Korhonen, N. Ryant, and M. Palmer, "Extending VerbNet with Novel Verb Classes", Fifth International Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy, June, 2006.
  22. A. Rohrbach, M. Rohrbach, N. Tandon, and B. Schiele, "A Dataset for Movie Description", CVPR 2015.
  23. 이숙의, 한국어 동사 온톨로지 구축 연구, 역락, 2013.