• 제목/요약/키워드: Multimodal representation

검색결과 21건 처리시간 0.019초

고등학생들의 글쓰기에서 나타난 다중 표상의 내재성에 미치는 다중 표상 수업의 효과 (The Impact of Multimodal Representation-based Lesson on Embeddedness of Multimodal Representation in High School Students' Writing)

  • 남정희;이동원;남영호
    • 대한화학회지
    • /
    • 제56권4호
    • /
    • pp.500-508
    • /
    • 2012
  • 이 연구의 목적은 다중 표상 수업이 고등학생들의 글쓰기에서 나타난 다중 표상의 내재성에 미치는 영향을 알아보기 위한 것이다. 이 연구는 광역시에 위치한 고등학교 자연계열 2학년 2개 학급 학생 74명을 대상으로 수행하였으며, 2개 학급 중 1개 학급 41명을 실험집단으로, 다른 1개 학급 33명을 비교집단으로 선정하였다. 실험집단에는 2차시의 다중 표상 수업과 7가지 주제에 대한 전통적인 방식의 수업을 처치하였고, 비교집단에는 다중 표상 수업을 제외하고 실험집단과 동일하게 수업을 진행하였다. 학생들이 작성한 Summary Writing의 분석 결과, 다중 표상의 내재성에 대한 실험집단의 평균이 비교집단에 비해 통계적으로 유의미하게 높은 것으로 나타났다.

수입물품의 품목 분류를 위한 멀티모달 표현 학습 (Multi-modal Representation Learning for Classification of Imported Goods)

  • 이앞길;최근호;김건우
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.203-214
    • /
    • 2023
  • 우리나라 관세청은 효과적인 원스톱(One-stop) 업무 처리가 가능한 전자통관 시스템으로 효율적으로 업무처리를 하고 있지만 기술의 발달과 비대면 서비스의 증가로 매년 수출입건수가 증가하고 있으며 그에 따른 업무량도 폭증하고 있는 실정으로 이에 따른 보다 효과적인 방법이 매우 필요하다. 수입과 수출은 모든 물품에 대한 분류 및 세율 적용을 위한 HS Code(Harmonized system code)가 필요하고 해당 HS Code를 분류하는 품목 분류는 전문지식과 경험이 필요한 업무 난이도가 높고 관세 통관절차에서 중요한 부분이다. 이에 본 연구는 품목 분류 의뢰서의 물품명, 물품상세설명, 물품 이미지 등의 다양한 유형의 데이터 정보를 활용하여 멀티모달 표현 학습(Multimodal representation learning) 기반으로 정보를 잘 반영할 수 있도록 딥러닝 모델을 학습 및 구축하여 HS Code를 분류 및 추천해 줌으로써 관세 업무 부담을 줄이고 신속한 품목 분류를 하여 통관절차에 도움을 줄 것으로 기대한다.

A Multimodal Fusion Method Based on a Rotation Invariant Hierarchical Model for Finger-based Recognition

  • Zhong, Zhen;Gao, Wanlin;Wang, Minjuan
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권1호
    • /
    • pp.131-146
    • /
    • 2021
  • Multimodal biometric-based recognition has been an active topic because of its higher convenience in recent years. Due to high user convenience of finger, finger-based personal identification has been widely used in practice. Hence, taking Finger-Print (FP), Finger-Vein (FV) and Finger-Knuckle-Print (FKP) as the ingredients of characteristic, their feature representation were helpful for improving the universality and reliability in identification. To usefully fuse the multimodal finger-features together, a new robust representation algorithm was proposed based on hierarchical model. Firstly, to obtain more robust features, the feature maps were obtained by Gabor magnitude feature coding and then described by Local Binary Pattern (LBP). Secondly, the LGBP-based feature maps were processed hierarchically in bottom-up mode by variable rectangle and circle granules, respectively. Finally, the intension of each granule was represented by Local-invariant Gray Features (LGFs) and called Hierarchical Local-Gabor-based Gray Invariant Features (HLGGIFs). Experiment results revealed that the proposed algorithm is capable of improving rotation variation of finger-pose, and achieving lower Equal Error Rate (EER) in our homemade database.

Multimodal layer surveillance map based on anomaly detection using multi-agents for smart city security

  • Shin, Hochul;Na, Ki-In;Chang, Jiho;Uhm, Taeyoung
    • ETRI Journal
    • /
    • 제44권2호
    • /
    • pp.183-193
    • /
    • 2022
  • Smart cities are expected to provide residents with convenience via various agents such as CCTV, delivery robots, security robots, and unmanned shuttles. Environmental data collected by various agents can be used for various purposes, including advertising and security monitoring. This study suggests a surveillance map data framework for efficient and integrated multimodal data representation from multi-agents. The suggested surveillance map is a multilayered global information grid, which is integrated from the multimodal data of each agent. To confirm this, we collected surveillance map data for 4 months, and the behavior patterns of humans and vehicles, distribution changes of elevation, and temperature were analyzed. Moreover, we represent an anomaly detection algorithm based on a surveillance map for security service. A two-stage anomaly detection algorithm for unusual situations was developed. With this, abnormal situations such as unusual crowds and pedestrians, vehicle movement, unusual objects, and temperature change were detected. Because the surveillance map enables efficient and integrated processing of large multimodal data from a multi-agent, the suggested data framework can be used for various applications in the smart city.

중학교 과학수업에 적용한 글쓰기를 활용한 논의-기반 모델링 전략의 효과 (The Impact of the Argument-based Modeling Strategy using Scientific Writing implemented in Middle School Science)

  • 조혜숙;남정희
    • 한국과학교육학회지
    • /
    • 제34권6호
    • /
    • pp.583-592
    • /
    • 2014
  • 이 연구는 글쓰기를 활용한 논의-기반 모델링 전략이 학생들의 모델링 능력에 미치는 영향을 알아보는 것을 목적으로 하였다. 또한 논의-기반 모델링 전략에서 다중표상의 적용여부가 학생들의 모델링 능력에 미치는 효과를 비교하였다. 이를 위해 남녀공학 중학교 1학년 세 개 학급(66명) 중 두 개 학급(43명)은 실험집단으로, 한 개 학급(23명)은 비교집단으로 선정하였다. 논의-기반 모델링 전략을 적용한 두 개 실험집단 중에서 한 개 학급은 AbRM집단(Argument-based multimodal Representation and Modeling, 논의-기반 다중표상 및 모델링 집단, 22명), 다른 한 개 학급은 AbM집단(Argument-based Modeling, 논의-기반 모델링 집단, 21명), 나머지 한 개 학급은 비교집단(23명)으로 선정하였다. 논의-기반 모델링 전략은 인지 과정, 해석 과정, 적용과정으로 구성되어 있다. 실험집단은 논의-기반 모델링 전략의 인지과정과 해석 과정을 공통적으로 수행하고 적용 과정에서 차이를 두었다. AbRM집단은 논의-기반 다중표상 및 모델링을 적용하였고, AbM 집단은 논의-기반 모델링을 적용했으며, 비교집단은 전통적 수업방식을 적용하였다. 논의-기반 모델링 전략이 학생들의 모델링 능력에 미치는 영향을 분석한 결과, AbRM집단의 경우 통합적 모델링 수준에서 다른 두 집단보다 통계적으로 유의미하게 높았고, AbM집단은 비교집단보다 유의미하게 높았다. 모델링 능력 검사의 하위요소인 문제인식, 과학개념 구조화, 주장-증거 적절성, 다중표상 지수에서 AbRM집단의 경우 모든 하위요소에서 AbM집단과 비교집단 보다 통계적으로 유의미하게 높았으며, 그 다음으로 AbM집단이 비교집단 보다 통계적으로 유의미하게 높았다. 이러한 결과로부터 논의-기반 모델링 전략은 모델링의 목적인 의사소통을 위해 자신이 만든 모델을 논의와 글쓰기를 통해 과학적 언어를 사용하여 스스로 정리하거나 표현하고, 다른 사람의 의견을 듣고 교환하는 과정을 통해 모델을 평가하고 수정하는 일련의 과정을 통해서 학생들의 모델링 능력의 향상에 효과적임을 보여주었다.

과학적 글쓰기를 활용한 논의-기반 모델링 전략의 개발 (The Development of Argument-based Modeling Strategy Using Scientific Writing)

  • 조혜숙;남정희;이동원
    • 한국과학교육학회지
    • /
    • 제34권5호
    • /
    • pp.479-490
    • /
    • 2014
  • 이 연구는 과학교육에서 의사소통을 위해 글쓰기와 논의를 활용한 논의-기반 모델링 전략의 개발을 목적으로 하였다. 논의-기반 모델링 전략은 모델링의 목적인 의사소통을 위해 자신이 만든 모델을 논의와 글쓰기를 통해 과학적 언어를 사용하여 스스로 정리하거나 표현하고, 다른 사람의 의견을 듣고 교환하는 과정을 통해 모델을 평가하고 수정하는 일련의 과정을 의미한다. 이 전략은 과학교육에서 모델링에 어려움을 느끼는 학생과 교사를 지원하기 위한 것으로 다음 네 가지 요소의 발달에 초점을 맞추었다. 첫째 여러 문제 상황을 관찰하여 문제를 연관지어 인식하는 문제인식이다. 둘째는 과학적 설명을 위해 충분한 과학개념을 구조화하여 제시하는 과학개념 구조화이며, 셋째는 주장에 대해 적절한 표상을 증거로 제시하는 주장-증거 적절성이다. 마지막은 증거제시에서 다양한 표상의 사용과 이 표상들을 전환하고 통합하는 다중표상 지수이다. 이 네 가지 요소의 발달을 위해 세 가지 stage를 구성하였다. '인지 과정'은 다중표상에 대한 이해를 위한 것이고, '해석 과정'은 다중표상 활동을 통해 증거 제시의 중요성을 인식하는 것이며, '적용 과정'은 학생들이 논의-기반 모델링을 직접 접해보는 것이다. 이 적용 과정에서는 질문 또는 문제 만들기-실험 설계 및 수행하기-관찰 통한 조사하기-자료의 분석 및 해석하기-임시 모델 설계하기-논의하기-되돌아보기-모델 평가하기-모델 수정하기의 아홉 개의 단계로 이루어진다. 논의-기반 모델링 전략은 학생들이 자신이 설계한 임시모델을 다른 사람과 공유하기 위해 증거를 바탕으로 발표하고 반박하는 논의과정을 통해 증거 제시의 필요성을 인식할 수 있다. 논의과정 후 학생들은 주장과 증거를 다중표상으로 나타내는 것에 대해 되돌아보는 과정을 거치면서 주장-증거 적절성을 높이게 된다. 또한 모델을 평가하기 위한 기준을 만들고, 이를 바탕으로 자신의 모둠이나 다른 모둠의 모델을 평가하고 그 결과를 피드백 받으면서 수정하게 된다. 이러한 일련의 과정을 거치면서 관찰한 자연세계의 현상에 대한 자신의 설명체계를 만듦으로써 과학적 지식을 형성할 수 있는 기회를 제공받을 수 있다.

논의가 강조된 일반화학실험이 대학생들의 글쓰기에서 나타난 다중 표상 및 다중 표상의 내재성에 미치는 영향 (The Impact of Argumentation-based General Chemistry Laboratory Programs on Multimodal Representation and Embeddedness in University Students' Science Writing)

  • 남정희;이동원;조혜숙
    • 한국과학교육학회지
    • /
    • 제31권6호
    • /
    • pp.931-941
    • /
    • 2011
  • 이 연구의 목적은 논의가 강조된 일반화학실험이 학생들의 글쓰기에서 나타난 다중 표상 및 다중 표상의 내재성에 미치는 영향을 알아보기 위한 것이다. 이를 위해 탐구적 과학 글쓰기 전략을 바탕으로 일반화학실험 프로그램을 개발하였고, 이 프로그램을 적용한 후, 학생들의 글쓰기에서 나타나는 다중 표상의 양식과 내재성을 비교하였다. 이 연구는 일반화학실험을 수강하는 학생들을 대상으로 화학교육과 1학년 23명을 실험집단으로, 물리교육과 1학년 16명을 비교집단으로 선정하여 총 5개의 주제를 적용하였다. 학생들이 작성한 Summary Writing에서 나타난 다중 표상의 양식과 내재성을 공변량 분석으로 비교한 결과, 양식과 내재성 모두에서 실험집단의 평균이 비교집단에 비해 통계적으로 유의미하게 높은 것으로 나타났다. 이러한 결과로부터 논의가 강조된 일반화학실험은 다중 표상 및 다중 표상의 내재성의 발달에 있어서 전통적인 실험방식에 비해 더 효과적임을 알 수 있었다. 또한 논의와 글쓰기를 지속적으로 수행하는 과정이 학생들의 과학적 개념에 대한 이해에 도움이 될 것이라 보이며, 연구 결과가 대학생을 대상으로도 효과가 있다는 것에서 프로그램의 적용 범위의 확대 측면에서 의미가 있다고 본다.

스마트폰 환경의 인증 성능 최적화를 위한 다중 생체인식 융합 기법 연구 (Authentication Performance Optimization for Smart-phone based Multimodal Biometrics)

  • 문현준;이민형;정강훈
    • 디지털융복합연구
    • /
    • 제13권6호
    • /
    • pp.151-156
    • /
    • 2015
  • 본 논문에서는 스마트폰 환경의 얼굴 검출, 인식 및 화자 인증 기반 다중생체인식 개인인증 시스템을 제안한다. 제안된 시스템은 Modified Census Transform과 gabor filter 및 k-means 클러스터 분석 알고리즘을 통해 얼굴의 주요 특징을 추출하여 얼굴인식을 위한 데이터 전처리를 수행한다. 이후 Linear Discriminant Analysis기반 본인 인증을 수행하고(얼굴인식), Mel Frequency Cepstral Coefficient기반 실시간성 검증(화자인증)을 수행한다. 화자인증에 사용하는 음성 정보는 실시간으로 변화하므로 본 논문에서는 Dynamic Time Warping을 통해 이를 해결한다. 제안된 다중생체인식 시스템은 얼굴 및 음성 특징 정보를 융합 및 스마트폰 환경에 최적화하여 실시간 얼굴검출, 인식과 화자인증 과정을 수행하며 단일 생체인식에 비해 약간 낮은 95.1%의 인식률을 보이지만 1.8%의 False Acceptance Ratio를 통해 객관적인 실시간 생체인식 성능을 입증하여 보다 신뢰할 수 있는 시스템을 완성한다.

Multimodal Biometrics Recognition from Facial Video with Missing Modalities Using Deep Learning

  • Maity, Sayan;Abdel-Mottaleb, Mohamed;Asfour, Shihab S.
    • Journal of Information Processing Systems
    • /
    • 제16권1호
    • /
    • pp.6-29
    • /
    • 2020
  • Biometrics identification using multiple modalities has attracted the attention of many researchers as it produces more robust and trustworthy results than single modality biometrics. In this paper, we present a novel multimodal recognition system that trains a deep learning network to automatically learn features after extracting multiple biometric modalities from a single data source, i.e., facial video clips. Utilizing different modalities, i.e., left ear, left profile face, frontal face, right profile face, and right ear, present in the facial video clips, we train supervised denoising auto-encoders to automatically extract robust and non-redundant features. The automatically learned features are then used to train modality specific sparse classifiers to perform the multimodal recognition. Moreover, the proposed technique has proven robust when some of the above modalities were missing during the testing. The proposed system has three main components that are responsible for detection, which consists of modality specific detectors to automatically detect images of different modalities present in facial video clips; feature selection, which uses supervised denoising sparse auto-encoders network to capture discriminative representations that are robust to the illumination and pose variations; and classification, which consists of a set of modality specific sparse representation classifiers for unimodal recognition, followed by score level fusion of the recognition results of the available modalities. Experiments conducted on the constrained facial video dataset (WVU) and the unconstrained facial video dataset (HONDA/UCSD), resulted in a 99.17% and 97.14% Rank-1 recognition rates, respectively. The multimodal recognition accuracy demonstrates the superiority and robustness of the proposed approach irrespective of the illumination, non-planar movement, and pose variations present in the video clips even in the situation of missing modalities.

Design and Development of a Multimodal Biomedical Information Retrieval System

  • Demner-Fushman, Dina;Antani, Sameer;Simpson, Matthew;Thoma, George R.
    • Journal of Computing Science and Engineering
    • /
    • 제6권2호
    • /
    • pp.168-177
    • /
    • 2012
  • The search for relevant and actionable information is a key to achieving clinical and research goals in biomedicine. Biomedical information exists in different forms: as text and illustrations in journal articles and other documents, in images stored in databases, and as patients' cases in electronic health records. This paper presents ways to move beyond conventional text-based searching of these resources, by combining text and visual features in search queries and document representation. A combination of techniques and tools from the fields of natural language processing, information retrieval, and content-based image retrieval allows the development of building blocks for advanced information services. Such services enable searching by textual as well as visual queries, and retrieving documents enriched by relevant images, charts, and other illustrations from the journal literature, patient records and image databases.