• 제목/요약/키워드: Multimodal Learning

검색결과 75건 처리시간 0.028초

Interface Modeling for Digital Device Control According to Disability Type in Web

  • Park, Joo Hyun;Lee, Jongwoo;Lim, Soon-Bum
    • Journal of Multimedia Information System
    • /
    • 제7권4호
    • /
    • pp.249-256
    • /
    • 2020
  • Learning methods using various assistive and smart devices have been developed to enable independent learning of the disabled. Pointer control is the most important consideration for the disabled when controlling a device and the contents of an existing graphical user interface (GUI) environment; however, difficulties can be encountered when using a pointer, depending on the disability type; Although there are individual differences depending on the blind, low vision, and upper limb disability, problems arise in the accuracy of object selection and execution in common. A multimodal interface pilot solution is presented that enables people with various disability types to control web interactions more easily. First, we classify web interaction types using digital devices and derive essential web interactions among them. Second, to solve problems that occur when performing web interactions considering the disability type, the necessary technology according to the characteristics of each disability type is presented. Finally, a pilot solution for the multimodal interface for each disability type is proposed. We identified three disability types and developed solutions for each type. We developed a remote-control operation voice interface for blind people and a voice output interface applying the selective focusing technique for low-vision people. Finally, we developed a gaze-tracking and voice-command interface for GUI operations for people with upper-limb disability.

Multimodal Discourse: A Visual Design Analysis of Two Advertising Images

  • Ly, Tan Hai;Jung, Chae Kwan
    • International Journal of Contents
    • /
    • 제11권2호
    • /
    • pp.50-56
    • /
    • 2015
  • The area of discourse analysis has long neglected the value of images as a semiotic resource in communication. This paper suggests that like language, images are rich in meaning potential and are governed by visual grammar structures which can be utilized to decode the meanings of images. Employing a theoretical framework in visual communication, two digital images are examined for their representational and interactive dimensions and the dimensions' relation to the magazine advertisement genre. The results show that the framework identified narrative and conceptual processes, relations between participants and viewers, and symbolic attributes of the images, which all contribute to the sociological interpretations of the images. The identities and relationships between viewers and participants suggested in the images signify desirable qualities that may be associated to the product of the advertiser. The findings support the theory of visual grammar and highlight the potential of images to convey multi-layered meanings.

KMSAV: Korean multi-speaker spontaneous audiovisual dataset

  • Kiyoung Park;Changhan Oh;Sunghee Dong
    • ETRI Journal
    • /
    • 제46권1호
    • /
    • pp.71-81
    • /
    • 2024
  • Recent advances in deep learning for speech and visual recognition have accelerated the development of multimodal speech recognition, yielding many innovative results. We introduce a Korean audiovisual speech recognition corpus. This dataset comprises approximately 150 h of manually transcribed and annotated audiovisual data supplemented with additional 2000 h of untranscribed videos collected from YouTube under the Creative Commons License. The dataset is intended to be freely accessible for unrestricted research purposes. Along with the corpus, we propose an open-source framework for automatic speech recognition (ASR) and audiovisual speech recognition (AVSR). We validate the effectiveness of the corpus with evaluations using state-of-the-art ASR and AVSR techniques, capitalizing on both pretrained models and fine-tuning processes. After fine-tuning, ASR and AVSR achieve character error rates of 11.1% and 18.9%, respectively. This error difference highlights the need for improvement in AVSR techniques. We expect that our corpus will be an instrumental resource to support improvements in AVSR.

The "Third Wave": Values associated with Effective Learning of Mathematics in Australian Primary Classrooms

  • Seah, Wee Tiong
    • 한국수학교육학회:학술대회논문집
    • /
    • 한국수학교육학회 2010년도 제44회 전국수학교육연구대회
    • /
    • pp.291-306
    • /
    • 2010
  • The study reported here is the Australian component of an international research project which seeks to identify student-reported convictions co-valued by them and their teachers during moments of effective mathematics learning. The 2 teachers and their 12 students in the 2 primary school classes associated effective moments of learning with 13 different values. No gender difference was apparent. Although the teachers planned their lessons together and were teaching similar topics, there were differences in what were co-valued. Of the 13 values, examples, sharing, resources, and multimodal representations were found to be commonly valued by students across the 'ability' groups, while the others related to particular 'ability' groups only.

  • PDF

Tumor Segmentation in Multimodal Brain MRI Using Deep Learning Approaches

  • Al Shehri, Waleed;Jannah, Najlaa
    • International Journal of Computer Science & Network Security
    • /
    • 제22권8호
    • /
    • pp.343-351
    • /
    • 2022
  • A brain tumor forms when some tissue becomes old or damaged but does not die when it must, preventing new tissue from being born. Manually finding such masses in the brain by analyzing MRI images is challenging and time-consuming for experts. In this study, our main objective is to detect the brain's tumorous part, allowing rapid diagnosis to treat the primary disease instantly. With image processing techniques and deep learning prediction algorithms, our research makes a system capable of finding a tumor in MRI images of a brain automatically and accurately. Our tumor segmentation adopts the U-Net deep learning segmentation on the standard MICCAI BRATS 2018 dataset, which has MRI images with different modalities. The proposed approach was evaluated and achieved Dice Coefficients of 0.9795, 0.9855, 0.9793, and 0.9950 across several test datasets. These results show that the proposed system achieves excellent segmentation of tumors in MRIs using deep learning techniques such as the U-Net algorithm.

학습장애의 진단 평가와 교육학적 개입 (Diagnostic evaluation and educational intervention for learning disabilities)

  • 홍현미
    • Journal of Medicine and Life Science
    • /
    • 제19권1호
    • /
    • pp.1-7
    • /
    • 2022
  • Learning disabilities (LD), also known as learning disorders, refers to cases in which an individual experiences lower academic ability as compared to the normal range of intelligence, visual or hearing impairment, or an inability to peform learning. Children and adolescents with learning disabilities often have emotional or behavioral problems or co-existing conditions, including depression, anxiety disorders, difficulties with peer relationships, family conflicts, and low self-esteem. In most cases, attention deficit and hyperactivity disorder coexists. As learning disabilities have the characteristics of a difficult heterogeneous disease group that cannot be attributed to a single root cause, they are diagnosed based on an interdisciplinary approach through medicine and education, such as mental health medicine, education, psychology, special education, and neurology. In addition, for the accurate diagnosis and treatment of learning disabilities, the diagnosis, prescription, treatment, and educational intervention should be conducted in cooperation with doctors, teachers, and psychologists. The treatment of learning disabilities requires a multimodal approach, including medical and educational intervention. It is suggested that educational interventions such as the Individualized Education Plan (IEP) and the Response to Invention (RTI) should be implemented.

멀티미디어 환경에서 정보제시 유형과 인지부하가 정보처리에 미치는 영향 (The Effects of types of Presentation and cognitive load on multimedia learning)

  • 조경자;송승진;한광희
    • 인지과학
    • /
    • 제13권3호
    • /
    • pp.47-60
    • /
    • 2002
  • 본 연구에서는 멀티미디어 환경에서 정보제시 유형과 인지부하가 정보 처리에 미치는 영향에 대해 알아보고자 하였다. 실험 1에서는 초등학생을 대상으로 하여 텍스트와 나래이션을 제시한 조건(NT조건), 텍스트와 애니메이션을 제시한 조건(AT조건), 애니메이션과 나래이션을 제시한 조건(AN조건)에 따라 학습 정도가 어떻게 달라지는지를 알아보았다. 그 결과 AT조건과 AN조건이 NT조건에 비해 더 좋은 수행 결과를 보였으며, AT조건보다는 AN조건에서 더 나은 수행을 보였다. 실험 2에서는 대학생을 대상으로 텍스트와 애니메이션을 제시하는 조건(AT조건), 나래이션과 애니메이션을 제시한 조건(AN조건), 텍스트, 나래이션과 애니메이션을 제시한 조건(ANT조건)간의 수행차이를 알아보았다. 그 결과 AN조건이 다른 조건에 비해 더 좋은 수행을 보였다. 이러한 결과는 단일 미디어(텍스트)로 정보를 제시하는 것보다는 멀티미디어(텍스트, 애니메이션)로 정보를 제시하는 것이 학습에 좋으며, 학습자가 단일양식(시각)보다는 다중양식(시청각)으로 정보를 처리할 수 있도록 제시하는 것이 학습에 효과적임을 보여준다. 본 연구결과는 이중부호이론과 인지부하이론을 지지해 준다.

  • PDF

딥러닝 기반 비디오 캡셔닝의 연구동향 분석 (Analysis of Research Trends in Deep Learning-Based Video Captioning)

  • 려치;이은주;김영수
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제13권1호
    • /
    • pp.35-49
    • /
    • 2024
  • 컴퓨터 비전과 자연어 처리의 융합의 중요한 결과로서 비디오 캡셔닝은 인공지능 분야의 핵심 연구 방향이다. 이 기술은 비디오 콘텐츠의 자동이해와 언어 표현을 가능하게 함으로써, 컴퓨터가 비디오의 시각적 정보를 텍스트 형태로 변환한다. 본 논문에서는 딥러닝 기반 비디오 캡셔닝의 연구 동향을 초기 분석하여 CNN-RNN 기반 모델, RNN-RNN 기반 모델, Multimodal 기반 모델, 그리고 Transformer 기반 모델이라는 네 가지 주요 범주로 나누어 각각의 비디오 캡셔닝 모델의 개념과 특징 그리고 장단점을 논하였다. 그리고 이 논문은 비디오 캡셔닝 분야에서 일반적으로 자주 사용되는 데이터 집합과 성능 평가방안을 나열하였다. 데이터 세트는 다양한 도메인과 시나리오를 포괄하여 비디오 캡션 모델의 훈련 및 검증을 위한 광범위한 리소스를 제공한다. 모델 성능 평가방안에서는 주요한 평가 지표를 언급하며, 모델의 성능을 다양한 각도에서 평가할 수 있도록 연구자들에게 실질적인 참조를 제공한다. 마지막으로 비디오 캡셔닝에 대한 향후 연구과제로서 실제 응용 프로그램에서의 복잡성을 증가시키는 시간 일관성 유지 및 동적 장면의 정확한 서술과 같이 지속해서 개선해야 할 주요 도전과제와 시간 관계 모델링 및 다중 모달 데이터 통합과 같이 새롭게 연구되어야 하는 과제를 제시하였다.

챗GPT 등장 이후 인공지능 환각 연구의 문헌 검토: 아카이브(arXiv)의 논문을 중심으로 (Literature Review of AI Hallucination Research Since the Advent of ChatGPT: Focusing on Papers from arXiv)

  • 박대민;이한종
    • 정보화정책
    • /
    • 제31권2호
    • /
    • pp.3-38
    • /
    • 2024
  • 환각은 대형언어모형이나 대형 멀티모달 모형의 활용을 막는 큰 장벽이다. 본 연구에서는 최신 환각 연구 동향을 살펴보기 위해 챗 GPT 등장 이후인 2022년 12월부터 2024년 1월까지 아카이브(arXiv)에서 초록에 '환각'이 포함된 컴퓨터과학 분야 논문 654건을 수집해 빈도분석, 지식연결망 분석, 문헌 검토를 수행했다. 이를 통해 분야별 주요 저자, 주요 키워드, 주요 분야, 분야 간 관계를 분석했다. 분석 결과 '계산 및 언어'와 '인공지능', '컴퓨터비전 및 패턴인식', '기계학습' 분야의 연구가 활발했다. 이어 4개 주요 분야 연구 동향을 주요 저자를 중심으로 데이터 측면, 환각 탐지 측면, 환각 완화 측면으로 나눠 살펴보았다. 주요 연구 동향으로는 지도식 미세조정(SFT)과 인간 피드백 기반 강화학습(RLHF)을 통한 환각 완화, 생각의 체인(CoT) 등 추론 강화, 자동화와 인간 개입의 병행, 멀티모달 AI의 환각 완화에 대한 관심 증가 등을 들 수 있다. 본 연구는 환각 연구 최신 동향을 파악함으로써 공학계는 물론 인문사회계 후속 연구의 토대가 될 것으로 기대한다.

스마트폰 다종 데이터를 활용한 딥러닝 기반의 사용자 동행 상태 인식 (A Deep Learning Based Approach to Recognizing Accompanying Status of Smartphone Users Using Multimodal Data)

  • 김길호;최상우;채문정;박희웅;이재홍;박종헌
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.163-177
    • /
    • 2019
  • 스마트폰이 널리 보급되고 현대인들의 생활 속에 깊이 자리 잡으면서, 스마트폰에서 수집된 다종 데이터를 바탕으로 사용자 개인의 행동을 인식하고자 하는 연구가 활발히 진행되고 있다. 그러나 타인과의 상호작용 행동 인식에 대한 연구는 아직까지 상대적으로 미진하였다. 기존 상호작용 행동 인식 연구에서는 오디오, 블루투스, 와이파이 등의 데이터를 사용하였으나, 이들은 사용자 사생활 침해 가능성이 높으며 단시간 내에 충분한 양의 데이터를 수집하기 어렵다는 한계가 있다. 반면 가속도, 자기장, 자이로스코프 등의 물리 센서의 경우 사생활 침해 가능성이 낮으며 단시간 내에 충분한 양의 데이터를 수집할 수 있다. 본 연구에서는 이러한 점에 주목하여, 스마트폰 상의 다종 물리 센서 데이터만을 활용, 딥러닝 모델에 기반을 둔 사용자의 동행 상태 인식 방법론을 제안한다. 사용자의 동행 여부 및 대화 여부를 분류하는 동행 상태 분류 모델은 컨볼루션 신경망과 장단기 기억 순환 신경망이 혼합된 구조를 지닌다. 먼저 스마트폰의 다종 물리 센서에서 수집한 데이터에 존재하는 타임 스태프의 차이를 상쇄하고, 정규화를 수행하여 시간에 따른 시퀀스 데이터 형태로 변환함으로써 동행 상태분류 모델의 입력 데이터를 생성한다. 이는 컨볼루션 신경망에 입력되며, 데이터의 시간적 국부 의존성이 반영된 요인 지도를 출력한다. 장단기 기억 순환 신경망은 요인 지도를 입력받아 시간에 따른 순차적 연관 관계를 학습하며, 동행 상태 분류를 위한 요인을 추출하고 소프트맥스 분류기에서 이에 기반한 최종적인 분류를 수행한다. 자체 제작한 스마트폰 애플리케이션을 배포하여 실험 데이터를 수집하였으며, 이를 활용하여 제안한 방법론을 평가하였다. 최적의 파라미터를 설정하여 동행 상태 분류 모델을 학습하고 평가한 결과, 동행 여부와 대화 여부를 각각 98.74%, 98.83%의 높은 정확도로 분류하였다.