• 제목/요약/키워드: hierarchical multi-task learning

검색결과 5건 처리시간 0.018초

HiSS: 자기 지도 보조 작업을 결합한 계층적 다중 작업 학습 (Hierarchical multi-task learning with self-supervised auxiliary task)

  • 이승한;박태영
    • 응용통계연구
    • /
    • 제37권5호
    • /
    • pp.631-641
    • /
    • 2024
  • 다중 작업 학습 은 여러 관련 작업들 사이에서 정보를 공유하며 동시에 학습하는 기계 학습에서 널리 사용되는 방법론이다. 본 논문에서는, 동일한 주요 작업(main task) 하에 속한 하위 작업(sub task)들의 계층적 구조를 고려하며 다중 작업 학습을 수행하기 위한 HiSS (hierarchical multi-task learning with self-supervised auxiliary task)라는 새로운 계층적 다중 작업 학습 방법론을 제안한다. 해당 방법론은 하위 작업을 해결하기 위한 표현 벡터를 학습하기 위해 전역적 공유층, 지역적 공유층, 작업 별 특정층을 활용하는 계층적 구조를 가진다. 또한, 제안한 방법론은 계층적 다중 작업 학습을 주요 과제로 하고, 자기 지도 학습을 보조 과제로 사용하여 학습을 동시에 진행한다. 이는 레이블 없이 입력 데이터만을 활용하여 획득한 군집 레이블을 보조 분류 태스크의 가상 레이블로 사용함으로써, 레이블이 없는 데이터로부터도 추가적인 정보를 획득하고자 함이다. 제안된 접근 방식은 AI 동반 로봇이 수집한 노인 개인의 사용자 정보와 활동 로그로 구성된 효돌 데이터를 사용하여 검증되었으며, 시간대와 월을 기반으로 응급 호출을 예측한다. HiSS는 작업의 수에 관계없이 단일모델만을 필요로 하여 작업에 따라 개별 모델을 사용하는 기존의 기계 학습 알고리즘보다 더 효율적이고, 다양한 메트릭을 사용하여 분류 작업에서 우수한 성능을 확인하였다. 해당 알고리즘에 대한 소스 코드는 다음링크에서 확인할 수 있다: https://github.com/seunghan96/HiSS.

Multi-task learning with contextual hierarchical attention for Korean coreference resolution

  • Cheoneum Park
    • ETRI Journal
    • /
    • 제45권1호
    • /
    • pp.93-104
    • /
    • 2023
  • Coreference resolution is a task in discourse analysis that links several headwords used in any document object. We suggest pointer networks-based coreference resolution for Korean using multi-task learning (MTL) with an attention mechanism for a hierarchical structure. As Korean is a head-final language, the head can easily be found. Our model learns the distribution by referring to the same entity position and utilizes a pointer network to conduct coreference resolution depending on the input headword. As the input is a document, the input sequence is very long. Thus, the core idea is to learn the word- and sentence-level distributions in parallel with MTL, while using a shared representation to address the long sequence problem. The suggested technique is used to generate word representations for Korean based on contextual information using pre-trained language models for Korean. In the same experimental conditions, our model performed roughly 1.8% better on CoNLL F1 than previous research without hierarchical structure.

Human Action Recognition Using Pyramid Histograms of Oriented Gradients and Collaborative Multi-task Learning

  • Gao, Zan;Zhang, Hua;Liu, An-An;Xue, Yan-Bing;Xu, Guang-Ping
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제8권2호
    • /
    • pp.483-503
    • /
    • 2014
  • In this paper, human action recognition using pyramid histograms of oriented gradients and collaborative multi-task learning is proposed. First, we accumulate global activities and construct motion history image (MHI) for both RGB and depth channels respectively to encode the dynamics of one action in different modalities, and then different action descriptors are extracted from depth and RGB MHI to represent global textual and structural characteristics of these actions. Specially, average value in hierarchical block, GIST and pyramid histograms of oriented gradients descriptors are employed to represent human motion. To demonstrate the superiority of the proposed method, we evaluate them by KNN, SVM with linear and RBF kernels, SRC and CRC models on DHA dataset, the well-known dataset for human action recognition. Large scale experimental results show our descriptors are robust, stable and efficient, and outperform the state-of-the-art methods. In addition, we investigate the performance of our descriptors further by combining these descriptors on DHA dataset, and observe that the performances of combined descriptors are much better than just using only sole descriptor. With multimodal features, we also propose a collaborative multi-task learning method for model learning and inference based on transfer learning theory. The main contributions lie in four aspects: 1) the proposed encoding the scheme can filter the stationary part of human body and reduce noise interference; 2) different kind of features and models are assessed, and the neighbor gradients information and pyramid layers are very helpful for representing these actions; 3) The proposed model can fuse the features from different modalities regardless of the sensor types, the ranges of the value, and the dimensions of different features; 4) The latent common knowledge among different modalities can be discovered by transfer learning to boost the performance.

A study on Face Image Classification for Efficient Face Detection Using FLD

  • Nam, Mi-Young;Kim, Kwang-Baek
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2004년도 SMICS 2004 International Symposium on Maritime and Communication Sciences
    • /
    • pp.106-109
    • /
    • 2004
  • Many reported methods assume that the faces in an image or an image sequence have been identified and localization. Face detection from image is a challenging task because of variability in scale, location, orientation and pose. In this paper, we present an efficient linear discriminant for multi-view face detection. Our approaches are based on linear discriminant. We define training data with fisher linear discriminant to efficient learning method. Face detection is considerably difficult because it will be influenced by poses of human face and changes in illumination. This idea can solve the multi-view and scale face detection problem poses. Quickly and efficiently, which fits for detecting face automatically. In this paper, we extract face using fisher linear discriminant that is hierarchical models invariant pose and background. We estimation the pose in detected face and eye detect. The purpose of this paper is to classify face and non-face and efficient fisher linear discriminant..

  • PDF

FLD를 이용한 얼굴 검출 알고리즘의 성능 향상 (Performance Enhancement of Face Detection Algorithm using FLD)

  • 남미영;김광백
    • 한국지능시스템학회논문지
    • /
    • 제14권6호
    • /
    • pp.783-788
    • /
    • 2004
  • 영상에서 얼굴이 있는 위치를 찾거나 얼굴을 검출하기 위한 많은 방법들이 연구되고 있다. 영상에서 얼굴 검출은 얼굴의 크기, 얼굴이 있는 위치, 그리고 다양한 포즈, 조명 상태 등의 변화에 따라 달라진다 따라서 얼굴 검출과 인식에 있어서의 어려운 점은 얼굴의 크기와 위치, 거리, 조명, 포즈 때문에 나타나는 것이다. 본 논문에서는 다양한 얼굴 크기와 얼굴이 있는 위치 등에 강인한 얼굴 검출을 위해 피셔의 선형 판별 함수를 이용하는 방법을 제안한다. 선형 판별식을 이용하여 효과적으로 얼굴을 검출하기 위해서는 학습 방법 및 학습에 사용되는 데이터들의 구성이 중요하다. 그 이유는, 얼굴 검출을 위해 사용되는 학습 데이터들은 조명과 포즈에 영향을 받기 때문에 얼굴의 특징들을 반영하는 학습 데이터들의 구성이 중요하다. 따라서 본 논문에서는 복잡한 배경과 다양한 크기의 얼굴을 검출하기 위한 계층적인 방법을 제시하며, 효과적인 피셔 판별 분석을 위하여 얼굴과 비얼굴 학습 데이터의 효율적인 분류 방법을 제안한다.