• 제목/요약/키워드: Supervised Data

검색결과 656건 처리시간 0.029초

미분류 데이터의 초기예측을 통한 군집기반의 부분지도 학습방법 (A Clustering-based Semi-Supervised Learning through Initial Prediction of Unlabeled Data)

  • 김응구;전치혁
    • 한국경영과학회지
    • /
    • 제33권3호
    • /
    • pp.93-105
    • /
    • 2008
  • Semi-supervised learning uses a small amount of labeled data to predict labels of unlabeled data as well as to improve clustering performance, whereas unsupervised learning analyzes only unlabeled data for clustering purpose. We propose a new clustering-based semi-supervised learning method by reflecting the initial predicted labels of unlabeled data on the objective function. The initial prediction should be done in terms of a discrete probability distribution through a classification method using labeled data. As a result, clusters are formed and labels of unlabeled data are predicted according to the Information of labeled data in the same cluster. We evaluate and compare the performance of the proposed method in terms of classification errors through numerical experiments with blinded labeled data.

세미감독형 학습 기법을 사용한 소프트웨어 결함 예측 (Software Fault Prediction using Semi-supervised Learning Methods)

  • 홍의석
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권3호
    • /
    • pp.127-133
    • /
    • 2019
  • 소프트웨어 결함 예측 연구들의 대부분은 라벨 데이터를 훈련 데이터로 사용하는 감독형 모델에 관한 연구들이다. 감독형 모델은 높은 예측 성능을 지니지만 대부분 개발 집단들은 충분한 라벨 데이터를 보유하고 있지 않다. 언라벨 데이터만 훈련에 사용하는 비감독형 모델은 모델 구축이 어렵고 성능이 떨어진다. 훈련 데이터로 라벨 데이터와 언라벨 데이터를 모두 사용하는 세미 감독형 모델은 이들의 문제점을 해결한다. Self-training은 세미 감독형 기법들 중 여러 가정과 제약조건들이 가장 적은 기법이다. 본 논문은 Self-training 알고리즘들을 이용해 여러 모델들을 구현하였으며, Accuracy와 AUC를 이용하여 그들을 평가한 결과 YATSI 모델이 가장 좋은 성능을 보였다.

필기숫자 데이터에 대한 텐서플로우와 사이킷런의 인공지능 지도학습 방식의 성능비교 분석 (Performance Comparison Analysis of AI Supervised Learning Methods of Tensorflow and Scikit-Learn in the Writing Digit Data)

  • 조준모
    • 한국전자통신학회논문지
    • /
    • 제14권4호
    • /
    • pp.701-706
    • /
    • 2019
  • 최근에는 인공지능의 도래로 인하여 수많은 산업과 일반적인 응용에 적용됨으로써 우리의 생활에 큰 영향을 발휘하고 있다. 이러한 분야에 다양한 기계학습의 방식들이 제공되고 있다. 기계학습의 한 종류인 지도학습은 학습의 과정 중에 특징값과 목표값을 입력으로 가진다. 지도학습에도 다양한 종류가 있으며 이들의 성능은 입력데이터인 빅데이터의 특성과 상태에 좌우된다. 따라서, 본 논문에서는 특정한 빅 데이터 세트에 대한 다수의 지도학습 방식들의 성능을 비교하기 위해 텐서플로우(Tensorflow)와 사이킷런(Scikit-Learn)에서 제공하는 대표적인 지도학습의 방식들을 이용하여 파이썬언어와 주피터 노트북 환경에서 시뮬레이션하고 분석하였다.

의료 데이터의 자기지도학습 적용을 위한 pretext task 분석 (Pretext Task Analysis for Self-Supervised Learning Application of Medical Data)

  • 공희산;박재훈;김광수
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.38-40
    • /
    • 2021
  • 의료 데이터 분야는 레코드 수는 많지만 응답값이 없기 때문에 인공지능을 적극적으로 활용하지 못하고 있다. 이러한 문제점을 해결하기 위해 자기지도학습(Self-Supervised learning)을 의료 분야에 적용하는 연구가 등장하고 있다. 자기지도학습은 model이 레이블링이 없는 데이터의 semantic 표현을 이해할 수 있도록 pretext task와 supervision을 학습한다. 그러나, 자기지도학습의 성능은 pretext task로 학습한 표현에 의존하므로 데이터의 특성에 적합한 pretext task를 정의할 필요가 있다. 따라서 본 논문에서는 의학 데이터 중 활용도가 높은 x-ray 이미지에 적용할 수 있는 pretext task를 실험적으로 탐색하고 그 결과를 분석한다.

  • PDF

Supervised Learning-Based Collaborative Filtering Using Market Basket Data for the Cold-Start Problem

  • Hwang, Wook-Yeon;Jun, Chi-Hyuck
    • Industrial Engineering and Management Systems
    • /
    • 제13권4호
    • /
    • pp.421-431
    • /
    • 2014
  • The market basket data in the form of a binary user-item matrix or a binary item-user matrix can be modelled as a binary classification problem. The binary logistic regression approach tackles the binary classification problem, where principal components are predictor variables. If users or items are sparse in the training data, the binary classification problem can be considered as a cold-start problem. The binary logistic regression approach may not function appropriately if the principal components are inefficient for the cold-start problem. Assuming that the market basket data can also be considered as a special regression problem whose response is either 0 or 1, we propose three supervised learning approaches: random forest regression, random forest classification, and elastic net to tackle the cold-start problem, comparing the performance in a variety of experimental settings. The experimental results show that the proposed supervised learning approaches outperform the conventional approaches.

최소제곱 서포터벡터기계 형태의 준지도분류 (Semi-supervised classification with LS-SVM formulation)

  • 석경하
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권3호
    • /
    • pp.461-470
    • /
    • 2010
  • 라벨 있는 자료가 분류규칙을 만들 만큼 충분하지 않거나, 라벨 없는 자료가 분류규칙을 만드는데 도움을 줄 수 있는 경우에는 라벨 있는 자료와 라벨 없는 자료를 모두 사용하는 준지도분류가 더 효과적이다. 준지도분류 중 그래프기반 다양체정칙법이 개발되어 최근에 많은 연구가 이루어지고 있다. 본 연구에서는 통계적학습에서 좋은 성능을 보이는 최소제곱 서포터벡터기계를 준지도분류에 적용시키는 방법을 제안한다. 모의실험을 통해 제안된 방법이 라벨 없는 자료를 잘 활용하는 것을 볼 수 있었다.

준감독 학습 알고리즘을 위한 능동적 레이블 데이터 선택 (Active Selection of Label Data for Semi-Supervised Learning Algorithm)

  • 한지호;박은해;박동철;이윤식;민수영
    • 전기전자학회논문지
    • /
    • 제17권3호
    • /
    • pp.254-259
    • /
    • 2013
  • 본 논문에서는 준감독 학습 알고리즘(Semi-Supervised Learning Algorithm)의 학습데이터에 필요한 소수의 레이블 데이터를 능동적으로 선택하기 위한 무감독경쟁학습 알고리즘인 VCNN(Vector Centroid Neural Network)을 제안한다. 준감독 학습 알고리즘에서 레이블 데이터의 선택은 학습 결과 큰 영향을 미치고, 레이블 데이터를 선택하는데 있어 많은 비용과 전문적인 지식이 필요하다. 본 논문에서 능동적이고 효율적인 레이블 데이터 선택을 검증하기 위하여 UCI database 와 caltech dataset 을 이용하여 실험한 결과, 기존의 레이블 데이터 선택 방법과 비교하여 안정된 분류 결과와 최소의 오차율을 나타냈다.

Semi-supervised Multi-view Manifold Discriminant Intact Space Learning

  • Han, Lu;Wu, Fei;Jing, Xiao-Yuan
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권9호
    • /
    • pp.4317-4335
    • /
    • 2018
  • Semi-supervised multi-view latent space learning is gaining considerable popularity recently in many machine learning applications due to the high cost and difficulty to obtain the large amount of label information of data. Although some semi-supervised multi-view latent space learning methods have been presented, there is still much space for improvement: 1) How to learn latent discriminant intact feature representations by employing data of multiple views; 2) How to exploit the manifold structure of both labeled and unlabeled point in the learned latent intact space effectively. To address the above issues, we propose an approach called semi-supervised multi-view manifold discriminant intact space learning ($SM^2DIS$) for image classification in this paper. $SM^2DIS$ aims to seek a manifold discriminant intact space for data of different views by making use of both the discriminant information of labeled data and the manifold structure of both labeled and unlabeled data. Experimental results on MNIST, COIL-20, Multi-PIE, and Caltech-101 databases demonstrate the effectiveness and robustness of our proposed approach.

트리 기법을 사용하는 세미감독형 결함 예측 모델 (Semi-supervised Model for Fault Prediction using Tree Methods)

  • 홍의석
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권4호
    • /
    • pp.107-113
    • /
    • 2020
  • 매우 많은 소프트웨어 결함 예측에 관한 연구들이 수행되어왔지만 대부분은 라벨 데이터를 훈련 데이터로 사용하는 감독형 모델들이었다. 언라벨 데이터만을 사용하는 비감독형 모델이나 언라벨 데이터와 매우 적은 라벨 데이터 정보를 함께 사용하는 세미감독형 모델에 관한 연구는 극소수에 불과하다. 본 논문은 Self-training 기법에 트리 알고리즘들을 사용하여 새로운 세미감독형 모델들을 제작하였다. 세미감독형 기법인 Self-training 모델에 트리 기법들을 사용하는 새로운 세미감독형 모델들을 제작하였다. 모델 평가 실험 결과 새롭게 제작한 트리 모델들이 기존 모델들보다 더 나은 성능을 보였으며, 특히 CollectiveWoods는 타 모델들에 비해 압도적으로 우월한 성능을 보였다. 또한 매우 적은 라벨 데이터 보유 상황에서도 매우 안정적인 성능을 보였다.

준지도 학습의 모수 선택에 관한 연구 (Smoothing parameter selection in semi-supervised learning)

  • 석경하
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권4호
    • /
    • pp.993-1000
    • /
    • 2016
  • 반응 값이 없는 자료를 지도학습 (supervised learning)에 사용하는 준지도 학습 (semi-supervised learning)은 분류에 더 많은 관심을 갖는다. 본 연구는 준지도학습을 회귀분석에 적용하는 준지도 회귀함수 추정법을 제안한다. 제안된 방법은 기존의 방법과 형태는 같지만 반응 값이 있는 자료와 없는 자료의 주변분포를 다르게 가정하고, 서로 다른 평활계수를 사용하는 등 좀 더 일반화된 형태를 가진다. 제안된 추정법의 점근분포를 계산하고 점근평균제곱오차를 최소화하는 최적의 평활계수가 가지는 조건을 찾는다. 설명변수의 주변분포에 대한 추정이 잘 이루이지고, 반응 값이 있는 자료와 없는 자료의 크기에 대한 조건을 적절하게 통제할 수 있고, 그리고 평활계수가 적절하게 선택될 수 있다면 라벨없는 자료가 회귀분석에서도 도움을 줄 수 있음을 보인다. 그리고 준지도 분류에서 사용하는 것처럼 반응 값이 없는 자료의 초기추정은 작은 값을 가지는 평활계수를 사용하여 과적합 (overfitting)되도록 하는 것이 좋음을 증명한다.