• Title/Summary/Keyword: 학습 데이터

Search Result 6,453, Processing Time 0.036 seconds

High-quality data collection for machine learning using block chain (블록체인을 활용한 양질의 기계학습용 데이터 수집 방안 연구)

  • Kim, Youngrang;Woo, Junghoon;Lee, Jaehwan;Shin, Ji Sun
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.23 no.1
    • /
    • pp.13-19
    • /
    • 2019
  • The accuracy of machine learning is greatly affected by amount of learning data and quality of data. Collecting existing Web-based learning data has danger that data unrelated to actual learning can be collected, and it is impossible to secure data transparency. In this paper, we propose a method for collecting data directly in parallel by blocks in a block - chain structure, and comparing the data collected by each block with data in other blocks to select only good data. In the proposed system, each block shares data with each other through a chain of blocks, utilizes the All-reduce structure of Parallel-SGD to select only good quality data through comparison with other block data to construct a learning data set. Also, in order to verify the performance of the proposed architecture, we verify that the original image is only good data among the modulated images using the existing benchmark data set.

Requirement Analysis and Design for a Real-Time Student Evaluation System in Smart Education Environment (스마트 교육환경에서 실시간 학습자 평가 시스템 요구사항 분석 및 설계)

  • Park, Chan Jung;Hyun, Jung Suk
    • Annual Conference of KIPS
    • /
    • 2016.10a
    • /
    • pp.319-322
    • /
    • 2016
  • 본 연구는 온라인교육에서 주로 활성화 되어 있는 데이터 기반의 학습자 평가시스템이 아닌 초 중등학교 면대면 교실 수업 중 실시간으로 발생하는 유의미한 학습활동 정보를 스마트기술을 활용하여 데이터로 축적하고 분석하여 다양하게 제시함으로써, 학습자에게는 학습에 대한 정확한 피드백을 주고 교수자에게는 수업방향을 제고하며 부모들에게는 자녀들의 학습활동에 대한 이해도 높일 수 있는 학습자 분석 및 평가 시스템을 개발 시 요구사항들을 분석하고자 한다. 이를 위해 스마트교육을 위한 교수학습 방법들을 고려하여 적합한 스마트기기 기반 수업지원 도구를 조사하고 도구 사용 후 발생되는 학습활동에 관한 데이터를 분석할만한 데이터 마이닝 기법을 소개하여 향후 학습자평가 시스템에 대해 제언한다.

Learning Bayesian Network Parameters using Dialogue based User Feedbacks (대화기반 사용자 피드백을 이용한 베이지안 네트워크 파라메터 학습)

  • Lim, Sung-Soo;Lee, Seung-Hyun;Cho, Sung-Bae
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.419-422
    • /
    • 2010
  • 사용자와 환경의 변화에 적응하기 위해서 베이지안 네트워크의 다양한 학습 방법들이 연구되고 있다. 기존의 많은 학습방법에서는 학습 데이터로부터 통계적 방법을 통해서 베이지안 네트워크 모델을 학습하는데, 이러한 접근 방법은 학습 데이터를 수집하기 어려운 문제에 적용하기 힘들며, 사용자의 의도를 데이터의 패턴들로만 학습하므로 직접적으로 사용자의 의도를 반영할 수 없다. 본 논문에서는 대화에 기반하여 사용자의 의도를 직접적으로 수집하고, 이로부터 베이지안 네트워크의 파라메터를 학습하는 방법을 연구한다. 제안하는 방법에서는 사용자와의 대화를 통해서 현재의 모델의 잘못된 점 혹은 개선점을 직접적으로 입력 받고, 이를 바탕으로 베이지안 네트워크 모델을 수정하여 데이터의 수집 없이 빠른 시간에 사용자가 원하는 모델을 학습 할 수 있다. 기존의 통계적 기법을 이용한 대표적인 베이지안 네트워크 파라메터 학습 방법인 최대우도 추정(Maximum Likelihood Estimation; MLE) 방법과 제안하는 방법을 비교하여 제안하는 방법의 유용성을 확인한다.

  • PDF

Effect on self-enhancement of deep-learning inference by repeated training of false detection cases in tunnel accident image detection (터널 내 돌발상황 오탐지 영상의 반복 학습을 통한 딥러닝 추론 성능의 자가 성장 효과)

  • Lee, Kyu Beom;Shin, Hyu Soung
    • Journal of Korean Tunnelling and Underground Space Association
    • /
    • v.21 no.3
    • /
    • pp.419-432
    • /
    • 2019
  • Most of deep learning model training was proceeded by supervised learning, which is to train labeling data composed by inputs and corresponding outputs. Labeling data was directly generated manually, so labeling accuracy of data is relatively high. However, it requires heavy efforts in securing data because of cost and time. Additionally, the main goal of supervised learning is to improve detection performance for 'True Positive' data but not to reduce occurrence of 'False Positive' data. In this paper, the occurrence of unpredictable 'False Positive' appears by trained modes with labeling data and 'True Positive' data in monitoring of deep learning-based CCTV accident detection system, which is under operation at a tunnel monitoring center. Those types of 'False Positive' to 'fire' or 'person' objects were frequently taking place for lights of working vehicle, reflecting sunlight at tunnel entrance, long black feature which occurs to the part of lane or car, etc. To solve this problem, a deep learning model was developed by simultaneously training the 'False Positive' data generated in the field and the labeling data. As a result, in comparison with the model that was trained only by the existing labeling data, the re-inference performance with respect to the labeling data was improved. In addition, re-inference of the 'False Positive' data shows that the number of 'False Positive' for the persons were more reduced in case of training model including many 'False Positive' data. By training of the 'False Positive' data, the capability of field application of the deep learning model was improved automatically.

Machine Learning Technology Trends for Big Data Processing (빅데이터 활용을 위한 기계학습 기술동향)

  • Lim, S.J.;Min, O.K.
    • Electronics and Telecommunications Trends
    • /
    • v.27 no.5
    • /
    • pp.55-63
    • /
    • 2012
  • 빅데이터 시대를 맞이하여 이를 분석하여 지능형 서비스로 활용할 수 있는 기술로 인공지능 기술이 다시 관심을 받고 있다. 본고에서는 인공지능의 여러 요소 기술 중 기계학습(machine learning) 분야의 빅데이터 처리를 위한 동향을 소개한다. 현재 사용 가능한 병렬처리 기반의 기계학습, 빅데이터를 이용한 기계학습 기반으로 진행되고 있는 프로젝트, 다양한 분야에 쉽게 기계학습을 적용할 수 있는 domain adaptation 기술에 대해서 정리한다.

  • PDF

Performance Improvement of Regression Neural Networks by Using PCA (PCA 기법에 의한 회귀분석 신경망의 성능개선)

  • 조용현;박용수
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2001.06a
    • /
    • pp.116-119
    • /
    • 2001
  • 본 논문에서는 주요성분분석 기법을 도입하여 회귀분석을 위한 신경망의 성능 개선방안을 제안하였다. 이는 대용량의 입력 데이터를 통계적으로 독립인 특징들의 집합으로 변환시키는 주요성분분석 기법의 속성을 살려 학습데이터의 타원을 감소시킴으로서 고차원의 학습데이터에 따른 신경망의 학습성능 의존성을 줄이기 위함이다. 제안된 기법의 신경망을 10개의 독립변수 패턴을 가진 자동차 연비문제에 적용하여 시뮬레이션한 결과, 기존의 학습데이터를 그대로 이용하는 신경 망보다 우수한 학습성능과 회귀성능이 있음을 확인할 수 있었다.

  • PDF

Ensemble Learning Algorithm of Specialized Networks (전문화된 네트워크들의 결합에 의한 앙상블 학습 알고리즘)

  • 신현정;이형주;조성준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.308-310
    • /
    • 2000
  • 관찰학습(OLA: Observational Learning Algorithm)은 앙상블 네트워크의 각 구성 모델들이 아른 모델들을 관찰함으로써 얻어진 가상 데이터와 초기에 bootstrap된 실제 데이터를 학습에 함께 이용하는 방법이다. 본 논문에서는, 초기 학습 데이터 셋을 분할하고 분할된 각 데이터 셋에 대하여 앙상블의 구성 모델들을 전문화(specialize)시키는 방법을 적용하여 기존의 관찰학습 알고리즘을 개선시켰다. 제안된 알고리즘은 bagging 및 boosting과의 비교 실험에 의하여, 보다 적은 수의 구성 모델로 동일 내지 보다 나은 성능을 나타냄이 실험적으로 검증되었다.

  • PDF

Face Recognition by Learning Data Configuration (학습데이터 구성에 의한 얼굴인식)

  • Cho, Jae-Hyun
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.01a
    • /
    • pp.395-396
    • /
    • 2019
  • 최근 컴퓨터 하드웨어, 소프트웨어의 급속한 발전으로 상용화되면서 생체 인식 기술은 몇 년 전부터 점차 넓은 시장을 형성하고 있다. 본 논문에서는 얼굴 인식을 위하여 학습 데이터구성과 특징데이터에 따른 인식 정도를 파악하고 효과적인 방법으로 학습할 수 있는 방법을 제안하고자 한다. 실험결과, 원영상 그대로 인식하는 것 보다 특징 데이터를 구성하여 학습하는 것이 효율적임을 알 수 있다.

  • PDF

Evaluating Korean Machine Reading Comprehension Generalization Performance using Cross and Blind Dataset Assessment (기계독해 데이터셋의 교차 평가 및 블라인드 평가를 통한 한국어 기계독해의 일반화 성능 평가)

  • Lim, Joon-Ho;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.213-218
    • /
    • 2019
  • 기계독해는 자연어로 표현된 질문과 단락이 주어졌을 때, 해당 단락 내에 표현된 정답을 찾는 태스크이다. 최근 기계독해 태스크도 다른 자연어처리 태스크와 유사하게 BERT, XLNet, RoBERTa와 같이 사전에 학습한 언어모델을 이용하고 질문과 단락이 입력되었을 경우 정답의 경계를 추가 학습(fine-tuning)하는 방법이 우수한 성능을 보이고 있으며, 특히 KorQuAD v1.0 데이터셋에서 학습 및 평가하였을 경우 94% F1 이상의 높은 성능을 보이고 있다. 본 논문에서는 현재 최고 수준의 기계독해 기술이 학습셋과 유사한 평가셋이 아닌 일반적인 질문과 단락 쌍에 대해서 가지는 일반화 능력을 평가하고자 한다. 이를 위하여 첫번째로 한국어에 대해서 공개된 KorQuAD v1.0 데이터셋과 NIA v2017 데이터셋, 그리고 엑소브레인 과제에서 구축한 엑소브레인 v2018 데이터셋을 이용하여 데이터셋 간의 교차 평가를 수행하였다. 교차 평가결과, 각 데이터셋의 정답의 길이, 질문과 단락 사이의 오버랩 비율과 같은 데이터셋 통계와 일반화 성능이 서로 관련이 있음을 확인하였다. 다음으로 KorBERT 사전 학습 언어모델과 학습 가능한 기계독해 데이터 셋 21만 건 전체를 이용하여 학습한 기계독해 모델에 대해 블라인드 평가셋 평가를 수행하였다. 블라인드 평가로 일반분야에서 학습한 기계독해 모델의 법률분야 평가셋에서의 일반화 성능을 평가하고, 정답 단락을 읽고 질문을 생성하지 않고 질문을 먼저 생성한 후 정답 단락을 검색한 평가셋에서의 기계독해 성능을 평가하였다. 블라인드 평가 결과, 사전 학습 언어 모델을 사용하지 않은 기계독해 모델 대비 사전 학습 언어 모델을 사용하는 모델이 큰 폭의 일반화 성능을 보였으나, 정답의 길이가 길고 질문과 단락 사이 어휘 오버랩 비율이 낮은 평가셋에서는 아직 80%이하의 성능을 보임을 확인하였다. 본 논문의 실험 결과 기계 독해 태스크는 특성 상 질문과 정답 사이의 어휘 오버랩 및 정답의 길이에 따라 난이도 및 일반화 성능 차이가 발생함을 확인하였고, 일반적인 질문과 단락을 대상으로 하는 기계독해 모델 개발을 위해서는 다양한 유형의 평가셋에서 일반화 평가가 필요함을 확인하였다.

  • PDF

Noise-Reduction of Student's Learning Data using k-NN Method (k-NN 기법을 이용한 학습자 데이터의 노이즈 선별 방법)

  • Yun, Tae-Bok;Lee, Ji-Hyeong;Jeong, Yeong-Mo;Cha, Hyeon-Jin;Park, Seon-Hui;Kim, Yong-Se
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2006.11a
    • /
    • pp.135-138
    • /
    • 2006
  • 사용자 모델링을 위해서는 사용자의 성향 및 행위 등의 다양한 정보를 수집하여 분석에 이용한다. 하지만 사용자(인간)로 부터 얻은 데이터는 기계나 환경에서 수집된 데이터 보다 패턴을 찾기 힘들어 모델링하기 어렵다. 그 이유는 사용자는 사용자의 현재 상태와 상황에 따라 다양한 결과를 보이며, 일관성을 유지 하지 않는 경우가 있기 때문이다. 사용자 모델링을 위해서는 분산되어 있는 데이터에서 노이즈를 선별하고 연관성 있는 데이터를 분류할 수 있는 기술이 필요하다. 본 논문은 사용자로 부터 수집된 데이터를 k-NN(Nearest Neighbor) 기법을 이용하여 노이즈를 선별한다. 노이즈가 제거된 데이터는 의사결정나무(Decision Tree)방법을 이용하여 학습하였고, 노이즈가 분류되기 전과 비교 분석 하였다. 실험에서는 홈 인테리어 학습 컨텐츠인 DOLLS-HI를 이용하여 수집된 학습자의 데이터를 이용하였고, 생성된 학습자 모델링의 신뢰도가 높아지는 것을 확인하였다.

  • PDF