• Title/Summary/Keyword: 학습 데이터

Search Result 6,458, Processing Time 0.034 seconds

Data Preprocessing block for Education Programming Language based Deep aI Yourself Hands-on Platform (교육용 프로그래밍 언어 기반 Deep aI Yourself 실습 플랫폼을 위한 데이터 전처리 블록)

  • Lee, Se-Hoon;Kim, Ki-Tae;Baek, Min-Ju;Yoo, Chae-Won
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.07a
    • /
    • pp.297-298
    • /
    • 2020
  • 본 논문에서는 머신러닝 학습에 있어 데이터 전처리의 중요성과 기존 데이터 전처리 기능을 가진 교육용 실습 플랫폼 서비스의 단점은 개선할 수 있는 데이터 전처리 학습을 위한 교육용 블록코딩 기반 실습 플랫폼을 제안한다. 머신러닝 모델의 학습데이터는 데이터 전처리에 따라 모델의 정확도에 큰 영향을 미치므로 데이터를 다양하게 활용하기 위해서는 전처리의 필요성을 깨닫고 과정을 정확하게 이해해야 한다. 따라서 데이터를 처리하는 과정을 이해하고 전처리를 직접 실행해 볼 수 있는 교육용 프로그래밍 언어 기반 D.I.Y 실습 플랫폼을 구현한다.

  • PDF

A Design of Behavioral Prediction through Diffusion Model-based Sensor Data Frequency Interpolation (Diffusion Model 기반 센서 데이터 주파수 보간을 통한 행동 예측 설계)

  • Jeong Hyeon Park;Jun Hyeok Go;Siung Kim;Nammee Moon
    • Annual Conference of KIPS
    • /
    • 2023.05a
    • /
    • pp.633-635
    • /
    • 2023
  • 센서 데이터를 예측 또는 분석하여 시스템을 제어하거나 모니터링할 수 있다. 센서 데이터를 이용한 예측의 신뢰성을 확보하기 위해서는 데이터의 적절한 빈도수가 중요하다. 이를 위해 본 논문에서는 Diffusion Model을 사용한 센서 데이터 주파수 보간을 통해 행동을 예측하는 방법을 제시하고자 한다. 주파수 보간은 반려동물 행동별 25hz 센서 데이터로 학습된 Diffusion Model을 사용한다. 학습된 Diffusion Model에 1hz 센서 데이터와 가우시안 노이즈를 결합한 데이터를 입력으로 사용해 센서데이터를 보간한다. 제안한 방법은 CNN-LSTM 모델 학습 후 예측 성능 비교를 통해 검증한다.

A Study of Data Representation Education for Elementary Students (초등학생을 위한 데이터 표현 교육에 관한 연구)

  • Ma, Daisung
    • Journal of The Korean Association of Information Education
    • /
    • v.20 no.1
    • /
    • pp.13-20
    • /
    • 2016
  • Data are numbers and texts, images, sound etc in real world. But, data is represented as a sequence of 1s and 0s in computer. It is very difficult that elementary students understand the concept of data representation through traditional lecture method. In this paper, we analyzed the software education curriculum of KAIE and selected contents of data representation education for the mid-grade elementary students. Also, we developed teaching- learning materials and multimedia contents for data representation education. The method proposed in this paper is expected to contribute to software education for data representation education.

DART: Data Augmentation using Retrieval Technique (DART: 검색 모델 기술을 사용한 데이터 증강 방법론 연구)

  • Seungjun Lee;Jaehyung Seo;Jungseob Lee;Myunghoon Kang;Hyeonseok Moon;Chanjun Park;Dahyun Jung;Jaewook Lee;Kinam Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.313-319
    • /
    • 2022
  • 최근 BERT와 같은 트랜스포머 (Transformer) 기반의 모델이 natural language understanding (NLU)와 같은 여러 자연어 처리 태스크에서 좋은 성능을 보인다. 이러한 모델은 여전히 대용량의 학습을 요구한다. 일반적으로, 데이터 증강 기법은 low-resource 환경을 개선하는 데 도움을 준다. 최근 생성 모델을 활용해 합성 데이터를 생성해 데이터를 증강하는 시도가 이루어졌다. 이러한 방법은 원본 문장과 의미론적 유사성을 훼손하지 않으면서 어휘와 구조적 다양성을 높이는 것을 목표로 한다. 본 논문은 task-oriented 한 어휘와 구조를 고려한 데이터 증강 방법을 제안한다. 이를 위해 검색 모델과 사전 학습된 생성 모델을 활용한다. 검색 모델을 사용해 학습 데이터셋의 입력 문장과 유사한 문장 쌍을 검색 (retrieval) 한다. 검색된 유사한 문장 쌍을 사용하여 생성 모델을 학습해 합성 데이터를 생성한다. 본 논문의 방법론은 low-resource 환경에서 베이스라인 성능을 최대 4% 이상 향상할 수 있었으며, 기존의 데이터 증강 방법론보다 높은 성능 향상을 보인다.

  • PDF

English Learning Applications Using Big Data Development (빅데이터를 활용한 영어학습 애플리케이션 설계 및 구현)

  • Lee, Jae-hoon;Kim, Seung-beom;Kim, Chang-young;Yang, Won-seok;Kim, Do-woo
    • Annual Conference of KIPS
    • /
    • 2020.11a
    • /
    • pp.644-647
    • /
    • 2020
  • 최근 교육분야에서는 IT 기술을 활용하여 교육을 혁신하는 것을 의미하는 에듀테크에 대한 관심이 높아지고 있다. 단순한 지식의 전달이 아닌 사용자의 수준에 맞춰진 학습을 하고 자신의 학습 내용을 스스로 모니터링할 수 있는 새로운 교육시스템이 필요하다. 이에 본 논문에서는 빅데이터를 활용한 영어학습 애플리케이션를 제안한다. 제안하는 애플리케이션은 영어뉴스 기사에서 추출한 빅데이터를 활용하여 사용자 수준에 맞춘 유용한 문장을 분석해 자동으로 문제를 생성하고 사용자의 음성데이터를 강세 분석 알고리즘으로 원어민 발음과 비교분석 하여 발음 및 강세를 교정할 수 있도록 설계 및 구현하였다.

Reproducibility Approach for Enhancing Accessibility of Deep Learning Models Using the Korea Research Data Commons (국가연구데이터커먼즈를 활용한 딥러닝 학습 모델 접근성 향상을 위한 재현 방안)

  • Sang-baek Lee;Dasol Kim;Sa-kwang Song;Minhee Cho;Mikyung Lee;Hyung-Jun Yim
    • Annual Conference of KIPS
    • /
    • 2023.11a
    • /
    • pp.311-313
    • /
    • 2023
  • 딥러닝에 대한 관심이 증가함에 따라 다양한 분야의 연구자 사이에 딥러닝 모델의 적용 및 재현이 중요한 작업으로 자리잡았다. 하지만 모델을 재현하고 활용하는데 있어 다양한 환경과 자원의 한계가 발생하여 문제가 되고 있다. 이러한 문제를 해결하기 위해 본 논문에서는 국가연구데이터커먼즈체계인 KRDC 프레임워크를 활용하여 딥러닝 학습 모델의 재현 방안을 제안하였다. 이를 통해 딥러닝 연구에 익숙하지 않은 사용자도 학습 모델의 적용 및 활용을 용이하게 할 수 있음을 확인하였다. KRDC 프레임워크는 사용자가 원하는 데이터와 태스크를 정의하고, 워크플로우로 구성, 학습 모델의 재현 및 활용을 지원한다.

SCORM based Learner Level Learning System (SCORM 기반의 학습자 수준별 학습 시스템에 대한 연구)

  • 신종우;강석훈
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.559-561
    • /
    • 2003
  • 기존의 LMS(Learning Management System)는 언제 어디서나 교육이 가능하다는 온라인 교육의 장점에도 불구하고 학습자의 요구와 수준에 무관하게 학습과 관련한 컨텐츠들이 획일적으로 구성됨으로써, 학습자의 요구를 만족시키지 못하고 있다. 이에 본 논문에서는 학습자 수준을 고려하여 학습에 필요한 학습 컨텐츠를 효율적으로 개발하고, 학습자의 수준에 부합되는 컨텐츠를 제공하기 위하여 L3S(Learner Level Learning System) 시스템을 구현하였다. 학습자의 수준에 맞는 컨텐츠 제공에는 SCORM에서 제안하는 메타데이터를 이용하였으며, 저작자는 메타데이터 생성기를 통하여 학습에 필요한 학습 객체의 난이도를 지정 가능하다. 또한, 웹 브라우저를 통해 LMS에 접근한 학습자는 난이도 지정과 검색을 통하여 수준에 맞는 학습 컨텐츠를 제공함을 목적으로 한다.

  • PDF

Comparison and Analysis of Unsupervised Contrastive Learning Approaches for Korean Sentence Representations (한국어 문장 표현을 위한 비지도 대조 학습 방법론의 비교 및 분석)

  • Young Hyun Yoo;Kyumin Lee;Minjin Jeon;Jii Cha;Kangsan Kim;Taeuk Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.360-365
    • /
    • 2022
  • 문장 표현(sentence representation)은 자연어처리 분야 내의 다양한 문제 해결 및 응용 개발에 있어 유용하게 활용될 수 있는 주요한 도구 중 하나이다. 하지만 최근 널리 도입되고 있는 사전 학습 언어 모델(pre-trained language model)로부터 도출한 문장 표현은 이방성(anisotropy)이 뚜렷한 등 그 고유의 특성으로 인해 문장 유사도(Semantic Textual Similarity; STS) 측정과 같은 태스크에서 기대 이하의 성능을 보이는 것으로 알려져 있다. 이러한 문제를 해결하기 위해 대조 학습(contrastive learning)을 사전 학습 언어 모델에 적용하는 연구가 문헌에서 활발히 진행되어 왔으며, 그중에서도 레이블이 없는 데이터를 활용하는 비지도 대조 학습 방법이 주목을 받고 있다. 하지만 대다수의 기존 연구들은 주로 영어 문장 표현 개선에 집중하였으며, 이에 대응되는 한국어 문장 표현에 관한 연구는 상대적으로 부족한 실정이다. 이에 본 논문에서는 대표적인 비지도 대조 학습 방법(ConSERT, SimCSE)을 다양한 한국어 사전 학습 언어 모델(KoBERT, KR-BERT, KLUE-BERT)에 적용하여 문장 유사도 태스크(KorSTS, KLUE-STS)에 대해 평가하였다. 그 결과, 한국어의 경우에도 일반적으로 영어의 경우와 유사한 경향성을 보이는 것을 확인하였으며, 이에 더하여 다음과 같은 새로운 사실을 관측하였다. 첫째, 사용한 비지도 대조 학습 방법 모두에서 KLUE-BERT가 KoBERT, KR-BERT보다 더 안정적이고 나은 성능을 보였다. 둘째, ConSERT에서 소개하는 여러 데이터 증강 방법 중 token shuffling 방법이 전반적으로 높은 성능을 보였다. 셋째, 두 가지 비지도 대조 학습 방법 모두 검증 데이터로 활용한 KLUE-STS 학습 데이터에 대해 성능이 과적합되는 현상을 발견하였다. 결론적으로, 본 연구에서는 한국어 문장 표현 또한 영어의 경우와 마찬가지로 비지도 대조 학습의 적용을 통해 그 성능을 개선할 수 있음을 검증하였으며, 이와 같은 결과가 향후 한국어 문장 표현 연구 발전에 초석이 되기를 기대한다.

  • PDF

A Topic Related Word Extraction Method Using Deep Learning Based News Analysis (딥러닝 기반의 뉴스 분석을 활용한 주제별 최신 연관단어 추출 기법)

  • Kim, Sung-Jin;Kim, Gun-Woo;Lee, Dong-Ho
    • Annual Conference of KIPS
    • /
    • 2017.04a
    • /
    • pp.873-876
    • /
    • 2017
  • 최근 정보검색의 효율성을 위해 데이터를 분석하여 해당 데이터를 가장 잘 나타내는 연관단어를 추출 및 추천하는 연구가 활발히 이루어지고 있다. 현재 관련 연구들은 출현 빈도수를 사용하는 방법이나 LDA와 같은 기계학습 기법을 활용해 데이터를 분석하여 연관단어를 생성하는 방법을 제안하고 있다. 기계학습 기법은 결과 값을 찾는데 사용되는 특징들을 전문가가 직접 설계해야 하며 좋은 결과를 내는 적절한 특징을 찾을 때까지 많은 시간이 필요하다. 또한, 파라미터들을 직접 설정해야 하므로 많은 시간과 노력을 필요로 한다는 단점을 지닌다. 이러한 기계학습 기법의 단점을 극복하기 위해 인공신경망을 다층구조로 배치하여 데이터를 분석하는 딥러닝이 최근 각광받고 있다. 본 논문에서는 기존 기계학습 기법을 사용하는 연관단어 추출연구의 한계점을 극복하기 위해 딥러닝을 활용한다. 먼저, 인공신경망 기반 단어 벡터 생성기인 Word2Vec를 사용하여 다양한 텍스트 데이터들을 학습하고 룩업 테이블을 생성한다. 그 후, 생성된 룩업 테이블을 바탕으로 인공신경망의 한 종류인 합성곱 신경망을 활용하여 사용자가 입력한 주제어와 관련된 최근 뉴스데이터를 분석한 후, 주제별 최신 연관단어를 추출하는 시스템을 제안한다. 또한 제안한 시스템을 통해 생성된 연관단어의 정확률을 측정하여 성능을 평가하였다.

Denoising Self-Attention Network for Mixed-type Data Imputation (혼합형 데이터 보간을 위한 디노이징 셀프 어텐션 네트워크)

  • Lee, Do-Hoon;Kim, Han-Joon;Chun, Joonghoon
    • The Journal of the Korea Contents Association
    • /
    • v.21 no.11
    • /
    • pp.135-144
    • /
    • 2021
  • Recently, data-driven decision-making technology has become a key technology leading the data industry, and machine learning technology for this requires high-quality training datasets. However, real-world data contains missing values for various reasons, which degrades the performance of prediction models learned from the poor training data. Therefore, in order to build a high-performance model from real-world datasets, many studies on automatically imputing missing values in initial training data have been actively conducted. Many of conventional machine learning-based imputation techniques for handling missing data involve very time-consuming and cumbersome work because they are applied only to numeric type of columns or create individual predictive models for each columns. Therefore, this paper proposes a new data imputation technique called 'Denoising Self-Attention Network (DSAN)', which can be applied to mixed-type dataset containing both numerical and categorical columns. DSAN can learn robust feature expression vectors by combining self-attention and denoising techniques, and can automatically interpolate multiple missing variables in parallel through multi-task learning. To verify the validity of the proposed technique, data imputation experiments has been performed after arbitrarily generating missing values for several mixed-type training data. Then we show the validity of the proposed technique by comparing the performance of the binary classification models trained on imputed data together with the errors between the original and imputed values.