• 제목/요약/키워드: 학습데이터 생성

검색결과 1,305건 처리시간 0.024초

생성적 적대 네트워크를 이용한 감성인식 학습데이터 자동 생성 (Automatic Generation of Training Corpus for a Sentiment Analysis Using a Generative Adversarial Network)

  • 박천용;최용석;이공주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.389-393
    • /
    • 2018
  • 딥러닝의 발달로 기계번역, 대화 시스템 등의 자연언어처리 분야가 크게 발전하였다. 딥러닝 모델의 성능을 향상시키기 위해서는 많은 데이터가 필요하다. 그러나 많은 데이터를 수집하기 위해서는 많은 시간과 노력이 소요된다. 본 연구에서는 이미지 생성 모델로 좋은 성능을 보이고 있는 생성적 적대 네트워크(Generative adverasarial network)를 문장 생성에 적용해본다. 본 연구에서는 긍/부정 조건에 따른 문장을 자동 생성하기 위해 SeqGAN 모델을 수정하여 사용한다. 그리고 분류기를 포함한 SeqGAN이 긍/부정 감성인식 학습데이터를 자동 생성할 수 있는지 실험한다. 실험을 수행한 결과, 분류기를 포함한 SeqGAN 모델이 생성한 문장과 학습데이터를 혼용하여 학습할 경우 실제 학습데이터만 학습 시킨 경우보다 좋은 정확도를 보였다.

  • PDF

생성모델의 시각적 최적화를 위한 학습데이터 제작기법 (Learning data production technique for visual optimization of generative models)

  • 조형래;박구만
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 추계학술대회
    • /
    • pp.13-14
    • /
    • 2021
  • 본 논문은 생성모델의 학습데이터 제작기법에 대한 실험 및 결과와 향후 관련 연구의 방향을 기술한다. GAN으로 대표되는 생성모델이 아티스트에게 얼마만큼의 만족도와 영감을 주는지를 비교 실험 및 평가하기 위해서는 정제된 학습데이터가 필요하다. 하지만 현실적으로 아티스트의 작품은 데이터 세트를 만들기에는 그 수가 적고 인공지능이 학습하기에도 정제되어있지 않다. 2차 가공작업을 통하여 아티스트의 원본 작업과 유사한 데이터 세트의 구축은 생성모델의 성능향상을 위해 매우 중요하다. 연구의 결과 생성모델이 표현하기 어려운 스타일의 작가 작품을 선정한 뒤 최적의 학습데이터를 만들기 위한 다양한 실험과 기법을 통해 구축한 데이터 세트를 생성모델 알고리즘에 적용하고 실험을 통해 창작자의 작품제작 의도인 작가 진술에 최대한 유사한 이미지의 생성과 더 나아가 작가가 생각하지 못했던 창조적 모방의 결과물을 도출하였고 작가평가를 통해 높은 만족도를 얻었다.

  • PDF

사용자 건강 상태알림 서비스의 상황인지를 위한 기계학습 모델의 학습 데이터 생성 방법 (Generating Training Dataset of Machine Learning Model for Context-Awareness in a Health Status Notification Service)

  • 문종혁;최종선;최재영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권1호
    • /
    • pp.25-32
    • /
    • 2020
  • 다양한 분야에서 활용되는 상황인지 시스템은 상황정보를 획득하기 위한 추상화 과정에서 규칙 기반의 인공기능 기술이 기존에 사용되었다. 그러나 서비스에 대한 사용자의 요구사항이 다양해지고 사용되는 데이터의 증대로 규칙이 복잡해지면서 규칙 기반 모델의 유지보수와 비정형 데이터를 처리하는데 어려움이 있다. 이러한 한계점을 극복하기 위해 많은 연구들에서는 상황인지 시스템에 기계학습 기술을 적용하였으며, 이러한 기계학습 기반의 모델을 상황인지 시스템에 사용하기 위해서는 주기적으로 학습 데이터를 제공해야 한다. 이에 기계학습 기반 상황인지 시스템에 대한 선행연구에서는 여러 개의 기계학습 모델을 적용하기 위한 학습 데이터 생성, 제공 등의 과정을 보였으나 제한된 종류의 기계학습 모델만을 적용 가능하여 확장성이 고려되어야 한다. 본 논문은 기계학습 기반의 상황인지 시스템의 확장성을 고려한 기계학습 모델의 학습 데이터 생성 방법을 제안한다. 제안하는 방법은 시스템의 확장성을 고려하여 기계학습 모델의 요구사항을 반영할 수 있는 학습 데이터 생성 모델을 정의하고 학습 데이터 생성 모듈을 바탕으로 각각의 기계학습 모델의 학습 데이터를 생성하는 것이다. 시스템의 확장성의 검증을 위해 실험에서는 노인의 건강상태 알림 서비스를 위한 심박상태 분석 모델을 대상으로 한 학습데이터 생성 스키마를 기반으로 학습데이터 생성 모델을 정의하고 실환경에서 정의된 모델을 S/W에 적용하여 학습데이터를 생성한다. 또한 생성된 학습데이터의 유효성을 검증하기 위해 사용되는 기계학습 모델에 생성한 학습데이터를 학습시켜 정확도를 비교하는 과정을 보인다.

k-NN 기법을 이용한 학습자의 학습 행위 데이터의 이상치 분석 (Outlier Analysis of Learner's Learning Behaviors Data using k-NN Method)

  • 윤태복;정영모;이지형;차현진;박선희;김용세
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.524-529
    • /
    • 2007
  • 지능형 학습 시스템은 학습자의 학습 과정에서 수집된 데이터를 분석하여 학습자에게 맞는 전략을 세우고 적합한 서비스를 제공하는 시스템이다. 학습자에게 적합한 서비스를 위해서는 학습자 모델링 작업이 우선시 되며, 이 모델 생성을 위해서 학습자의 학습 과정에서 발생한 데이터를 수집하고 분석하게 된다. 하지만, 수집된 데이터가 학습자의 일관되지 못한 행위나 비예측 학습 성향을 포함하고 있다면, 생성된 모델을 신뢰하기 어렵다. 본 논문에서는 학습자에게서 수집된 데이터를 거리기반 이상치 선별 방법인 k-NN을 이용하여 이상치를 선별한다. 실험에서는 홈 인테리어 컨텐츠 기반에 학습자의 학습 행위에 대한 학습 성향을 진단하기 위한 DOLLS-HI를 이용하여, 수집된 학습자의 데이터에서 이상치를 분류하고 학습 성향 진단을 위한 모델을 생성하였다. 생성된 모델은 이상치 분류전과 비교하여 신뢰가 향상된 것을 확인하였다.

  • PDF

다중 도메인 답변 생성 모델을 위한 인간의 기억 시스템을 모방하는 지속 학습 기법 (Continual Learning with Mimicking Human Memory System For Multi-domain Response Generator)

  • 이준범;박형준;송현제;박성배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.215-220
    • /
    • 2021
  • 다중 도메인에 대해 답변 생성 모델이 동작 가능하도록 하는 가장 쉬운 방법은 모든 도메인의 데이터를 순서와 상관없이 한번에 학습하는 것이다. 하지만 이경우, 발화에 상관 없이 지나치게 일반적인 답변을 생성하는 문제가 발생한다. 이에 반해, 도메인을 분리하여 도메인을 순차적으로 학습할 경우 일반적인 답변 생성 문제를 해결할 수 있다. 하지만 이경우 새로운 도메인의 데이터를 학습할 때, 기존에 학습한 도메인에 대한 성능이 저하되는 파괴적 망각 현상이 발생한다. 파괴적 망각 현상을 해결하기 위하여 다양한 지속학습기법이 제안되었으며, 그 중 메모리 리플레이 방법은 새로운 도메인 학습시 기존 도메인의 데이터를 함께 학습하는 방법으로 파괴적 망각 현상을 해결하고자 하였다. 본 논문에서는, 사람의 기억 시스템에 대한 모형인 앳킨슨-쉬프린 기억 모형에서 착안하여 사람이 기억을 저장하는것과 유사한 방법으로 메모리 리플레이 방법의 메모리 관리방법을 제안하였고, 해당 메모리 관리법을 활용하는 메모리 리플레이 방법을 통해 답변 생성 모델의 파괴적 망각 현상을 줄이고자 하였다. 다중 도메인 답변 생성에 대한 데이터셋인 MultiWoZ-2.0를 사용하여 제안 모델을 학습 및 평가하였고, 제안 모델이 다중 도메인 답변 생성 모델의 파괴적 망각 현상을 감소시킴을 확인하였다.

  • PDF

핵심어 시퀀스와 지식 그래프를 이용한 RNN 기반 자연어 문장 생성 (RNN Based Natural Language Sentence Generation from a Knowledge Graph and Keyword Sequence)

  • 권성구;노윤석;최수정;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.425-429
    • /
    • 2018
  • 지식 그래프는 많은 수의 개채와 이들 사이의 관계를 저장하고 있기 때문에 많은 연구에서 중요한 자원으로 활용된다. 최근에는 챗봇과 질의응답과 같은 연구에서 자연어 생성을 위한 연구에 활용되고 있다. 특히 자연어 생성에서 최근 발전 된 심층 신경망이 사용되고 있는데, 이러한 방식은 모델 학습을 위한 많은 양의 데이터가 필요하다. 즉, 심층신경망을 기반으로 지식 그래프에서 문장을 생성하기 위해서는 많은 트리플과 문장 쌍 데이터가 필요하지만 학습을 위해 사용하기엔 데이터가 부족하다는 문제가 있다. 따라서 본 논문에서는 데이터 부족 문제를 해결하기 위해 핵심어 시퀀스를 추출하여 학습하는 방법을 제안하고, 학습된 모델을 통해 트리플을 입력으로 하여 자연어 문장을 생성한다. 부족한 트리플과 문장 쌍 데이터를 대체하기 위해 핵심어 시퀀스를 추출하는 모듈을 사용해 핵심어 시퀀스와 문장 쌍 데이터를 생성하였고, 순환 신경망 기반의 인코더 - 디코더 모델을 사용해 자연어 문장을 생성하였다. 실험 결과, 핵심어 시퀀스와 문장 쌍 데이터를 이용해 학습된 모델을 이용해 트리플에서 자연어 문장 생성이 원활히 가능하며, 부족한 트리플과 문장 쌍 데이터를 대체하는데 효과적임을 밝혔다.

  • PDF

주파수 영역을 활용한 GAN (GAN using Frequency Domain)

  • 이채은;정성훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.567-569
    • /
    • 2023
  • GAN은 이미지 생성모델로서 이미지 공간에서 좋은 결과를 보여왔다. 우리는 이러한 GAN의 능력을 더욱 향상하기 위하여 본 연구에서 주파수 영역에서 이미지를 학습하고 생성하는 새로운 방법을 제안한다. 이를 위하여 먼저 학습데이터를 2D FFT로 주파수 영역으로 변환한 후 변환된 학습데이터를 GAN이 학습하게 한다. 학습 후에 GAN은 새로운 이미지를 생성하며 생성된 이미지를 2D IFFT하여 이미지 공간으로 변환한다. 이렇게 주파수 영역에서 이미지를 생성하는 방법은 이미지 공간에서 생성하는 방법보다 다양한 장점이 있다. 생성된 이미지의 품질을 평가하기 위하여 4개 데이터 셋에 4개의 평가지표를 사용하여 평가한 결과 주파수 영역에서 생성한 이미지가 IS, P&R, D&C 측면에서 더 좋은 것으로 평가되었다.

전이 학습 기반의 생성 이미지 판별 모델 설계 (Transfer Learning-based Generated Synthetic Images Identification Model)

  • 김채원;윤성연;한명은;박민서
    • 문화기술의 융합
    • /
    • 제10권2호
    • /
    • pp.465-470
    • /
    • 2024
  • 인공지능(Artificial Intelligence, AI) 기반 이미지 생성 기술의 발달로 다양한 이미지가 생성되고 있으며, 이를 정확하게 판별하는 기술이 필요하다. 생성된 이미지 데이터의 양에는 한계가 있으며, 한정된 데이터로 높은 성능을 내기 위해 본 연구에서는 전이 학습(Transfer Learning)을 활용한 생성 이미지를 판별하는 모델을 제안한다. ImageNet 데이터 셋으로 사전학습 된 모델을 입력 데이터 셋인 CIFAKE 데이터 셋에 그대로 적용하여 학습의 시간 비용을 줄인 후, 3개의 은닉층과 1개의 출력층을 더해 모델을 튜닝한다. 모델링 결과, 최종 레이어를 조정한 모델의 성능이 높아짐을 확인하였다. 딥러닝에서 전이 학습을 통해 학습한 후 출력층과 가까운 레이어를 데이터의 특성에 맞게 추가 및 조정하는 과정을 통해 적은 이미지 데이터로 인한 학습 정확도 이슈를 줄이고 생성된 이미지 판별을 할수 있다는 데 의의가 있다.

컴퓨터 비전 정확도 향상을 위한 시뮬레이션 기반 가상 데이터 생성기법 (Virtual Data Generation Method based on Simulation to Improve Accuracy of Computer Vision)

  • 강지수;최창범;장한얼
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.390-392
    • /
    • 2022
  • 기계학습 분야에서 모델을 학습시키려면 많은 양의 데이터가 필요하다. 최근에는 컴퓨터 비전 분야에서 데이터가 적은 환경에서 모델을 학습하는 다양한 방법들이 소개되고 있다. 하지만 대부분의 방법을 사용하기 위해서는 어느 정도 최소한의 학습 데이터가 필요하기 때문에 극심하게 데이터가 부족한 환경에서는 사용하기 어렵다. 본 논문에서는 컴퓨터 비전 분야에서 기계학습을 사용할 때 극심하게 데이터가 부족한 환경에서 시뮬레이션 도구를 활용한 인조 데이터 생성 방법을 제안한다. 실험 결과를 통해 시뮬레이션 도구를 활용하여 생성한 인조 데이터로 학습한 모델이 실제 데이터만을 학습한 모델을 대체할 수 있음을 확인하였고, F-1 점수와 정확도가 향상함을 실험적으로 확인하였다.

DECO-LGG 반자동 증강 학습데이터 활용 멀티태스크 트랜스포머 모델 기반 핀테크 CS 챗봇 NLU 시스템 (Multitask Transformer Model-based Fintech Customer Service Chatbot NLU System with DECO-LGG SSP-based Data)

  • 유광훈;황창회;윤정우;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.461-466
    • /
    • 2021
  • 본 연구에서는 DECO(Dictionnaire Electronique du COreen) 한국어 전자사전과 LGG(Local-Grammar Graph)에 기반한 반자동 언어데이터 증강(Semi-automatic Symbolic Propagation: SSP) 방식에 입각하여, 핀테크 분야의 CS(Customer Service) 챗봇 NLU(Natural Language Understanding)을 위한 주석 학습 데이터를 효과적으로 생성하고, 이를 기반으로 RASA 오픈 소스에서 제공하는 DIET(Dual Intent and Entity Transformer) 아키텍처를 활용하여 핀테크 CS 챗봇 NLU 시스템을 구현하였다. 실 데이터을 통해 확인된 핀테크 분야의 32가지의 토픽 유형 및 38가지의 핵심 이벤트와 10가지 담화소 구성에 따라, DECO-LGG 데이터 생성 모듈은 질의 및 불만 화행에 대한 양질의 주석 학습 데이터를 효과적으로 생성하며, 이를 의도 분류 및 Slot-filling을 위한 개체명 인식을 종합적으로 처리하는 End to End 방식의 멀티태스크 트랜스포머 모델 DIET로 학습함으로써 DIET-only F1-score 0.931(Intent)/0.865(Slot/Entity), DIET+KoBERT F1-score 0.951(Intent)/0.901(Slot/Entity)의 성능을 확인하였으며, DECO-LGG 기반의 SSP 생성 데이터의 학습 데이터로서의 효과성과 함께 KoBERT에 기반한 DIET 모델 성능의 우수성을 입증하였다.

  • PDF