• Title/Summary/Keyword: 생성 데이터 증강

Search Result 138, Processing Time 0.026 seconds

TAGS: Text Augmentation with Generation and Selection (생성-선정을 통한 텍스트 증강 프레임워크)

  • Kim Kyung Min;Dong Hwan Kim;Seongung Jo;Heung-Seon Oh;Myeong-Ha Hwang
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.12 no.10
    • /
    • pp.455-460
    • /
    • 2023
  • Text augmentation is a methodology that creates new augmented texts by transforming or generating original texts for the purpose of improving the performance of NLP models. However existing text augmentation techniques have limitations such as lack of expressive diversity semantic distortion and limited number of augmented texts. Recently text augmentation using large language models and few-shot learning can overcome these limitations but there is also a risk of noise generation due to incorrect generation. In this paper, we propose a text augmentation method called TAGS that generates multiple candidate texts and selects the appropriate text as the augmented text. TAGS generates various expressions using few-shot learning while effectively selecting suitable data even with a small amount of original text by using contrastive learning and similarity comparison. We applied this method to task-oriented chatbot data and achieved more than sixty times quantitative improvement. We also analyzed the generated texts to confirm that they produced semantically and expressively diverse texts compared to the original texts. Moreover, we trained and evaluated a classification model using the augmented texts and showed that it improved the performance by more than 0.1915, confirming that it helps to improve the actual model performance.

Generative Adversarial Networks Based Data Augmentation to Address Medical Data Imbalances (의료 데이터 불균형 문제 해결을 위한 생성적 적대 신경망 기반 데이터 증강)

  • Choe, Jae-Hong;Lee, Seung-Lee;Seo, Young-Jae;Seo, Won-Jin;Hou, Jong-Uk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.350-352
    • /
    • 2022
  • 발병률이 낮은 병은 데이터 불균형 문제가 발생하며, 이는 의료계에서 겪는 원초적인 문제이다. 이런 불균형 문제를 해결하고자 Pix2Pix 로 생성적 적대 신경망 기반 의료 이미지 증강 기법을 설계하여 데이터 불균형 문제 해결 및 성능을 향상시켰다. 합성 데이터의 추가 및 기하학적 데이터 증강의 유무에 대한 4 가지 시나리오로 성능을 비교하여 제안된 기법이 가장 효과적임을 보인다.

Development of ChatGPT-based Medical Text Augmentation Tool for Synthetic Text Generation (합성 텍스트 생성을 위한 ChatGPT 기반 의료 텍스트 증강 도구 개발)

  • Jin-Woo Kong;Gi-Youn Kim;Yu-Seop Kim;Byoung-Doo Oh
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.3-4
    • /
    • 2023
  • 자연어처리는 수많은 정보가 수집된 전자의무기록의 비정형 데이터에서 유의미한 정보나 패턴 등을 추출해 의료진의 의사결정을 지원하고, 환자에게 더 나은 진단이나 치료 등을 지원할 수 있어 큰 잠재력을 가지고 있다. 그러나 전자의무기록은 개인정보와 같은 민감한 정보가 다수 포함되어 있어 접근하기 어렵고, 이로 인해 충분한 양의 데이터를 확보하기 어렵다. 따라서 본 논문에서는 신뢰할 수 있는 의료 합성 텍스트를 생성하기 위해 ChatGPT 기반 의료 텍스트 증강 도구를 개발하였다. 이는 사용자가 입력한 실제 의료 텍스트로 의료 합성 데이터를 생성한다. 이를 위해, 적합한 프롬프트와 의료 텍스트에 대한 전처리 방법을 탐색하였다. ChatGPT 기반 의료 텍스트 증강 도구는 입력 텍스트의 핵심 키워드를 잘 유지하였고, 사실에 기반한 의료 합성 텍스트를 생성할 수 있다는 것을 확인할 수 있었다.

  • PDF

Text Augmentation Using Hierarchy-based Word Replacement

  • Kim, Museong;Kim, Namgyu
    • Journal of the Korea Society of Computer and Information
    • /
    • v.26 no.1
    • /
    • pp.57-67
    • /
    • 2021
  • Recently, multi-modal deep learning techniques that combine heterogeneous data for deep learning analysis have been utilized a lot. In particular, studies on the synthesis of Text to Image that automatically generate images from text are being actively conducted. Deep learning for image synthesis requires a vast amount of data consisting of pairs of images and text describing the image. Therefore, various data augmentation techniques have been devised to generate a large amount of data from small data. A number of text augmentation techniques based on synonym replacement have been proposed so far. However, these techniques have a common limitation in that there is a possibility of generating a incorrect text from the content of an image when replacing the synonym for a noun word. In this study, we propose a text augmentation method to replace words using word hierarchy information for noun words. Additionally, we performed experiments using MSCOCO data in order to evaluate the performance of the proposed methodology.

Proposal for Deep Learning based Character Recognition System by Virtual Data Generation (가상 데이터 생성을 통한 딥러닝 기반 문자인식 시스템 제안)

  • Lee, Seungju;Park, Gooman
    • Journal of Broadcast Engineering
    • /
    • v.25 no.2
    • /
    • pp.275-278
    • /
    • 2020
  • In this paper, we proposed a deep learning based character recognition system through virtual data generation. In order to secure the learning data that takes the largest weight in supervised learning, virtual data was created. Also, after creating virtual data, data generalization was performed to cope with various data by using augmentation parameter. Finally, the learning data composition generated data by assigning various values to augmentation parameter and font parameter. Test data for measuring the character recognition performance was constructed by cropping the text area from the actual image data. The test data was augmented considering the image distortion that may occur in real environment. Deep learning algorithm uses YOLO v3 which performs detection in real time. Inference result outputs the final detection result through post-processing.

Development of integrated data augmentation automation tools for deep learning (딥러닝 학습용 집적화된 데이터 증강 자동화 도구 개발)

  • Jang, Chan-Ho;Lee, Seo-Young;Park, Goo-Man
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.283-286
    • /
    • 2021
  • 4차 산업혁명을 맞이해 최근 산업 및 기술 영역에서는 인공지능을 이용한 생산력 향상, 자동화 등 딥러닝의 보편화가 빠르게 진행되고 있다. 또한, 딥러닝의 성능을 도출하기 위해서는 수많은 양의 학습용 데이터가 필요하며 그 데이터의 양은 딥러닝 모델의 성능과 정비례한다. 이에 본 작품은 최신형 영상처리 Library인 Albumentations를 이용하여 영상처리 알고리즘을 이용하여 이미지를 증강하고, 이미지 데이터 크롤링 기능을 통해 Web에서 영상 데이터를 수집을 자동화하며, Label Pix를 연동하여 수집한 데이터를 라벨링 한다. 더 나아가 라벨링 된 데이터의 증강까지 포함하여 다양한 증강 자동화를 한 인터페이스에 집적시켜 딥러닝 모델을 생성할 때 데이터 수집과 전처리를 수월하게 한다. 또한, Neural Net 기반의 AdaIN Transfer를 이용하여 이미지를 개별적으로 학습하지 않고 Real time으로 이미지의 스타일을 옮겨올 수 있도록 하여 그림 데이터의 부족 현상을 해결한다.

  • PDF

Design of pet abnormal behavior detection through sensor data augmentation based on GAN (GAN 기반 센서 데이터 증강을 통한 반려동물 이상행동 탐지 설계)

  • Kim, Hyungju;Moon, Nammee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.665-666
    • /
    • 2022
  • 반려동물의 이상행동 탐지를 위한 센서 데이터를 수집하는 과정에서 발생하는 시간과 비용의 문제로 인해 데이터 증강이 요구되고 있다. 본 논문에서는 통계적 변형과 GAN 기반의 데이터 증강을 통해 반려동물의 정상행동과 이상행동으로 분류하는 방법을 제안한다. 통계적 변형은 회전, 순열, 조합 등을 이용하며, GAN을 통해 원본 데이터에 노이즈가 포함된 유사한 데이터를 생성한다. 증강된 모든 데이터는 원본 데이터와 함께 학습 데이터로 사용한다. 최종적으로, LSTM의 단점을 보완한 Convolutional LSTM 모델을 통해 반려동물의 정상행동 인식의 범주를 넓혀 보다 정확한 이상행동을 인식하고자 한다.

A Study on Generative Artificial Intelligence-Based Data Augmentation Techniques for Enhancing Object Detection Performance (객체 탐지 성능 향상을 위한 생성형 인공지능 기반 데이터 증강 기법 연구)

  • Dohee Kim;Myongho Kim
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.51-54
    • /
    • 2023
  • 최근 딥러닝 기술의 발달로 물체 탐지를 위한 객체 인식 분야가 기계학습을 접목한 연구가 급격히 증가하고 있다. 하지만, 탐지하려는 물체가 다른 객체에 가려진 경우와 같이 특수한 상황에 대한 데이터의 수량이 부족하여 성능 저하를 야기한다는 점과, 객체 탐지 수행 과정에서 작은 객체의 탐지가 어렵다는 한계점이 있다. 본 연구는 전술한 문제점을 보완할 방법을 제안한다. 데이터 증강 기법을 이용하여 클래스가 부족한 데이터의 양을 늘려 학습 데이터를 증강시켰다. 한편, SRGAN을 사용하여 작은 객체를 확대시킨 뒤 이미지를 합성시켜 데이터를 구성하였다. 제안된 방법은 PyTorch 환경에서 YOLOv5를 수행한 결과, 객체 탐지 성능이 향상되는 것을 확인할 수 있었다.

  • PDF

Domain-robust End-to-end Task-oriented Dialogue Model based on Dialogue Data Augmentation (대화 데이터 증강에 기반한 도메인에 강건한 종단형 목적지향 대화모델)

  • Kiyoung Lee;Ohwoog Kwon;Younggil Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.531-534
    • /
    • 2022
  • 신경망 기반 심층학습 기술은 대화처리 분야에서 대폭적인 성능 개선을 가져왔다. 특히 GPT-2와 같은 대규모 사전학습 언어모델을 백본 네트워크로 하고 특정 도메인 타스크 대화 데이터에 대해서 미세조정 방식으로 생성되는 종단형 대화모델의 경우, 해당 도메인 타스크에 대해서 높은 성능을 내고 있다. 하지만 이런 연구들은 대부분 하나의 도메인에 대해서만 초점을 맞출 뿐 싱글 모델로 두 개 이상의 도메인을 고려하고 있지는 않다. 특히 순차적인 미세 조정은 이전에 학습된 도메인에 대해서는 catastrophic forgetting 문제를 발생시킴으로써 해당 도메인 타스크에 대한 성능 하락이 불가피하다. 본 논문에서는 이러한 문제를 해결하기 위하여 MultiWoz 목적지향 대화 데이터에 오픈 도메인 칫챗 대화턴을 유사도에 기반하여 추가하는 데이터 증강 방식을 통해 사용자 입력 및 문맥에 따라 MultiWoz 목적지향 대화와 오픈 도메인 칫챗 대화를 함께 생성할 수 있도록 하였다. 또한 목적지향 대화와 오픈 도메인 칫챗 대화가 혼합된 대화에서의 시스템 응답 생성 성능을 평가하기 위하여 오픈 도메인 칫챗 대화턴을 수작업으로 추가한 확장된 MultiWoz 평가셋을 구축하였다.

  • PDF

An Implementation of Markerless Augmented Reality and Creation and Application of Efficient Reference Data Sets (마커리스 증강현실의 구현과 효율적인 레퍼런스 데이터 그룹의 생성 및 활용)

  • Koo, Ja-Myoung;Cho, Tai-Hoon
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2009.10a
    • /
    • pp.204-207
    • /
    • 2009
  • This paper presents how to implement Markerless Augmented Reality and how to create and apply reference data sets. There are three parts related with implementation: setting camera, creation of reference data set, and tracking. To create effective reference data sets, we need a 3D model such as CAD model. It is also required to create reference data sets from various viewpoints. We extract the feature points from the model image and then extract 3D positions corresponding to the feature points using ray tracking. These 2D/3D correspondence point sets constitute a reference data set of the model. Reference data sets are constructed for various viewpoints of the model. Fast tracking can be done using a reference data set the most frequently matched with feature points of the present frame and model data near the reference data set.

  • PDF