• Title/Summary/Keyword: 퓨샷학습

Search Result 7, Processing Time 0.018 seconds

Query Normalization Using P-tuning of Large Pre-trained Language Model (Large Pre-trained Language Model의 P-tuning을 이용한 질의 정규화)

  • Suh, Soo-Bin;In, Soo-Kyo;Park, Jin-Seong;Nam, Kyeong-Min;Kim, Hyeon-Wook;Moon, Ki-Yoon;Hwang, Won-Yo;Kim, Kyung-Duk;Kang, In-Ho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.396-401
    • /
    • 2021
  • 초거대 언어모델를 활용한 퓨샷(few shot) 학습법은 여러 자연어 처리 문제에서 좋은 성능을 보였다. 하지만 데이터를 활용한 추가 학습으로 문제를 추론하는 것이 아니라, 이산적인 공간에서 퓨샷 구성을 통해 문제를 정의하는 방식은 성능 향상에 한계가 존재한다. 이를 해결하기 위해 초거대 언어모델의 모수 전체가 아닌 일부를 추가 학습하거나 다른 신경망을 덧붙여 연속적인 공간에서 추론하는 P-tuning과 같은 데이터 기반 추가 학습 방법들이 등장하였다. 본 논문에서는 문맥에 따른 질의 정규화 문제를 대화형 음성 검색 서비스에 맞게 직접 정의하였고, 초거대 언어모델을 P-tuning으로 추가 학습한 경우 퓨샷 학습법 대비 정확도가 상승함을 보였다.

  • PDF

Recent advances in few-shot learning for image domain: a survey (이미지 분석을 위한 퓨샷 학습의 최신 연구동향)

  • Ho-Sik Seok
    • Journal of IKEEE
    • /
    • v.27 no.4
    • /
    • pp.537-547
    • /
    • 2023
  • In many domains, lack of data inhibits adoption of advanced machine learning models. Recently, Few-Shot Learning (FSL) has been actively studied to tackle this problem. Utilizing prior knowledge obtained through observations on related domains, FSL achieved significant performance with only a few samples. In this paper, we present a survey on FSL in terms of data augmentation, embedding and metric learning, and meta-learning. In addition to interesting researches, we also introduce major benchmark datasets. FSL is widely adopted in various domains, but we focus on image analysis in this paper.

Image Generation from Korean Dialogue Text via Prompt-based Few-shot Learning (프롬프트 기반 퓨샷 러닝을 통한 한국어 대화형 텍스트 기반 이미지 생성)

  • Eunchan Lee;Sangtae Ahn
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.447-451
    • /
    • 2022
  • 본 논문에서는 사용자가 대화 텍스트 방식의 입력을 주었을 때 이를 키워드 중심으로 변환하여 이미지를 생성해내는 방식을 제안한다. 대화 텍스트란 채팅 등에서 주로 사용하는 형식의 구어체를 말하며 이러한 텍스트 형식은 텍스트 기반 이미지 생성 모델이 적절한 아웃풋 이미지를 생성하기 어렵게 만든다. 이를 해결하기 위해 대화 텍스트를 키워드 중심 텍스트로 바꾸어 텍스트 기반 이미지 생성 모델의 입력으로 변환하는 과정이 이미지 생성의 질을 높이는 좋은 방안이 될 수 있는데 이러한 태스크에 적합한 학습 데이터는 충분하지 않다. 본 논문에서는 이러한 문제를 다루기 위한 하나의 방안으로 사전학습된 초대형 언어모델인 KoGPT 모델을 활용하며, 퓨샷 러닝을 통해 적은 양의 직접 제작한 데이터만을 학습시켜 대화 텍스트 기반의 이미지 생성을 구현하는 방법을 제안한다.

  • PDF

CKFont2: An Improved Few-Shot Hangul Font Generation Model Based on Hangul Composability (CKFont2: 한글 구성요소를 이용한 개선된 퓨샷 한글 폰트 생성 모델)

  • Jangkyoung, Park;Ammar, Ul Hassan;Jaeyoung, Choi
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.11 no.12
    • /
    • pp.499-508
    • /
    • 2022
  • A lot of research has been carried out on the Hangeul generation model using deep learning, and recently, research is being carried out how to minimize the number of characters input to generate one set of Hangul (Few-Shot Learning). In this paper, we propose a CKFont2 model using only 14 letters by analyzing and improving the CKFont (hereafter CKFont1) model using 28 letters. The CKFont2 model improves the performance of the CKFont1 model as a model that generates all Hangul using only 14 characters including 24 components (14 consonants and 10 vowels), where the CKFont1 model generates all Hangul by extracting 51 Hangul components from 28 characters. It uses the minimum number of characters for currently known models. From the basic consonants/vowels of Hangul, 27 components such as 5 double consonants, 11/11 compound consonants/vowels respectively are learned by deep learning and generated, and the generated 27 components are combined with 24 basic consonants/vowels. All Hangul characters are automatically generated from the combined 51 components. The superiority of the performance was verified by comparative analysis with results of the zi2zi, CKFont1, and MX-Font model. It is an efficient and effective model that has a simple structure and saves time and resources, and can be extended to Chinese, Thai, and Japanese.

Various Prompt Methods for Korean Natural Language Inference (한국어 자연어 추론을 위한 다양한 프롬프트 방법 )

  • Yohan Choi;Changki Lee;Kyungman Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.419-422
    • /
    • 2023
  • 자연어 추론은 전제 문장과 가설 문장의 관계를 함의, 중립, 모순으로 분류하는 자연어 처리 태스크이다. 최근 여러 자연어 처리 태스크에서 딥러닝 모델을 이용하는 방법이 우수한 성능을 보이고 있지만, 이는 미세 조정과정에 드는 비용이 많다는 점과 모델 출력의 근거, 과정을 사람이 이해하기 어려운 한계가 있다. 이러한 이유로 최근에는 소량의 입력, 출력 예시를 포함한 프롬프트를 이용한 방법론과 모델 출력에 대한 근거를 생성, 활용하는 방법에 관한 많은 연구가 진행되고 있다. 본 논문에서는 퓨샷 학습 환경의 한국어 자연어 추론 태스크를 위한 세 가지 프롬프트 방법과 이들을 조합하여 적용하는 방법을 제안한다. 이를 통해 '해석 가능성'과 자연어 추론 성능을 모두 향상시킬 수 있음을 보인다.

  • PDF

Generating Label Word Set based on Maximal Marginal Relevance for Few-shot Name Entity Recognition (퓨샷 개체명 인식을 위한 Maximal Marginal Relevance 기반의 라벨 단어 집합 생성)

  • HyoRim Choi;Hyunsun Hwang;Changki Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.664-671
    • /
    • 2023
  • 최근 다양한 거대 언어모델(Large Language Model)들이 개발되면서 프롬프트 엔지니어링의 대한 다양한 연구가 진행되고 있다. 본 논문에서는 퓨삿 학습 환경에서 개체명 인식의 성능을 높이기 위해서 제안된 템플릿이 필요 없는 프롬프트 튜닝(Template-free Prompt Tuning) 방법을 이용하고, 이 방법에서 사용된 라벨 단어 집합 생성 방법에 Maximal Marginal Relevance 알고리즘을 적용하여 해당 개체명에 대해 보다 다양하고 구체적인 라벨 단어 집합을 생성하도록 개선하였다. 실험 결과, 'LOC' 타입을 제외한 나머지 개체명 타입에서 'PER' 타입은 0.60%p, 'ORG' 타입은 4.98%p, 'MISC' 타입은 1.38%p 성능이 향상되었고, 전체 개체명 인식 성능은 1.26%p 향상되었다. 이를 통해 본 논문에서 제안한 라벨 단어 집합 생성 기법이 개체명 인식 성능 향상에 도움이 됨을 보였다.

  • PDF

Host-Based Intrusion Detection Model Using Few-Shot Learning (Few-Shot Learning을 사용한 호스트 기반 침입 탐지 모델)

  • Park, DaeKyeong;Shin, DongIl;Shin, DongKyoo;Kim, Sangsoo
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.7
    • /
    • pp.271-278
    • /
    • 2021
  • As the current cyber attacks become more intelligent, the existing Intrusion Detection System is difficult for detecting intelligent attacks that deviate from the existing stored patterns. In an attempt to solve this, a model of a deep learning-based intrusion detection system that analyzes the pattern of intelligent attacks through data learning has emerged. Intrusion detection systems are divided into host-based and network-based depending on the installation location. Unlike network-based intrusion detection systems, host-based intrusion detection systems have the disadvantage of having to observe the inside and outside of the system as a whole. However, it has the advantage of being able to detect intrusions that cannot be detected by a network-based intrusion detection system. Therefore, in this study, we conducted a study on a host-based intrusion detection system. In order to evaluate and improve the performance of the host-based intrusion detection system model, we used the host-based Leipzig Intrusion Detection-Data Set (LID-DS) published in 2018. In the performance evaluation of the model using that data set, in order to confirm the similarity of each data and reconstructed to identify whether it is normal data or abnormal data, 1D vector data is converted to 3D image data. Also, the deep learning model has the drawback of having to re-learn every time a new cyber attack method is seen. In other words, it is not efficient because it takes a long time to learn a large amount of data. To solve this problem, this paper proposes the Siamese Convolutional Neural Network (Siamese-CNN) to use the Few-Shot Learning method that shows excellent performance by learning the little amount of data. Siamese-CNN determines whether the attacks are of the same type by the similarity score of each sample of cyber attacks converted into images. The accuracy was calculated using Few-Shot Learning technique, and the performance of Vanilla Convolutional Neural Network (Vanilla-CNN) and Siamese-CNN was compared to confirm the performance of Siamese-CNN. As a result of measuring Accuracy, Precision, Recall and F1-Score index, it was confirmed that the recall of the Siamese-CNN model proposed in this study was increased by about 6% from the Vanilla-CNN model.