• 제목/요약/키워드: semi-supervised

검색결과 179건 처리시간 0.025초

자연어 생성 모델을 이용한 준지도 학습 기반 한국어 사실 확인 자료 구축 (Semi-Supervised Data Augmentation Method for Korean Fact Verification Using Generative Language Models)

  • 정재환;전동현;김선훈;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.105-111
    • /
    • 2021
  • 한국어 사실 확인 과제는 학습 자료의 부재로 인해 연구에 어려움을 겪고 있다. 본 논문은 수작업으로 구성된 학습 자료를 토대로 자연어 생성 모델을 이용하여 한국어 사실 확인 자료를 구축하는 방법을 제안한다. 본 연구는 임의의 근거를 기반으로 하는 주장을 생성하는 방법 (E2C)과 임의의 주장을 기반으로 근거를 생성하는 방법 (C2E)을 모두 실험해보았다. 이때 기존 학습 자료에 위 두 학습 자료를 각각 추가하여 학습한 사실 확인 분류기가 기존의 학습 자료나 영문 사실 확인 자료 FEVER를 국문으로 기계 번역한 학습 자료를 토대로 구성된 분류기보다 평가 자료에 대해 높은 성능을 기록하였다. 또한, C2E 방법의 경우 수작업으로 구성된 자료 없이 기존의 자연어 추론 과제 자료와 HyperCLOVA Few Shot 예제만으로도 높은 성능을 기록하여, 비지도 학습 방식으로 사실 확인 자료를 구축할 수 있는 가능성 역시 확인하였다.

  • PDF

강건한 객체탐지 구축을 위해 Pseudo Labeling 을 활용한 Active Learning (Active Learning with Pseudo Labeling for Robust Object Detection)

  • 김채윤;이상민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.712-715
    • /
    • 2023
  • 딥러닝 기술의 발전은 고품질의 대규모 데이터에 크게 의존한다. 그러나, 데이터의 품질과 일관성을 유지하는 것은 상당한 비용과 시간이 소요된다. 이러한 문제를 해결하기 위해 최근 연구에서 최소한의 비용으로 최대의 성능을 추구하는 액티브 러닝(active learning) 기법이 주목받고 있는데, 액티브 러닝은 모델 관점에서 불확실성(uncertainty)이 높은 데이터들을 샘플링 하는데 중점을 둔다. 하지만, 레이블 생성에 있어서 여전히 많은 시간적, 자원적 비용이 불가피한 점을 고려할 때 보완이 불가피 하다. 본 논문에서는 의사-라벨링(pseudo labeling)을 활용한 준지도학습(semi-supervised learning) 방식과 학습 손실을 동시에 사용하여 모델의 불확실성(uncertainty)을 측정하는 방법론을 제안한다. 제안 방식은 레이블의 신뢰도(confidence)와 학습 손실의 최적화를 통해 비용 효율적인 데이터 레이블 생성 방식을 제안한다. 특히, 레이블 데이터의 품질(quality) 및 일관성(consistency) 측면에서 딥러닝 모델의 정확도 성능을 높임과 동시에 적은 데이터만으로도 효과적인 학습이 가능할 수 있는 메커니즘을 제안한다.

광학 분자구조 인식 성능 향상을 위한 DDPM 기반의 분자구조 생성 및 준지도학습 연구 (A Study on DDPM-based Molecular Generation and Semi-Supervised Learning for Improving the Performance of Optical Chemical Structure Recognition)

  • 김진혁;송태웅;최종환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.721-722
    • /
    • 2024
  • 문헌자료에 나타나는 분자구조 정보를 인식하고, 분석에 용이한 형태로의 데이터 변환하는 기술은 화학정보학 데이터 수집을 용이하게 만드는 중요 정보처리 기술 중 하나이다. 딥러닝 기반의 분자구조 인식 기술이 여럿 개발되었으나, 소규모 분자구조 이미지 데이터집합에 대해서는 학습이 충분하기 어려워 인식 정확도를 향상시키기 위한 학습 전략이 필요하다. 본 연구에서는 데이터 부족으로 인한 학습 효율 저하 문제를 극복하기 위해 이미지 생성 모델을 활용한 준지도학습 알고리즘을 연구하였다. 제안하는 학습 알고리즘은 대조군 대비 5.4%p 성능 향상을 보여주었다.

준지도 학습 기반의 멀웨어 탐지 기법 (Semi-supervised learning based malware detection technique)

  • 전유란;심혜연;이일구
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.254-257
    • /
    • 2024
  • 5G 통신과 인공지능 기술이 발전하고, 사물인터넷 기기의 수가 증가함에 따라 종래의 정보보호체계를 우회하는 지능적인 사이버 공격이 증가하고 있다. 그러나, 종래의 기계학습 기반 멀웨어 탐지 방식은 이미 알려진 멀웨어만 탐지할 수 있으며, 새로운 멀웨어는 탐지가 어렵거나, 기존의 알려진 멀웨어로 잘못 분류되는 문제가 있다. 본 연구에서는 비지도학습을 사용하여 알려지지 않은 멀웨어를 탐지하고, 새롭게 탐지된 멀웨어를 새로운 라벨로 분류하여 재학습하는 준지도 학습 기반의 멀웨어 탐지 기법을 제안한다. 다양한 데이터 환경에서 알려지지 않은 멀웨어 데이터가 탐지 모델로 입력될 때 제안한 방식의 성능을 평가했다. 실험 결과에 따르면 제안한 준지도 학습 기반의 멀웨어 탐지 방법은 종래의 방식 대비 정확도를 약 16% 개선했다.

Deep Learning-based Depth Map Estimation: A Review

  • Abdullah, Jan;Safran, Khan;Suyoung, Seo
    • 대한원격탐사학회지
    • /
    • 제39권1호
    • /
    • pp.1-21
    • /
    • 2023
  • In this technically advanced era, we are surrounded by smartphones, computers, and cameras, which help us to store visual information in 2D image planes. However, such images lack 3D spatial information about the scene, which is very useful for scientists, surveyors, engineers, and even robots. To tackle such problems, depth maps are generated for respective image planes. Depth maps or depth images are single image metric which carries the information in three-dimensional axes, i.e., xyz coordinates, where z is the object's distance from camera axes. For many applications, including augmented reality, object tracking, segmentation, scene reconstruction, distance measurement, autonomous navigation, and autonomous driving, depth estimation is a fundamental task. Much of the work has been done to calculate depth maps. We reviewed the status of depth map estimation using different techniques from several papers, study areas, and models applied over the last 20 years. We surveyed different depth-mapping techniques based on traditional ways and newly developed deep-learning methods. The primary purpose of this study is to present a detailed review of the state-of-the-art traditional depth mapping techniques and recent deep learning methodologies. This study encompasses the critical points of each method from different perspectives, like datasets, procedures performed, types of algorithms, loss functions, and well-known evaluation metrics. Similarly, this paper also discusses the subdomains in each method, like supervised, unsupervised, and semi-supervised methods. We also elaborate on the challenges of different methods. At the conclusion of this study, we discussed new ideas for future research and studies in depth map research.

Application and Potential of Artificial Intelligence in Heart Failure: Past, Present, and Future

  • Minjae Yoon;Jin Joo Park;Taeho Hur;Cam-Hao Hua;Musarrat Hussain;Sungyoung Lee;Dong-Ju Choi
    • International Journal of Heart Failure
    • /
    • 제6권1호
    • /
    • pp.11-19
    • /
    • 2024
  • The prevalence of heart failure (HF) is increasing, necessitating accurate diagnosis and tailored treatment. The accumulation of clinical information from patients with HF generates big data, which poses challenges for traditional analytical methods. To address this, big data approaches and artificial intelligence (AI) have been developed that can effectively predict future observations and outcomes, enabling precise diagnoses and personalized treatments of patients with HF. Machine learning (ML) is a subfield of AI that allows computers to analyze data, find patterns, and make predictions without explicit instructions. ML can be supervised, unsupervised, or semi-supervised. Deep learning is a branch of ML that uses artificial neural networks with multiple layers to find complex patterns. These AI technologies have shown significant potential in various aspects of HF research, including diagnosis, outcome prediction, classification of HF phenotypes, and optimization of treatment strategies. In addition, integrating multiple data sources, such as electrocardiography, electronic health records, and imaging data, can enhance the diagnostic accuracy of AI algorithms. Currently, wearable devices and remote monitoring aided by AI enable the earlier detection of HF and improved patient care. This review focuses on the rationale behind utilizing AI in HF and explores its various applications.

이질성 학습을 통한 문서 분류의 정확성 향상 기법 (Improving the Accuracy of Document Classification by Learning Heterogeneity)

  • 윌리엄;현윤진;김남규
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.21-44
    • /
    • 2018
  • 최근 인터넷 기술의 발전과 함께 스마트 기기가 대중화됨에 따라 방대한 양의 텍스트 데이터가 쏟아져 나오고 있으며, 이러한 텍스트 데이터는 뉴스, 블로그, 소셜미디어 등 다양한 미디어 매체를 통해 생산 및 유통되고 있다. 이처럼 손쉽게 방대한 양의 정보를 획득할 수 있게 됨에 따라 보다 효율적으로 문서를 관리하기 위한 문서 분류의 필요성이 급증하였다. 문서 분류는 텍스트 문서를 둘 이상의 카테고리 혹은 클래스로 정의하여 분류하는 것을 의미하며, K-근접 이웃(K-Nearest Neighbor), 나이브 베이지안 알고리즘(Naïve Bayes Algorithm), SVM(Support Vector Machine), 의사결정나무(Decision Tree), 인공신경망(Artificial Neural Network) 등 다양한 기술들이 문서 분류에 활용되고 있다. 특히, 문서 분류는 문맥에 사용된 단어 및 문서 분류를 위해 추출된 형질에 따라 분류 모델의 성능이 달라질 뿐만 아니라, 문서 분류기 구축에 사용된 학습데이터의 질에 따라 문서 분류의 성능이 크게 좌우된다. 하지만 현실세계에서 사용되는 대부분의 데이터는 많은 노이즈(Noise)를 포함하고 있으며, 이러한 데이터의 학습을 통해 생성된 분류 모형은 노이즈의 정도에 따라 정확도 측면의 성능이 영향을 받게 된다. 이에 본 연구에서는 노이즈를 인위적으로 삽입하여 문서 분류기의 견고성을 강화하고 이를 통해 분류의 정확도를 향상시킬 수 있는 방안을 제안하고자 한다. 즉, 분류의 대상이 되는 원 문서와 전혀 다른 특징을 갖는 이질적인 데이터소스로부터 추출한 형질을 원 문서에 일종의 노이즈의 형태로 삽입하여 이질성 학습을 수행하고, 도출된 분류 규칙 중 문서 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식의 규칙 선별 기반의 앙상블 준지도학습을 제안함으로써 문서 분류의 성능을 향상시키고자 한다.

비분류표시 데이타를 이용하는 분류 기반 Co-training 방법 (A Co-training Method based on Classification Using Unlabeled Data)

  • 윤혜성;이상호;박승수;용환승;김주한
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권8호
    • /
    • pp.991-998
    • /
    • 2004
  • 생물 정보학 등 많은 응용 분야에서 데이타 분석을 할 때는 적은 수의 분류표시된 데이터 (labeled data)와 많은 수의 비분류표시된 데이타(unlabeled data)가 있을 수 있다 분류표시된 자료는 사람의 노력이 요구되기 때문에 얻기가 어렵고 비용이 많이 들지만, 비분류표시된 자료는 별 어려움 없이 쉽게 얻을 수 있다. 이때 비분류표시된 자료를 이용하여 자료를 분류하고 분석하는데 널리 이용되고 있는 방법이 co-training 알고리즘이다. 이 방법은 적은 수의 분류표시된 자료에서 두 가지 뷰(view)로 각 분류자를 학습한다. 그리고 각 분류자는 분석하고자 하는 모든 비분류표시된 자료에서 가장 만족할만한 예측자들을 만들어 나간다. 이렇게 훈련 데이타 셋에서 실험을 여러 번 반복적으로 하게 되면 각 뷰에서 새로운 분류자가 학습되어 분류표시된 자료의 수가 증가한다. 본 논문에서는 비분류표시된 데이타를 이용하여 새로운 co-training 방법을 제시한다. 이 방법은 두 가지 분류자와 WebKB 및 BIND XML의 2가지 실험 데이타를 가지고 평가하였다. 실험 결과로서, 이 논문에서 제안한 co-training 방법이 분류표시된 자료의 수가 매우 적을 때 분류정확성을 효과적으로 향상시킬 수 있음을 보였다.

고위험 문제행동을 보이는 초등학생을 위한 구조화된 인지행동 중재 프로그램의 효과 검증 (An Verification of the Effect of Structured Cognitive Behavioral Intervention Program for Elementary School Students with High Risk Behavior)

  • 이아름;송원영
    • 한국융합학회논문지
    • /
    • 제9권1호
    • /
    • pp.241-251
    • /
    • 2018
  • 본 연구는 지역사회와의 융합을 위해 학교를 기반으로 고위험 문제행동을 보이는 초등학생을 대상으로 실시한 구조화된 인지행동 중재 프로그램의 효과에 관한 예비연구이다. 개발한 프로그램은 준전문가를 통해 실시하여 효과를 검증하였다. 고위험군 선별을 위해 도농복합지역의 한 초등학교 3학년 전체 102명을 대상으로 한국판 아동행동평가척도(K-CBCL)를 실시하였고 문제행동증후군 척도의 T점수가 60점 이상인 고위험군 학생 32명을 선정하여 개입집단과 대조집단으로 나누었다. 인지행동치료를 기반으로 9회기의 구조화된 집단 프로그램을 개발하였고, 심리상담 전공의 대학원생 및 대학생이 전문가의 지도를 받아 개입집단에게 프로그램을 실시하였다. 개입 후 내재화 집단은 내재화 문제, 불안 및 우울증상이 유의하게 감소되었으며 외현화 집단은 외현화 문제, 공격행동에 유의미한 감소를 보였지만, 혼합형 집단에서는 유의미한 변화가 관찰되지 않았다. 질적인 분석을 통해 점수의 의미를 추가적으로 살펴보았다. 결과에 대한 시사점과 연구의 제한점 그리고 후속연구에 대해 제언하였다.

사전정보를 활용한 앙상블 클러스터링 알고리즘 (An Ensemble Clustering Algorithm based on a Prior Knowledge)

  • 고송;김대원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권2호
    • /
    • pp.109-121
    • /
    • 2009
  • 사전정보는 클러스터링 성능을 유도할 수 있는 요인이지만, 활용 방법에 따라 차이는 발생한다. 특히, 사전정보를 초기 중심으로 활용할 때, 사전정보 간 유사도에 대해 고려하는 것이 필요하다. 레이블이 같더라도 낮은 유사도를 갖는 사전정보로 인해 초기 중심 설정 시 문제가 발생할 수 있기 때문에, 이들을 구분하여 활용하는 방법이 필요하다. 따라서 본 논문은 낮은 유사도를 갖는 사전정보를 구분하여 문제를 해결하는 방법을 제시한다. 또한 유사도에 의해 구분된 사전정보는 다양하게 활용함으로써 생성되는 다양한 클러스터링 결과를 연관규칙에 기반하여 앙상블 함으로써 통합된 하나의 분석 결과를 도출하여 클러스터링 분석 성능을 더욱 개선시킬 수 있다.