• 제목/요약/키워드: 비지도 학습 방법

검색결과 137건 처리시간 0.027초

반복적 기법을 사용한 그래프 기반 단어 모호성 해소 (Graph-Based Word Sense Disambiguation Using Iterative Approach)

  • 강상우
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권2호
    • /
    • pp.102-110
    • /
    • 2017
  • 최근 자연어 처리 분야에서 단어의 모호성을 해소하기 위해서 다양한 기계 학습 방법이 적용되고 있다. 지도 학습에 사용되는 데이터는 정답을 부착하기 위해 많은 비용과 시간이 필요하므로 최근 연구들은 비지도 학습의 성능을 높이기 위한 노력을 지속적으로 시도하고 있다. 단어 모호성 해소(word sense disambiguation)를 위한 비지도 학습연구는 지식 기반(knowledge base)를 이용한 방법들이 주목받고 있다. 이 방법은 학습 데이터 없이 지식 기반의 정보을 이용하여 문장 내에서 모호성을 가지는 단어의 의미를 결정한다. 지식 기반을 이용한 방법에는 그래프 기반방식과 유사도 기반 방법이 대표적이다. 그래프 기반 방법은 모호성을 가지는 단어와 그 단어가 가지는 다양한 의미들의 집합 간의 모든 경로에 대한 의미 그래프를 구축한다는 장점이 있지만 불필요한 의미 경로가 추가되어 오류를 증가시킨다는 단점이 있다. 이러한 문제를 해결하기 위해 본 논문에서는 그래프 구축을 위해 불필요한 간선들을 배제하면서 반복적으로 그래프를 재구축하는 모델을 제안한다. 또한, 구축된 의미 그래프에서 더욱 정확한 의미를 예측하기 위해 하이브리드 유사도 예측 모델을 적용한다. 또한 제안된 모델은 다국어 어휘 의미망 사전인 BabelNet을 사용하기 때문에 특정 언어뿐만 아니라 다양한 언어에도 적용 가능하다.

문서 클러스터링 정보를 이용한 컬렉션 융합 (Collection Fusion using Document Clustering)

  • 금기문;남세진;신동욱;김태균
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.147-149
    • /
    • 1998
  • 본 논문에서는 여러 정보검색 엔진들이 분산되어 있는 환경에서 이 엔진들의 검색 결과를 효과적으로 취합하여 사용자에게 제시하는 컬렉션 융합 방안을 제안하고자 한다. 이 방법은 우선 학습 질의어로 검색된 문서들의 클러스터링 정도를 이용하여 컬렉션에의 신뢰도를 측정하고 새로운 질의어가 입력되었을 때 각 컬렉션에서 검색된 문서의 유사도를 조정하여 융합하는 방법이다. 여기에서 각 컬렉션의 신뢰도는 미리 준비된 학습 질의어와 이 학습 질의어를 입력하여 검색된 문서들 사이의 유사도를 분석하여 측정한다. 이 신뢰도는 새로운 질의어가 입력되었을 때 각 컬렉션마다 문서들을 검색하고 이들 문서들을 어느 정도 신뢰할 것인가를 결정하는데 사용된다. 본 논문에서 제안한 방법은 학습과정에서 사람이 학습시킬 필요가 없는 비지도 학습에 기초하고 있다. 따라서 지금까지 지도 학습에 기초한 컬렉션 융합 방법과는 달리 인터넷과 같이 문서들이 동적으로 변하는 환경에서 쉽게 사용할 수 있다는 장점을 가진다.

  • PDF

DASVDD 모형을 통한 반려동물 센서 데이터 이상치 탐지 (Detection of outliers in pet sensor data through DASVDD)

  • 박정현;고준혁;김시웅;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.1208-1210
    • /
    • 2023
  • 이상치는 주로 저빈도로 발생하기 때문에, 이상치 탐지 분야에서는 정상 데이터만을 이용한 비지도 기반 학습 모델을 사용하는 방법들이 제안되었다. 따라서, 본 논문에서는 반려동물 센서 데이터를 이용해 비지도 기반 모델인 DASVDD을 활용하여 이상치를 탐지한다. 하지만 데이터셋에 이상치가 존재하지 않아 반려동물이 고빈도로 보여주는 A행동군(서다, 앉다, 엎드리다, 눕다, 걷다), 저빈도로 보여주는 B행동군(킁킁대다, 먹다)으로 분리하여 학습을 진행한다. 모델의 성능은 ROC-AUC을 기준으로 79.05%의 성능을 보여주는 것을 확인하였다.

인공데이터첨가를 통한 SOM의 quantization error 감소 (Error reduction by adding artificial data in SOM)

  • 김승택;조성준
    • 한국경영과학회:학술대회논문집
    • /
    • 한국경영과학회/대한산업공학회 2005년도 춘계공동학술대회 발표논문
    • /
    • pp.260-267
    • /
    • 2005
  • 자기조직화지도(Self Organizing Map, SOM)는 비지도 신경망으로서 고차원의 입력공간을 위상적관계를 유지시키면서 저차원으로 사영 시킬 수 있는 특징을 갖고 있다. SOM은 패턴인 식과 자료압축/재생 등 여러 분야에서 유용하게 활용될 수 있으며 특히 고차원 자료의 시각화 방법으로 많은 관심을 받고 있다. 본 연구에서는 SOM의 quantization error를 줄이기 위한 목적으로 인공데이터를 생성시켜 학습에 이용하는 방법을 제시한다. 이는 특히 데이터가 부족한 상황에서 SOM을 학습시켜야 할 때 유용하게 적용될 수 있을 것으로 기대된다.

  • PDF

GAN에서 그래프 탐색을 이용한 유창한 문장 생성 (Fluent Text Generation Using GANs with Graph-search)

  • 오진영;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.404-408
    • /
    • 2019
  • 비지도 학습 모델인 GAN은 학습 데이터 구축이 어려운 여러 분야에 활용되고 있으며, 알려진 문제점들을 보완하기 위해 다양한 모델 결합 및 변형으로 발전하고 있다. 하지만 문장을 생성하는 GAN은 풀어야 할 문제가 많다. 그중에서도 문제가 되는 것은 완성도가 높은 문장을 생성하는데 어려움이 있다는 것이다. 본 논문에서는 단어 그래프를 구성하여 GAN의 학습에 도움을 주며 완성도가 높은 문장을 생성하는 방법을 제안한다.

  • PDF

딥러닝 기반의 도메인 적응 기술: 서베이 (Deep Learning based Domain Adaptation: A Survey)

  • 나재민;황원준
    • 방송공학회논문지
    • /
    • 제27권4호
    • /
    • pp.511-518
    • /
    • 2022
  • 딥러닝 기반의 지도학습은 다양한 응용 분야에서 비약적인 발전을 이루었다. 그러나 많은 지도 학습 방법들은 학습 및 테스트 데이터가 동일한 분포에서 추출된다는 공통된 가정 하에 이루어진다. 이 제약 조건에서 벗어나는 경우, 학습 도메인에서 훈련된 딥러닝 네트워크는 도메인 간의 분포 차이로 인하여 테스트 도메인에서의 성능이 급격하게 저하될 가능성이 높다. 도메인 적응 기술은 레이블이 풍부한 학습 도메인 (소스 도메인)의 학습된 지식을 기반으로 레이블이 불충분한 테스트 도메인 (타겟 도메인) 에서 성공적인 추론을 할 수 있도록 딥러닝 네트워크를 훈련하는 전이 학습의 한 방법론이다. 특히 비지도 도메인 적응 기술은 타겟 도메인에 레이블이 전혀 없는 이미지 데이터에만 접근할 수 있는 상황을 가정하여 도메인 적응 문제를 다룬다. 본 논문에서는 이러한 비지도 학습 기반의 도메인 적응 기술들에 대해 탐구한다.

적대적 생성 신경망을 활용한 비지도 학습 기반의 대기 자료 이상 탐지 알고리즘 연구 (A Study on Atmospheric Data Anomaly Detection Algorithm based on Unsupervised Learning Using Adversarial Generative Neural Network)

  • 양호준;이선우;이문형;김종구;최정무;신유미;이석채;권장우;박지훈;정동희;신혜정
    • 융합정보논문지
    • /
    • 제12권4호
    • /
    • pp.260-269
    • /
    • 2022
  • 본 논문에서는 기존에 전문가에 의해서 이루어지던 국가 대기오염 측정망 데이터들의 이상 탐지 작업을 인공지능을 통해 자동화하고자 심층 신경망을 이용한 이상 탐지 모델을 제안하였다. 환경과학원에서 제공받은 기상자료 데이터의 결측치 및 이상치를 분석하여 학습데이터를 생성하였으며 비지도 학습 방식의 BeatGAN 모델에 기반하여 커널 구조 변경과 합성곱 필터층 및 전치 합성곱 필터층의 추가를 통해 새로운 모델을 제안하여 이상 탐지 성능을 높이고자 하였다. 또한 제안하는 모델의 생성적 특징을 활용하여 새로운 데이터를 생성하고 이를 학습에 사용하는 재학습 알고리즘을 구현 및 적용하여 기존 BeatGAN 모델뿐 아니라 다른 비지도 학습 모델인 Iforest, One Class SVM과 비교하였을 때 제안모델의 성능이 가장 높았음을 확인할 수 있었다. 본 연구를 통해 실제 산업현장에서 센서의 이상, 점검 등의 여러 요인으로 인해 학습 데이터가 부족한 상황에서 추가적인 비용없이 과적합을 피하며 제안하는 모델의 이상탐지 성능을 올릴 수 있는 방법을 제시할 수 있었다.

A method for concrete crack detection using U-Net based image inpainting technique

  • Kim, Su-Min;Sohn, Jung-Mo;Kim, Do-Soo
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권10호
    • /
    • pp.35-42
    • /
    • 2020
  • 본 연구에서는 비지도 이상 탐지 방법을 변형한 U-Net 기반의 이미지 복원 기법을 통해 한정적인 데이터를 활용한 균열 탐지 방안을 제안한다. 콘크리트 균열은 다양한 원인으로 인해 발생하며, 장기적으로 구조물의 심각한 손상을 초래할 수 있는 요소이다. 일반적으로 균열 조사는 검사원의 육안으로 판단하는 외관 검사법을 사용하는데, 이는 판단에 객관성이 떨어지며 인적 오류 발생 가능성이 크다. 따라서 객관적이고 정확한 이미지 분석 처리를 통한 방법이 요구된다. 최근에는 균열을 신속하고 정밀하게 탐지할 수 있도록 딥러닝을 활용한 기술들이 연구되고 있다. 하지만 일반적인 균열자료에 비해 점검 대상물에 대한 데이터는 한정적이므로 이를 활용한 기존 균열 탐지 모델의 성능은 제한적인 경우가 많다. 따라서 본 연구에서는 비지도 이상 탐지 방법을 사용해 점검 대상물에 대한 데이터를 증강하여 해당 데이터를 사용하여 학습한 결과, 정확도 98.78%, 조화평균(F1_Score) 82.67%의 성능을 확인하였다.

Unsupervised feature selection using orthogonal decomposition and low-rank approximation

  • Lim, Hyunki
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권5호
    • /
    • pp.77-84
    • /
    • 2022
  • 본 논문에서는 새로운 비지도 특징 선별 기법을 제안한다. 기존 비지도 방식의 특징 선별 기법들은 특징을 선별하기 위해 가상의 레이블 데이터를 정하고 주어진 데이터를 이 레이블 데이터에 사영하는 회귀 분석 방식으로 특징을 선별하였다. 하지만 가상의 레이블은 데이터로부터 생성되기 때문에 사영된 공간이 비슷하게 형성될 수 있다. 따라서 기존의 방법들에서는 제한된 공간에서만 특징이 선택될 수 있었다. 이를 해소하기 위해 본 논문에서는 직교 사영과 저랭크 근사를 이용하여 특징을 선별한다. 이 문제를 해소하기 위해 가상의 레이블을 직교 사영하고 이 공간에 데이터를 사영할 수 있도록 한다. 이를 통해 더 주요한 특징 선별을 기대할 수 있다. 그리고 사영을 위한 변환 행렬에 저랭크 제한을 두어 더 효과적으로 저차원 공간의 특징을 선별할 수 있도록 한다. 이 목표를 달성하기 위해 본 논문에서는 비용 함수를 설계하고 효율적인 최적화 방법을 제안한다. 여섯 개의 데이터에 대한 실험 결과는 제안된 방법이 대부분의 경우 기존의 비지도 특징 선별 기법보다 좋은 성능을 보여주었다.

기계학습 기반 단문에서의 문장 분류 방법을 이용한 한국표준산업분류 (Standard Industrial Classification in Short Sentence Based on Machine Learning Approach)

  • 오교중;최호진;안현각
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.394-398
    • /
    • 2020
  • 산업/직업분류 자동코딩시스템은 고용조사 등을 함에 있어 사업체 정보, 업무, 직급, 부서명 등 사용자의 다양한 입력을 표준 산업/직업분류에 맞춰 코드 정보를 제공해주는 시스템이다. 입력 데이터로부터 비지도학습 기반의 색인어 추출 모델을 학습하고, 부분단어 임베딩이 적용된 색인어 임베딩 모델을 통해 입력 벡터를 추출 후, 출력 분류 코드를 인코딩하여 지도학습 모델에서 학습하는 방법을 적용하였다. 기존 시스템의 분류 결과 데이터를 통해 대, 중, 소, 세분류에서 높은 정확도의 모델을 구축할 수 있으며, 기계학습 기술의 적용이 가능한 시스템임을 알 수 있다.

  • PDF