• 제목/요약/키워드: 유사성 학습

검색결과 668건 처리시간 0.029초

다중 레이블 분류 작업에서의 Coarse-to-Fine Curriculum Learning 메카니즘 적용 방안 (Applying Coarse-to-Fine Curriculum Learning Mechanism to the multi-label classification task)

  • 공희산;박재훈;김광수
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.29-30
    • /
    • 2022
  • Curriculum learning은 딥러닝의 성능을 향상시키기 위해 사람의 학습 과정과 유사하게 일종의 'curriculum'을 도입해 모델을 학습시키는 방법이다. 대부분의 연구는 학습 데이터 중 개별 샘플의 난이도를 기반으로 점진적으로 모델을 학습시키는 방안에 중점을 두고 있다. 그러나, coarse-to-fine 메카니즘은 데이터의 난이도보다 학습에 사용되는 class의 유사도가 더욱 중요하다고 주장하며, 여러 난이도의 auxiliary task를 차례로 학습하는 방법을 제안했다. 그러나, 이 방법은 혼동행렬 기반으로 class의 유사성을 판단해 auxiliary task를 생성함으로 다중 레이블 분류에는 적용하기 어렵다는 한계점이 있다. 따라서, 본 논문에서는 multi-label 환경에서 multi-class와 binary task를 생성하는 방법을 제안해 coarse-to-fine 메카니즘 적용을 위한 방안을 제시하고, 그 결과를 분석한다.

  • PDF

코드 분포의 선형 회귀를 이용한 프로그램 유사성 분석 (Similarity Analysis of Programs through Linear Regression of Code Distribution)

  • 임현일
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권7호
    • /
    • pp.1357-1363
    • /
    • 2018
  • 정보 기술의 발전과 더불어 인공 지능 및 기계 학습 분야는 다양한 응용 분야에서 성능을 인정받고 있으며, 다양한 응용 분야로 확대되고 있다. 본 논문에서는 기계 학습 방법을 응용한 소프트웨어 분석 방법을 제안한다. 소프트웨어의 특성을 표현하기 위해 소프트웨어의 코드 분포를 분석하고 이 정보를 기계 학습 방법인 선형 회귀를 통해 분석함으로써 유사 소프트웨어를 분석할 수 있는 방법을 제안한다. 소프트웨어의 특성은 프로그램 내에 포함된 명령어에 의해 표현될 수 있으며, 명령어의 분포 정보를 학습 데이터로 활용하였다. 또한, 학습 데이터를 통한 학습 과정은 소프트웨어 유사성 분석을 위한 선형 회귀 모델을 구성한다. 본 논문에서 제안한 방법은 구현 및 실험을 통해 정확성을 검증한다. 본 논문에서 제안한 방법은 소프트웨어의 유사성을 판단할 수 있는 기본 기술로 활용될 수 있을 것으로 기대된다. 또한 기계 학습 방법을 통한 소프트웨어 분석 기술에 응용될 수 있을 것으로 기대된다.

머신러닝 알고리즘 분석 및 비교를 통한 Big-5 기반 성격 분석 연구 (A Study on Big-5 based Personality Analysis through Analysis and Comparison of Machine Learning Algorithm)

  • 김용준
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권4호
    • /
    • pp.169-174
    • /
    • 2019
  • 본 연구에서는 설문지를 이용한 데이터 수집과 데이터 마이닝에서 클러스터링 기법으로 군집하여 지도학습을 이용하여 유사성을 판단하고, 성격들의 상관 관계의 적합성을 분석하기 위해 특징 추출 알고리즘들과 지도학습을 이용하는 것을 목표로 진행한다. 연구 수행은 설문조사를 진행 후 그 설문조사를 토대로 모인 데이터들을 정제하고, 오픈 소스 기반의 데이터 마이닝 도구인 WEKA의 클러스터링 기법들을 통해 데이터 세트를 분류하고 지도학습을 이용하여 유사성을 판단한다. 그리고 특징 추출 알고리즘들과 지도학습을 이용하여 성격에 대해 적합한 결과가 나오는지에 대한 적합성을 판단한다. 그 결과 유사성 판단에 가장 정확도 높게 도움을 주는 것은 EM 클러스터링으로 3개의 분류하고 Naïve Bayes 지도학습을 시킨 것이 가장 높은 유사성 분류 결과를 도출하였고, 적합성을 판단하는데 도움이 되도록 특징추출과 지도학습을 수행하였을 때, Big-5 각 성격마다 문항에 추가되고 삭제되는 것에 따라 정확도가 변하는 모습을 찾게 되었고, 각 성격 마다 차이에 대한 분석을 완료하였다.

자기 학습 방법을 이용한 음성 대화 시스템의 슬롯 교정 (Self-learning Method Based Slot Correction for Spoken Dialog System)

  • 최태균;김민경;이인재;이지은;박규연;김경덕;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.353-360
    • /
    • 2021
  • 음성 대화 시스템에서는 사용자가 잘못된 슬롯명을 말하거나 음성인식 오류가 발생해 사용자의 의도에 맞지 않는 응답을 하는 경우가 있다. 이러한 문제를 해결하고자 말뭉치나 사전 데이터를 활용한 질의 교정 방법들이 제안되지만, 이는 지속적으로 사람이 개입하여 데이터를 주입해야하는 한계가 있다. 본 논문에서는 축적된 로그 데이터를 활용하여 사람의 개입 없이 음악 재생에 필요한 슬롯을 교정하는 자기 학습(Self-learning) 기반의 모델을 제안한다. 이 모델은 사용자가 특정 음악을 재생하고자 유사한 질의를 반복하는 상황을 이용하여 비지도 학습 기반으로 학습하고 음악 재생에 실패한 슬롯을 교정한다. 그리고, 학습한 모델 결과의 정확도에 대한 불확실성을 해소하기 위해 질의 슬롯 관계 유사도 모델을 이용하여 교정 결과에 대한 검증을 하고 슬롯 교정 결과에 대한 안정성을 보장한다. 모델 학습을 위한 데이터셋은 사용자가 연속으로 질의한 세션 데이터로부터 추출하며, 음악 재생 슬롯 세션 데이터와 질의 슬롯 관계 유사도 데이터를 각각 구축하여 슬롯 교정 모델과 질의 슬롯 관계 유사도 모델을 학습한다. 교정된 슬롯을 분석한 결과 발음 정보가 유사한 슬롯 뿐만 아니라 의미적인 관계가 있는 슬롯으로도 교정하여 사전 기반 방식보다 다양한 유형의 교정이 가능한 것을 보였다. 3 개월 간 수집된 로그 데이터로 학습한 음악 재생 슬롯 교정 모델은 일주일 동안 반복한 고유 질의 기준, 음악 재생 실패의 12%를 개선하는 성능을 보였다.

  • PDF

Word2Vec 기반 장르 유사성을 활용한 웹툰 검색 (Webtoon Search utilizing Genre Similarity with Word2Vec)

  • 이창민;안제정;강동연;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.503-505
    • /
    • 2019
  • 본 논문에서는 기존 웹툰 장르 검색 시스템의 단점을 보완하기 위해 키워드 기반 유사 장르 검색 시스템을 제안한다. 기존 웹툰의 장르와 키워드를 분석하여 44개의 장르를 설정하고 해당 장르에 적합한 웹툰을 수집한다. 나무위키와 위키피디아 문서로 학습된 Word2Vec모델에 기반하여 계산한 사용자 입력 키워드와 44개의 장르간 유사도로 사용자 입력에 가장 유사한 장르를 찾는다. 유사 장르에 포함되는 웹툰을 결과로 출력하여 사용자가 선호하는 장르의 웹툰을 제시한다. 실험 결과에서는 나무위키에서 '장르'로 검색하여 얻는 작은 크기의 문서 집합에서 Word2Vec을 학습한 모델에서 가장 높은 검색 성능을 보였다.

  • PDF

필적 및 서명에 대한 Off-line 자동분석시스템 (The Off-line Verification System of Signature of Handwrite)

  • 김세훈;하정요;김계영;최형일
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 3부
    • /
    • pp.189-193
    • /
    • 2007
  • 필적 감정은 개인의 고유한 필적 개성을 이용하여 임의의 두 필기 문장 또는 텍스트가 동일인에 의해 작성되었는지를 판별하는 기술로 유서대필 및 보안수사, 서명의 검증, 범죄 수사 등에 활용되어지고 있다. 이러한 작업은 감정 전문가의 판단기준에 의해 필적의 유사성을 판별하기 때문에 객관성 결여 및 과도한 소요 시간, 과도한 처리비용의 문제를 내포하게 된다. 이러한 문제를 해결하여 판별의 객관성과 업무의 신속한 처리를 가능하게 하기 본 논문에서는 컴퓨터를 통한 패턴 분석을 적용하여 두 필적의 유사성을 판별하는 방법을 본 논문에서는 제안한다. 이를 위하여 본 논문은 학습단계와 자동분석단계로 나뉘며, 학습단계에서는 입력된 문서영상에서 필적의 영역을 추출한 후, 특징을 추출하고 DTW연산을 통하여 학습을 한다. 자동분석단계에서는 대조할 문서영상에서의 특징을 추출하고 입력된 문서영상과 대조할 문서영상간의 마할라노비스 거리(Mahalanobis Distance)를 구하여 서명 및 필적에 대한 유사도를 도출한다. 실험은 4명의 필적을 이용하여 비교하였으며, 우수한 결과를 보였다.

  • PDF

ART1과 Delta-Bar-Delta 방법을 이용한 개선된 자가 생성 지도 학습 알고리즘 (Enhanced Self-Generation Supervised Learning Alrorithm Using ARTI and Delta-Bar-Delta Method)

  • 백인호;김태경;김광백
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 추계 학술대회 학술발표 논문집
    • /
    • pp.71-75
    • /
    • 2003
  • 오류 역전파 학습 알고리즘을 이용하여 영상 인식에 적용 할 경우에는 은닉층의 노드 수를 경험적으로 설정하므로, 학습시간과 지역최소화 및 정체현상이 발생한다. 그리고 ARTI 알고리즘은 입력 패턴과 저장 패턴간의 측정 방법인 유사성 검증 방법과 경계 변수의 설정에 따라 인식률이 좌우된다. 경계 변수의 값이 크면 입력 패턴과 저장 패턴사이에 약간의 차이만 있어도 새로운 카테고리(Category)로 분류하고, 반대로 경계 변수의 값이 적으면 입력 패턴과 저장 패턴 사이에 많은 차이가 있더라도 유사성이 인정되어 입력 패턴들을 대략적으로 분류한다. 따라서 ART1 알고리즘을 영상 인식에 적용하기 위해서는 경계 변수를 경험적으로 설정하므로 인식률에 부정적인 영향을 갖는 문제점이 있다. 따라서 본 논문에서는 개선된 ART1 알고리즘과 지도 학습 방법을 결합하여 신경망의 은닉층 노드를 동적으로 변화시키는 자가 생성지도 학습 알고리즘을 제안한다. 제안된 신경망에서 입력층과 은닉층의 학습 구조에는 ART1 알고리즘을 개선하여 적용하고, 은닉층과 출력층의 학습 구조에는 은닉층에서 승자로 선택된 노드와 출력층 노드와 연결된 가중치만을 조정하고 Delta-Bar-Delta 알고리즘을 적용한다. 제안된 방법의 학습 성능을 분석하기 위하여 학생증 영상에서 추출한 학번 패턴 분류에 적용한 결과, 기존의 신경망 학습 알고리즘보다 학습 성능이 개선됨을 확인하였다.

  • PDF

유사어를 이용한 단어 의미 중의성 해결 (Word Sense Disambiguation using Semantically Similar Words)

  • 서희철;이호;백대호;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.304-309
    • /
    • 1999
  • 본 논문에서는 의미계층구조에 나타난 유사어 정보를 이용해서 단어 의미 중의성을 해결하고자 한다. 의미계층구조를 이용한 기존의 방법에서는 의미 벡터를 이용해서 단어 의미 중의성을 해결했다. 의미 벡터는 의미별 학습 자료에서 획득되는 것으로 유사어들의 공통적인 특징만을 이용하고, 유사어 개별 특징은 이용하지 않는다. 본 논문에서는 유사어 개별 특징을 이용하기 위해서 유사어 벡터를 이용해서 단어 의미 중의성을 해결한다. 유사어 벡터는 유사어별 학습 자료에서 획득되는 것으로, 유사어의 개별 정보를 가지고 있는 벡터이다. 세 개의 한국어 명사에 대한 실험 결과, 의미 벡터를 이용하는 것보다 유사어 벡터를 이용하는 경우에 평균 9.5%정도의 성능향상이 있었다.

  • PDF

비지도 대조 학습에서 한국어 문장 표현을 위한 특수 토큰 컷오프 방법의 유효성 분석 (On the Effectiveness of the Special Token Cutoff Method for Korean Sentence Representation in Unsupervised Contrastive Learning)

  • 한명수;정유현;채동규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.491-496
    • /
    • 2023
  • 사전학습 언어모델을 개선하여 고품질의 문장 표현(sentence representation)을 도출하기 위한 다양한 대조 학습 방법에 대한 연구가 진행되고 있다. 그러나, 대부분의 대조학습 방법들은 문장 쌍의 관계만을 고려하며, 문장 간의 유사 정도를 파악하는데는 한계가 있어서 근본적인 대조 학습 목표를 저해하였다. 이에 최근 삼중항 손실 (triplet loss) 함수를 도입하여 문장의 상대적 유사성을 파악하여 대조학습의 성능을 개선한 연구들이 제안되었다. 그러나 많은 연구들이 영어를 기반으로한 사전학습 언어모델을 대상으로 하였으며, 한국어 기반의 비지도 대조학습에 대한 삼중항 손실 함수의 실효성 검증 및 분석은 여전히 부족한 실정이다. 본 논문에서는 이러한 방법론이 한국어 비지도 대조학습에서도 유효한지 면밀히 검증하였으며, 다양한 평가 지표를 통해 해당 방법론의 타당성을 확인하였다. 본 논문의 결과가 향후 한국어 문장 표현 연구 발전에 기여하기를 기대한다.

  • PDF

의존성 구조 학습을 통한 masking 효과 축소 (Decreasing the Masking Effect by Learning Dependence Structures)

  • 한경식;이수원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.15-17
    • /
    • 1998
  • 설명 기반 학습은 시스템 성능향상에 필요한 탐색 제어 지식을 학습하는 방법으로 많이 이용되고 있다. EBL은 과거의 문제풀이 과정을 일반화하여 학습한 다음 이와 유사한 상황이 발생할 경우, 문제풀이를 거치지 않고 학습된 해답을 신속하게 제시하여 성능을 향상시킨다. 그러나 새로운 문제 해결이 과거 문제 풀이 해답에 의존할 경우, 그에 대한 해답을 신속히 구할 수는 있지만 해답의 질은 학습 결과에 의존하지 않을 때보다 오히려 못할 수 있다. 이러한 현상을masking효과라고 한다. 본 논문에서는 의존성 구조를 학습, 이용하여 이러한 masking 효과를 축소하고자 한다. 의존성 구조는 현 상태에서 선택된 연산자가 이후의 문제 풀이에 끼치는 영향을 포함하는 구조로서, 이후 유사한 상황에 대해 선택될 연산자의 적합성 및 효율성을 평가하는 기준으로 사용될 수 있다는 점에서 masking 효과를 축소할 수 있다.

  • PDF