• 제목/요약/키워드: 데이터 희소성 문제

검색결과 56건 처리시간 0.03초

CRF를 이용한 한국어 운율 경계 추정 (Using CRF (Conditional Random Fields) to Predict Phrase Breaks in Korean)

  • 김승원;김병창;정민우;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.134-138
    • /
    • 2005
  • 본 논문은 한국어 TTS(Text-To-Speech)에서 운율 경계를 추정하는 문제를 클래스 분류문제로 보고 CRF(Conditional Random Fields)를 적용하여 운율 경계를 추정하였다. 우리는 품사와 운율 경계로 구성된 말뭉치를 사용하여 품사, 어휘, 단어의 길이, 문장에서의 단어 위치와 같은 다양한 속성의 언어적 자질을 추출하여 CRF를 훈련시켰으며, 자질들을 서로 조합하여 최고의 성능을 보이는 자질 집합을 골랐다 또한 가우스 평활 (Gaussian Smoothing)을 적용하여 데이터의 희소성 문제를 줄였다. 실험 결과에서 본 방법이 기존의 방법보다 성능이 좋을 뿐만 아니라 운율 경계를 추정하기 위한 자질을 독립시켰기 때문에 다른 시스템과의 호환성도 높다는 것을 알 수 있었다.

  • PDF

이미지 비유사도 기반의 개인화된 하이브리드 의류 추천 모델 (Personalized Hybrid Outfit Recommendation Based on Image Dissimilarity)

  • 양정원;백지혜;김현희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.459-460
    • /
    • 2023
  • 기존의 추천시스템은 상품간 혹은 사용자 간의 유사도를 기반으로 작동한다. 하지만 이는 사용자가 유사한 상품 추천 속에 갇히게 되는 필터 버블의 문제와 추천시스템의 고질적인 문제인 데이터 희소성 문제를 피할 수 없게 된다. 따라서 본 연구에서는 사용자의 취향과 체형 정보를 반영하여 사용자의 평점을 예측하는 협업 필터링 기반 딥러닝 추천과 상품간 비유사성을 고려하여 사용자의 평점을 예측하는 내용 기반 추천을 혼합한 하이브리드 추천 모델을 구축하여 기존 추천시스템의 문제점을 해결하였다. 모델의 성능평가를 위해 인터넷 의류 쇼핑몰을 대상으로 유사한 이미지를 활용한 하이브리드 추천 모델과 NDCG 값을 비교하였고 유사도가 낮은 이미지를 활용한 모델이 더 우수한 성능을 보였다. 이는 다른 제품과는 달리 소비자가 의류를 구매할 경우 이미 구매한 상품과 유사한 상품보다는 유사하지 않은 상품을 구매할 가능성이 크다는 것을 보여준다.

Competitive Unit을 사용한 Helmholtz Machine에 의한 문서 클러스터링 (Topical Clustering of Documents using Helmholtz Machines with Competitive Units)

  • 장정호;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.292-294
    • /
    • 2001
  • 문서 클러스터링은 정보검색 시스템에서 검색과정의 효율성을 향상시키기 위해서 많이 사용된다. 기존의 K-means 클러스터링과 같은 거리-기반 접근 방법은 거리에 대한 척도를 정해야 하는 문제가 있고, 또한 전체 자질 공간에서 지역적 특성에 민감하기 때문에 문서 내에 노이즈가 존재할 경우 만족스러운 결과를 내지 못할 수 있다. 그리고 기본적으로 문서 데이터는 희소성(sparseness)을 가기 때문에 정규 분포를 가정한 mixture 모델을 적용하기도 어려움이 있다. 본 논문에서는 Helmoholtz machine에 의한 문서 클러스터링 방법을 제안한다. 제안되는 방법에서는 하나의 문서를 어떤 내재적인 요인(factor)들의 다양한 결합에 의한 결과로 가정하는데, 이 때의 요인은 주제어 집합 또는 적어도 의미적으로 유사한 단어들의 집합이다. 그리고 기본적으로 Helmholtz machine은 이진 데이터를 다루는데, 텍스트 문서에 나타나는 단어들의 빈도를 고려하기 위해 수정된 Helmholtz machine을 제시한다. TREC-8 adhoe 데이터와 20 Newsgroup 문서 집합에 대한 클러스터링 실험 결과, 제안된 방법이 K-means 알고리즘에 비해 우수한 성능을 보였으며 주제어 추출을 통해 문서 집합의 전체 내용 파악을 용이하게 하는 특성이 있었다.

  • PDF

도서관 정보시스템을 위한 협업 필터링 기반 개인화 추천서비스 (Personalized Recommendation Service based on Collaborative Filtering for Library Information Systems)

  • 정희정;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.251-254
    • /
    • 2011
  • 본 논문에서는 도서관 정보시스템에서 보다 개인화된 추천 서비스를 제공하기 위하여, 사용자 기반 협업 필터링의 희소성 문제를 해결하기 위한 방안을 제시한다. 이를 위하여 아이템을 메타데이터 속성인 주제분류번호를 이용하여 동일 주제의 자료끼리 군집화하고 주제군집에 대한 선호도 점수를 추출하여 이를 사용자 유사도 계산에 사용하였다. 실험을 위하여 실제 연세대학교 도서관에서 동양서를 대출한 35,238명의 총 659,792건 대출/반납건수 데이터를 사용하였으며, 제안된 방법의 성능을 평가하기 위하여 기존의 사용자 기반 협업 필터링과 비교한 결과, 정확도에서는 큰 차이가 없었으나 Coverage가 크게 향상되었음을 확인하였다.

개체명 인식을 이용한 소셜 미디어에서의 약물 부작용 표현 추출 및 분류 (Detecting and classification ADRs using Named Entity Recognition on social media)

  • 정현정;김현희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.443-446
    • /
    • 2021
  • 의약품에 대한 안전성 정보 수집과 관리는 온라인, 오프라인을 통해 약물 이상 사례를 보고받는 형태로 진행되고 있다. 하지만 소비자들의 자발적인 참여로 이루어지므로 실제 발생하는 약물 부작용보다 데이터가 현저히 적다는 단점이 존재한다. 본 논문에서는 약물 이상 데이터 희소성 문제를 해결 할 수 있도록 소셜 미디어에서 약물 부작용 표현을 찾을 수 있도록 하였다. 소셜 미디어의 경우에는 표준 약물 부작용 용어를 사용하기보다는 일반인들이 자연어로 표현한 경우가 많으므로 개체명 인식 기법을 이용해 부작용을 추출할 수 있는 모델을 개발하였다. 또한 추출된 부작용 표현을 표준용어로 분류할 수 있는 모델을 제시하였다. 실험 결과 제안한 두 가지 모델은 0.9 이상의 정확도를 얻을 수 있었으며, 일반 사용자들이 자연어로 표현한 약물 부작용 표현을 효과적으로 찾아내고 표준 부작용 용어로 매핑할 수 있음을 보여준다.

희소한 네트워크에서 부호가 있는 그래프 합성곱 네트워크 방법들의 부호 예측 정확도 분석 (Analysis of Sign Prediction Accuracy with Signed Graph Convolutional Network Methods in Sparse Networks)

  • 김민정;이연창;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.468-469
    • /
    • 2023
  • 실세계 네트워크 데이터에서 노드들 간의 관계는 종종 친구/적 혹은 지지/반대와 같이 대조적인 부호를 갖는다. 이러한 네트워크를 분석하기 위해, 부호가 있는 네트워크 임베딩 (signed network embedding, 이하 SNE) 문제에 대한 관심이 급증하고 있다. 특히, 최근 들어 그래프 합성곱 네트워크 기술을 기반으로 하는 SNE 방법들에 대한 연구가 활발히 수행되어 오고 있다. 본 논문에서는, 부호가 있는 네트워크의 희소성 정도가 기존 SNE 방법들의 성능에 어떻게 영향을 미치는 지에 대해 분석하고자 한다. 4 개의 실세계 데이터 집합들을 이용한 실험을 통해, 우리는 기존 방법들의 부호 예측 정확도가 희소한 네트워크들에서는 상당히 감소하는 것을 확인하였다.

Sparse and low-rank feature selection for multi-label learning

  • Lim, Hyunki
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권7호
    • /
    • pp.1-7
    • /
    • 2021
  • 본 논문에서는 다중 레이블 분류를 위한 특징 선별 기법을 제안한다. 기존 많은 특징 선별 기법들은 상호정보척도 등을 이용하여 특징과 레이블 사이의 연관성을 계산하여 특징을 선별하였다. 하지만 상호정보척도는 결합 확률을 요구하기 때문에 실제 전제 특징 집합에서 결합 확률을 계산하는 것은 어렵다. 따라서 소수의 특징만 계산이 가능하여 지역적 최적화만 가능하다는 단점을 가진다. 이런 지역적 최적화 문제를 피해, 주어진 특징 전체 공간에서 저랭크 공간을 구성하고, 희소성을 가진 특징들을 선별할 수 있는 특징 선별 기법을 제안한다. 이를 위해 뉴클리어 노름을 이용해 회귀 기반의 목적함수를 설계하였고, 이 목적 함수의 최적화 문제를 풀기 위한 경사하강법 방식의 알고리즘을 제안하였다. 4가지의 데이터와 3가지 다중 레이블 분류 성능을 기준으로 다중 레이블 분류 실험 결과를 통해 제안하는 방법론이 기존 특징 선별 기법보다 좋은 성능을 나타내는 것을 보였다. 또한 제안하는 목적함수의 파라미터 값 변화에도 성능 변화가 둔감한 것을 실험적인 결과로 확인하였다.

연관규칙을 이용한 상황인식 음악 추천 시스템 (A Music Recommendation System based on Context-awareness using Association Rules)

  • 오재택;이상용
    • 디지털융복합연구
    • /
    • 제17권9호
    • /
    • pp.375-381
    • /
    • 2019
  • 최근 추천 시스템은 패션, 동영상, 음악 등을 중심으로 맞춤형 추천 서비스가 제공되어 사용자들의 관심을 모으고 있다. 그러나 이러한 서비스들은 실시간으로 발생하는 상황 정보를 사용하지 않아 여러 상황에 따른 적합한 서비스를 사용자에게 제공하기가 어렵다. 또한 적용되는 상황 정보가 차원을 확장시킬 경우, 데이터 희소성(Data Sparsity)을 증가시켜 사용자들에게 적합한 음악들을 추천할 수 없는 문제가 발생한다. 본 연구에서는 이러한 문제점을 해소시키기 위해 연관규칙(Association Rules)을 적용하여 사용자의 현재 위치 정보와 시간 정보에 대한 관계성 및 규칙들을 이용하여 실시간 상황에서 적합한 음악을 추천하는 시스템을 제안하였다. 수집된 상황 정보를 바탕으로 5-fold Cross Validation을 진행하여 위치와 시간 정보에 따른 추천 시스템의 정확도를 측정하였다. 그 결과 상황 정보가 누적됨에 따라 추천 시스템의 정확도가 향상되는 것을 확인할 수 있었다.

유전자 알고리즘을 이용한 클러스터링 기반 협력필터링 (Clustering-based Collaborative Filtering Using Genetic Algorithms)

  • 이수정
    • 창의정보문화연구
    • /
    • 제4권3호
    • /
    • pp.221-230
    • /
    • 2018
  • 추천 시스템의 주요 방법인 협력 필터링 기술은 실제 상업용 온라인 시스템에서 성공적으로 구현되어 서비스가 제공되고 있다. 그러나, 이 기술은 본질적으로 여러 가지 단점을 내포하는데, 데이터 희소성, 콜드 스타트, 확장성 문제 등이 그 예이다. 확장성 문제를 해결하기 위하여 클러스터링 기법을 활용한 협력 필터링 방법이 연구되어 왔다. 본 연구에서 제안하는 협력 필터링 시스템에서는 가장 널리 활용되는 클러스터링 기법들 중 하나인 K-means 알고리즘의 단점을 개선하고자 유전자 알고리즘을 이용한다. 또한, 기존 연구에서 최적화된 클러스터링 결과를 추구하였던 것과는 달리, 제안 방법은 클러스터링 결과를 활용한 협력 필터링 시스템 성능의 최적화를 목표로 하므로, 실질적으로 시스템의 성능을 향상시킬 수 있다.

하이퍼엣지 예측 작업에서 네거티브 샘플링 기술의 성능 분석 (Performance Evaluation of Negative Sampling Methods in a Hyperedge Prediction Task)

  • 이다은;유송경;고윤용;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.527-530
    • /
    • 2024
  • 하이퍼그래프(hypergraph)는 실세계의 여러 객체가 함께 형성하는 복잡한 그룹 관계를 하이퍼엣지(hyperedge)로 정보 손실 없이 모델링할 수 있는 새로운 데이터 구조이다. 하이퍼엣지 예측(hyperedge prediction task)이란 하이퍼그래프로 표현된 실세계 네트워크에서 아직 관찰되지 않은 그룹관계 혹은 미래에 발생할 가능성이 높은 관계를 예측하는 것으로, 단백질 상호작용 분석(PPI), 추천시스템, 소셜 네트워크 분석 등 다양한 응용 분야에서 활용된다. 그러나, 하이퍼엣지 예측은 심각한 데이터 희소성 문제로 정확한 예측이 어렵다는 근본적인 한계를 지닌다. 이러한 한계를 완화하기 위해 다양한 네거티브 샘플링(negative sampling) 기술이 활용될 수 있는데, 아직까지 각 샘플링 기술이 하이퍼엣지 예측 정확도에 미치는 효과에 대해 충분히 연구되지 않았다. 본 논문에서는 하이퍼엣지 예측에 활용되는 다양한 네거티브 샘플링 방법의 효과를 분석한다. 실험 결과를 통해, 네거티브 샘플링 기법과 포지티브와 네거티브 하이퍼엣지 수의 비율에 따른 정확도 변화 양상을 분석한다.