• 제목/요약/키워드: 클러스터링 문제

검색결과 429건 처리시간 0.024초

자기조직화지도를 통한 아파트 가격의 패턴 분석 (Pattern Analysis of Apartment Price Using Self-Organization Map)

  • 이지영;유재필
    • 한국융합학회논문지
    • /
    • 제12권11호
    • /
    • pp.27-33
    • /
    • 2021
  • 최근 인공지능, 딥러닝, 빅데이터 등 4차 산업의 핵심 분야에 대한 관심이 커지면서 기존의 의사결정 문제를 전통적인 방법론의 한계점을 최소화하는 과학적 접근 방식이 대두되고 있다. 특히 이런 과학적인 기법들은 주로 금융 상품의 방향성을 예측하는데 사용되는데 본 연구에서는 사회적으로 관심이 높은 아파트 가격의 요인을 자기조직화지도를 통해 분석하고자 한다. 이를 위해 아파트 가격의 실질 가격을 추출하고 아파트 가격에 영향을 주는 총 16개의 입력 변수를 선정한다. 실험 기간은 1986년 1월부터 2021년 6월까지이며 아파트 가격의 상승 및 횡보 구간을 나눠 각 구간 별 변수들의 특징을 살펴본 결과, 상승 구간과 횡보 구간의 입력 변수의 통계적 성향이 뚜렷하게 구분되는 것을 알 수 있었다. 더불어 U1~U3 구간이 N1~N3 구간에 비해서 변수들의 표준편차가 상대적으로 크게 나왔다. 본 연구는 중장기적으로 상승과 하락이라는 큰 주기를 갖고 있는 부동산에 대해서 현재 시점의 현황을 정량적으로 분석한 것에 의미가 있으며 향후 이미지 학습을 통해 미래 방향성을 예측하는 연구에 도움이 되기를 기대한다.

오토인코더 기반 수치형 학습데이터의 자동 증강 기법 (Automatic Augmentation Technique of an Autoencoder-based Numerical Training Data)

  • 정주은;김한준;전종훈
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권5호
    • /
    • pp.75-86
    • /
    • 2022
  • 본 연구는 딥러닝 기반 변분 오토인코더(Variational Autoencoder)를 활용하여 수치형 학습데이터 내 클래스 불균형 문제를 해결하고, 학습데이터를 증강하여 학습모델의 성능을 향상시키고자 한다. 우리는 주어진 테이블 데이터에 대하여 인위적으로 레코드 개수를 늘리기 위해 'D-VAE'을 제안한다. 제안 기법은 최적의 데이터 증강을 지원하기 위해 우선 이산화와 특징선택을 수반한 전처리 과정을 수행한다. 이산화 과정에서 k-means 클러스터링을 적용하여 그룹화한 후, 주어진 데이터가 원-핫 인코딩(one-hot encoding) 기법으로 원-핫 벡터(one-hot vector)로 변환한다. 이후, 특징 선택 기법 중 RFECV 기법을 활용하여 예측에 도움이 되는 변수를 가려내고, 이에 대해서만 변분 오토인코더를 활용하여 새로운 학습데이터를 생성한다. 제안 기법의 성능을 검증하기 위해 4가지 유형의 실험 데이터를 활용하여 데이터 증강 비율별로 그 유효성을 입증한다.

Personalized Size Recommender System for Online Apparel Shopping: A Collaborative Filtering Approach

  • Dongwon Lee
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권8호
    • /
    • pp.39-48
    • /
    • 2023
  • 본 연구는 의류의 디자인 간 치수의 불일치와 비표준화로 인해 온라인 구매 시 발생하는 치수 선택의 오류 문제를 해결할 수 있는 방안을 제시하기 위해 수행되었다. 본 논문은 구매자에게 개인화된 치수를 제시할 수 있는 기계 학습 기반 추천 시스템의 구현 방안을 다루고 있다. 온라인 상거래로부터 발생된 구매 데이터를 사용하여 비음수 행렬 분해(NMF), 특이값 행렬 분해(SVD), k-최근접 이웃(KNN), 공동 클러스터링(Co-Clustering) 등 여러 검증된 협업 필터링 알고리즘을 훈련하였고, 이들 간에 성능을 비교하였다. 연구 결과, 비음수 행렬 분해 (NMF) 알고리즘이 다른 알고리즘들보다 뛰어난 성능을 보임을 확인할 수 있었다. 동일한 계정을 사용하는 여러 구매자가 포함되는 구매 데이터의 특성에도 불구하고, 제안 모형은 충분한 정확도를 보였다. 본 연구의 결과는 치수 선택의 오류로 인한 반품률을 감소하고 전자상거래 플랫폼에서의 고객 경험을 향상시키는 데 기여할 것으로 기대된다.

영화 추천 시스템의 초기 사용자 문제를 위한 장르 선호 기반의 클러스터링 기법 (Clustering Method based on Genre Interest for Cold-Start Problem in Movie Recommendation)

  • 유띳로따낙;누르지드;하인애;조근식
    • 지능정보연구
    • /
    • 제19권1호
    • /
    • pp.57-77
    • /
    • 2013
  • 소셜 미디어는 모바일 어플리케이션과 웹에서 가장 많이 사용되는 미디어 중 하나이다. Nielsen사의 보고서에 따르면 소셜 네트워크 서비스와 블로그가 온라인 사용자의 주 활동 공간으로 사용되고 있으며, 미국인 중에서 온라인 활동이 왕성한 5명의 사용자중 4명은 매일 소셜 네트워크 서비스와 블로그를 방문하고 온라인 활동 시간의 23%를 소비한다고 집계하고 있다. 미국의 인터넷 사용자들은 야후, 구글, AOL 미디어 네트워크, 트위터, 링크드인 등과 같은 소셜 네트워크 서비스중 페이스북에서 가장 많은 시간을 소비한다. 최근에는 대부분의 회사들이 자신의 특정 상품에 대하여 "페이스북 페이지(Facebook Page)"를 생성하고 상품에 대한 프로모션을 진행한다. 페이스북에서 제공되는 "좋아요" 옵션은 페이스북 페이지를 통해 자신이 관심을 가지는 상품(아이템)을 표시하고 그 상품을 지지할 수 있도록 한다. 많은 영화를 제작하는 영화 제작사들도 페이스북 페이지와 "좋아요" 옵션을 이용하여 영화 프로모션과 마케팅에 이용한다. 일반적으로 다수의 스트리밍 서비스 제공업들도 영화와 TV 프로그램을 즐기며 볼 수 있는 서비스를 사용자들에게 제공한다. 이 서비스는 일반 컴퓨터와 TV 등의 단말기에서인터넷을 통해 영화와 TV 프로그램을 즉각적으로 제공할 수 있다. 스트리밍 서비스의 선두 주자인 넷플릭스는 미국, 라틴 아메리카, 영국 그리고 북유럽 국가 등에 3천만 명 이상의 스트리밍 사용자가 가입되어 있다. 또한 넥플릭스는 다양한 장르로 구성된 수백만 개의 영화와 TV 프로그램을 보유하고 있다. 하지만 수많은 콘텐츠로 인해 사용자들은 자신이 선호하는 장르에 관련된 영화와 TV 프로그램을 찾기 위해 많은 시간을 소비해야 된다. 많은 연구자들이 이러한 사용자의 불편함을 줄이기 위해 아이템에 대한 사용자가 보지 않은 아이템에 대한 선호도를 예측하고 높은 예측값을 갖는 아이템을 사용자에게 제공하기 위한 추천 시스템을 적용하였다. 협업적 여과 방법은 추천 시스템을 구축하기 위해 가장 많이 사용되는 방법이다. 협업적 여과 시스템은 사용자들이 평가한 아이템을 기반으로 각 사용자 간의 유사도를 측정하고 목적 사용자와 유사한 성향을 가진 사용자 그룹을 결정한다. 군집된 그룹은 이웃 사용자 집단으로 불리며 이를 이용하여 특정 아이템에 대한 선호도를 예측하고, 예측 값이 높은 아이템을 목적 사용자에게 추천해 준다. 협업적 여과 방법이 적용되는 분야는 서적, 음악, 영화, 뉴스 및 비디오 등 다양하지만 논문에서는 영화에 초점을 맞춘다. 이 협업적 여과 방법이 추천 시스템 내에서 유용하게 활용되고 있지만 아직 "희박성 문제"와 "콜드 스타트 문제" 등 해결해야 할 과제가 남아있다. 희박성 문제는 아이템의 수가 증가할수록 아이템에 대한 사용자의 로그 밀도가 감소하는 것이다. 즉, 전체 아이템 수에 비해 사용자가 아이템에 대해 평가한 정보가 충분하지 않기 때문에 사용자의 성향을 파악하기 어렵고, 이로 인해 사용자가 아직 평가하지 않은 아이템에 대해서 선호도를 추측하기 어려운 것을 말한다. 이 희박성 문제가 포함된 경우 적합한 이웃 사용자 집단을 형성하는데 어려움을 겪게 되고 사용자들에게 제공되는 아이템 추천의 질이 떨어지게 된다. 콜드 스타트 문제는 시스템 내에 새로 들어온 사용자 또는 아이템으로 지금까지 한 번도 평가를 하지 않은 경우에 발생한다. 즉, 사용자가 평가한 아이템에 대한 정보가 전혀 포함되어 있지 않거나 매우 적기 때문에 이러한 경우 또한 적합한 이웃 사용자 집단을 형성하는데 어려움을 겪게 되고 사용자가 평가하지 않은 아이템에 대한 선호도 예측의 정확성이 감소되게 된다. 본 논문에서는 영화 추천 시스템에서 발생될 수 있는 초기 사용자 문제를 해결하기 위하여 사용자가 평가한 영화와 소셜 네트워크 서비스로부터 추출된 사용자 선호 장르를 활용하여 사용자 군집을 형성하고 이를 활용하는 방법을 제안한다. 소셜 네트워크 서비스로부터 사용자가 선호하는 영화 장르를 추출하기 위해 페이스북 페이지의 '좋아요' 옵션을 이용하며, 이 '좋아요' 정보를 분석하여 사용자의 영화 장르 관심사를 추출한다. 페이스북의 영화 페이지는 각 영화를 위한 페이스북 페이지로 구성되고 있으며, 사용자는 자신의 선호도에 따라서 "좋아요" 옵션을 선택할 수 있다. 사용자의 페이스북 정보는 페이스북 그래프 API를 활용하여 추출되고 이로부터 사용자 선호 영화를 알 수 있게 된다. 시스템에서 활용되는 영화 정보는 인터넷 영화 데이터베이스인 IMDb로부터 획득한다. IMDb는 수많은 영화와 TV 프로그램을 보유하고 있으며, 각 영화에 관련된 배우 정보, 장르 및 부가 정보들을 포함한다. 논문에서는 사용자가 "좋아요" 표시를 한 영화 페이지를 이용하여 IMDb로부터 영화 장르 정보를 가져온다. 그리고 추출된 영화 장르 선호도와 본 시스템에서 제안하는 영화 평가 항목을 이용하여 유사한 이웃 사용자 집단을 구성한 후, 사용자가 평가하지 않은 아이템에 대한 선호도를 예측하고, 높은 예측 값을 갖는 아이템을 사용자에게 추천한다. 본 논문에서 제안한 사용자의 선호 장르 기반의 사용자 군집 기법을 이용한 시스템을 평가하기 위해서 IMDb 데이터 집합을 이용하여 사용자 영화 평가 시스템을 구축하였고 참가자들의 영화 평가 정보를 획득하였다. 페이스북 영화 페이지 정보는 참가자들의 페이스북 계정과 페이스북 그래프 API를 통해 획득하였다. 사용자 영화 평가 시스템을 통해 획득된 사용자 데이터를 제안하는 방법에 적용하였고 추천 성능, 품질 및 초기 사용자 문제를 벤치마크 알고리즘과 비교하여 평가하였다. 실험 평가의 결과 제안하는 방법을 적용한 추천 시스템을 통해 추천의 품질을 10% 향상시킬 수 있었고, 초기 사용자 문제에 대해서 15% 완화시킬 수 있음을 볼 수 있었다.

수평 분할 방식을 이용한 병렬 셀-기반 필터링 기법의 설계 및 성능 평가 (Design and Performance Analysis of a Parallel Cell-Based Filtering Scheme using Horizontally-Partitioned Technique)

  • 장재우;김영창
    • 정보처리학회논문지D
    • /
    • 제10D권3호
    • /
    • pp.459-470
    • /
    • 2003
  • 데이터웨어하우징의 애트리뷰트 벡터나 멀티미디어 데이터베이스의 특징 벡터는 모두 고차원 데이터를 이루고 있기 때문에, 이러한 고차원 데이터를 효율적으로 검색하기 위해서는 고차원 색인 기법이 요구된다. 이를 위하여 다수의 고차원 색인 기법들이 제안되었는데, 제안된 대부분의 색인 기법들이 차원의 수가 증가할수록 검색 성능이 급격히 저하되는 ‘차원 저주(dimensional curse)’ 문제를 지니고 있다. 셀-기반 필터링(Cell-Based Filtering : CBF) 기법은 이러한 차원 저주 문제를 해결하기 위해 제안되었다. 그러나 CBF 기법은 데이터의 양이 증가할수록 선형적으로 검색 성능이 감소하며, 이를 극복하기 위해 병렬 처리 기법을 사용하는 것이 필요하다. 본 논문에서는 데이터 디클러스터링(declustering) 방법으로 수평 분할 방식을 사용한 병렬 CBF 기법을 제안한다. 아울러 제안한 병렬 CBF 기법의 성능을 최대화하기 위하여, 병렬 CBF 기법을 다수의 서버로 구성된 Shared Nothing(SN) 구조의 클러스터 아키텍쳐 하에서 구축한다. 또한 SN 구조의 클러스터 아키텍쳐에 적합한 데이타 삽입 알고리즘, 범위질의 처리 알고리즘, k-최근접 질의 처리 알고리즘을 제시한다. 마지막으로 제안하는 병렬 CBF 기법이 기존 CBF 기법과 비교하여 서버 개수에 비례하여 우수한 검색 성능을 달성함을 보인다.

클거스터 기반 다중 홉 센서 네트워크의 모델링 기법 (Modeling of the Cluster-based Multi-hop Sensor Networks)

  • 최진철;이채우
    • 대한전자공학회논문지TC
    • /
    • 제43권1호
    • /
    • pp.57-70
    • /
    • 2006
  • 센싱, 데이터 가공, 통신이 가능한 소형의 센서 노드로 구성된 무선 센서 네트워크는 다양한 환경 변화를 측정할 수 있는 유용한 수단이다. 센서 노드에서 측정된 데이터는 모든 데이터를 수집, 처리하며 사용자에게 전달하는 기능을 가진 프로세싱 센터에 전송된다. 이러한 과정은 에너지 제약을 가진 센서 노드를 고려하여 설계되어야 한다. 일반적으로 인접한 센서 노드는 유사한 정보를 가지므로, 로컬 클러스터를 형성하고 클러스터 헤드에 의해 집약된 데이터를 프로세싱 센터에 전송하는 클러스터링 기법이 저전력 구동에 효과적이다. 자동 구성능력을 지닌 기존의 다중 홉 클러스터 에너지 소비량 모델링 기법은 개별 센서 노드의 정확한 에너지 소비량을 예측할 수 없는 문제를 가지고 있었다. 따라서 본 논문에서는 이러한 문제를 보완한 새로운 클러스터 에너지 소비량 모델링 기법을 제안한다. 제안된 모델링 기법은 보로노이 배열(Voronoi tessellation)을 이용하여 클러스터 헤드의 수에 따른 에너지 소비량을 모델링한다. 즉, 센서 필드의 면적, 분포된 센서 노드의 수와 통신 범위를 이용하여 전체 네트워크의 에너지 소비량을 클러스터 헤드의 수에 따라 정량적으로 나타낸다. 본 모델링 기법을 통해 전체 네트워크의 에너지 소비량이 최소가 되는 클러스터의 수를 예측함으로써 저전력을 실현할 수 있다. 본 논문에서 제안하는 모델링 기법은 시뮬레이션을 통해 구성한 실제 네트워크의 에너지 소비량과 $90\%$ 이상의 정확도를 가지며, 기존 모델링의 $60\%$대에 비춰볼 때 상당히 우수한 정확도를 지니고 있다. 또한, 센서 노드의 밀도가 증가할수록 에너지 소비량 정확도가 증가하는 효과를 확인하였다.

사용자 로그 분석과 클러스터 내의 문서 유사도를 이용한 동적 추천 시스템 (A Dynamic Recommendation System Using User Log Analysis and Document Similarity in Clusters)

  • 김진수;김태용;최준혁;임기욱;이정현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권5호
    • /
    • pp.586-594
    • /
    • 2004
  • 웹 문서들은 빠른 생성과 소멸의 특징 때문에, 사용자는 찾고자하는 웹 문서를 신속하고 정확하게 추천해 줄 시스템을 요구하고 있다. 정제되지 않은 웹 데이타에는 사용자들의 축적된 경험들을 포함하는 유용한 정보들을 포함하고 있다. 현재, 이러한 유용한 정보를 마이닝 기법이나 통계학적 측정 방법 등을 가지고 정제하여 추천 시스템을 통해 사용자에게 제공하려는 노력이 시도되고 있다. 기존의 정보 필터링 방식은 사용자들의 프로파일을 반드시 이용해야 하는 문제점을 갖고 있으며, 협력적 필터링 방식은 First Rater 문제와 Sparsity 문제가 있다. 또한 사용자 브라우징 패턴을 이용하는 동적 추천 시스템은 연관성이 없는 웹 문서들을 결과로서 제공한다는 문제점이 있다. 본 논문에서는 웹 문서 형식에 따라 웹 문서 사이의 유사도를 이용하여 웹 문서를 분류하고, 웹 서버에 기록된 로그 파일을 이용하여 사용자 브라우징 순차 패턴 DB를 생성한다. 이렇게 생성된 정보들과 사용자들의 세션 정보를 이용하여, 사용자가 웹 문서에 접근했을 때 현재 웹 문서와 유사도가 높은 상위 N개의 연관 웹 문서 집합을 제공하고, 순차적인 특성을 갖는 웹 문서를 추천 문서로 제공하는 시스템을 제안한다.

계층적 라우팅 경로를 제공하는 에너지 균등분포 클러스터 센서 네트워크 (Energy Balancing Distribution Cluster With Hierarchical Routing In Sensor Networks)

  • 우매리
    • 융합신호처리학회논문지
    • /
    • 제24권3호
    • /
    • pp.166-171
    • /
    • 2023
  • 효율적인 에너지 관리는 제한된 자원을 가지는 센서 네트워크에서 매우 중요한 요소이며, 클러스터 기법은 그러한 관점에서 많은 연구가 이루어지고 있다. 그러나, 클러스터 헤더의 에너지 사용이 집중되는 문제가 발생할 수 있으며, 클러스터 헤더가 전 영역에 골고루 분포되지 않고 특정 영역에 집중되는 경우, 클러스터 멤버의 전송 거리가 크거나 매우 불균등한 상태가 될 수 있다. 전송거리는 에너지 소모의 문제와 직결될 수 있다. 특정 노드의 에너지가 빨리 고갈되는 것은 센서 네트워크 생존 기간을 줄이고, 전체 센서 네트워크의 효율이 저하되므로 센서 노드들의 균등한 에너지 소모는 매우 중요한 연구과제이다. 본 연구에서는 센서 클러스터 기법에서 클러스터 헤더와 센서 노드가 에너지를 균등하게 사용하기 위한 요소들을 분석하고, 클러스터 헤더가 센서 네트워크 전역에 골고루 분포하는 균등분포 클러스터링을 제안한다. 제안하는 클러스터 기법은 멀티홉 라우팅을 사용하여 원거리 전송으로 인한 센서 노드의 에너지 소모를 줄인다. 기존 연구에서 멀티홉 클러스터 기법은 클러스터 구성과 라우팅 경로 설정의 2단계 과정을 통해서 멀티홉 클러스터 경로를 설정하는 반면, 제안하는 방식은 클러스터 헤더를 선출하는 과정에서 클러스터 라우팅 경로를 설정하여 제어 메시지 과정을 최소화한다.

공간 데이터마이닝 분석을 통한 데이터의 효과적인 활용 (Effective Utilization of Data based on Analysis of Spatial Data Mining)

  • 김기범;안병구
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권3호
    • /
    • pp.157-163
    • /
    • 2013
  • 데이터마이닝은 데이터간의 상호 연관성과 다양한 패턴 분석을 통해서 우리가 알 수 없었던 새로운 발견을 할 수 있는 유용한 기술로서 현재 금융, 마케팅, 의료 등 다양한 분야에서 활용되고 있다. 본 논문에서는 공간 데이터마이닝 분석을 통한 데이터의 효과적인 활용방법을 제안한다. 서울시에 거주하는 외국인들의 기본적인 데이터를 활용하고자 한다. 하지만, 이 데이터는 다른 분야의 데이터와 구별되는 특징이 있는데, 민감 정보로 분류된다는 것과 개인정보보호 등과 같은 법적인 문제가 있을 수 있다. 따라서 개인정보를 알 수 없는 기본적 통계적 데이터를 활용하고자 한다. 제안된 방법의 주요한 특징 및 기여도는 다음과 같다. 첫째, 큰 데이터를 여러 질의방법을 통해서 정보로서 이용할 수가 있으며, 정제를 통해서 클러스터링 할 수 있다. 둘째, 이러한 정보들을 새로운 패턴이나 앞으로의 의사결정에 이용할 수 있다. 질의 결과에서 얻은 새로운 정보를 사용자가 보고 판단하여 의사결정에 이용하고자 한다. 제안된 방법의 성능평가에서는 데이터들의 주제별 도식화를 통한 시각적 접근방법을 사용하고자 한다. 제안된 방법의 성능평가 결과는 데이터를 보다 가치 있게 활용하기 위해서 데이터마이닝 기술을 이용한 분석을 통해 우리가 알 수 없었던 새로운 패턴과 결과의 발견이 가능함을 보여준다.

대용량 이동 객체 위치 데이타 관리 시스템의 개발 (Development of a Location Data Management System for Mass Moving Objects)

  • 김동오;주성완;장인성;한기준
    • 한국공간정보시스템학회 논문지
    • /
    • 제7권1호
    • /
    • pp.63-76
    • /
    • 2005
  • 최근 이동 객체의 위치 데이타를 이용하기 위한 무선 측위 기술과 모바일 컴퓨팅 기술이 급속도로 발전하였다. 또한, 이동 객체의 위치 데이타를 활용하는 위치 기반 서비스에 대한 수요가 급증하고 있으며, 이러한 서비스를 지원하기 위해서는 이동 객체의 위치 데이타를 효과적으로 저장할 수 있는 시스템이 필요하다. 이러한 시스템은 이동 객체의 수가 많고 위치 획득 간격이 짧을수록 위치 데이타가 급격히 늘어나기 때문에 대용량의 위치 데이타 처리가 가능해야 하며, 위치 기반 서비스를 위한 다양한 시공간 질의를 지원해야 하고, 또한 이동 객체의 불확실성 문제를 해결할 수 있어야 한다. 따라서, 본 논문에서는 이동 객체의 위치 데이타를 효율적으로 관리하기 위한 해쉬 기법, 클러스터링 기법, 시간 질의 검색 기법을 제시하였다. 그리고, 대용량의 이동 객체 위치 데이타를 효과적으로 저장하고 검색할 수 있으며, 시공간 질의 기능과 불확실한 과거 위치 데이타 처리 기능을 제공하는 디스크 기반의 대용량 이동 객체 위치 데이타 관리 시스템을 개발하였다. 본 시스템을 SQL-Server과 성능 비교한 결과 이동 객체 저장 성능은 약 5% 증가하였으며, 이동 객체 검색성능은 약 300% 증가하였다.

  • PDF