• Title/Summary/Keyword: 클러스터링 문제

Search Result 429, Processing Time 0.041 seconds

Web Log Analysis for Recommendation Systems (추천 시스템을 위한 웹 로그 분석)

  • Kang, Tae-Ki;Kim, Jun-Tae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04a
    • /
    • pp.527-530
    • /
    • 2002
  • 협동적 추천은 사용자의 상품에 대한 구매 데이터를 이용하여 상품을 추천하는 방법이다. 그러나 구매 데이터가 희소한 경우 추천의 정확도가 떨어지는 문제점이 있다. 이러한 희소성 문제를 해결하기 위해서 클러스터링, SVD 등 다양한 방법이 제시되었으나, 근본적으로 사용자의 성향을 파악하기에는 부족한 점이 있다. 구매 데이터만을 이용했을 때의 문제점을 해결하기 위해서는 이를 보완할 수 있는 데이터의 활용이 필요하다. 웹 로그 분석을 통해서 구매 데이터의 희소성을 보완할 수 있으며, 사용자의 상품에 대한 부정적 반응을 구매 데이터에 반영할 수 있다. 본 논문에서는 웹 사이트에 접근하는 사용자들에 의해서 만들어진 웹 로그를 분석하여 추천 시스템의 성능을 개선하였다.

  • PDF

Metadata Management Techniques in a Large Distributed File System Environment (대규모 분산 파일 시스템 환경의 메타 데이터 관리)

  • Cha, M.H.;Lee, S.M.;Kim, J.;Kim, Y.K.;Kim, M.J.
    • Electronics and Telecommunications Trends
    • /
    • v.22 no.3 s.105
    • /
    • pp.154-165
    • /
    • 2007
  • 메타 데이터와 데이터의 처리 경로를 독립시킨 분산 파일 시스템 구조는 입출력 성능향상 및 확장성 용이라는 측면에서 현재 주도적인 아키텍처로 사용되고 있다. 이러한 환경에서 클라이언트 및 데이터 서버의 수가 계속 확장되어 전체 시스템 규모가 페타(peta) 바이트급 이상 처리가 가능한 대규모로 진화될 경우 필연적으로 메타 데이터 서버에 병목 현상이 발생하게 된다. 본 고에서는 이러한 문제를 처리하기 위한 아키텍처로서 메타 데이터 서버들의 클러스터링을 고려하며, 이를 위해 제안된 다양한 기술들의 동작 원리 및 장단점 등을 분석하고 고찰해 보기로 한다.

An Efficient Server Selection Over The Multi-site Internet Environments (멀티 사이트 인터넷 환경에서 효율적인 서버 선택)

  • 이현표;이균하
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.26 no.10A
    • /
    • pp.1662-1670
    • /
    • 2001
  • 인터넷 서비스 품질의 향상을 위해 고성능 서버의 증설 및 트래픽 분산 등 서비스 대역의 확장으로 인터넷 접속 장치인 서버 및 가입자망의 접속 속도는 급속히 향상되었으나, 인터넷의 접속 품질과 속도에 대한 만족도는 기대에 못 미치고 있다. 이러한 문제는 인터넷 접속장치의 증설로는 증가하는 트래픽을 수용하는 데에는 한계가 있고, 사용자측 노드에서 CP(Content Provider) 서버를 이르는 미들마일(Middel-mile) 구간이 개선되지 못하는데 원인이 있다. 본 논문에서는 지역적으로 분산된 멀티 사이트 인터넷 환경에서 각 클라이언트의 위치에 따라 클러스터링된 서버들의 로드 밸런싱을 유지하면서 서버와 사용자 측 노드를 최소화하여 사용자에게 효율적인 서버를 선택하는 방법을 제안하였다. 제안된 방법에는 효율적인 서버를 선택하기 위해 네트워크 상태 감시자(NSP)와 컨텐츠 서버 관리자를 두어 각 서버의 상태와 각 분산된 네트워크의 상태를 파악할 수 있도록 하였으며, 서버 선택 알고리즘과 알고리즘을 실현하기 위한 서비스 구조를 제시하였다. 또한, 효율적인 서비스 서버를 선택하기 위한 인자들과 측정방법을 나타내었으며, 제안된 서비스 구조에서 실험을 통하여 타당성을 확인하였다.

  • PDF

Perceptron-like SOM : Generalization of SOM (퍼셉트론 형태의 SOM : SOM의 일반화)

  • Song, Geun-Bae;Lee, Haing-Sei
    • The Transactions of the Korea Information Processing Society
    • /
    • v.7 no.10
    • /
    • pp.3098-3104
    • /
    • 2000
  • This paper defiens a perceptron-like self-organizing map(PSOM) and show that PSOM is equivalent to Kohonen's self-organizing map(SOM) if target values of output neurons of PSOM are selected properly. This fact imphes that PSOM is a generalized SOM algorithm. This paper also show that if clustering is restricted to vector sets distributed on hypersphere with unit radius, SOM and dot-product SOM(DOSM) are equivalent algorithms. Therefore we conclude that DSOM is a special case of SOM, which in turn a special, case of PSOM.

  • PDF

Automata Species Classifier based on Protein Sequences and Text Information (단백질 서열과 텍스트 정보 기반 오토마타 종 분류기)

  • Park, Jun-Hyeong;Lee, Hyeon-Jeong;Yang, Ji-Hun;Kim, Seon-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06b
    • /
    • pp.9-14
    • /
    • 2007
  • 단백질 분류는 현대 생물학의 큰 도전과제이다. 현재 여러 단체에 의해 잘 관리되는 상세한 주석이 달린 많은 양의 단백질 정보들이 존재한다. 이러한 데이터베이스의 덕분으로 다양한 물리 화학적 특성과 주석들에 기반하고 있는 분류 기법들이 연구되고 있다. 특히 아미노산들로 이루어진 단백질 서열이 해당 단백질의 분류에 중요한 역할을 하는 진화적 기록들의 단서가 되기 때문에 단백질 서열들에 대한 연구가 활성화되고 있다. 비록 단백질 서열이 단백질 분류 문제의 중요한 특징이 된다고 해도 단순한 단백질 서열만으론 해당 단백질에 대한 충분한 정보를 얻을 수 없으며, 타 종 간에도 기능상 유사성 때문에 서로 비슷하게 판별될 수 있다. 이러한 문제점에 착안해서 우리는 오토마타 종 분류기라고 부르는 새로운 시스템적인 종 분류 접근 방법을 제안한다. 이 시스템의 클러스터링과 종 분류 판별 성능에 대한 평가 실험을 수행해본 결과 상대적으로 좋은 성능을 얻을 수 있었다.

  • PDF

Clustering Performance Analysis for Time Series Data: Wavelet vs. Autoencoder (시계열 데이터에 대한 클러스터링 성능 분석: Wavelet과 Autoencoder 비교)

  • Hwang, Woosung;Lim, Hyo-Sang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.585-588
    • /
    • 2018
  • 시계열 데이터의 특징을 추출하여 분석하는 과정에서 시게열 데이터가 가지는 고차원성은 차원의 저주(Course of Dimensionality)로 인해 데이터내의 유효한 정보를 찾는데 어려움을 만든다. 이러한 문제를 해결하기 위해 차원 축소 기법(dimensionality reduction)이 널리 사용되고 있지만, 축소 과정에서 발생하는 정보의 희석으로 인하여 시계열 데이터에 대한 군집화(clustering)등을 수행하는데 있어서 성능의 변화를 가져온다. 본 논문은 이러한 현상을 관찰하기 위해 이산 웨이블릿 변환(Discrete Wavelet Transform:DWT)과 오토 인코더(AutoEncoder)를 차원 축소 기법으로 활용하여 시계열 데이터의 차원을 압축 한 뒤, 압축된 데이터를 K-평균(K-means) 알고리즘에 적용하여 군집화의 효율성을 비교하였다. 성능 비교 결과, DWT는 압축된 차원수 그리고 오토인코더는 시계열 데이터에 대한 충분한 학습이 각각 보장된다면 좋은 군집화 성능을 보이는 것을 확인하였다.

Sturctural Developments of Improved IG-based Fuzzy Systems Using Symbolic Coded Genetic Algorithms (기호코딩기반 유전자 알고리즘을 이용한 개선된 정보입자 기반 퍼지시스템의 구조 개발)

  • Choi, Jeoung-Nae;Oh, Sung-Kwun;Kim, Hyun-Ki
    • Proceedings of the KIEE Conference
    • /
    • 2007.07a
    • /
    • pp.1813-1814
    • /
    • 2007
  • 본 논문에서는 개선된 정보입자 기반 퍼지모델과 기호코딩 기반 유전자 알고리즘을 이용한 퍼지모델의 구조동정을 다룬다. 클러스터링 방법을 이용하여 초기 데이터를 분할하고 각 클러스터에 대한 중심값과 소속정도에 대한 정보가 취득되며 이 취득된 정보입자는 퍼지모델에 적용된다. 또한 많은 입력변수를 갖는 시스템에 대하여 발생되는 고차원성 문제를 해결하기 위하여 기호코딩 기반 유전자 알고리즘을 이용하여 적절한 입력변수, 멤버쉽 함수의 수, 후반부 다항식의 차수등을 효율적으로 선택할 수 있는 구조동정방법을 제시한다.

  • PDF

Rebuilding Tree Algorithm for Delay-Aware and Energy-efficient Data Aggregation in Wireless Sensor Networks (무선센서네트워크에서 에너지 효율 및 딜레이를 고려한 트리 재구축 알고리즘)

  • Lee, Hyun;Yeoum, Sanggil;Kim, Dongsoo;Choo, Hyunseung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.188-189
    • /
    • 2014
  • 무선센서네트워크에서 센서 노드들은 정보를 수집 및 취합하기 위해 다양하게 사용되고 있다. 각 센서들은 베터리 전력을 사용하여 에너지 절약은 가장 중요한 이슈 중 하나다. 현재까지 에너지 소모가 가장 큰 장거리 통신 시 에너지 절약 및 분산제어가 용이한 클러스터링의 데이터 병합 관련 분야는 꾸준히 관심을 받아오고 있다. 최근 이를 기반으로 데이터 병합 시 생기는 딜레이를 최소화하고, 에너지 소비량 도 고려한 다양한 알고리즘들이 제안되었다. 하지만 토폴로지 형성 시 데이터 병합 딜레이와 에너지 효율을 동시에 최적화하는 상황에서 장거리 노드 간 링크 생성 문제는 여전히 해결되지 않고 있다. 본 논문은 이러한 문제점을 해결하기 위해 노드 간 링크를 재구축하여 트리의 구조유지하면서 링크들의 길이를 줄일 수 있는 트리 재구축 알고리즘을 제안한다.

Virtual Machine Clustering & Dynamic Provisioning on OpenStack (OpenStack에서의 가상머신 클러스터링 및 동적 할당)

  • Yeom, Jaekeun;Yu, Jung-Lok;Lee, Jungha;Jeong, Ki-Moon;Jung, DaeYong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.253-254
    • /
    • 2015
  • 계산과학분야에서 컴퓨팅자원을 사용하는 사용자들은 수천 개의 CPU 규모의 클러스터단위로 컴퓨팅 자원을 사용한다. 자원의 크기에 따라 작업 실행 시간이 줄어들기 때문에 사용자들이 정확하고 빠른 연구결과를 얻기 위해서는 많은 컴퓨팅자원이 필요하다. 하지만 컴퓨팅자원의 한계와 비용의 문제로 모든 사용자들이 원하는 자원을 할당 받지 못한다. 본 논문에서는 컴퓨팅자원을 가상머신 클러스터 단위로 제공하는 방법과 자원의 낭비를 줄이기 위한 가상머신 동적 할당방법을 구현하였다.

TV Program Recommendation Method Using LDA Clustering (LDA 클러스터링을 이용한 TV 프로그램 추천 기법)

  • Park, Chang-yong;Chung, Yeounoh;Kim, Noo-ri;Lee, Jee-hyoung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.272-274
    • /
    • 2013
  • 최근 TV 시청자들의 콘텐츠 소비량이 증가함에 따라 방송사에서 제공하는 TV 프로그램들의 수량이 방대해지고 장르 또한 다양해지고 있기 때문에 시청자가 TV 프로그램을 선택하는 것이 점점 더 어려워지고 있다. 이러한 문제를 해결하기 위해 TV 프로그램 추천이라는 연구가 활발하게 이루어지고 있다. 기존의 연구에서는 시청자를 기반으로 하는 협업 필터링 추천 방법과 아이템을 기반으로 하는 협업 필터링 추천 방법이 제안되었지만 시청자의 시청 의도를 고려하는 연구는 사례는 적다. 이에 본 논문에서는 LDA 모델링을 이용하여 사용자의 시청 의도를 고려한 TV 프로그램 추천 기법을 제안한다. 실험을 통해 시청자의 시청 의도가 반영된 TV 프로그램 추천이 가능하다는 것을 검증했다.