• Title/Summary/Keyword: clustering problem

검색결과 709건 처리시간 0.028초

Unbounded Johnson 분포를 이용한 GARCH 수익률 모형의 적용 (GARCH Model with Conditional Return Distribution of Unbounded Johnson)

  • 정승현;오정준;김성곤
    • 응용통계연구
    • /
    • 제25권1호
    • /
    • pp.29-43
    • /
    • 2012
  • 주식, 환율 등과 같은 금융자료의 수익률의 분포는 정규분포에 비해 꼬리가 두껍고, 좌우 비대칭성을 보인다. 조건부수익률이 정규분포를 따른다고 가정한 GARCH 모형을 이용하여 VaR을 추정하였을 때, 이러한 비정규성 때문에 적절한 추정이 이루어지지 않고, VaR을 초과하는 손실의 발생과정에 군집(clustering)현상이 발생하는 문제점이 있다. 이러한 문제를 해결하기 위해, 본 논문에서는 조건부수익률의 분포로 unbounded Johnson 분포를 이용한 GARCH 모형을 이용하여 VaR을 추정한다. 또한, 조건부수익률이 각각 정규분포, Student-t 분포를 따르는 GARCH 모형의 경우와 비교하였다. 초과손실 발생과정 자료를 이용하여 실패율검정과 군집성검정을 통해 조건부수익률 분포로 unbounded-Johnson 분포를 사용하는 방법의 타당성을 살펴보았다. Unbounded Johnson 분포가 조건부수익률 분포로 주어지는 GARCH 모형의 경우는 과소, 과대추정을 하지 않고, 군집현상 또한 발생하지 않아 적절한 추정을 하고 있음을 확인하였다.

데이터 마이닝에서 비트 트랜잭션 클러스터링을 이용한 빈발항목 생성 (Frequent Itemset Creation using Bit Transaction Clustering in Data Mining)

  • 김의찬;황병연
    • 정보처리학회논문지D
    • /
    • 제13D권3호
    • /
    • pp.293-298
    • /
    • 2006
  • 데이터베이스에는 많은 데이터들이 저장되어 있다. 무수히 많은 데이터들로부터 어떠한 정보를 얻기 위해서는 질의문을 사용하면 된다. 질의문을 통해 얻는 정보들은 기본적이고 단순한 정보들이다. 데이터 마이닝은 데이터베이스를 통해서 얻을 수 없는 정보를 얻게 해주는 기법이다. 데이터 마이닝 기법에는 여러 가지가 있지만 본 논문에서는 클러스터링과 연관규칙을 찾아내는 기법을 다룬다. 기존의 연관규칙 기법에서의 문제점을 보완하고 더 나은 규칙들을 찾아내기 위한 방법을 제시한다. 여기에 클러스터링 방법을 적용하게 되는데 기존의 거리기반이나 범주 기반 등의 클러스터링이 아닌 연관규칙에 적합한 클러스터링 기법을 제안하여 적용하게 된다. 각 클러스터의 연관규칙들을 찾게 되면 기존의 전체 데이터베이스에서 찾아진 연관규칙 뿐만 아니라 클러스터들의 특징이 될 규칙들도 찾을 수 있게 된다. 본 연구를 통해 대용량 데이터베이스의 많은 트랜잭션 접근을 줄이고 소집단의 연관성도 찾을 수 있다.

XML 문서의 유사 경로 검색을 위한 인덱싱 시스템 (An Indexing System for Retrieving Similar Paths in XML Documents)

  • 이범석;황병연
    • 정보처리학회논문지D
    • /
    • 제15D권2호
    • /
    • pp.171-178
    • /
    • 2008
  • 1998년 W3C에 의해 XML 표준이 제정된 이래로, XML을 사용하는 문서가 급증하였다. 이에 따라 방대한 양의 XML 문서들을 효율적으로 관리하고 검색하기 위한 많은 시스템들이 개발되고 있다. 특히 비트맵 인덱스 기법을 사용한 BitCube는 이러한 분야의 대표적인 시스템이다. 비트맵 인덱스 기법을 이용하여 유사한 경로를 대상으로 클러스터링을 수행한 경로 비트맵 인덱스 시스템(LH06)은 기존의 BitCube 시스템이 유사경로 검색을 할 수 없는 문제점을 개선하였다. 유사경로 검색 시스템은 정확히 일치하는 경로뿐만 아니라, 사용자가 질의한 경로와 유사한 경로까지도 빠르게 검색해 낼 수 있다는 장점을 가진다. 그러나 경로 사이의 유사도를 계산하는 알고리즘이 가진 몇 가지 문제점들로 인해 유사하다고 볼 수 있는 두 경로의 유사도를 계산할 수 없어서 서로 다른 클러스터로 인식되고, 이는 의미 없는 클러스터의 수를 증가시키는 문제점을 야기한다. 이러한 문제점의 해결을 위해 본 논문에서는 보다 합리적이고 정확한 경로 유사도 계산 방법을 제안하고, 기존 시스템과의 성능평가를 통해 제안하는 방법이 더 낫다는 것을 증명한다.

공유모델 인식 성능 향상을 위한 효율적인 연속 어휘 군집화 모델링 (Efficient Continuous Vocabulary Clustering Modeling for Tying Model Recognition Performance Improvement)

  • 안찬식;오상엽
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권1호
    • /
    • pp.177-183
    • /
    • 2010
  • 연속 어휘 인식 시스템에서는 통계적 방법에 의한 어휘 인식을 수행하기 위하여 확률분포를 이용하며 이는 음소 단위의클러스터링을사용하여모델링하여샘플들을기반으로 확률 파라미터를 추정한다. 어휘 검색 시 추정된 확률 파라미터로부터 인식 결과를 나타내는데 미리 정의되지 않은 음소와 추가되어진 음소로부터 인식률이 저하되는 문제점이 발생하며, 하나의 클러스터링으로 모델링하므로 가우시안 모델이 정확성을 확보하지 못한다는 단점이 있다. 이를 개선하기 위하여 확률 분포의 혼합 가우시안 모델을 최적화하여 유사도를 기반으로 Euclidean과 Bhattacharyya 거리 측정 방법을 혼합한 군집화 모델을 제안하고, 군집화된 모델에서 음소 단위로 확률 모델을 탐색할 수 있는 시스템을 모델링하였다. 본 논문에서 제안한 시스템을 적용한 결과 시스템 성능에서 어휘 종속 인식률은 98.63%, 어휘 독립 인식률은 97.91%의 인식률을 나타내었다.

중앙 집중식 불균등 체인 클러스터링을 위한 스케줄링 모델 (Scheduling Model for Centralized Unequal Chain Clustering)

  • 지현호;모하매드 바니아타;홍지만
    • 스마트미디어저널
    • /
    • 제8권1호
    • /
    • pp.43-50
    • /
    • 2019
  • 수많은 디바이스들이 무선 네트워크를 통해 연결 되고 있고, 이러한 연결을 효율적으로하기 위한 연구들이 진행되고 있다. 많은 연구에서 효율적인 디바이스 관리를 위해 클러스터링을 사용하고 있지만 클러스터의 특정 노드에 부하가 집중되는 경우가 많아 전체 네트워크가 불안정해질 수 있다. 이러한 문제를 해결하기 위해 본 논문에서는 센서 노드의 효율적인 관리를 위해 중앙 집중식 불균등 체인 클러스터 스케줄링 모델을 제안한다. 클러스터의 구성을 위해 클러스터 헤드 범위와 기지국까지의 거리를 기반으로 하고, 기지국의 위치가 동일하지 않은 동심 체인 클러스터링을 구축하기 위해 주벡터 투사 기법을 사용한다. 데이터의 전송은 다중 무선 액세스 인터페이스인 MIMO(Multiple-Input Multiple-Output)를 활용한다. 실험을 통해 클러스터 헤드의 에너지 소비를 줄이고 네트워크 수명이 향상됨을 보인다.

Semantic Conceptual Relational Similarity Based Web Document Clustering for Efficient Information Retrieval Using Semantic Ontology

  • Selvalakshmi, B;Subramaniam, M;Sathiyasekar, K
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권9호
    • /
    • pp.3102-3119
    • /
    • 2021
  • In the modern rapid growing web era, the scope of web publication is about accessing the web resources. Due to the increased size of web, the search engines face many challenges, in indexing the web pages as well as producing result to the user query. Methodologies discussed in literatures towards clustering web documents suffer in producing higher clustering accuracy. Problem is mitigated using, the proposed scheme, Semantic Conceptual Relational Similarity (SCRS) based clustering algorithm which, considers the relationship of any document in two ways, to measure the similarity. One is with the number of semantic relations of any document class covered by the input document and the second is the number of conceptual relation the input document covers towards any document class. With a given data set Ds, the method estimates the SCRS measure for each document Di towards available class of documents. As a result, a class with maximum SCRS is identified and the document is indexed on the selected class. The SCRS measure is measured according to the semantic relevancy of input document towards each document of any class. Similarly, the input query has been measured for Query Relational Semantic Score (QRSS) towards each class of documents. Based on the value of QRSS measure, the document class is identified, retrieved and ranked based on the QRSS measure to produce final population. In both the way, the semantic measures are estimated based on the concepts available in semantic ontology. The proposed method had risen efficient result in indexing as well as search efficiency also has been improved.

An Efficient Deep Learning Ensemble Using a Distribution of Label Embedding

  • Park, Saerom
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권1호
    • /
    • pp.27-35
    • /
    • 2021
  • 본 연구에서는 레이블 임베딩의 분포를 반영하는 딥러닝 모형을 위한 새로운 스태킹 앙상블 방법론을 제안하였다. 제안된 앙상블 방법론은 기본 딥러닝 분류기를 학습하는 과정과 학습된 모형으로 부터 얻어진 레이블 임베딩을 이용한 군집화 결과로부터 소분류기들을 학습하는 과정으로 이루어져 있다. 본 방법론은 주어진 다중 분류 문제를 군집화 결과를 활용하여 소 문제들로 나누는 것을 기본으로 한다. 군집화에 사용되는 레이블 임베딩은 처음 학습한 기본 딥러닝 분류기의 마지막 층의 가중치로부터 얻어질 수 있다. 군집화 결과를 기반으로 군집화 내의 클래스들을 분류하는 소분류기들을 군집의 수만큼 구축하여 학습한다. 실험 결과 기본 분류기로부터의 레이블 임베딩이 클래스 간의 관계를 잘 반영한다는 것을 확인하였고, 이를 기반으로 한 앙상블 방법론이 CIFAR 100 데이터에 대해서 분류 성능을 향상시킬 수 있다는 것을 확인할 수 있었다.

K-Means Clustering with Content Based Doctor Recommendation for Cancer

  • kumar, Rethina;Ganapathy, Gopinath;Kang, Jeong-Jin
    • International Journal of Advanced Culture Technology
    • /
    • 제8권4호
    • /
    • pp.167-176
    • /
    • 2020
  • Recommendation Systems is the top requirements for many people and researchers for the need required by them with the proper suggestion with their personal indeed, sorting and suggesting doctor to the patient. Most of the rating prediction in recommendation systems are based on patient's feedback with their information regarding their treatment. Patient's preferences will be based on the historical behaviour of similar patients. The similarity between the patients is generally measured by the patient's feedback with the information about the doctor with the treatment methods with their success rate. This paper presents a new method of predicting Top Ranked Doctor's in recommendation systems. The proposed Recommendation system starts by identifying the similar doctor based on the patients' health requirements and cluster them using K-Means Efficient Clustering. Our proposed K-Means Clustering with Content Based Doctor Recommendation for Cancer (KMC-CBD) helps users to find an optimal solution. The core component of KMC-CBD Recommended system suggests patients with top recommended doctors similar to the other patients who already treated with that doctor and supports the choice of the doctor and the hospital for the patient requirements and their health condition. The recommendation System first computes K-Means Clustering is an unsupervised learning among Doctors according to their profile and list the Doctors according to their Medical profile. Then the Content based doctor recommendation System generates a Top rated list of doctors for the given patient profile by exploiting health data shared by the crowd internet community. Patients can find the most similar patients, so that they can analyze how they are treated for the similar diseases, and they can send and receive suggestions to solve their health issues. In order to the improve Recommendation system efficiency, the patient can express their health information by a natural-language sentence. The Recommendation system analyze and identifies the most relevant medical area for that specific case and uses this information for the recommendation task. Provided by users as well as the recommended system to suggest the right doctors for a specific health problem. Our proposed system is implemented in Python with necessary functions and dataset.

유전자알고리즘 및 발견적 방법을 이용한 차량운송경로계획 모델 (Integrated Vehicle Routing Model for Multi-Supply Centers Based on Genetic Algorithm)

  • 황흥석
    • 한국시뮬레이션학회논문지
    • /
    • 제9권3호
    • /
    • pp.91-102
    • /
    • 2000
  • The distribution routing problem is one of the important problems in distribution and supply center management. This research is concerned with an integrated distribution routing problem for multi-supply centers based on improved genetic algorithm and GUI-type programming. In this research, we used a three-step approach; in step 1 a sector clustering model is developed to transfer the multi-supply center problem to single supply center problems which are more easy to be solved, in step 2 we developed a vehicle routing model with time and vehicle capacity constraints and in step 3, we developed a GA-TSP model which can improve the vehicle routing schedules by simulation. For the computational purpose, we developed a GUI-type computer program according to the proposed methods and the sample outputs show that the proposed method is very effective on a set of standard test problems, and it could be potentially useful in solving the distribution routing problems in multi-supply center problem.

  • PDF

다이폰 군집화와 개선된 스펙트럼 완만화에 의한 음성합성 (Speech Synthesis using Diphone Clustering and Improved Spectral Smoothing)

  • 장효종;김관중;김계영;최형일
    • 정보처리학회논문지B
    • /
    • 제10B권6호
    • /
    • pp.665-672
    • /
    • 2003
  • 본 논문에서는 단위음소들의 연결을 통한 음성합성 방법에 관하여 기술한다. 이때, 발생하는 가장 큰 문제점은 두 단위음소 사이의 연결부분에서 불연속이 발생하는 것이며, 특히 다른 화자로부터 녹음한 단위음소의 연결에서 불연속이 많이 발생한다. 이 문제를 해결하기 위하여 본 논문에서는 군집화된 다이폰을 이용하며, 포만트 궤적과 스펙트럼의 분포특성을 사용할 뿐 아니라 인간의 청각적인 특성을 반영하여 스펙트럼을 완만화하는 방법을 제안한다. 즉, 제안하는 방법은 단위음소 연결구간의 스펙트럼 분포특성의 유사도를 사용하여 단위음소들을 군집화하고 단위음소의 연결 구간에서 인간의 청각신경 특성을 고려하여 완만화의 양과 범위를 결정한 다음, 두 다이폰 경계의 스펙트럼 분포를 시간에 따라 가중치를 다르게 주어 스펙트럼 완만화를 수행한다. 이 방법은 불연속을 제거하며 완만화로 인하여 발생할 수 있는 음성의 왜곡을 최소화한다. 제안하는 방법의 성능을 평가하기 위하여 5명으로부터 녹음한 20개의 문장 중에서 추출한 500여 개의 다이폰을 사용하여 실험을 수행하였다.