• Title/Summary/Keyword: 사전클러스터링

Search Result 77, Processing Time 0.026 seconds

Semantic Clustering of Predicate using Word Definition in Dictionary (사전 뜻풀이를 이용한 용언 의미 군집화)

  • Bae, Young-Jun;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.46-51
    • /
    • 2010
  • 한국어의 어휘의미 정보를 명확히 파악하기 위해서는 어휘 의미 체계를 구축해야 한다. 본 논문에서는 어휘 의미 체계 구축의 단계 중 하나인 용언의 의미 군집화를 연구하였다. 주어 및 목적어의 논항 구조와 선택 제약정보, 부사의 결합정보를 이용한 이전의 연구와는 달리 의미태깅이 된 사전 뜻풀이의 용언정보를 이용하여 용언의 의미 군집화와 간단한 계층화를 시도하였다. 그리고 특정 부류의 일반 샘플을 이용했던 특정 용언의 부류가 아닌 사전에 존재하는 대부분의 용언들을 대상으로 연구를 진행하였다.

  • PDF

Function Approximation for accelerating learning speed in Reinforcement Learning (강화학습의 학습 가속을 위한 함수 근사 방법)

  • Lee, Young-Ah;Chung, Tae-Choong
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.13 no.6
    • /
    • pp.635-642
    • /
    • 2003
  • Reinforcement learning got successful results in a lot of applications such as control and scheduling. Various function approximation methods have been studied in order to improve the learning speed and to solve the shortage of storage in the standard reinforcement learning algorithm of Q-Learning. Most function approximation methods remove some special quality of reinforcement learning and need prior knowledge and preprocessing. Fuzzy Q-Learning needs preprocessing to define fuzzy variables and Local Weighted Regression uses training examples. In this paper, we propose a function approximation method, Fuzzy Q-Map that is based on on-line fuzzy clustering. Fuzzy Q-Map classifies a query state and predicts a suitable action according to the membership degree. We applied the Fuzzy Q-Map, CMAC and LWR to the mountain car problem. Fuzzy Q-Map reached the optimal prediction rate faster than CMAC and the lower prediction rate was seen than LWR that uses training example.

Local Distribution Based Density Clustering for Speaker Diarization (화자분할을 위한 지역적 특성 기반 밀도 클러스터링)

  • Rho, Jinsang;Shon, Suwon;Kim, Sung Soo;Lee, Jae-Won;Ko, Hanseok
    • The Journal of the Acoustical Society of Korea
    • /
    • v.34 no.4
    • /
    • pp.303-309
    • /
    • 2015
  • Speaker diarization is the task of determining the speakers for unlabeled data, and DBSCAN (Density-Based Spatial Clustering of Applications with Noise) has been widely used in the field of speaker diarization for its simplicity and computational efficiency. One challenging issue, however, is that if different clusters in non-spatial dataset are adjacent to each other, over-clustering may occur which subsequently degrades the performance of DBSCAN. In this paper, we identify the drawbacks of DBSCAN and propose a new density clustering algorithm based on local distribution property around object. Variable density criterions for local density and spreadness of object are used for effective data clustering. We compare the proposed algorithm to DBSCAN in terms of clustering accuracy. Experimental results confirm that the proposed algorithm exhibits higher accuracy than DBSCAN without over-clustering and confirm that the new approach based on local density and object spreadness is efficient.

A Real-Time Automatic Diagnosis System for Semiconductor Process (반도체 공정 실시간 자동 진단 시스템)

  • 권오범;한혜정;김계영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.241-243
    • /
    • 2003
  • 일반적으로 사용되는 반도체 공정에 대한 진단 기법은 한 공정을 진행하기 전에 테스트 공정을 수행하여 공정의 진행 여부를 결정하고, 한 공정의 진행을 완료한 후에 다시 테스트 공정을 수행하여 공정의 결과를 진단하는 방법이다. 본 논문에서 제안하는 실시간 자동 진단 시스템은 기존 방법의 문제점인 자원의 낭비를 막고, 실시간으로 진단함으로써 시간의 낭비를 막는 진단 시스템을 제안한다. 실시간 자동 진단 시스템은 크게 시스템 초기화 단계, 학습 단계 그리고 예측 단계로 나누어진다. 초기화 단계는 진단할 공정에 대한 사전 입력값을 받아 시스템을 초기화하는 과정으로 공정장비 파라미터별 중요도 자동 설정 과정과 초기화 클러스터링으로 이루어진다. 학습 단계는 실시간으로 저장된 공정장치별 데이터와 계측기로부터 획득된 데이터를 이용하여 최적의 유사 클래스를 결정하는 단계와 결정된 유사 클래스를 이용하여 가중치를 학습하는 단계로 나누어진다. 예측 단계는 공정 진행 중 획득된 실시간 데이터를 학습 단계에서 결정된 파라미터별 가중치를 사용하여 공정에 대한 진단을 한다. 본 시스템에서 사용하는 클러스터링 알고리즘은 DTW(Dynamic Time Warping)를 이용하여 파라미터 데이터에 대한 특징을 추출하고 LBG(Linde, Buzo and Gray) 알고리즘을 사용하여 데이터를 군집화 한다.

  • PDF

Video Segmentation Using a $color-x^2$ intensity histogram-based FCM Clustering (컬러-$x^2$ 명도 히스토그램기반 FCM 클러스터링을 이용한 비디오 분할)

  • Lee, Ji-Hyun;Kang, Oh-Hyung;Na, Do-Won;Rhee, Yang-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.11a
    • /
    • pp.189-192
    • /
    • 2005
  • 비디오 분할의 목적은 같은 내용들을 가지는 프레임들의 순서를 표현하는 각 샷의 비디오 순서 분할을 위한 것이다. 그리고 색인에 대한 각 샷으로부터 키 프레임을 선택한다. 존재하는 비디오 분할 방법들은 2가지 그룹들로 분류될 수 있다. 먼저 경계값이 할당되어야만 하는 샷 전환 검출(SCD) 접근과 클러스터 수의 사전 지식이 요구되는 클러스터 접근이다. 본 논문에서는 컬러-$x^2$명도 히스토그램 기반 FCM(fuzzy c-means) 클러스터링 알고리즘을 사용하는 비디오 분할 방법을 제안하였다. 이 알고리즘은 앞에서 기술한 2가지 접근의 혼합이다. 그리고 이것은 두 가지 접근들의 결점을 극복하도록 설계 되었다. 실험 결과들은 컬러-$x^2$명도 히스토그램 기반 FCM 클러스링 알고리즘이 강건하고 비디오 시퀀스들의 다양한 형태들에 응용할 수 있다고 제안한다.

  • PDF

Wine Label Detection Using Saliency Map and Mean Shift Algorithm (중요도 맵과 Mean Shift 알고리즘을 이용한 와인 라벨 검출)

  • Chen, Yan-Juan;Lee, Myung-Eun;Kim, Soo-Hyung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.384-385
    • /
    • 2011
  • 본 논문은 중요도 맵과 Mean Shift 알고리즘을 이용하여 모바일 폰 영상 내의 와인 라벨 검출 방법을 제안한다. Mean Shift 알고리즘은 비모수적 클러스터링 기술로 클러스터의 수에 대한 사전 지식이 없이도 클러스터링이 가능한 알고리즘인데 실행 시간이 많이 필요한 단점이 있다. 이러한 문제를 해결하기 위해서 입력 칼라 와인 영상에 Saliency Map을 먼저 적용하고 영상의 두드러진 영역을 찾는다. 다음으로 Mean Shift 알고리즘을 이용한 분할 결과에서 얻은 칼라 마스크를 따라 빈도가 가장 높은 칼라 영역을 찾고 와인 라벨 영역을 검출한다. 실험결과를 통하여 제안된 방법을 모바일 폰을 이용하여 획득된 다양한 와인 영상의 라벨 영역을 효율적으로 검출할 수 있음을 볼 수 있다.

On Optimizing LDA-extentions Using a Pre-Clustering (사전 클러스터링을 이용한 LDA-확장법들의 최적화)

  • Kim, Sang-Woon;Koo, Byum-Yong;Choi, Woo-Young
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.44 no.3
    • /
    • pp.98-107
    • /
    • 2007
  • For high-dimensional pattern recognition, such as face classification, the small number of training samples leads to the Small Sample Size problem when the number of pattern samples is smaller than the number of dimensionality. Recently, various LDA-extensions have been developed, including LDA, PCA+LDA, and Direct-LDA, to address the problem. This paper proposes a method of improving the classification efficiency by increasing the number of (sub)-classes through pre-clustering a training set prior to the execution of Direct-LDA. In LDA (or Direct-LDA), since the number of classes of the training set puts a limit to the dimensionality to be reduced, it is increased to the number of sub-classes that is obtained through clustering so that the classification performance of LDA-extensions can be improved. In other words, the eigen space of the training set consists of the range space and the null space, and the dimensionality of the range space increases as the number of classes increases. Therefore, when constructing the transformation matrix, through minimizing the null space, the loss of discriminatve information resulted from this space can be minimized. Experimental results for the artificial data of X-OR samples as well as the bench mark face databases of AT&T and Yale demonstrate that the classification efficiency of the proposed method could be improved.

VDCluster : A Video Segmentation and Clustering Algorithm for Large Video Sequences (VDCluster : 대용량 비디오 시퀀스를 위한 비디오 세그멘테이션 및 클러스터링 알고리즘)

  • Lee, Seok-Ryong;Lee, Ju-Hong;Kim, Deok-Hwan;Jeong, Jin-Wan
    • Journal of KIISE:Databases
    • /
    • v.29 no.3
    • /
    • pp.168-179
    • /
    • 2002
  • In this paper, we investigate video representation techniques that are the foundational work for the subsequent video processing such as video storage and retrieval. A video data set if a collection of video clips, each of which is a sequence of video frames and is represented by a multidimensional data sequence (MDS). An MDS is partitioned into video segments considering temporal relationship among frames, and then similar segments of the clip are grouped into video clusters. Thus, the video clip is represented by a small number of video clusters. The video segmentation and clustering algorithm, VDCluster, proposed in this paper guarantee clustering quality to south an extent that satisfies predefined conditions. The experiments show that our algorithm performs very effectively with respect to various video data sets.

Differentially Private k-Means Clustering based on Dynamic Space Partitioning using a Quad-Tree (쿼드 트리를 이용한 동적 공간 분할 기반 차분 프라이버시 k-평균 클러스터링 알고리즘)

  • Goo, Hanjun;Jung, Woohwan;Oh, Seongwoong;Kwon, Suyong;Shim, Kyuseok
    • Journal of KIISE
    • /
    • v.45 no.3
    • /
    • pp.288-293
    • /
    • 2018
  • There have recently been several studies investigating how to apply a privacy preserving technique to publish data. Differential privacy can protect personal information regardless of an attacker's background knowledge by adding probabilistic noise to the original data. To perform differentially private k-means clustering, the existing algorithm builds a differentially private histogram and performs the k-means clustering. Since it constructs an equi-width histogram without considering the distribution of data, there are many buckets to which noise should be added. We propose a k-means clustering algorithm using a quad-tree that captures the distribution of data by using a small number of buckets. Our experiments show that the proposed algorithm shows better performance than the existing algorithm.

Clustering Network Traffic Data Based on FGM for Intrusion Detection (침입 탐지를 위한 FCM 기반의 네트웍 트래픽 데이터 클러스터링)

  • Kwak, Mi-Ra;Cho, Dong-Sub
    • Proceedings of the KIEE Conference
    • /
    • 2003.07d
    • /
    • pp.2528-2530
    • /
    • 2003
  • 여러 종류의 트래픽을 포함하는 네트웍 트래픽 데이터에서 각 종의 트래픽을 분류할 수 있는 능력은 네트웍 침입 탐지를 가능하게 하는 기본이다. 본 연구에서는 서비스 거부 공격과 사전 조사 행위 트래픽을 다른 트래픽으로부터 구분해 낼 수 있는 특징을 파악하고, 그것이 효과적인지 퍼지 c-means 기법으로 사용하여 실험 하였다.

  • PDF