• 제목/요약/키워드: Feature Filtering

검색결과 317건 처리시간 0.02초

웹 문서 클러스터링에서의 자질 필터링 방법 (Feature Filtering Methods for Web Documents Clustering)

  • 박흠;권혁철
    • 정보처리학회논문지B
    • /
    • 제13B권4호
    • /
    • pp.489-498
    • /
    • 2006
  • 색인전문가에 의해 분류된 웹문서들을 통계적 자질 선택방법으로 자질을 추출하여 클라스터링을 해 보면, 자질 선택에 사용된 데이터셋에 따라 성능과 결과가 다르게 나타난다. 그 이유는 많은 웹 문서에서 문서의 내용과 관계없는 단어들을 많이 포함하고 있어 문서의 특정을 나타내는 단어들이 상대적으로 잘 두드러지지 않기 때문이다. 따라서 클러스터링 성능을 향상시키기 위해 이런 부적절한 자질들을 제거해 주어야 한다. 따라서 본 논문에서는 자질 선택에서 자질의 문서군별 자질값뿐만 아니라, 문서군별 자질값의 분포와 정도, 자질의 출현여부와 빈도를 고려한 자질 필터링 알고리즘을 제시한다. 알고리즘에는 (1) 단위 문서 내 자질 필터링 알고리즘(FFID : feature filtering algorithm in a document), (2) 전체 데이터셋 내 자질 필터링 알고리즘(FFIM : feature filtering algorithm in a document matrix), (3)FFID와 FFIM을 결합한 방법(HFF:a hybrid method combining both FFID and FFIM) 을 제시한다. 실험은 단어반도를 이용한 자질선택 방법, 문서간 동시-링크 정보의 자질확장, 그리고 위에서 제시한 3가지 자질 필터링 방법을 사용하여 클러스터링 했다. 실험 결과는 데이터셋에 따라 조금씩 차이가 나지만, FFID보다 FFIM의 성능이 좋았고, 또 FFID와 FFIM을 결합한 HFF 결과가 더 나은 성능을 보였다.

잡음 환경에서의 음성 감정 인식을 위한 특징 벡터 처리 (Feature Vector Processing for Speech Emotion Recognition in Noisy Environments)

  • 박정식;오영환
    • 말소리와 음성과학
    • /
    • 제2권1호
    • /
    • pp.77-85
    • /
    • 2010
  • This paper proposes an efficient feature vector processing technique to guard the Speech Emotion Recognition (SER) system against a variety of noises. In the proposed approach, emotional feature vectors are extracted from speech processed by comb filtering. Then, these extracts are used in a robust model construction based on feature vector classification. We modify conventional comb filtering by using speech presence probability to minimize drawbacks due to incorrect pitch estimation under background noise conditions. The modified comb filtering can correctly enhance the harmonics, which is an important factor used in SER. Feature vector classification technique categorizes feature vectors into either discriminative vectors or non-discriminative vectors based on a log-likelihood criterion. This method can successfully select the discriminative vectors while preserving correct emotional characteristics. Thus, robust emotion models can be constructed by only using such discriminative vectors. On SER experiment using an emotional speech corpus contaminated by various noises, our approach exhibited superior performance to the baseline system.

  • PDF

스케일-스페이스 필터링을 통한 특징점 추출 및 질감도 비교를 적용한 추적 알고리즘 (Feature point extraction using scale-space filtering and Tracking algorithm based on comparing texturedness similarity)

  • 박용희;권오석
    • 인터넷정보학회논문지
    • /
    • 제6권5호
    • /
    • pp.85-95
    • /
    • 2005
  • 본 논문에서는 시퀀스 이미지에서 스케일-스페이스 필터링을 통한 특징점 추출과 질감도(texturedness) 비교를 적용한 특징점 추적 알고리즘을 제안한다. 특징점을 추출하기 위해서 정의된 오퍼레이터를 이용하는데, 이때 설정되는 스케일 파라미터는 특징점 선정 및 위치 설정에 영향을 주게 되며, 특징점 추적 알고리즘의 성능과도 관계가 있다. 본 논문에서는 스케일-스페이스 필터링을 통한 특징점 선정 및 위치 설정 방안을 제시한다. 영상 시퀀스에서, 카메라 시점 변화 또는 물체의 움직임은 특징점 추적 윈도우내에 아핀 변환을 가지게 하는데, 대응점 추적을 위한 유사도 측정에 어려움을 준다. 본 논문에서는 Shi-Tomasi-Kanade 추적 알고리즘에 기반하여, 아핀 변환에 비교적 견실한 특징점의 질감도 비교를 수행하는 최적 대응점 탐색 방법을 제안한다.

  • PDF

A Novel Statistical Feature Selection Approach for Text Categorization

  • Fattah, Mohamed Abdel
    • Journal of Information Processing Systems
    • /
    • 제13권5호
    • /
    • pp.1397-1409
    • /
    • 2017
  • For text categorization task, distinctive text features selection is important due to feature space high dimensionality. It is important to decrease the feature space dimension to decrease processing time and increase accuracy. In the current study, for text categorization task, we introduce a novel statistical feature selection approach. This approach measures the term distribution in all collection documents, the term distribution in a certain category and the term distribution in a certain class relative to other classes. The proposed method results show its superiority over the traditional feature selection methods.

Filtering of Filter-Bank Energies for Robust Speech Recognition

  • Jung, Ho-Young
    • ETRI Journal
    • /
    • 제26권3호
    • /
    • pp.273-276
    • /
    • 2004
  • We propose a novel feature processing technique which can provide a cepstral liftering effect in the log-spectral domain. Cepstral liftering aims at the equalization of variance of cepstral coefficients for the distance-based speech recognizer, and as a result, provides the robustness for additive noise and speaker variability. However, in the popular hidden Markov model based framework, cepstral liftering has no effect in recognition performance. We derive a filtering method in log-spectral domain corresponding to the cepstral liftering. The proposed method performs a high-pass filtering based on the decorrelation of filter-bank energies. We show that in noisy speech recognition, the proposed method reduces the error rate by 52.7% to conventional feature.

  • PDF

음성 정보와 DTW 알고리즘을 활용한 성인 컨텐츠 필터링 (Adult Contents Filtering using Voice Information and DTW)

  • 조정익;이일병
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2008년도 춘계학술대회 학술발표회 논문집
    • /
    • pp.432-434
    • /
    • 2008
  • 본 논문은 필터링 수행율을 향상시키기 위해, DTW 알고리즘을 제시한다. 여기에서 말하는 컨텐츠 필터링은 음성의 특징을 사용해서 컨텐츠를 구분하는 것을 확인하는 기술이다. 즉, 이 방법이 일반 컨텐츠와 성인 컨텐츠를 구분한다. 음성에 대한 정보를 추출하는 방법이 컨텐츠를 필터링하는데 있어서 기여를 할 수 있다. 즉, DTW 알고리즘을 사용하여 필터링 인식률을 향상하는 방법이라고 제안을 한다. 마지막으로, 본 논문에서 제안한 방법의 적용 가능성과 일반성을 평가하기위하여 수치적인 예를 적용한다. 제안하는 성질의 정확도를 시험하기 위해서 실험을 제공하였다. 결과적으로 일반 컨텐츠와 성인 컨텐츠 특성의 차이를 알았다. 추후에 이 성질을 필터링 성능 향상에 응용할 수 있다.

  • PDF

확장된 Relief-F 알고리즘을 이용한 소규모 크기 문서의 자동분류 (Document Classification of Small Size Documents Using Extended Relief-F Algorithm)

  • 박흠
    • 정보처리학회논문지B
    • /
    • 제16B권3호
    • /
    • pp.233-238
    • /
    • 2009
  • 자질 수가 적은 소규모 크기 문서들의 자동분류는 좋은 성능을 얻기 어렵다. 그 이유는 문서집단 전체의 자질 수는 크지만 단위 문서 내 자질 수가 상대적으로 너무 적기 때문에 문서간 유사도가 너무 낮아 우수한 분류 알고리즘을 적용해도 좋은 성능을 얻지 못한다. 특히 웹 디렉토리 문서들의 자동분류에서나, 디스크 복구 작업에서 유사도 평가와 자동분류로 연결되지 않은 섹터를 연결하는 작업에서와 같은 소규모 크기 문서의 자동분류에서는 좋은 성능을 얻지 못한다. 따라서 본 논문에서는 소규모 크기 문서의 자동분류에서의 문제점을 해결하기 위해 분류 사전작업으로, 예제기반 자질 필터링 방법 Relief-F알고리즘을 소규모 문서 내 자질 필터링에 적합한 ERelief-F 알고리즘을 제시한다. 또 비교 실험을 위해, 기존의 자질 필터링 방법 중 Odds Ratio와 정보이득, 또 Relief-F 알고리즘을 함께 실험하여 분류결과를 비교하였다. 그 결과, ERelief-F 알고리즘을 사용했을 때의 결과가 정보이득과 Odds Ratio, Relief-F보다 월등히 우수한 성능을 보였고 부적절한 자질도 많이 줄일 수 있었다.

유전자 알고리즘과 Feature Wrapping을 통한 마이크로어레이 데이타 중복 특징 소거법 (Removing Non-informative Features by Robust Feature Wrapping Method for Microarray Gene Expression Data)

  • 이재성;김대원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권8호
    • /
    • pp.463-478
    • /
    • 2008
  • 본 논문에서는 유전자 사이의 상관계수가 높은 마이크로어레이 데이타에 대하여 제안하는 알고리즘을 통해 상관계수가 낮은 유전자들의 부집합을 만들고, 이에 대해 적합 함수를 통한 평가로 기존 방법론이 가지는 한계를 극복할 수 있도록 하였다. 기존 방법론은 개별 특징의 평가를 통해 중복 특징을 제거하며, 상관계수에 대한 고려가 없어 선택된 유전자 부집합들의 상관계수가 논은 문제가 있었다. 이에 따라 제안하는 알고리즘은 특징간의 관계를 평가하는 Feature Wrapping 기법을 활용하여, 추출된 유전자 부집합에 포함된 유전자 사이의 상관관계가 낮고, 클래스 구분력이 높은 특징을 갖도록 하였다.

입 영역에서 외곽선의 기울기 보정을 통한 특징벡터 생성 기법 (A Feature Vector Generation Technique through Gradient Correction of an Outline in the Mouth Region)

  • 박정환;정종진;김국보
    • 한국멀티미디어학회논문지
    • /
    • 제17권10호
    • /
    • pp.1141-1149
    • /
    • 2014
  • Recently, various methods to effectively eliminate the noise are researched in image processing techniques. However, the conventional noise filtering techniques, which remove most of the noise, are less efficient for remained noise detection after filtering due to exploiting no face feature information. In this paper, we proposed a feature vector generation technique in the mouth region by distinguishing and revising the remained noise through gradient correction, when the outline is extracted after performing noise filtering.

디지털 영상의 픽셀값 경사도에 의한 미디언 필터링 포렌식 판정 (Forensic Decision of Median Filtering by Pixel Value's Gradients of Digital Image)

  • 이강현
    • 전자공학회논문지
    • /
    • 제52권6호
    • /
    • pp.79-84
    • /
    • 2015
  • 디지털 영상의 배포에서, 위 변조자에 의해 영상이 변조되는 심각한 문제가 있다. 이러한 문제를 해결하기 위하여, 본 논문에서는 영상의 픽셀값 경사도에 따른 특징벡터를 이용한 미디언 필터링 영상 포렌식 판정 알고리즘을 제안한다. 제안된 알고리즘에서, 원영상의 픽셀값 경사도로부터 자기회귀 계수를 1~6차까지의 6 Dim.을 계산한다. 그리고 경사도를 Poisson 방정식의 해에 의한 재구성 영상과 원영상과의 차영상으로 부터, 4 Dim. (평균값, 최대값 그리고 최대값의 좌표 i,j)의 특징벡터를 추출한다. 2 종류의 특징벡터는 10 Dim.으로 조합되어 변조된 영상의 미디언 필터링 (Median Filtering: MF) 검출기의 SVM (Support Vector Machine) 분류를 위한 학습에 사용된다. 제안된 미디언 필터링 검출 알고리즘은 동일 10 Dim. 특징벡터의 MFR (Median Filter Residual) 스킴과 비교하여 원영상, 평균필터링 ($3{\times}3$) 영상 그리고 JPEG (QF=90) 영상에서는 성능이 우수하며, Gaussian 필터링 ($3{\times}3$) 영상에서는 성능이 다소 낮지만, 성능평가 전체항목에서 민감도 (Sensitivity; TP: True Positive rate)와 1-특이도 (1-Specificity; FP: False Positive rate)의 AUC (Area Under Curve)가 모두 1에 수렴하여 'Excellent (A)' 등급임을 확인하였다.