• 제목/요약/키워드: Similarity reduction

검색결과 203건 처리시간 0.023초

맞춤 접두 필터링을 이용한 효율적인 유사도 조인 (Efficient Similarity Joins by Adaptive Prefix Filtering)

  • 박종수
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권4호
    • /
    • pp.267-272
    • /
    • 2013
  • 데이터 정제나 복사 탐지와 같은 많은 응용들을 가진 중요한 연산인 유사도 조인은 도전적인 주제로 데이터집합에서 주어진 한계치 이상의 유사도를 가지는 모든 쌍의 레코드들을 찾는 것이다. 우리는 빠른 유사도 조인을 위해 후보 쌍들의 생성 시에 접두 필터링 원리를 강한 제약 조건으로 사용하는 새 알고리즘을 제안한다. 그 원리에 의해 한정된 접두 토큰들내에서 탐색 레코드의 현재 접두 토큰이 인덱싱 레코드의 접두 토큰을 공유할 때에만 후보 쌍이 생성된다. 이 생성 방법은 두 레코드들 사이에 공통부분의 상한 값을 계산할 필요가 없어서 실행시간을 감소시킨다. 실제 데이터 집합에 적용된 실험 결과는 제안된 알고리즘이 이전의 접두 필터링 방법의 알고리즘들에 비해 상당히 우수함을 보여준다.

Relevancy contemplation in medical data analytics and ranking of feature selection algorithms

  • P. Antony Seba;J. V. Bibal Benifa
    • ETRI Journal
    • /
    • 제45권3호
    • /
    • pp.448-461
    • /
    • 2023
  • This article performs a detailed data scrutiny on a chronic kidney disease (CKD) dataset to select efficient instances and relevant features. Data relevancy is investigated using feature extraction, hybrid outlier detection, and handling of missing values. Data instances that do not influence the target are removed using data envelopment analysis to enable reduction of rows. Column reduction is achieved by ranking the attributes through feature selection methodologies, namely, extra-trees classifier, recursive feature elimination, chi-squared test, analysis of variance, and mutual information. These methodologies are ranked via Technique for Order of Preference by Similarity to Ideal Solution (TOPSIS) using weight optimization to identify the optimal features for model building from the CKD dataset to facilitate better prediction while diagnosing the severity of the disease. An efficient hybrid ensemble and novel similarity-based classifiers are built using the pruned dataset, and the results are thereafter compared with random forest, AdaBoost, naive Bayes, k-nearest neighbors, and support vector machines. The hybrid ensemble classifier yields a better prediction accuracy of 98.31% for the features selected by extra tree classifier (ETC), which is ranked as the best by TOPSIS.

비부정 행렬 인수분해 차원 감소를 이용한 최근 인접 협력적 여과 (Nearest-Neighbor Collaborative Filtering Using Dimensionality Reduction by Non-negative Matrix Factorization)

  • 고수정
    • 정보처리학회논문지B
    • /
    • 제13B권6호
    • /
    • pp.625-632
    • /
    • 2006
  • 협력적 여과는 사용자 선호도를 예측하기 위해 그 사용자의 유형을 학습하는 데 목적을 둔 기술이다. 협력적 여과 시스템이 전자상거래에서 성공적인 기술일지라도 그들은 데이터의 고차원성과 희박성이라는 문제점을 갖는다. 본 논문에서는 이와 같은 문제점을 해결하기 위하여 비부정 행렬 인수분해(NNMF, Non-negative Matrix Factorization) 방법을 이용한 최근 인접 협력적 여과 방법을 제안한다. 행렬을 분해하기 위한 전처리로서 사용자 변동 계수를 이용하여 사용자-아이템 행렬의 결측치를 채우고, 이를 대상으로 비부정 분해 방식을 적용하여 행렬을 인수분해 한다. 비부정 분해 방식을 적용한 긍정 분해는 사용자들을 의미를 갖는 벡터로써 표현함으로써 사용자들을 의미 관계를 갖는 그룹으로 표현한다. 이와 같이 벡터로 표현된 사용자들은 벡터 유사도에 의해 그들간의 유사도를 계산한다. 계산된 유사도의 정도에 의해 이웃을 결정하고, 이웃들이 평가한 아이템에 대한 흥미도를 기반으로 새로운 사용자가 평가하지 않은 아이템에 대한 결측치를 예측한다.

효소 반응 예측을 위한 유사도 모델 분석 및 구현 (Similarity Model Analysis and Implementation for Enzyme Reaction Prediction)

  • 오주성;나도균;박춘구;정희택
    • 한국전자통신학회논문지
    • /
    • 제13권3호
    • /
    • pp.579-586
    • /
    • 2018
  • 빅데이터에 대한 관심이 증가하면서 데이터로부터 의미 있는 정보의 추출 및 예측은 중요한 연구분야가 되고 있다. 본 연구에서는 신약개발과정에서 필요한 후보약물의 약리적인 활성을 분석하기 위한 데이터를 획득하고 이를 기반으로 의미 있는 예측 분석을 하고자 한다. 신약개발과정에서 대사반응 된 신약후보물질의 약리적인 활성 연구는 신약개발 성공률을 높이기 위해 필요한 단계이다. 본 연구에서, 약용 후보물질의 체내 효소 반응 유무를 예측하기 위해, 유사도 모델들을 적용 분석하였다. 유사도 모델의 군집별 특성을 반영하여 13개의 모델을 선택하여 효소 반응 예측을 수행하였다. 이들 모델들을 민감도와 AUC를 기반으로 비교 평가하였다. 평가 모델들 중, 효소 사이의 반응성을 예측하는데 있어서 Simpson coefficient 모델이 가장 좋은 성능을 보였다. 분석된 유사도 모델 전체를 웹 서비스로 구축하였다. 제안된 모델은 반응정보의 추가에 동적으로 대응 할 수 있으며 신약개발시간 단축 및 비용 절감에 기여할 것으로 여겨진다.

벡터 공간 모델과 HAL에 기초한 단어 의미 유사성 군집 (Word Sense Similarity Clustering Based on Vector Space Model and HAL)

  • 김동성
    • 인지과학
    • /
    • 제23권3호
    • /
    • pp.295-322
    • /
    • 2012
  • 본 연구에서는 벡터 공간 모델과 HAL (Hyperspace Analog to Language)을 적용해서 단어 의미 유사성을 군집한다. 일정한 크기의 문맥을 통해서 단어 간의 상관성을 측정하는 HAL을 도입하고(Lund and Burgess 1996), 상관성 측정에서 고빈도와 저빈도에 다르게 측정되는 왜곡을 줄이기 위해서 벡터 공간 모델을 적용해서 단어 쌍의 코사인 유사도를 측정하였다(Salton et al. 1975, Widdows 2004). HAL과 벡터 공간 모델로 만들어지는 공간은 다차원이므로, 차원을 축소하기 위해서 PCA (Principal Component Analysis)와 SVD (Singular Value Decomposition)를 적용하였다. 유사성 군집을 위해서 비감독 방식과 감독 방식을 적용하였는데, 비감독 방식에는 클러스터링을 감독 방식에는 SVM (Support Vector Machine), 나이브 베이즈 구분자(Naive Bayes Classifier), 최대 엔트로피(Maximum Entropy) 방식을 적용하였다. 이 연구는 언어학적 측면에서 Harris (1954), Firth (1957)의 분포 가설(Distributional Hypothesis)을 활용한 의미 유사도를 측정하였으며, 심리언어학적 측면에서 의미 기억을 설명하기 위한 모델로 벡터 공간 모델과 HAL을 결합하였으며, 전산적 언어 처리 관점에서 기계학습 방식 중 감독 기반과 비감독 기반을 적용하였다.

  • PDF

초기 볼트풀림 상태의 볼트 체결력 예측을 위한 주파수응답 유사성 기반의 합성곱 신경망 (Convolutional Neural Network-based Prediction of Bolt Clamping Force in Initial Bolt Loosening State Using Frequency Response Similarity)

  • 이제현;한정삼
    • 한국전산구조공학회논문집
    • /
    • 제36권4호
    • /
    • pp.221-232
    • /
    • 2023
  • 본 논문에서는 볼트로 체결된 구조체에 대하여 초기 볼트풀림 상태에서의 볼트 체결력 예측 합성곱 신경망 훈련 방법을 제시한다. 8개의 볼트의 체결력이 변경된 상태에서 계산한 주파수응답들을 완전 체결된 상태의 초기 모델과의 크기 및 모양 유사성을 표현하는 유사성 지도로 생성한다. 주파수응답 데이터들의 생성에는 크리로프 부공간법 기반의 모델차수축소법을 적용하여 효율적인 방법으로 수행할 수 있도록 한다. 합성곱 신경망 모델은 회귀 출력 계층을 사용하여 볼트의 체결력을 예측하도록 하였으며, 훈련 데이터의 개수와 합성곱 신경망 계층의 개수를 다르게 준비하여 훈련시킨 네트워크들을 비교하여 그 성능을 평가하였다. 주파수응답에서 파생되는 유사성 지도를 입력 데이터로 사용하여 초기 볼트풀림 영역에서 볼트 체결력의 진단 가능성과 유효성을 제시하였다.

유사도검사 기법을 이용한 안전관리 개선시스템 연구 (A Study on Safety Management Improvement System Using Similarity Inspection Technique)

  • 박구락
    • 한국융합학회논문지
    • /
    • 제9권4호
    • /
    • pp.23-29
    • /
    • 2018
  • 건설현장에서 흔히 발생하는 안전관리 문제점 중 시정조치 지연으로 인해 발생하는 재해율을 낮추기 위해, 기존의 시스템 중 점검 후 시정조치를 할 때까지 발생하는 시간을 단축하기 위하여 사전에 사고유형 데이터베이스를 구축하고 점검시 유사도 검사를 이용하여 점검자에게 문제점을 실시간으로 알려주어 현장에서 바로 시정조치를 수행할 수 있는 시스템을 모델링하여, 안전사고에 보다 적극적으로 대처할 수 있는 시스템을 연구하였다. 연구 결과 90 %이상의 개방 효과와 60 %이상의 안전사고 감소율이 있음을 알 수 있었다. 이 시스템을 기반으로 음성 인식과 딥러닝을 결합하여 보다 효과적인 시스템을 지속적으로 연구 할 것이다.

목재의 연소특성(1) (질량감소와 착화지연) (Combustion Characteristics of Wood Materials (1) (Mass Reduction and Ignition Delay))

  • 김춘중
    • 한국연소학회지
    • /
    • 제4권2호
    • /
    • pp.11-22
    • /
    • 1999
  • Combustion characteristics of the wood chips(balsa chips) were experimentally investigated with respect to the thermal recycle system of the urban waste. The urban waste contains plastics, vegetable and wood materials. Wood was chosen as an example of the one of the component of urban dust. A small wood chip was burned in a electric furnace by the micro-electric balance. The mass reduction rate was normalized by the initial mass of test piece and the time of volatile combustion end. When the mass of the wood chips(balsa chips) was larger than 0.5g, the combustion similarity was found on the normalized mass reduction rate.

  • PDF

상위 블록 움직임 벡터를 이용한 HEVC 움직임 예측 탐색 범위 감소 기법 (Search Range Reduction Algorithm with Motion Vectors of Upper Blocks for HEVC)

  • 이규중
    • 한국멀티미디어학회논문지
    • /
    • 제21권1호
    • /
    • pp.18-25
    • /
    • 2018
  • In High Efficiency Video Coding (HEVC), integer motion estimation (IME) requires a large amount of computational complexity because HEVC adopts the high flexible and hierarchical coding structures. In order to reduce the computational complexity of IME, this paper proposes the search range reduction algorithm, which takes advantage of motion vectors similarity between different layers. It needs only a few modification for HEVC reference software. Based on the experimental results, the proposed algorithm reduces the processing time of IME by 28.1% on average, whereas its the $Bj{\emptyset}ntegaard$ delta bitrate (BD-BR) increase is 0.15% which is negligible.

이동형 심전도 신호의 잡음 제거 및 유사도 평가 (Noise Reduction and Estimating the Similarity of Ambulatory ECG Signals)

  • 신승원;이정환;이강휘;김동준;김경섭
    • 전기학회논문지
    • /
    • 제57권3호
    • /
    • pp.507-513
    • /
    • 2008
  • In this study, we develope an ambulatory ECG acquisition system by implementing a patch-style and wireless electrode. To alleviate the inherent noisy characteristics of the mobile signal, we apply a matched filter and concurrently detect R-peak values. Moreover, the measure for resolving shape distance is computed to estimate the relative similarity between two ECG signals and to decide whether the abnormal characteristics in ECG exist or not.