• Title/Summary/Keyword: 계층적 유사도

Search Result 425, Processing Time 0.035 seconds

A Hierarchical Clustering for Browsing Retrieval Results (검색결과의 브라우징을 위한 계층적 클러스터링)

  • 윤보현;김현기;노대식;강현규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.342-344
    • /
    • 2000
  • 대부분 웹 검색엔진들의 검색결과로 수십 혹은 수백만건의 문서가 제시되어 사용자가 원하는 문서를 찾는데 어려움이 있다. 이러한 문제를 해결하기 위해 본 논문에서는 검색 결과의 브라우징을 위한 검색 결과 문서에 대한 자동 클러스터링 방법을 제안한다. 문서간 유사도를 계산하기 위해 공통 키워드 빈도를 이용하고, 클러스터링 방법은 계층적 클러스터링을 사용하고, 각 클러스터에 대한 디스트립터를 추출하기 위해 빈도를 이용한다. 실험 결과, 완전 연결 방법이 가장 나은 정확도를 보였지만 계산시간이 많이 소요되어 동적 환경에 부적합하다는 것을 보였다. 아울러 집단 평균 연결이 정확도나 계산 시간 측면에서 우수함을 알수 있었다.

  • PDF

Layer-wise Model Inversion Attack (계층별 모델 역추론 공격)

  • Hyun-Ho Kwon;Han-Jun Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.69-72
    • /
    • 2024
  • 모델 역추론 공격은 공격 대상 네트워크를 훈련하기 위해 사용되는 훈련 데이터셋 중 개인 데이터셋을 공개 데이터셋을 사용하여 개인 훈련 데이터셋을 복원하는 것이다. 모델 역추론 방법 중 적대적 생성 신경망을 사용하여 모델 역추론 공격을 하는 과거의 논문들은 딥러닝 모델 전체의 역추론에만 초점을 맞추기 때문에, 이를 통해 얻은 원본 이미지의 개인 데이터 정보는 제한적이다. 따라서, 본 연구는 대상 모델의 중간 출력을 사용하여 개인 데이터에 대한 더 품질 높은 정보를 얻는데 초점을 맞춘다. 본 논문에서는 적대적 생성 신경망 모델이 원본 이미지를 생성하기 위해 사용되는 계층별 역추론 공격 방법을 소개한다. MNIST 데이터셋으로 훈련된 적대적 생성 신경망 모델을 사용하여, 원본 이미지가 대상 모델의 계층을 통과하면서 얻은 중간 계층의 출력 데이터를 기반으로 원본 이미지를 재구성하고자 한다. GMI 의 공격 방식을 참고하여 공격 모델의 손실 함수를 구성한다. 손실 함수는 사전 손실 및 정체성 손실항을 포함하며, 역전파를 통해서 원본 이미지와 가장 유사하게 복원할 수 있는 표현 벡터 Z 를 찾는다. 원본 이미지와 공격 이미지 사이의 유사성을 분류 라벨의 정확도, SSIM, PSNR 값이라는 세 가지 지표를 사용하여 평가한다. 공격이 이루어지는 계층에서 복원한 이미지와 원본 이미지를 세 가지 지표를 가지고 평가한다. 실험 결과, 공격 이미지가 원본 이미지의 대상 분류 라벨을 정확하게 가지며 원본 이미지의 필체를 유사하게 복원하였음을 보여준다. 평가 지표 또한 원본 이미지와 유사하다는 것을 나타낸다.

  • PDF

온톨로지의 구축과 학습: 상하위 관계

  • Choe, Gi-Seon;Ryu, Beop-Mo
    • Communications of the Korean Institute of Information Scientists and Engineers
    • /
    • v.24 no.4 s.203
    • /
    • pp.24-30
    • /
    • 2006
  • 온톨로지의 기본개념, 응용 분야 및 학습 단계에 대하여 간단하게 설명하였고, 온톨로지 학습단계에서 전문 분야의 개념간 계층 관계 학습 방법에 대하여 자세하게 알아보았다. 전문분야 개념을 표현하는 전문 용어 사이의 계층 관계를 학습하는 방법은 크게 규칙 기반 방법, 통계 기반 방법 그리고 용어의 전문성과 유사도를 이용하는 방법으로 나눌 수 있다. 규칙 기반 방법은 비교적 정확한 결과를 얻을 수 있는 장점이 있지만 재현율이 낮은 단점이 있다. 기존은 통계 기반 방법에서는 재현율이 높은 장점이 있지만 정확률이 낮은 단점이 있다. 또한 이 방법에서는 순수하게 통계 정보만 이용하기 때문에 오류에 대한 분석이 어려운 단점이 있다. 용어의 전문성과 용어간 유사도를 이용한 방법에서는 용어의 전문성을 이용하여 기존의 계층 구조에서 상위에 후보를 선택하고, 용어간 유사도를 이용하여 선택한 후보를 정렬하여 최적의 후보를 찾는다. 이 방법은 상위어 선정 과정을 두 단계로 분리하여 수행하기 때문에 오류 분석이 용이한 장점이 있다. 향후 온톨로지 학습 과정에서 계층 관계뿐 아니라 인과 관계 및 다양한 관계의 학습과 관련된 연구가 진행되어야 한다.

The Method of Document Comparison using Document Hierarchy (문서의 계층화를 이용한 문서비교 방법)

  • Hwang, Myung-Gwon;Kong, Hyun-Jang;Hwang, Kwang-Su;Kim, Pan-Koo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.143-147
    • /
    • 2006
  • 오늘날 웹의 비약적인 성장으로 텍스트, 이미지, 비디오, 그리고 사운드 등의 다양한 데이터 형식의 많은 정보가 축적되었으며 날마다 늘어나고 있다. 이들 정보의 효율적 검색을 위해 많은 연구가 이루어졌으며, 특히 텍스트 문서의 효율적인 검색을 위해 확률을 이용한 방법, 통계적인 기법을 이용한 방법, 벡터 유사도를 이용한 방법, 베이지안 자동문서 분류 방법 등이 제안되었다. 그러나 이러한 기존의 방법들은 문서의 특징을 정확하게 반영할 수 없고, 의미적 검색이 이루어지지 않는 단점을 가지고 있다. 이에 본 논문은 문서를 미리 분류하는 기존의 방법을 개선하기 위해, 사용자가 원하는 문서와 비슷한 문서를 의미적으로 찾아내기 위한 방법을 제안한다. 본 방법론은 문서의 내용을 의미적인 계층으로 표현하고 중요 도메인에 가중치를 두어 각 문서들의 계층들의 도메인 비중과 도메인 내의 개념 일치도를 이용하여 문서들 간에 유사도를 구한다.

  • PDF

A study on the relation between dissimilarity and hierarchical agglomerative in clust analysis (집락분석법에 있어서 비유사도와 계층적 응집법의 관계에 관한 연구)

  • 조완현
    • The Korean Journal of Applied Statistics
    • /
    • v.5 no.2
    • /
    • pp.211-227
    • /
    • 1992
  • In this paper we consider the definition and mathematical properties of similarity or dissimilarity which have often used in clust analysis, and we apply a hierarchical agglomerative cluster algorithm to a dissimilarity metrx generated by these distance. Here we investigate the effect of relation between distance function and cluster algorithm on the retrieval ability of natural clusters. We present an empirical results for qualitative data as well as quantitative data.

  • PDF

Technique for Path-based Similarity Evaluation of XML Documents (경로 기반의 XML 문서 유사도 계산 기법)

  • Yi Dong-Ae;Jang Duck-Sung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.11a
    • /
    • pp.689-692
    • /
    • 2004
  • XML은 의미적으로는 동일하거나 혹은 유사하지만 서로 다른 구조의 XML 문서들을 허용하므로 XML 문서들을 대상으로 하는 검색, 클러스터링 등의 응용에서는 XML 문서들간의 유사도 계산이 선행되어져야 한다. XML 문서간 유사도를 계산하기 위해서는 문서의 구조 정보인 엘리먼트들과 이들 엘리먼트들의 계층적 구조가 고려되어져야 한다. 본 연구에서는 두 XML 문서가 얼마나 유사한 경로들을 공통으로 가지냐를 두 문서간의 유사도로 보고, 경로 유사도 계산식과, 이를 기반으로 하는 문서 거리 및 문서 유사도 계산식을 정의하여, 유사도 계산 기법을 제안한다. 제안된 기법과 기존 유사도 계산 기법들을 예제 문서들을 통해 계산결과를 비교한다.

  • PDF

Citizens' Expectations from Government and Policy Attitude with Regard to Reducing Overlap and Duplicating among Government Programs -Does an Income Class Difference Matter?- (유사중복사업 통폐합 정책에 대한 기대효과와 태도 -소득계층 간의 차이를 중심으로-)

  • Lee, Jae-Wan
    • The Journal of the Korea Contents Association
    • /
    • v.17 no.7
    • /
    • pp.133-143
    • /
    • 2017
  • The objective of this study is to examine whether citizens' expectations of policy impacts of the government's efforts to reduce overlap and duplication among its programs have any influence on citizens' policy attitude. Furthermore, this study examines whether the influence is differential and dependent on income class differences. The results suggest that 'reducing budget waste' bas a positive impact on policy attitude whereas 'enhancing work performance' bad no significant impact. And the results reveal that middle class bold a more negative view than upper class on the government's efforts. Concerning the moderating effect. income class differences weaken the positive relationship between 'reducing budget waste' and policy attitude as well the negative relationship between 'enhancing work performance' and policy attitude. The policy implication of this study is, to gain support from citizens for its overlap and duplication reduction policies, it is critical that the government should publicize that there exists a more of citizens benefitting from such policies.

A Hierarchical Clustering Algorithm Using Extended Sequence Element-based Similarity Measure (확장된 시퀀스 요소 기반의 유사도를 이용한 계층적 클러스터링 알고리즘)

  • Oh, Seung-Joon
    • Journal of the Korea Society of Computer and Information
    • /
    • v.11 no.5 s.43
    • /
    • pp.321-327
    • /
    • 2006
  • Recently there has been enormous growth in the amount of commercial and scientific data. Such datasets consist of sequence data that have an inherent sequential nature. However, only a few of the existing clustering algorithms consider sequentiality. This study presents a similarity measure and a method for clustering such sequence datasets. Especially, we present an extended concept of the measure of similarity, which considers various conditions. Using a splice dataset, we show that the quality of clusters generated by our proposed clustering algorithm is better than that of clusters produced by traditional clustering algorithms.

  • PDF

A Hybrid Clustering Technique for Processing Large Data (대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법)

  • Kim, Man-Sun;Lee, Sang-Yong
    • The KIPS Transactions:PartB
    • /
    • v.10B no.1
    • /
    • pp.33-40
    • /
    • 2003
  • Data mining plays an important role in a knowledge discovery process and various algorithms of data mining can be selected for the specific purpose. Most of traditional hierachical clustering methode are suitable for processing small data sets, so they difficulties in handling large data sets because of limited resources and insufficient efficiency. In this study we propose a hybrid neural networks clustering technique, called PPC for Pre-Post Clustering that can be applied to large data sets and find unknown patterns. PPC combinds an artificial intelligence method, SOM and a statistical method, hierarchical clustering technique, and clusters data through two processes. In pre-clustering process, PPC digests large data sets using SOM. Then in post-clustering, PPC measures Similarity values according to cohesive distances which show inner features, and adjacent distances which show external distances between clusters. At last PPC clusters large data sets using the simularity values. Experiment with UCI repository data showed that PPC had better cohensive values than the other clustering techniques.