• Title/Summary/Keyword: 유사도측정

Search Result 1,383, Processing Time 0.027 seconds

Word Sense Similarity Clustering Based on Vector Space Model and HAL (벡터 공간 모델과 HAL에 기초한 단어 의미 유사성 군집)

  • Kim, Dong-Sung
    • Korean Journal of Cognitive Science
    • /
    • v.23 no.3
    • /
    • pp.295-322
    • /
    • 2012
  • In this paper, we cluster similar word senses applying vector space model and HAL (Hyperspace Analog to Language). HAL measures corelation among words through a certain size of context (Lund and Burgess 1996). The similarity measurement between a word pair is cosine similarity based on the vector space model, which reduces distortion of space between high frequency words and low frequency words (Salton et al. 1975, Widdows 2004). We use PCA (Principal Component Analysis) and SVD (Singular Value Decomposition) to reduce a large amount of dimensions caused by similarity matrix. For sense similarity clustering, we adopt supervised and non-supervised learning methods. For non-supervised method, we use clustering. For supervised method, we use SVM (Support Vector Machine), Naive Bayes Classifier, and Maximum Entropy Method.

  • PDF

The Method of Searching Metathesaurus, Using Automatic Modified a Query (질의어 자동수정을 이용한 메타시소러스 검색 방법)

  • 김종광;하원식;김태용;류중경;이정현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.454-456
    • /
    • 2003
  • UMLS(2003AA edition 기준)의 메타시소러스는 다국어를 지원하며 875.233개의 개 (concept)과 2,146,897개의 개념명(concept name)을 포함한다. 현재 UMLS 메타시소러스 검색을 제공하는 PubMed나 NLM에서는 UMLS에서는 개념명에 존재하지 않는 잘못된 질의나, 잘못된 구문 또는 개념명의 일부를 이용한 검색이 불가능하다. 이는 사용자가 UMLS에서 정보를 얻기 위해서는 정확한 의학용어를 숙지해야 되며. UMLS 메타시소러스의 데이터가 잘못 되었을 경우 정보를 얻을 수 없다. 본 연구에서는 이러한 문제점을 보완하기 위해서 자연어처리에서 연구되고 있는 문자열 간의 유사도 측정방식을 적용하여 잘못된 질의어에 대한 자동수정 기능을 이용한 메타시소러스 검색방법을 제안한다. 제안한 방법에서는 질의어를 자동수정하기 위하여 철자사전을 자동으로 추출하고 문자열 비교알고리즘을 도입하여 질의어와 철자사전간의 용어의 유사도를 측정한다. 유사도에 의하여 얻어진 용어를 메타시소러스의 형식에 맞게 변환하여 질의에 대한 최적의 결과를 얻을 수 있도록 한다. 제안된 방법의 성능을 평가하기 위해서 최근(2003년 8월) bi-gram 방식을 도입한 NLM에서의 시스템과 비교 평가한다.

  • PDF

Contents Based Image Retrieval System Considering Various User Interface (다양한 사용자 인터페이스를 고려한 내용기반 영상 검색시스템)

  • 방상배;이채영;남재열
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2001.06a
    • /
    • pp.257-260
    • /
    • 2001
  • 내용 기반 영상 검색 시스템의 전체 구조를 살펴볼 때 질의영상을 입력하는 입력부, 입력된 질의영 상의 색상 및 형태정보를 분석하여 DB내의 영상과 유사도를 측정하는 검색 엔진부, 그리고 유사도 측정 결과 검색된 영상을 사용자에게 보여주는 출력부로 나눠볼 수 있다. 본 논문에서는 효율적인 검색 결과를 얻기 위해서 입력부에서는 사용자의 편의성을 고려한 인터페이스 설계를 논의하고, 검색엔진부 에서는 질의영상의 한 빈에 대하여 비교영상의 인접한 빈 중 유사도가 높은 빈을 검색한 후 그 위치 가 가까울수록 인접 빈에 높은 가중치를 부여하는 방식을 이용하여 히스토그램 인터섹션이 가지는 장점을 그대로 계승하면서 색상이나 명도, 태도에 약간의 차이가 존재하는 영상들들 효율적으로 검색할 수 있는 검색 기법을 제안하였다. 또한 출력부에서는 검색 시스템의 검색 효율이 뛰어나더라도 그것을 사용자에게 효과적으로 제시되지 못할 경우 일어날 검색 시스템의 효율성 반감을 고려하여 영상 특징 간의 관계성과 전체적인 일견의 효과를 제공할 수 있는 Iandscape 모델을 제안하였다.

  • PDF

A Study on Partial Pattern Restoration using Hopfield Neural Network (홉필드 신경망을 이용한 부분패턴의 복원에 관한 연구)

  • Kim, Gi-Hun;Lee, Joo-Young;NamKung, Jae-Chan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05a
    • /
    • pp.591-594
    • /
    • 2003
  • 본 논문에서는 hopfield 신경망을 사용한 다양한 부분적인 패턴 복원에 관하여 연구하였다. 여섯 개의 $32{\times}32$ 비트맵 훈련패턴들은 한글자음 ㄱ, ㅁ, ㅂ, ㅇ, ㅊ, ㅍ, 그리고 남자와 여자 이미지로 구성되어 있다. 그리고 부분패턴들의 크기, 범위, 방향의 효과를 알아보기 위해서 훈련패턴에서 여덟 가지 형태의 테스트 패턴을 만든다. 한글 자음의 경우 유사 패턴이 많기 때문에 완전히 복원되지 못하였으나, 400회 정도 수렵된 후에는 테스트패턴들이 견본패턴과 비슷한 모양으로 복원되었다. 이 유사도를 측정하기 위해 해밍거리 (Hamming distance)를 이용하였다. 유사도를 측정하여 해밍거리가 가장 적은 것으로 본래의 이미지들 복원하였다.

  • PDF

Case study on the Verification of "Essential Patent to Standard" using Document Similarity anal용yzed by Morphological Characteristics (형태학적 특성 기반의 유사문헌 검증기법을 이용한 표준특허 사례연구)

  • An, Jeong-Eun;Yoon, Jong-Min
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.191-196
    • /
    • 2010
  • 표준특허란 표준문서의 규격을 기술적으로 구현하는 과정에서 필수적으로 적용해야 하는 특허로서, 최근 선진국은 "R&D-특허-표준화의 연계"를 강화하고 있고 글로벌 기업 또한 표준과 연계한 특허 획득에 주력하고 있다. 우리나라 또한 기술선점, 시장지배력 및 경제적 파급효과 등의 표준특허 확보의 중요성을 인식하고 있고, 정부와 정부부처의 산하 연구기관을 중심으로 표준특허 관련 법 제도 등의 관련연구가 진행되고 있다. 그러나 표준특허 분석결과만이 연구결과로 공개되고 있을 뿐, 실제로 표준특허 선별을 위한 정형화된 기법은 전무한 상태이며 분석방법론 관련연구 또한 매우 미미한 상태이다. 따라서 본 논문은 형태학적 특성에 기반을 두어 표준과 특허문서 간 유사도를 측정하고, 측정된 유사도를 분석하여 신뢰성 있게 표준특허를 선별하는 방법을 제안하고 그 적용사례를 분석한다.

  • PDF

Inter-channel similarity measure for autofocus on digital camera with divided aperture (컬러 채널 간 유사도 측정을 통한 디지털 카메라의 자동초점 기법)

  • Koh, Kwang-Hyun;Kuk, Jung-Gap;Choi, Woo-Seok;Cho, Nam-Ik
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2010.07a
    • /
    • pp.400-403
    • /
    • 2010
  • 본 논문에서는 디지털 카메라의 자동초점 속도를 향상시키는 새로운 기법을 제안한다. 제안된 방식은 위상차 검출 방식에서 사용되는 추가적인 자동초점 모듈을 장착하지 않으면서도 빠르게 초점이 맞는 위치의 거리와 방향을 계산할 수 있는데, 이는 이중 분할 조리개를 이용하여 위상차가 발생하도록 하고, 컬러 필터를 이용하여 분리함으로써 소프트웨어 영상 처리만으로 위상차를 측정하여 정확한 초점 위치를 찾을 수 있기 때문이다. 이중 분할 조리개에 의해서 발생한 컬러 영상 채널 간의 상이한 정도를 측정하기 위하여 초점이 맞는 정도를 수치화 할 수 있는 유사도 측정 기준을 제시하는데, 이 기준으로 측정된 유사도를 비교함으로써 불일치 정도를 추출하며 정확한 초점을 잡기 위한 거리와 방향을 계산한다. 실험에서는 상용 디지털 카메라를 개조한 프로토 타입에서 취득한 영상을 사용하여 제안한 방식의 유효성을 검증하였다.

  • PDF

Efficient Video Retrieval Scheme with Luminance Projection Model (휘도투시모델을 적용한 효율적인 비디오 검색기법)

  • Kim, Sang Hyun
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.16 no.12
    • /
    • pp.8649-8653
    • /
    • 2015
  • A number of video indexing and retrieval algorithms have been proposed to manage large video databases efficiently. The video similarity measure is one of most important technical factor for video content management system. In this paper, we propose the luminance characteristics model to measure the video similarity efficiently. Most algorithms for video indexing have been commonly used histograms, edges, or motion features, whereas in this paper, the proposed algorithm is employed an efficient similarity measure using the luminance projection. To index the video sequences effectively and to reduce the computational complexity, we calculate video similarity using the key frames extracted by the cumulative measure, and compare the set of key frames using the modified Hausdorff distance. Experimental results show that the proposed luminance projection model yields the remarkable improved accuracy and performance than the conventional algorithm such as the histogram comparison method, with the low computational complexity.

Target Word Selection using Word Similarity based on Latent Semantic Structure in English-Korean Machine Translation (잠재의미구조 기반 단어 유사도에 의한 역어 선택)

  • 장정호;김유섭;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.502-504
    • /
    • 2002
  • 본 논문에서는 대량의 말뭉치에서 추출된 잠재의미에 기반하여 단어간 유사도를 측정하고 이를 영한 기계 번역에서의 역어선택에 적용한다. 잠재의미 추출을 위해서는 latent semantic analysis(LSA)와 probabilistic LSA(PLSA)를 이용한다. 주어진 단어의 역어 선택시 기본적으로 연어(collocation) 사전을 검색하고, 미등록 단어의 경우 등재된 단어 중 해당 단어와 유사도가 높은 항목의 정보를 활용하며 이 때 $textsc{k}$-최근접 이웃 방법이 이용된다. 단어들간의 유사도 계산은 잠재의미 공간상에서 이루어진다. 실험에서, 연어사전만 이용하였을 경우보다 최고 15%의 성능 향상을 보였으며, PLSA에 기반한 방법이 LSA에 의한 방법보다 역어선택 성능 면에서 약간 더 우수하였다.

  • PDF

A study of the context-aware service using case-based reasoning (사례기반추론을 이용한 상황인식 서비스 적용방안에 관한 연구)

  • Lee, Gil-Jae;An, Tae-Ki;Lee, Woo-Dong;Kim, Moon-Hyun
    • Proceedings of the KIEE Conference
    • /
    • 2007.10a
    • /
    • pp.401-402
    • /
    • 2007
  • 유비쿼터스 환경에서의 상황인식 서비스는 의료, 쇼핑, 교육, 소방, 문화 등 우리 사회 전 분야에 걸쳐 응용되고 있으며, 각 분야에 영향을 미치고 있다. 상황인식 서비스는 사용자의 상황정보를 정확하게 파악하여 신속한 서비스를 제공하는데 목적이 있다. 따라서 본 논문에서는 사용자의 상황정보를 바탕으로 보다 효율적이고 정확한 서비스를 제공하고자 지능적인 추론방법인 사례기반추론방법을 제안한다. 사례기반추론은 과거의 경험이나 상황을 사례 데이터베이스로 구축하여 어떠한 상황이나 문제가 발생하면 기존의 사례 데이터베이스에서 가장 유사한 사례들과 비교 분석하여 현재에 처한 상황과 가장 유사한 상황을 검색하여 그에 따른 사용자가 원하는 정보를 제공한다. 즉 사용자의 상황정보를 바탕으로 검색된 유사한 사례들에 대한 유사도를 측정, 구함으로써 유사도가 높은 사례일수록 현재의 상황과 가장 유사한 상황으로 인식하여 그에 따른 해결책을 제시하여 사용자로 하여금 원하는 서비스를 제공받고자한다.

  • PDF

Measuring Similarity Between Lecture Notes Based on Tree Structure (트리 구조로 된 강의노트 사이의 유사도 측정 기법)

  • Lim, Seon-Kyu;Kim, Myoung-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06c
    • /
    • pp.25-28
    • /
    • 2011
  • 본 논문에서는 강의노트의 저장 형식이 XML 문서라는 사실을 기반으로 강의노트 사이의 유사도 계산 문제를 XML 문서 사이의 유사도 계산 문제로 치환해 해결한다. 그리고 유사도를 계산할 때 강의노트가 포함하는 컨텐츠의 논리적 구조의 특징을 반영한다. 본 논문에서 제안한 기법을 사용해 사용자가 소유한 강의노트와 유사한 강의노트들을 정확하게 검색함으로써 사용자가 효과적으로 강의노트를 학습할 수 있도록 도움을 줄 수 있다.