• Title/Summary/Keyword: 유사도측정

Search Result 1,378, Processing Time 0.027 seconds

Similar Trajectory Clustering on Road Networks (도로 네트워크에서의 유사 궤적 클러스터링)

  • Baek, Ji-Haeng;Won, Jung-Im;Kim, Sang-Wook
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10c
    • /
    • pp.256-260
    • /
    • 2006
  • 본 논문에서는 도로 네트워크내의 이동 객체들을 대상으로 하는 효과적인 유사 궤적 검색 및 클러스터링 기법에 대하여 논한다. 이동 객체들 간의 유사도 측정을 위한 기존의 기법들은 대부분 유클리디안 공간 상의 궤적들을 대상으로 한다. 그러나 실제 응용에서 대부분의 이동 객체들은 도로 네트워크 공간 상에 존재하므로, 이러한 실제 상황을 반영하는 유사도 측정 방식이 요구된다. 본 논문에서는 각 이동 객체가 시간에 따라 지나간 도로 세그먼트들의 리스트를 궤적이라 정의하고, 이렇게 정의된 궤적들을 대상으로 하는 새로운 유사도 측정 함수를 제안한다. 제안된 유사도 측정 함수는 궤적을 이루는 도로 세그먼트의 길이와 식별자 정보를 이용한다. 제안된 유사도 측정 함수에 의하여 측정된 각 궤적 쌍 간의 유사도를 기반으로 전체 궤적들을 FastMap을 이용하여 k차원 공간상의 점들로 사상하고, 이들을 k-medoids 방식을 이용하여 클러스터링 한다. 구성된 클러스터와 연관된 사용자 정보, 도로 정보 등을 함께 사용자에게 제공하는 활용 예를 제시함으로써 제안된 기법이 실제 응용에 유용하게 사용될 수 있음을 보인다.

  • PDF

Sentence Interaction-based Document Similarity Models for News Clustering (뉴스 클러스터링을 위한 문장 간 상호 작용 기반 문서 쌍 유사도 측정 모델들)

  • Choi, Seonghwan;Son, Donghyun;Lee, Hochang
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.401-407
    • /
    • 2020
  • 뉴스 클러스터링에서 두 문서 간의 유사도는 클러스터의 특성을 결정하는 중요한 부분 중 하나이다. 전통적인 단어 기반 접근 방법인 TF-IDF 벡터 유사도는 문서 간의 의미적인 유사도를 반영하지 못하고, 기존 딥러닝 기반 접근 방법인 시퀀스 유사도 측정 모델은 문서 단위에서 나타나는 긴 문맥을 반영하지 못하는 문제점을 가지고 있다. 이 논문에서 우리는 뉴스 클러스터링에 적합한 문서 쌍 유사도 모델을 구성하기 위하여 문서 쌍에서 생성되는 다수의 문장 표현들 간의 유사도 정보를 종합하여 전체 문서 쌍의 유사도를 측정하는 네 가지 유사도 모델을 제안하였다. 이 접근 방법들은 하나의 벡터로 전체 문서 표현을 압축하는 HAN (hierarchical attention network)와 같은 접근 방법에 비해 두 문서에서 나타나는 문장들 간의 직접적인 유사도를 통해서 전체 문서 쌍의 유사도를 추정한다. 그리고 기존 접근 방법들인 SVM과 HAN과 제안하는 네 가지 유사도 모델을 통해서 두 문서 쌍 간의 유사도 측정 실험을 하였고, 두 가지 접근 방법에서 기존 접근 방법들보다 높은 성능이 나타나는 것을 확인할 수 있었고, 그래프 기반 접근 방법과 유사한 성능을 보이지만 더 효율적으로 문서 유사도를 측정하는 것을 확인하였다.

  • PDF

Implementation of A Plagiarism Detecting System with Sentence and Syntactic Word Similarities (문장 및 어절 유사도를 이용한 표절 탐지 시스템 구현)

  • Maeng, Joosoo;Park, Ji Su;Shon, Jin Gon
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.8 no.3
    • /
    • pp.109-114
    • /
    • 2019
  • The similarity detecting method that is basically used in most plagiarism detecting systems is to use the frequency of shared words based on morphological analysis. However, this method has limitations on detecting accurate degree of similarity, especially when similar words concerning the same topics are used, sentences are partially separately excerpted, or postpositions and endings of words are similar. In order to overcome this problem, we have designed and implemented a plagiarism detecting system that provides more reliable similarity information by measuring sentence similarity and syntactic word similarity in addition to the conventional word similarity. We have carried out a comparison of on our system with a conventional system using only word similarity. The comparative experiment has shown that our system can detect plagiarized document that the conventional system can detect or cannot.

A Study on the Degree of Signature Similarity between Domain Model and Object Candidate Groups (영역 모델과 객체후보군의 유사도 측정에 관한 연구)

  • 박성옥;노경주;이문근
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.522-524
    • /
    • 1999
  • 절차지향 소프트웨어를 객체지향 소프트웨어로 변환하는 여러 가지 방법이 존재한다. 프로그램을 변환하기 위하여 일반적으로 함수, 변수와 자료형들 간의 관계를 이용한다. 이들간의 관계성을 이용하면 결과로서 객체 후보가 생성된다. 생성된 객체 후보와 영역 전문가에 의하여 생성된 영역 모델을 비교하여 두 모델간의 유사성을 측정하여야 한다. 본 논문에서는 클래스의 시그너처(클래스 이름, 속성의 이름, 속성의 자료형, 메소드 이름, 메소드의 리턴형, 메소드 파라미터의 자료형)을 이용하여 클래스와 객체 후보의 유사도를 측정하고, 측정된 유사도의 평균값을 이용하여 객체 후보군의 유사도를 측정한다. 기존의 연구 방법과는 다르게 n개의 클래스와 m개의 객체 후보사이의 구문적 측면의 유사도 측정뿐만이 아니라 의미적 측면의 유사도를 측정하는 방법을 제시하여 최적합 객체 후보군을 추출하도록 하였다.

  • PDF

Fuzzy Similarity Measure (퍼지 유사도 척도)

  • Lee, Kwang-Hyung
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.8 no.6
    • /
    • pp.119-121
    • /
    • 1998
  • For a fuzzy system modeled by a fuzzy hypergraph, two fuzzy similarity measures are proposed:one for the fuzzy similarity between fuzzy sets and the other between elements in fuzzy sets. The proposed measures can represent the realistic similarities which can not be given by the existing measures. With an example, it is shown that it can be used in the system analysis.

  • PDF

A Program Reproduction Test System (프로그램 복제 검사 시스템)

  • 정재은;김영철;유재우
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.59-61
    • /
    • 2000
  • 본 논문에서는 프로그램의 복제를 검사하기 위하여 서로다른 두 프로그래의 유사도를 측정하는 시스템을 제시한다. 지금까지 유사도 평가 방법은 일반 텍스트에 국한되어 있고 프로그램에 대한 유사도 검사는 극히 드물다. 본 시스템은 서로 다른 프로그램을 입력받아 분석 과정을 거쳐 구문 트리를 구성하고, 생성괸 구문트리와 유사도 평가 시스템을 이용하여 프로그램의 유사도를 측정한다. 구문트리를 이용한 유사도 측정은 경제적이고 효율적으로 유사도를 검출해 낼 수 있다는 것을 평가에서 보여준다.

  • PDF

Min-Max Hash for Similarity Measurement based on Multiset (Min-Max Hash를 활용한 다중 집합 기반의 유사도 측정)

  • Yoon, Jin-Uk;Kim, Byoungwook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.36-39
    • /
    • 2019
  • 데이터 마이닝에서 클러스터링은 서로 유사한 특징을 갖는 데이터들을 동일한 클래스로 분류하는 방법이다. 클러스터링에는 다양한 방법이 존재하지만 대표적으로 집합으로 표현된 데이터들의 유사도를 측정하기 위해서는 자카드 유사도(Jaccard Similarity)를 이용한다. 자카드 유사도는 서로 다른 집합 간의 공통된 부분을 상대적으로 평가하여 유사도를 측정하는 방법이다. 그러나 최근에는 데이터를 저장할 수 있는 기술과 매체의 발전으로 표현할 수 있는 데이터의 영역과 범위는 발전되고 있기 때문에 많은 연산과 시간의 비용이 발생하게 된다. 이를 해결하기 위해서 두 데이터의 표본의 유사도를 통해 실제 데이터들의 유사도를 추정할 수 있는 Min-Hash 가 제안되었다. 본 논문에서는 이를 활용하여 집합의 영역을 다중 집합(Multiset)으로 확장하여 중복되는 값을 가질 수 있는 두 데이터 간의 유사도를 효율적으로 추정할 수 있는 Min-Max Hash 를 제안한다.

Representation of spatial variation and particle mean size for suspended sediment using acoustic backscatter in controlled channel experiments (수리실험을 통한 통제된 유사 조건에서의 횡방향 초음파도플러유속계 초음파산란도 활용 부유사농도 분포 및 평균 입경 분석)

  • Son, Geunsoo;Kim, Jongmin;Kang, Woochul
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.252-252
    • /
    • 2022
  • 최근 기존의 전통적인 부유사채집기를 활용한 유사량 측정방법의 대안으로 지속적인 유량측정을 목적으로 활용되고 있는 횡방향 초음파도플러유속계의 초음파산란도를 활용하여 부유사농도를 측정에 대한 연구가 수행되고 있다. 하지만, 하천에서 횡방향 초음파도플러유속계를 활용한 유사량 측정 연구는 현장에서 측정된 자료를 기반으로 분석이 수행되기 때문에 통제된 유사 조건에서의 유사의 농도 및 입도분포에 대한 사전 정보를 바탕으로 정밀한 분석의 어려움이 있다. 이에 본 연구에서는 안동하천실험센터 순환수로에서 균일한 입도를 가지고 있는 황토를 활용하여 주입량에 따른 초음파산란도의 변화와 동시에 측정된 LISST(laser in-situ scattering and transmissometry)의 부유사 농도와 입도 자료를 활용하여 유사공급에 따른 3Mhz의 단일 주파수를 사용하는 횡방향 초음파도플러유속계의 초음파산란도를 활용한 부유사농도 및 평균입경의 측정에 대한 연구를 수행하였다. 측정결과, 유사공급에 따라서 초음파산란도를 활용하여 부유사농도가 증가하는 경향을 나타내고 있었으며, 횡방향 초음파도플러유속계로부터 측정된 셀별 초음파산란도를 활용하여 부유사농도의 공간적인 분포의 분석이 가능함을 확인할 수 있었다. 그리고 유사감쇄계수를 활용하여 LISST로부터 측정된 평균입경과의 관계식을 개발하여 유사공급에 따른 평균입경의 변화를 측정할 수 있을 것으로 나타났다. 추후, 통제된 조건에서의 다양한 입도분포에 따른 실험을 통해 횡방향 초음파도플러유속계의 초음파산란도를 활용한 부유사농도 측정 정확도를 개선과 유사감쇄계수를 통해 평균입경을 측정하는데 활용이 될 것으로 판단된다.

  • PDF

Development of a Surrogate Technology Load Based upon Horizontal ADCP for Continuous Estimation of Suspended Sediment (횡방향 ADCP기반 연속적 부유사량 측정 방법의 대안 기술 개발)

  • Son, Geunsoo;Kim, Dongsu;Roh, Young Sin
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2020.06a
    • /
    • pp.47-47
    • /
    • 2020
  • 하천 유사량 자료는 하천관리를 위해 기초적으로 활용되는 자료로 하천의 유지관리를 위한 유사량 자료의 측정은 필수적이다. 따라서, 현재 국내에서는 전국에 138개소의 국가유사량관측망에서 지속적인 유사량 측정을 수행하고 있지만, 기존의 재래식 부유사 채집기를 이용한 부유사 측정을 수행하고 있어 연간 약 20개소 내외에서만 직접조사가 수행되고 있고, 2019년도 기준 전국 138개소 중에서 2006년~2018년 동안 최소 1회 이상 유사량 측정을 수행한 지점은 40개소로 국가 유사량관측망의 약 29% 지점에 대해서만 조사가 수행되고 있다. 해외의 경우에도 기존 재래식 채집기를 통한 유사량 관측을 주로 수행하고 있지만 최근에는 기존 채집기를 이용한 유사량 조사방법의 고비용·저효율로 인한 시공간적 한계로 인해 대안기술이 개발되고 있다. 특히, 최근 해외에서는 ADCP를 활용한 유사량 측정 기술이 기존 부유사 채집기를 이용한 유사량 조사방법의 대안으로 시도되고 있다. ADCP를 이용한 유사량 측정방법은 ADCP의 초음파산란도를 활용하여 간접적으로 부유사의 농도를 추정하는 기술로 ADCP를 이용하여 유량자료과 함께 유사량 자료를 확보할 수 있을 것으로 기대되는 기술이다. 특히, 기존에 설치된 국가하천 자동유량측정장치(H-ADCP)에 적용이 가능하다면 다지점에서의 지속적인 유량측정과 함께 부유사 농도의 측정이 가능할 것으로 기대되고 있다. 이에 본 연구에서는 기존 국가하천에 설치되어 있는 자동유량측정장치(H-ADCP)의 초음파산란도를 활용한 부유사농도 측정 기술의 적용성을 검토하였다. 적용성의 검토를 위해 2016년 진동지점에서 수집된 H-ADCP 원시자료를 사용하여 초음파산란도를 활용한 부유사농도 측정 방법을 시범적으로 적용하였다. 적용결과, 실측 부유사농도와 H-ADCP로부터 추정된 부유사 농도를 비교를 통해서 H-ADCP를 활용한 부유사농도 측정 방법의 가능성을 확인할 수 있었지만, 기술적인 보완 및 개선이 필요할 것으로 판단되었다. 추후에는 지속적인 연구를 통해 ADCP 유사량 측정기술이 개발된다면 기존 부유사 채집기를 이용한 유사량 측정 방법의 대안으로 유사량 조사를 목적으로 활용이 될 수 있을 것으로 기대한다.

  • PDF

A Sequence Similarity Algorithm Irrelevant to Sequence Length (서열의 길이에 무관한 유사도 측정 알고리즘)

  • Kim, Jae-Kwang;Lee, Jee-Hyong
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2008.04a
    • /
    • pp.13-16
    • /
    • 2008
  • Dynamic Programming (DP)을 이용한 서열 비교 알고리즘은 DNA, RNA, 단백질 서열의 비교와 프로그래밍 소스 코드 유사도를 측정하는 곳 등에 널리 사용되어 왔다. 이 알고리즘은 DP를 이용하여 행렬을 구성한 후, 행렬의 가장 마지막 생성 값을 이용해 두 서열의 유사도를 측정하는 방법이다. 그러나 이 알고리즘에서 사용하는 마지막 생성 값은 비교 서열이 길이에 따라 크게 좌우되기 때문에 다양한 서열들의 유사도를 알아내기에는 부적합하다. 본 논문에서는 서열의 길이에 무관한 유사도 측정 (S2) 알고리즘을 제안한다. 제안된 알고리즘을 이용하면 비교 서열의 길이에 영향을 받지 않고 정당한 서열 비교를 할 수 있다. 제안된 알고리즘의 검증을 위해 본 논문에서는 프로그램 소스 코드의 유사도 측정을 수행한다.

  • PDF