• 제목/요약/키워드: 유사도측정

검색결과 1,381건 처리시간 0.034초

도로 네트워크에서의 유사 궤적 클러스터링 (Similar Trajectory Clustering on Road Networks)

  • 백지행;원정임;김상욱
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (C)
    • /
    • pp.256-260
    • /
    • 2006
  • 본 논문에서는 도로 네트워크내의 이동 객체들을 대상으로 하는 효과적인 유사 궤적 검색 및 클러스터링 기법에 대하여 논한다. 이동 객체들 간의 유사도 측정을 위한 기존의 기법들은 대부분 유클리디안 공간 상의 궤적들을 대상으로 한다. 그러나 실제 응용에서 대부분의 이동 객체들은 도로 네트워크 공간 상에 존재하므로, 이러한 실제 상황을 반영하는 유사도 측정 방식이 요구된다. 본 논문에서는 각 이동 객체가 시간에 따라 지나간 도로 세그먼트들의 리스트를 궤적이라 정의하고, 이렇게 정의된 궤적들을 대상으로 하는 새로운 유사도 측정 함수를 제안한다. 제안된 유사도 측정 함수는 궤적을 이루는 도로 세그먼트의 길이와 식별자 정보를 이용한다. 제안된 유사도 측정 함수에 의하여 측정된 각 궤적 쌍 간의 유사도를 기반으로 전체 궤적들을 FastMap을 이용하여 k차원 공간상의 점들로 사상하고, 이들을 k-medoids 방식을 이용하여 클러스터링 한다. 구성된 클러스터와 연관된 사용자 정보, 도로 정보 등을 함께 사용자에게 제공하는 활용 예를 제시함으로써 제안된 기법이 실제 응용에 유용하게 사용될 수 있음을 보인다.

  • PDF

뉴스 클러스터링을 위한 문장 간 상호 작용 기반 문서 쌍 유사도 측정 모델들 (Sentence Interaction-based Document Similarity Models for News Clustering)

  • 최성환;손동현;이호창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.401-407
    • /
    • 2020
  • 뉴스 클러스터링에서 두 문서 간의 유사도는 클러스터의 특성을 결정하는 중요한 부분 중 하나이다. 전통적인 단어 기반 접근 방법인 TF-IDF 벡터 유사도는 문서 간의 의미적인 유사도를 반영하지 못하고, 기존 딥러닝 기반 접근 방법인 시퀀스 유사도 측정 모델은 문서 단위에서 나타나는 긴 문맥을 반영하지 못하는 문제점을 가지고 있다. 이 논문에서 우리는 뉴스 클러스터링에 적합한 문서 쌍 유사도 모델을 구성하기 위하여 문서 쌍에서 생성되는 다수의 문장 표현들 간의 유사도 정보를 종합하여 전체 문서 쌍의 유사도를 측정하는 네 가지 유사도 모델을 제안하였다. 이 접근 방법들은 하나의 벡터로 전체 문서 표현을 압축하는 HAN (hierarchical attention network)와 같은 접근 방법에 비해 두 문서에서 나타나는 문장들 간의 직접적인 유사도를 통해서 전체 문서 쌍의 유사도를 추정한다. 그리고 기존 접근 방법들인 SVM과 HAN과 제안하는 네 가지 유사도 모델을 통해서 두 문서 쌍 간의 유사도 측정 실험을 하였고, 두 가지 접근 방법에서 기존 접근 방법들보다 높은 성능이 나타나는 것을 확인할 수 있었고, 그래프 기반 접근 방법과 유사한 성능을 보이지만 더 효율적으로 문서 유사도를 측정하는 것을 확인하였다.

  • PDF

문장 및 어절 유사도를 이용한 표절 탐지 시스템 구현 (Implementation of A Plagiarism Detecting System with Sentence and Syntactic Word Similarities)

  • 맹주수;박지수;손진곤
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권3호
    • /
    • pp.109-114
    • /
    • 2019
  • 기존 표절 탐지 시스템은 형태소 분석을 기반으로 공통 단어의 빈도수를 이용해 문서의 유사도를 측정한다. 그러나 주제가 같아 유사 단어가 많이 쓰인 경우, 문장 단위로 일부만 발췌 표절한 경우, 그리고 조사와 어미의 유사성이 있는 경우는 공통 단어의 빈도수만으로는 정확한 유사도를 측정하는데 한계가 있다. 따라서 본 논문에서는 공통 단어 빈도수 기반의 유사도 측정 외에 문장 유사도와 어절 유사도를 추가적으로 측정해 유사도의 정확성을 높일 수 있는 표절 탐지 시스템을 설계하고 구현하였다. 실험 결과, 문장 유사도를 측정함으로써 문장 단위로 표절이 이루어진 경우를 발견할 수 있었고, 어절 유사도를 추가로 측정함으로써 부분표절이 일어난 경우라도 조사나 어미까지 그대로 사용한 표절의 경우 등을 발견할 수 있었다.

영역 모델과 객체후보군의 유사도 측정에 관한 연구 (A Study on the Degree of Signature Similarity between Domain Model and Object Candidate Groups)

  • 박성옥;노경주;이문근
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.522-524
    • /
    • 1999
  • 절차지향 소프트웨어를 객체지향 소프트웨어로 변환하는 여러 가지 방법이 존재한다. 프로그램을 변환하기 위하여 일반적으로 함수, 변수와 자료형들 간의 관계를 이용한다. 이들간의 관계성을 이용하면 결과로서 객체 후보가 생성된다. 생성된 객체 후보와 영역 전문가에 의하여 생성된 영역 모델을 비교하여 두 모델간의 유사성을 측정하여야 한다. 본 논문에서는 클래스의 시그너처(클래스 이름, 속성의 이름, 속성의 자료형, 메소드 이름, 메소드의 리턴형, 메소드 파라미터의 자료형)을 이용하여 클래스와 객체 후보의 유사도를 측정하고, 측정된 유사도의 평균값을 이용하여 객체 후보군의 유사도를 측정한다. 기존의 연구 방법과는 다르게 n개의 클래스와 m개의 객체 후보사이의 구문적 측면의 유사도 측정뿐만이 아니라 의미적 측면의 유사도를 측정하는 방법을 제시하여 최적합 객체 후보군을 추출하도록 하였다.

  • PDF

퍼지 유사도 척도 (Fuzzy Similarity Measure)

  • 이광형
    • 한국지능시스템학회논문지
    • /
    • 제8권6호
    • /
    • pp.119-121
    • /
    • 1998
  • 퍼지 시스템의 퍼지 하이퍼그래프에 의해서 표현되었다고 할때, 퍼지 집합을 나타내는 퍼지 에지사이의 유사도를 측정할 필요가 있다. 또한 원소들 사이의 유사도를 측정할 필요가 있다. 본 논문은 이런 필요성에 따라서 퍼지 유사도를 측정하는 척도를 제안한다. 하나는 퍼지 집합 사이의 유사도를 측정하고, 또 하나는 원소 사이의 퍼지 유사도를 측정해 준다. 이 척도는 퍼지집합과 원소 개개의 유사성을 중시하고 시스템 분석 분야에서 이용될 수 있다.

  • PDF

프로그램 복제 검사 시스템 (A Program Reproduction Test System)

  • 정재은;김영철;유재우
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (A)
    • /
    • pp.59-61
    • /
    • 2000
  • 본 논문에서는 프로그램의 복제를 검사하기 위하여 서로다른 두 프로그래의 유사도를 측정하는 시스템을 제시한다. 지금까지 유사도 평가 방법은 일반 텍스트에 국한되어 있고 프로그램에 대한 유사도 검사는 극히 드물다. 본 시스템은 서로 다른 프로그램을 입력받아 분석 과정을 거쳐 구문 트리를 구성하고, 생성괸 구문트리와 유사도 평가 시스템을 이용하여 프로그램의 유사도를 측정한다. 구문트리를 이용한 유사도 측정은 경제적이고 효율적으로 유사도를 검출해 낼 수 있다는 것을 평가에서 보여준다.

  • PDF

Min-Max Hash를 활용한 다중 집합 기반의 유사도 측정 (Min-Max Hash for Similarity Measurement based on Multiset)

  • 윤진욱;김병욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.36-39
    • /
    • 2019
  • 데이터 마이닝에서 클러스터링은 서로 유사한 특징을 갖는 데이터들을 동일한 클래스로 분류하는 방법이다. 클러스터링에는 다양한 방법이 존재하지만 대표적으로 집합으로 표현된 데이터들의 유사도를 측정하기 위해서는 자카드 유사도(Jaccard Similarity)를 이용한다. 자카드 유사도는 서로 다른 집합 간의 공통된 부분을 상대적으로 평가하여 유사도를 측정하는 방법이다. 그러나 최근에는 데이터를 저장할 수 있는 기술과 매체의 발전으로 표현할 수 있는 데이터의 영역과 범위는 발전되고 있기 때문에 많은 연산과 시간의 비용이 발생하게 된다. 이를 해결하기 위해서 두 데이터의 표본의 유사도를 통해 실제 데이터들의 유사도를 추정할 수 있는 Min-Hash 가 제안되었다. 본 논문에서는 이를 활용하여 집합의 영역을 다중 집합(Multiset)으로 확장하여 중복되는 값을 가질 수 있는 두 데이터 간의 유사도를 효율적으로 추정할 수 있는 Min-Max Hash 를 제안한다.

수리실험을 통한 통제된 유사 조건에서의 횡방향 초음파도플러유속계 초음파산란도 활용 부유사농도 분포 및 평균 입경 분석 (Representation of spatial variation and particle mean size for suspended sediment using acoustic backscatter in controlled channel experiments)

  • 손근수;김종민;강우철
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.252-252
    • /
    • 2022
  • 최근 기존의 전통적인 부유사채집기를 활용한 유사량 측정방법의 대안으로 지속적인 유량측정을 목적으로 활용되고 있는 횡방향 초음파도플러유속계의 초음파산란도를 활용하여 부유사농도를 측정에 대한 연구가 수행되고 있다. 하지만, 하천에서 횡방향 초음파도플러유속계를 활용한 유사량 측정 연구는 현장에서 측정된 자료를 기반으로 분석이 수행되기 때문에 통제된 유사 조건에서의 유사의 농도 및 입도분포에 대한 사전 정보를 바탕으로 정밀한 분석의 어려움이 있다. 이에 본 연구에서는 안동하천실험센터 순환수로에서 균일한 입도를 가지고 있는 황토를 활용하여 주입량에 따른 초음파산란도의 변화와 동시에 측정된 LISST(laser in-situ scattering and transmissometry)의 부유사 농도와 입도 자료를 활용하여 유사공급에 따른 3Mhz의 단일 주파수를 사용하는 횡방향 초음파도플러유속계의 초음파산란도를 활용한 부유사농도 및 평균입경의 측정에 대한 연구를 수행하였다. 측정결과, 유사공급에 따라서 초음파산란도를 활용하여 부유사농도가 증가하는 경향을 나타내고 있었으며, 횡방향 초음파도플러유속계로부터 측정된 셀별 초음파산란도를 활용하여 부유사농도의 공간적인 분포의 분석이 가능함을 확인할 수 있었다. 그리고 유사감쇄계수를 활용하여 LISST로부터 측정된 평균입경과의 관계식을 개발하여 유사공급에 따른 평균입경의 변화를 측정할 수 있을 것으로 나타났다. 추후, 통제된 조건에서의 다양한 입도분포에 따른 실험을 통해 횡방향 초음파도플러유속계의 초음파산란도를 활용한 부유사농도 측정 정확도를 개선과 유사감쇄계수를 통해 평균입경을 측정하는데 활용이 될 것으로 판단된다.

  • PDF

횡방향 ADCP기반 연속적 부유사량 측정 방법의 대안 기술 개발 (Development of a Surrogate Technology Load Based upon Horizontal ADCP for Continuous Estimation of Suspended Sediment)

  • 손근수;김동수;노영신
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.47-47
    • /
    • 2020
  • 하천 유사량 자료는 하천관리를 위해 기초적으로 활용되는 자료로 하천의 유지관리를 위한 유사량 자료의 측정은 필수적이다. 따라서, 현재 국내에서는 전국에 138개소의 국가유사량관측망에서 지속적인 유사량 측정을 수행하고 있지만, 기존의 재래식 부유사 채집기를 이용한 부유사 측정을 수행하고 있어 연간 약 20개소 내외에서만 직접조사가 수행되고 있고, 2019년도 기준 전국 138개소 중에서 2006년~2018년 동안 최소 1회 이상 유사량 측정을 수행한 지점은 40개소로 국가 유사량관측망의 약 29% 지점에 대해서만 조사가 수행되고 있다. 해외의 경우에도 기존 재래식 채집기를 통한 유사량 관측을 주로 수행하고 있지만 최근에는 기존 채집기를 이용한 유사량 조사방법의 고비용·저효율로 인한 시공간적 한계로 인해 대안기술이 개발되고 있다. 특히, 최근 해외에서는 ADCP를 활용한 유사량 측정 기술이 기존 부유사 채집기를 이용한 유사량 조사방법의 대안으로 시도되고 있다. ADCP를 이용한 유사량 측정방법은 ADCP의 초음파산란도를 활용하여 간접적으로 부유사의 농도를 추정하는 기술로 ADCP를 이용하여 유량자료과 함께 유사량 자료를 확보할 수 있을 것으로 기대되는 기술이다. 특히, 기존에 설치된 국가하천 자동유량측정장치(H-ADCP)에 적용이 가능하다면 다지점에서의 지속적인 유량측정과 함께 부유사 농도의 측정이 가능할 것으로 기대되고 있다. 이에 본 연구에서는 기존 국가하천에 설치되어 있는 자동유량측정장치(H-ADCP)의 초음파산란도를 활용한 부유사농도 측정 기술의 적용성을 검토하였다. 적용성의 검토를 위해 2016년 진동지점에서 수집된 H-ADCP 원시자료를 사용하여 초음파산란도를 활용한 부유사농도 측정 방법을 시범적으로 적용하였다. 적용결과, 실측 부유사농도와 H-ADCP로부터 추정된 부유사 농도를 비교를 통해서 H-ADCP를 활용한 부유사농도 측정 방법의 가능성을 확인할 수 있었지만, 기술적인 보완 및 개선이 필요할 것으로 판단되었다. 추후에는 지속적인 연구를 통해 ADCP 유사량 측정기술이 개발된다면 기존 부유사 채집기를 이용한 유사량 측정 방법의 대안으로 유사량 조사를 목적으로 활용이 될 수 있을 것으로 기대한다.

  • PDF

서열의 길이에 무관한 유사도 측정 알고리즘 (A Sequence Similarity Algorithm Irrelevant to Sequence Length)

  • 김재광;이지형
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2008년도 춘계학술대회 학술발표회 논문집
    • /
    • pp.13-16
    • /
    • 2008
  • Dynamic Programming (DP)을 이용한 서열 비교 알고리즘은 DNA, RNA, 단백질 서열의 비교와 프로그래밍 소스 코드 유사도를 측정하는 곳 등에 널리 사용되어 왔다. 이 알고리즘은 DP를 이용하여 행렬을 구성한 후, 행렬의 가장 마지막 생성 값을 이용해 두 서열의 유사도를 측정하는 방법이다. 그러나 이 알고리즘에서 사용하는 마지막 생성 값은 비교 서열이 길이에 따라 크게 좌우되기 때문에 다양한 서열들의 유사도를 알아내기에는 부적합하다. 본 논문에서는 서열의 길이에 무관한 유사도 측정 (S2) 알고리즘을 제안한다. 제안된 알고리즘을 이용하면 비교 서열의 길이에 영향을 받지 않고 정당한 서열 비교를 할 수 있다. 제안된 알고리즘의 검증을 위해 본 논문에서는 프로그램 소스 코드의 유사도 측정을 수행한다.

  • PDF