• Title/Summary/Keyword: 유사도 판별

Search Result 382, Processing Time 0.126 seconds

Discriminator of Similar Documents Using the Syntactic-Semantic Tree Comparator (구문의미트리 비교기를 이용한 유사문서 판별기)

  • Kang, Won-Seog
    • The Journal of the Korea Contents Association
    • /
    • v.15 no.10
    • /
    • pp.636-646
    • /
    • 2015
  • In information society, the need to detect document duplication and plagiarism is increasing. Many studies have progressed to meet such need, but there are limitations in increasing document duplication detection quality due to technological problem of natural language processing. Recently, some studies tried to increase the quality by applying syntatic-semantic analysis technique. But, the studies have the problem comparing syntactic-semantic trees. This paper develops a syntactic-semantic tree comparator, designs and implements a discriminator of similar documents using the comparator. To evaluate the system, we analyze the correlation between human discrimination and system discrimination with the comparator. This analysis shows that the proposed discrimination has good performance. We need to define the document type and improve the processing technique appropriate for each type.

Inspection of Vehicle Headlight Defects (차량 헤드라이트 불량검사 방법)

  • Kim, Kun Hong;Moon, Chang Bae;Kim, Byeong Man;Oh, Duk Hwan
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.23 no.1
    • /
    • pp.87-96
    • /
    • 2018
  • In this paper, we propose a method to determine whether there is a defect by using the similarity between ROIs (Region of Interest) of the standard image and ROIs of the image which is corrected in position and rotation after capturing the vehicle headlight. The degree of similarity is determined by the template matching based on the histogram of image, which is a some modification of the method provided by OpenCV where template matching is performed on the raw image not the histogram. The proposed method is compared with the basic method of OpenCV for performance analysis. As a result of the analysis, it was found that the proposed method showed better performance than the OpenCV method, showing the accuracy close to 100%.

Discriminator of Similar Documents Using Syntactic and Semantic Analysis (구문의미분석를 이용한 유사문서 판별기)

  • Kang, Won-Seog;Hwang, Do-Sam;Kim, Jung H.
    • The Journal of the Korea Contents Association
    • /
    • v.14 no.3
    • /
    • pp.40-51
    • /
    • 2014
  • Owing to importance of document copyright the need to detect document duplication and plagiarism is increasing. Many studies have sought to meet such need, but there are difficulties in document duplication detection due to technological limitations with the processing of natural language. This thesis designs and implements a discriminator of similar documents with natural language processing technique. This system discriminates similar documents using morphological analysis, syntactic analysis, and weight on low frequency and idiom. To evaluate the system, we analyze the correlation between human discrimination and term-based discrimination, and between human discrimination and proposed discrimination. This analysis shows that the proposed discrimination needs improving. Future research should work to define the document type and improve the processing technique appropriate for each type.

Evaluation of Classifiers Performance for Areal Features Matching (면 객체 매칭을 위한 판별모델의 성능 평가)

  • Kim, Jiyoung;Kim, Jung Ok;Yu, Kiyun;Huh, Yong
    • Journal of the Korean Society of Surveying, Geodesy, Photogrammetry and Cartography
    • /
    • v.31 no.1
    • /
    • pp.49-55
    • /
    • 2013
  • In this paper, we proposed a good classifier to match different spatial data sets by applying evaluation of classifiers performance in data mining and biometrics. For this, we calculated distances between a pair of candidate features for matching criteria, and normalized the distances by Min-Max method and Tanh (TH) method. We defined classifiers that shape similarity is derived from fusion of these similarities by CRiteria Importance Through Intercriteria correlation (CRITIC) method, Matcher Weighting method and Simple Sum (SS) method. As results of evaluation of classifiers performance by Precision-Recall (PR) curve and area under the PR curve (AUC-PR), we confirmed that value of AUC-PR in a classifier of TH normalization and SS method is 0.893 and the value is the highest. Therefore, to match different spatial data sets, we thought that it is appropriate to a classifier that distances of matching criteria are normalized by TH method and shape similarity is calculated by SS method.

Implementation of Korean Sentence Similarity using Sent2Vec Sentence Embedding (Sent2Vec 문장 임베딩을 통한 한국어 유사 문장 판별 구현)

  • Park, Sang-Kil;Shin, MyeongCheol
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.541-545
    • /
    • 2018
  • 본 논문에서는 Sent2Vec을 이용한 문장 임베딩으로 구현한 유사 문장 판별 시스템을 제안한다. 또한 한국어 특성에 맞게 모델을 개선하여 성능을 향상시키는 방법을 소개한다. 고성능 라이브러리 구현과 제품화 가능한 수준의 완성도 높은 구현을 보였으며, 자체 구축한 평가셋으로 한국어 특성을 반영한 모델에 대한 P@1 평가 결과 Word2Vec CBOW에 비해 9.25%, Sent2Vec에 비해 1.93% 더 높은 성능을 보였다.

  • PDF

The Off-line Verification System of Signature of Handwrite (필적 및 서명에 대한 Off-line 자동분석시스템)

  • Kim, Sei-Hoon;Ha, Jeung-Yo;Kim, Gye-Young;Choi, Hyung-Il
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02c
    • /
    • pp.189-193
    • /
    • 2007
  • 필적 감정은 개인의 고유한 필적 개성을 이용하여 임의의 두 필기 문장 또는 텍스트가 동일인에 의해 작성되었는지를 판별하는 기술로 유서대필 및 보안수사, 서명의 검증, 범죄 수사 등에 활용되어지고 있다. 이러한 작업은 감정 전문가의 판단기준에 의해 필적의 유사성을 판별하기 때문에 객관성 결여 및 과도한 소요 시간, 과도한 처리비용의 문제를 내포하게 된다. 이러한 문제를 해결하여 판별의 객관성과 업무의 신속한 처리를 가능하게 하기 본 논문에서는 컴퓨터를 통한 패턴 분석을 적용하여 두 필적의 유사성을 판별하는 방법을 본 논문에서는 제안한다. 이를 위하여 본 논문은 학습단계와 자동분석단계로 나뉘며, 학습단계에서는 입력된 문서영상에서 필적의 영역을 추출한 후, 특징을 추출하고 DTW연산을 통하여 학습을 한다. 자동분석단계에서는 대조할 문서영상에서의 특징을 추출하고 입력된 문서영상과 대조할 문서영상간의 마할라노비스 거리(Mahalanobis Distance)를 구하여 서명 및 필적에 대한 유사도를 도출한다. 실험은 4명의 필적을 이용하여 비교하였으며, 우수한 결과를 보였다.

  • PDF

Classifying Musical Form by Melodic Similarity Analysis (선율간 유사도 분석에 의한 악곡 양식 판별)

  • Seo, Jung-Bum;Bae, Jae-Hak
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.11a
    • /
    • pp.683-686
    • /
    • 2005
  • 주어진 악곡의 성격을 파악하거나 악곡속의 주요정보를 추출하기 위해서는 해당 악곡의 양식파악이 선행되어야 한다. 이에 본 논문에서는 선율간 유사도 분석을 통하여 악곡의 양식을 판별하는 방안을 모색하였다. 선율간의 유사도를 분석하기 위한 방법으로 Hofmann-Engl 의 Conceptual Framework을 사용하였다.

  • PDF

Fake Discrimination using Time Information in CNN-based Signature Recognition (CNN 기반 서명인식에서 시간정보를 이용한 위조판별)

  • Choi, Seouing-Ho;Jung, Sung Hoon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2017.07a
    • /
    • pp.293-294
    • /
    • 2017
  • 본 논문에서는 CNN 기반 서명인식에서 시간정보를 이용하여 위조서명을 보다 정확하게 판별하는 방법을 제안한다. 시간정보를 이용하는 첫 번째 방법은 서명하는 전체 시간을 동일한 개수의 등 간격으로 나누어 각각의 이미지를 얻고 이를 합성하여 이용하는 방법이다. 두 번째 방법은 동일한 개수의 등 간격으로 나누어진 각각의 이미지를 CNN-LSTM 으로 판별하는 방법이다. 동일한 개수의 등 간격으로 나누어진 이미지들에는 서명의 속도에 따른 모양의 차이가 발생하기 때문에 비록 최종 서명의 모양이 원본과 매우 유사하다고 하더라도 속도가 다른 경우 위조임을 판별할 수 있다. 두 명의 서명에 대하여 실험을 한 결과 최종 서명이 매우 유사하더라도 속도가 다른 경우 위조로 판별할 수 있음을 보였다. 다만 이미지 합성 과정에 만들어진 새로운 정보로 인하여 진짜 서명을 가짜로 판별할 수 있는 가능성도 늘어날 수 있음을 확인하였다.

  • PDF

Text Similarity Decision System by Term Selection Method (용어 선별 기법에 의한 유사 문서 판별 시스템)

  • 장성호;강승식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.534-536
    • /
    • 2003
  • 대부분의 정보 검색 시스템은 문서 내어서 추출된 모든 용어를 이용해서 문서간 유사도 계산이나 문서 분류, 문서 클러스터링 등에 활용한다. 그러나 실질적으로 문서 내외 모든 용어를 추출해야만 이러한 정보 검색 시스템을 활용할 수 있는 것은 아니며, 오히려 용어 빈도수 같은 가중치가 낮은 용어를 용어 추출에서 제외시킴으로써 모든 용어 추출로 인해서 발생하는 시간과 공간을 많이 소비하는 문제를 해결할 수 있다. 또한 정확하고 자동적인 문서 분류를 위한 문서 클러스터링보다 유사 문서 검색의 활용은 검색효율의 증가를 가져 올 수 있다. 본 논문에서는 유사 문서 판별 시스템을 이용해 용어 추출의 효율성을 실험하였으며, 모든 용어를 추출한 경우보다 중요 용어만 추출한 경우에 더 좋은 성능을 보였다.

  • PDF

Application of Euclidean Distance Similarity for Smartphone-Based Moving Context Determination (스마트폰 기반의 이동상황 판별을 위한 유클리디안 거리유사도의 응용)

  • Jang, Young-Wan;Kim, Byeong Man;Jang, Sung Bong;Shin, Yoon Sik
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.19 no.4
    • /
    • pp.53-63
    • /
    • 2014
  • Moving context determination is an important issue to be resolved in a mobile computing environment. This paper presents a method for recognizing and classifying a mobile user's moving context by Euclidean distance similarity. In the proposed method, basic data are gathered using Global Positioning System (GPS) and accelerometer sensors, and by using the data, the system decides which moving situation the user is in. The decided situation is one of the four categories: stop, walking, run, and moved by a car. In order to evaluate the effectiveness and feasibility of the proposed scheme, we have implemented applications using several variations of Euclidean distance similarity on the Android system, and measured the accuracies. Experimental results show that the proposed system achieves more than 90% accuracy.