• 제목/요약/키워드: Jaccard similarity

검색결과 51건 처리시간 0.022초

유사도 알고리즘을 활용한 시맨틱 프로세스 검색방안 (Semantic Process Retrieval with Similarity Algorithms)

  • 이홍주
    • Asia pacific journal of information systems
    • /
    • 제18권1호
    • /
    • pp.79-96
    • /
    • 2008
  • One of the roles of the Semantic Web services is to execute dynamic intra-organizational services including the integration and interoperation of business processes. Since different organizations design their processes differently, the retrieval of similar semantic business processes is necessary in order to support inter-organizational collaborations. Most approaches for finding services that have certain features and support certain business processes have relied on some type of logical reasoning and exact matching. This paper presents our approach of using imprecise matching for expanding results from an exact matching engine to query the OWL(Web Ontology Language) MIT Process Handbook. MIT Process Handbook is an electronic repository of best-practice business processes. The Handbook is intended to help people: (1) redesigning organizational processes, (2) inventing new processes, and (3) sharing ideas about organizational practices. In order to use the MIT Process Handbook for process retrieval experiments, we had to export it into an OWL-based format. We model the Process Handbook meta-model in OWL and export the processes in the Handbook as instances of the meta-model. Next, we need to find a sizable number of queries and their corresponding correct answers in the Process Handbook. Many previous studies devised artificial dataset composed of randomly generated numbers without real meaning and used subjective ratings for correct answers and similarity values between processes. To generate a semantic-preserving test data set, we create 20 variants for each target process that are syntactically different but semantically equivalent using mutation operators. These variants represent the correct answers of the target process. We devise diverse similarity algorithms based on values of process attributes and structures of business processes. We use simple similarity algorithms for text retrieval such as TF-IDF and Levenshtein edit distance to devise our approaches, and utilize tree edit distance measure because semantic processes are appeared to have a graph structure. Also, we design similarity algorithms considering similarity of process structure such as part process, goal, and exception. Since we can identify relationships between semantic process and its subcomponents, this information can be utilized for calculating similarities between processes. Dice's coefficient and Jaccard similarity measures are utilized to calculate portion of overlaps between processes in diverse ways. We perform retrieval experiments to compare the performance of the devised similarity algorithms. We measure the retrieval performance in terms of precision, recall and F measure? the harmonic mean of precision and recall. The tree edit distance shows the poorest performance in terms of all measures. TF-IDF and the method incorporating TF-IDF measure and Levenshtein edit distance show better performances than other devised methods. These two measures are focused on similarity between name and descriptions of process. In addition, we calculate rank correlation coefficient, Kendall's tau b, between the number of process mutations and ranking of similarity values among the mutation sets. In this experiment, similarity measures based on process structure, such as Dice's, Jaccard, and derivatives of these measures, show greater coefficient than measures based on values of process attributes. However, the Lev-TFIDF-JaccardAll measure considering process structure and attributes' values together shows reasonably better performances in these two experiments. For retrieving semantic process, we can think that it's better to consider diverse aspects of process similarity such as process structure and values of process attributes. We generate semantic process data and its dataset for retrieval experiment from MIT Process Handbook repository. We suggest imprecise query algorithms that expand retrieval results from exact matching engine such as SPARQL, and compare the retrieval performances of the similarity algorithms. For the limitations and future work, we need to perform experiments with other dataset from other domain. And, since there are many similarity values from diverse measures, we may find better ways to identify relevant processes by applying these values simultaneously.

안드로이드 모바일 단말에서의 실시간 이벤트 유사도 기반 트로이 목마 형태의 악성 앱 판별 메커니즘 (Malicious Trojan Horse Application Discrimination Mechanism using Realtime Event Similarity on Android Mobile Devices)

  • 함유정;이형우
    • 인터넷정보학회논문지
    • /
    • 제15권3호
    • /
    • pp.31-43
    • /
    • 2014
  • 안드로이드 기반 모바일 단말 사용자가 증가함에 따라 다양한 형태의 어플리케이션이 개발되어 안드로이드 마켓에 배포되고 있다. 하지만 오픈 마켓 또는 3rd party 마켓을 통해 악성 어플리케이션이 제작 및 배포되면서 안드로이드 기반 모바일 단말에 대한 보안 취약성 문제가 발생하고 있다. 대부분의 악성 어플리케이션 내에는 트로이 목마(Trojan Horse) 형태의 악성코드가 삽입되어 있어 모바일 단말 사용자 모르게 단말내 개인정보와 금융정보 등이 외부 서버로 유출된다는 문제점이 있다. 따라서 급격히 증가하고 있는 악성 모바일 어플리케이션에 의한 피해를 최소화하기 위해서는 능동적인 대응 메커니즘 개발이 필요하다. 이에 본 논문에서는 기존 악성 앱 탐지 기법의 장단점을 분석하고 안드로이드 모바일 단말내에서 실시간 이용시 발생하는 이벤트를 수집한 후 Jaccard 유사도를 중심으로 악성 어플리케이션을 판별하는 메커니즘을 제시하고 이를 기반으로 임의의 모바일 악성 앱에 대한 판별 결과를 제시하였다.

Comparison of User-generated Tags with Subject Descriptors, Author Keywords, and Title Terms of Scholarly Journal Articles: A Case Study of Marine Science

  • Vaidya, Praveenkumar;Harinarayana, N.S.
    • Journal of Information Science Theory and Practice
    • /
    • 제7권1호
    • /
    • pp.29-38
    • /
    • 2019
  • Information retrieval is the challenge of the Web 2.0 world. The experiment of knowledge organisation in the context of abundant information available from various sources proves a major hurdle in obtaining information retrieval with greater precision and recall. The fast-changing landscape of information organisation through social networking sites at a personal level creates a world of opportunities for data scientists and also library professionals to assimilate the social data with expert created data. Thus, folksonomies or social tags play a vital role in information organisation and retrieval. The comparison of these user-created tags with expert-created index terms, author keywords and title words, will throw light on the differentiation between these sets of data. Such comparative studies show revelation of a new set of terms to enhance subject access and reflect the extent of similarity between user-generated tags and other set of terms. The CiteULike tags extracted from 5,150 scholarly journal articles in marine science were compared with corresponding Aquatic Science and Fisheries Abstracts descriptors, author keywords, and title terms. The Jaccard similarity coefficient method was employed to compare the social tags with the above mentioned wordsets, and results proved the presence of user-generated keywords in Aquatic Science and Fisheries Abstracts descriptors, author keywords, and title words. While using information retrieval techniques like stemmer and lemmatization, the results were found to enhance keywords to subject access.

기회적 네트워크에서의 유사도 기반의 포워딩 기법의 성능 분석 (Performance Analysis of Forwarding Schemes Based on Similarities for Opportunistic Networks)

  • 김선겸;이태석;김완종
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제24권3호
    • /
    • pp.145-150
    • /
    • 2018
  • 기회적 네트워크(Opportunistic networks)의 포워딩은 간헐적인 연결로 인하여 출발지와 목적지 간에 안정된 경로가 존재하지 않아 기존 포워딩 기법들은 성능이 저하되는 문제를 가지고 있다. 최근 소셜 네트워크 관계망을 이용한 연구가 활발히 진행되고 있으며, 유사도(Similarity)는 소셜 네트워크 분석을 위한 매우 중요한 분석 방법 중 하나이다. 본 논문은 대표적인 유사도를 이용한 포워딩 기법들을 제안하고 기회적 네트워크에서 유사도에 기반한 포워딩 기법을 적용시에 얼마나 성능 향상이 있는지 알아본다. 그 결과로, 이 기법들은 목적지와 유사도가 높은 노드를 중개 노드로 선정하여 포워딩하기 때문에 낮은 트래픽 및 홉 수를 가지게 되며, 준수한 전송 딜레이를 유지한다.

RAPD Analysis of Three Deer Species in Malaysia

  • El-Jaafari, Habiba A.A.;Panandam, Jothi M.;Idris, Ismail;Siraj, Siti Shapor
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제21권9호
    • /
    • pp.1233-1237
    • /
    • 2008
  • The genetic variability within and among three deer species in Malaysia, namely Cervus nippon (sika), Cervus timorensis (rusa) and Cervus unicolor (sambar), were evaluated using the RAPD technique. The DNA extracted from the buffy coat of 34 sika, 38 rusa and 9 sambar were analysed using ten primers that gave bands which showed good resolution. The primers generated 164 RAPD markers in total, and these ranged in size from 150 to 900 bp. The percent of polymorphism of the bands generated per primer ranged from 66.66-93.33% for rusa, 36.84-61.14% for sambar and 52.38-100% for sika. The overall percent polymorphism observed for the 164 RAPD markers was 99.39%. The results revealed five exclusive, monomorphic markers for sambar and one exclusive, monomorphic marker for sika; none was observed for rusa. However, these cannot be declared as markers for the identification of the species without analysis of more samples, populations and species. The means of within population genetic distances, based on Dice's and Jaccard's similarity indices, were similar for the rusa (0.383 and 0.542, respectively) and sika (0.397 and 0.558, respectively) populations with the sambar population being the least variable (0.194 and 0.323, respectively). The Dice based genetic distances within the species ranged from 0.194 to 0.397 and the genetic distances among the species were 0.791-0.911. The genetic distances based on Dice's and Jaccard's similarity indices between the rusa and sambar were 0.556 and 0.713, between the rusa and sika populations were 0.552 and 0.710, and between sambar and sika were 0.622 and 0.766, respectively.

백두대간 보호지역 일본잎갈나무림의 현존식생 유형과 생태적 특성 (Vegetation Types and Ecological Characteristics of Larix kaempferi Plantations in Baekdudaegan Protected Area, South Korea)

  • 오승환;김준수;조준희;조현제
    • 한국산림과학회지
    • /
    • 제110권4호
    • /
    • pp.530-542
    • /
    • 2021
  • 백두대간 보호지역 일본잎갈나무림의 생태적 관리를 위한 기본 단위 설정을 위하여 총 119개 조사구에서 수집한 식생 정보를 바탕으로 TWINSPAN과 DCA ordination 분석을 통하여 현존식생의 유형을 분류하고 그 공간 배열 상태를 파악, 기술하였다. 현존식생 유형은 신갈나무-철쭉형, 신갈나무-조록싸리형, 층층나무-산뽕나무형, 신갈나무-까치박달형, 비목나무-찔레꽃형, 졸참나무-산초나무형, 졸참나무-조릿대형 등 총 7개 유형이 도출되었고 대개 위도, 해발고도, 성립 기간, 시업 이력, 주변 임분 특성, 교란 정도 등에 따른 종조성적 차이를 반영하고 있었다. 또한 일본잎갈나무림과 주변 잠재자연식생(신갈나무림와 졸참나무림)의 종구성적 유사성을 Jaccard 계수에 의해 비교한 결과, 식생유형 간 다소 차이가 있지만 신갈나무림과는 평균 0.21, 졸참나무림과는 평균 0.32로 나타나 아직 전반적으로 종구성이 이질적인 경향이었다.

CVE 동향을 반영한 3-Step 보안 취약점 위험도 스코어링 (3-Step Security Vulnerability Risk Scoring considering CVE Trends)

  • 임지혜;이재우
    • 한국정보통신학회논문지
    • /
    • 제27권1호
    • /
    • pp.87-96
    • /
    • 2023
  • 보안 취약점 수가 해마다 증가함에 따라 보안 위협이 지속해서 발생하고 있으며 취약점 위험도의 중요성이 대두되고 있다. 본 논문에서는 보안 취약점 위험도 판단을 위해 동향을 반영한 보안 위협 스코어링 산출식을 고안하였다. 세 단계에 따라 공격 유형과 공급업체, 취약점 동향, 최근 공격 방식과 기법 등의 핵심 항목 요소를 고려하였다. 첫째로는 공격 유형, 공급업체와 CVE 데이터의 관련성 확인 결과를 반영한다. 둘째로는 LDA 알고리즘으로 확인된 토픽 그룹과 CVE 데이터 간 유사성 확인을 위해 자카드 유사도 기법을 사용한다. 셋째로는 최신 버전 MITRE ATT&CK 프레임워크의 공격 방법, 기술 항목 동향과 CVE 간의 관련성 확인 결과를 반영한다. 최종 보안 취약점 위협 산출식 CTRS의 활용성 검토를 위해 공신력 높은 취약점 정보 제공 해외 사이트 내 데이터에 제안한 스코어링 방식을 적용하였다. 본 연구에서 제안한 산출식을 통하여 취약점과 관련된 일부 설명만으로도 관련성과 위험도가 높은 취약점을 확인하여 신속하게 관련 정보를 인지하고 대응할 수 있다.

Cluster Analysis with Balancing Weight on Mixed-type Data

  • Chae, Seong-San;Kim, Jong-Min;Yang, Wan-Youn
    • Communications for Statistical Applications and Methods
    • /
    • 제13권3호
    • /
    • pp.719-732
    • /
    • 2006
  • A set of clustering algorithms with proper weight on the formulation of distance which extend to mixed numeric and multiple binary values is presented. A simple matching and Jaccard coefficients are used to measure similarity between objects for multiple binary attributes. Similarities are converted to dissimilarities between i th and j th objects. The performance of clustering algorithms with balancing weight on different similarity measures is demonstrated. Our experiments show that clustering algorithms with application of proper weight give competitive recovery level when a set of data with mixed numeric and multiple binary attributes is clustered.

Min-Max Hash를 활용한 다중 집합 기반의 유사도 측정 (Min-Max Hash for Similarity Measurement based on Multiset)

  • 윤진욱;김병욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.36-39
    • /
    • 2019
  • 데이터 마이닝에서 클러스터링은 서로 유사한 특징을 갖는 데이터들을 동일한 클래스로 분류하는 방법이다. 클러스터링에는 다양한 방법이 존재하지만 대표적으로 집합으로 표현된 데이터들의 유사도를 측정하기 위해서는 자카드 유사도(Jaccard Similarity)를 이용한다. 자카드 유사도는 서로 다른 집합 간의 공통된 부분을 상대적으로 평가하여 유사도를 측정하는 방법이다. 그러나 최근에는 데이터를 저장할 수 있는 기술과 매체의 발전으로 표현할 수 있는 데이터의 영역과 범위는 발전되고 있기 때문에 많은 연산과 시간의 비용이 발생하게 된다. 이를 해결하기 위해서 두 데이터의 표본의 유사도를 통해 실제 데이터들의 유사도를 추정할 수 있는 Min-Hash 가 제안되었다. 본 논문에서는 이를 활용하여 집합의 영역을 다중 집합(Multiset)으로 확장하여 중복되는 값을 가질 수 있는 두 데이터 간의 유사도를 효율적으로 추정할 수 있는 Min-Max Hash 를 제안한다.

Analysis of Genetic Variability Using RAPD Markers in Paeonia spp. Grown in Korea

  • Lim, Mi Young;Jana, Sonali;Sivanesan, Iyyakkannu;Park, Hyun Rho;Hwang, Ji Hyun;Park, Young Hoon;Jeong, Byoung Ryong
    • 원예과학기술지
    • /
    • 제31권3호
    • /
    • pp.322-327
    • /
    • 2013
  • The genetic diversity and phylogenetic relationships of eleven herbaceous peonies grown in Korea were analyzed by random amplified polymorphic DNA (RAPD). Twenty-four decamer RAPD primers were used in a comparative analysis of these Korean peony species. Of the 142 total RAPD fragments amplified, 124 (87.3%) were found to be polymorphic. The remaining 18 fragments were found to be monomorphic (12.7%) shared by individuals of all 11 peony species. Cluster analysis based on the presence or absence of bands was performed by Jaccard's similarity coefficient, based on Unweighted Pair Group Method with Arithmetic Averages. Genetic similarity range was 0.39 to 0.90 with a mean of 0.64. This study offered a rapid and reliable method for the estimation of variability among different peony species which could be utilized by the breeders for further improvement of the local peony species. Also, the results propose that the RAPD marker technique is a useful tool for evaluation of genetic diversity and relationship amongst different peony species.