• Title/Summary/Keyword: 소스 코드 유사도

Search Result 73, Processing Time 0.024 seconds

A Plagiarism Detection Technique for Source Codes Considering Data Structures (데이터 구조를 고려한 소스코드 표절 검사 기법)

  • Lee, Kihwa;Kim, Yeoneo;Woo, Gyun
    • KIPS Transactions on Computer and Communication Systems
    • /
    • v.3 no.6
    • /
    • pp.189-196
    • /
    • 2014
  • Though the plagiarism is illegal and should be avoided, it still occurs frequently. Particularly, the plagiarism of source codes is more frequently committed than others since it is much easier to copy them because of their digital nature. To prevent code plagiarism, there have been reported a variety of studies. However, previous studies for plagiarism detection techniques on source codes do not consider the data structures although a source code consists both of data structures and algorithms. In this paper, a plagiarism detection technique for source codes considering data structures is proposed. Specifically, the data structures of two source codes are represented as sets of trees and compared with each other using Hungarian Method. To show the usefulness of this technique, an experiment has been performed on 126 source codes submitted as homework results in an object-oriented programming course. When both the data structures and the algorithms of the source codes are considered, the precision and the F-measure score are improved 22.6% and 19.3%, respectively, than those of the case where only the algorithms are considered.

A Technique to Detect Change-Coupled Files Using the Similarity of Change Types and Commit Time (변경 유형의 유사도 및 커밋 시간을 이용한 파일 변경 결합도)

  • Kim, Jung Il;Lee, Eun Joo
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.3 no.2
    • /
    • pp.65-72
    • /
    • 2014
  • Change coupling is a measure to show how strongly change-related two entities are. When two source files have been frequently changed together, they are regarded as change-coupled files and they will probably be changed together in the near future. In the previous studies, the change coupling between two files is defined with the number of common changed time, that is, common commit time of the files. However, the frequency-based technique has limitations because of 'tangled changes', which frequently happens in the development environments with version control systems. The tangled change means that several code hunks have been changed at the same time, though they have no relation with each other. In this paper, the change types of the code hunks are also used to define change coupling, in addition to the common commit time of target files. First, the frequency vector based on change types are defined with the extracted change types, and then, the similarity of change patterns are calculated using the cosine similarity measure. We conducted experiments on open source project Eclipse JDT and CDT for case studies. The result shows that the applicability of the proposed method, compared to the previous studies.

Similarity Detection for Large Scale Software Using Abstracted Source Code (소스코드 요약을 이용한 대규모 소프트웨어 유사도 평가)

  • Park, Seong-Soo;Han, Hwan-Soo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06a
    • /
    • pp.39-41
    • /
    • 2012
  • 프로그램 코드의 유사도 측정에 대한 방법은 여러 가지 존재하고 있으며 유사도 측정 프로그램도 많이 존재한다. 이런 프로그램 유사도 측정 도구는 중소규모 소프트웨어 프로젝트에 많이 사용되고 있으나, 실제 대규모 소프트웨어의 유사도 검사를 위해서 사용하기에는 한계가 존재한다. 지금까지 대규모 소프트웨어의 유사도를 측정할 수 있는 객관적 방법이 거의 제시되지 않고 있어, 본 논문에서는 대규모 소프트웨어의 소스코드를 요약하여 서로 다른 프로그램의 유사도를 측정하는 방법을 제시한다.

Program Plagiarism Detection through Memory Access Log Analysis (메모리 액세스 로그 분석을 통한 프로그램 표절 검출)

  • Park, Sung-Yun;Han, Sang-Yong
    • The KIPS Transactions:PartD
    • /
    • v.13D no.6 s.109
    • /
    • pp.833-838
    • /
    • 2006
  • Program Plagiarism is an infringement of software copyright. In detecting program plagiarism, many different source program comparison methods has been studied. But, it is not easy to detect plagiarized program that made a few cosmetic changes in program structures and variable names In this paper, we propose a new ground-breaking technique in detecting plagiarism by Memory Access Log Analysis.

Android plagiarism detection through Dalvik instruction similarity comparison (Dalvik명령어 유사도 비교를 통한 안드로이드 표절 탐지 기법)

  • Choi, Sung-ha;Hwang, Na-hyun;Park, Heewan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.796-799
    • /
    • 2012
  • 스마트폰 애플리케이션 중에서 안드로이드 앱은 자바를 기반으로 한다. 따라서 자바 프로그램과 마찬가지로 디컴파일러 도구를 활용하여 원본 소스 코드를 얻어낼 수 있기 때문에 코드 도용에 대해서 매우 취약하다. 본 논문에서는 안드로이드에 대한 코드 도용과 표절을 막기 위한 기법을 제안한다. 효과적인 코드 도용 및 표절 여부를 탐지하기 위한 방법으로서, 안드로이드 달빅(Dalvik) 코드에 대해서 요약 단계를 거친 후 유사도를 측정하는 방법을 사용한다. 기존의 안드로이드 유사도 비교 연구에서는 달빅 코드가 정확하게 일치해야만 유사도가 높게 측정될 수 있었지만, 요약 단계를 통해서 변환된 달빅 코드를 비교하면 코드 도용시 일부 코드의 의도적인 수정이 있더라도 유사도가 높게 측정된다. 그 결과, 본 논문에서 제안하는 표절 탐지 기법이 기존 연구와 비교하여 표절에 대한 탐지 능력이 우수함을 확인하였다.

A Study on Open Source Version and License Detection Tool (오픈소스 버전 및 라이선스 탐지 도구에 관한 연구)

  • Ki-Hwan Kim;Seong-Cheol Yoon;Su-Hyun Kim;Im-Yeong Lee
    • The Transactions of the Korea Information Processing Society
    • /
    • v.13 no.7
    • /
    • pp.299-310
    • /
    • 2024
  • Software is expensive, labor-intensive, and time-consuming to develop. To solve this problem, many organizations turn to publicly available open source, but they often do so without knowing exactly what they're getting into. Older versions of open source have various security vulnerabilities, and even when newer versions are released, many users are still using them, exposing themselves to security threats. Additionally, compliance with licenses is essential when using open source, but many users overlook this, leading to copyright issues. To solve this problem, you need a tool that analyzes open source versions, vulnerabilities, and license information. Traditional Blackduck provide a wealth of open source information when you request the source code, but it's a heavy lift to build the environment. In addition, Fossology extracts the licenses of open source, but does not provide detailed information such as versions because it does not have its own database. To solve these problems, this paper proposes a version and license detection tool that identifies the open source of a user's source code by measuring the source code similarity, and then detects the version and license. The proposed method improves the accuracy of similarity over existing source code similarity measurement programs such as MOSS, and provides users with information about licenses, versions, and vulnerabilities by analyzing each file in the corresponding open source in a web-based lightweight platform environment. This solves capacity issues such as BlackDuck and the lack of open source details such as Fossology.

A Study on Platform for OSS Similarity and License Analysis (OSS 유사도 및 라이선스 분석 플랫폼에 관한 연구)

  • Ki-Hwan Kim;SeongCheol Yoon;Su-hyun Kim;Im-Yeong Lee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.317-318
    • /
    • 2023
  • 소프트웨어를 개발하는 과정에서 소스 코드를 직접 작성하면 높은 비용과 시간이 필요하다. 이를 해결하기 위해 OSS를 활용해 개발 비용 절감 및 소요 시간 단축 등 다양한 이점을 가지게 된다. 그러나 수많은 기업은 무분별한 OSS 사용으로 인해 개발 중인 소프트웨어에 적용되는 OSS의 라이선스를 정확히 파악하지 못한다. 그로 인해 라이선스 위반 및 충돌로 인한 저작권 문제로 법적 분쟁과 상용화된 소프트웨어 제품을 전부 리콜해야 하는 등의 피해가 발생한다. 하지만 국내에는 이러한 문제를 체계적으로 분석하고 예방하기 위한 점검 도구가 부족하다. 본 논문은 앞서 언급된 문제를 해결하고자, 높은 접근성을 바탕으로 OSS의 정보를 효과적으로 분석하는 플랫폼을 구현하였다. 사용자가 소스 코드의 분석을 요청하면, 플랫폼에 등록된 OSS 프로젝트 중 가장 높은 유사도를 보이는 프로젝트의 메타데이터, 유사도 분석 결과, 라이선스 정보를 제공한다. 이를 통해 사용자들은 자신들이 사용 중인 소스 코드에 적용된 OSS의 세부 구성 요소를 편리하게 분석하고 조회할 수 있다.

Detecting Software Similarity Using API Sequences on Static Major Paths (정적 주요 경로 API 시퀀스를 이용한 소프트웨어 유사성 검사)

  • Park, Seongsoo;Han, Hwansoo
    • Journal of KIISE
    • /
    • v.41 no.12
    • /
    • pp.1007-1012
    • /
    • 2014
  • Software birthmarks are used to detect software plagiarism. For binaries, however, only a few birthmarks have been developed. In this paper, we propose a static approach to generate API sequences along major paths, which are analyzed from control flow graphs of the binaries. Since our API sequences are extracted along the most plausible paths of the binary codes, they can represent actual API sequences produced from binary executions, but in a more concise form. Our similarity measures use the Smith-Waterman algorithm that is one of the popular sequence alignment algorithms for DNA sequence analysis. We evaluate our static path-based API sequence with multiple versions of five applications. Our experiment indicates that our proposed method provides a quite reliable similarity birthmark for binaries.

A Sequence Similarity Algorithm Irrelevant to Sequence Length (서열의 길이에 무관한 유사도 측정 알고리즘)

  • Kim, Jae-Kwang;Lee, Jee-Hyong
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2008.04a
    • /
    • pp.13-16
    • /
    • 2008
  • Dynamic Programming (DP)을 이용한 서열 비교 알고리즘은 DNA, RNA, 단백질 서열의 비교와 프로그래밍 소스 코드 유사도를 측정하는 곳 등에 널리 사용되어 왔다. 이 알고리즘은 DP를 이용하여 행렬을 구성한 후, 행렬의 가장 마지막 생성 값을 이용해 두 서열의 유사도를 측정하는 방법이다. 그러나 이 알고리즘에서 사용하는 마지막 생성 값은 비교 서열이 길이에 따라 크게 좌우되기 때문에 다양한 서열들의 유사도를 알아내기에는 부적합하다. 본 논문에서는 서열의 길이에 무관한 유사도 측정 (S2) 알고리즘을 제안한다. 제안된 알고리즘을 이용하면 비교 서열의 길이에 영향을 받지 않고 정당한 서열 비교를 할 수 있다. 제안된 알고리즘의 검증을 위해 본 논문에서는 프로그램 소스 코드의 유사도 측정을 수행한다.

  • PDF

Design and Implementation of a Plagiarism Detection Tool for Apps Created with the App-Inventor (앱 인벤터로 개발한 앱의 표절 탐지 도구 설계 및 구현)

  • Shin, Se-Hoon;Han, Dong-Jun;Han, Won-Keun;Park, Heewan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.11a
    • /
    • pp.353-356
    • /
    • 2017
  • 앱 인벤터는 GUI 환경에서 블록 편집기를 사용하여 앱을 개발한다. 따라서 누구나 쉽게 앱 프로그래밍을 시작할 수 있다는 장점이 있다. 또한, 앱 인벤터의 공식 사이트의 gallery 공간에 공개된 수많은 공개 앱 소스(aia 파일)를 쉽게 구할 수 있기 때문에 다른 사람이 만든 앱의 소스를 그대로 가져다가 이미지만 바꿔서 자신이 만든 것처럼 앱을 공개할 수도 있다. 그러나 직접 블록 단위로 비교해보지 않고서는 표절이나 도용 여부를 판단하는 것은 쉽지 않다. 따라서 본 논문에서는 앱 인벤터로 개발한 앱들의 유사도를 자동으로 계산해주는 도구를 개발하였다. 원본 프로그램과 도용된 프로그램은 유사도가 높게 계산될 것임을 예상할 수 있기 때문에 유사도 계산 프로그램은 코드 도용을 확인하는 목적으로 활용될 수 있다. 본 논문에서 구현한 도구의 평가를 위해서 다양한 실험을 수행하였고, 실제로 유사도가 높았던 앱들이 서로 공통된 블록을 다수 포함하고 있음을 밝혀내었다. 이러한 실험결과를 바탕으로 우리가 개발한 도구가 앱 인벤터로 개발한 앱에 대해서 소스 표절이나 코드 도용을 탐지하는 목적으로 활용될 수 있을 것으로 기대한다.