• 제목/요약/키워드: 소프트웨어 저장소 마이닝

검색결과 6건 처리시간 0.023초

깃허브 문서 저장소들에 대한 연구: 무엇이 깃허브 문서 저장소를 유명하게 하는가? (A Study of GitHub Documentation Repositories: What Makes GitHub Documentation Repository Popular?)

  • 김정일
    • 정보처리학회 논문지
    • /
    • 제13권8호
    • /
    • pp.374-381
    • /
    • 2024
  • 깃허브에서 문서 저장소들은 다양한 작업을 수행하는 데 도움이 되는 정보들을 공유하기 위해서 쓰인다. 인기 있는 문서 저장소는 저장소를 관리하고 확장하는 데 도움을 주는 기여자들을 끌어들이는 데 유리하다. 따라서 문서 저장소의 관점에서 사용자들의 관심을 받는 전략을 세우기 위해서 인기 문서 저장소의 특징을 자세히 이해하는 것이 중요하다. 그 특징을 알아보기 위해서 깃허브 문서 저장소를 연구했다. 깃허브에 있는 문서 저장소 566개를 무작위로 수집하고 수집한 문서 저장소들의 주제를 수동으로 분류했다. 별점을 토대로 문서 저장소들을 인기 문서 저장소 집단과 비인기 문서 저장소 집단으로 구분했다. 그런 다음 인기 문서 저장소 집단이 가진 주제들을 추출하고, 인기 문서 저장소 집단과 비인기 문서 저장소 집단이 가지는 README 파일 특징의 차이를 통계적으로 조사했다. 그 결과로 연구 대상 문서 저장소 집단에 23가지 인기 주제가 있다는 것을 찾았다. 또한 인기 문서 저장소와 비인기 문서 저장소 사이에 5가지 README 특징 차이가 있다는 것을 찾았다. 이 연구 결과는 깃허브에서 어떤 문서 저장소가 인기 문서 저장소가 될 수 있는지를 나타낸다.

다형의 버그 추적 시스템 마이닝 및 분석을 위한 저장소 독립 모델 설계 (Designing a Repository Independent Model for Mining and Analyzing Heterogeneous Bug Tracking Systems)

  • 이재권;정우성
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권9호
    • /
    • pp.103-115
    • /
    • 2014
  • 본 논문은 다양한 버그 추적 시스템으로부터 추출한 데이터를 통합하여 단일 저장소 모델을 제공하는 UniBAS(Unified Bug Analysis System)를 제안한다. UniBAS는 MSR(Mining Software Repositories) 연구 과정에서의 저장소 추출, 데이터 가공이나 모델 생성과 같은 공통적인 반복 작업을 줄이고, 관련 연구자가 상위 수준의 연구에 보다 집중할 수 있도록 함으로써 해당 연구 수행에 발생하는 복잡도와 비용을 줄여준다. 또한, UniBAS는 데이터 추출 뿐 아니라 질의 기반 분석에 필요한 테이블, 뷰 및 저장 프로시저 등을 자동 생성하며, 수집한 데이터 관리와 외부 도구와의 연동을 위해 다양한 형식의 파일을 생성할 수 있다. 사례 연구로 UniBAS의 유용성을 검증하기 위해 Mozilla사이트의 Firefox프로젝트를 대상으로 실제 중복 버그 리포트를 탐지하는 실험을 진행하였다. 이 과정에서 자동 추출된 자료를 대상으로 질의와 분석이 유연하게 이루어질 수 있었으며, 다양한 자연어 처리 알고리즘 적용을 통해 유효한 실험 결과를 얻을 수 있었다.

인공지능과 관련된 오픈 소스 파이썬 소프트웨어 프로젝트에서 자주 사용되는 파이썬 API들에 대한 연구 (An Empirical Study on Frequently used Python APIs in AI-Related Open Source Python Software Projects)

  • 김정일
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.19-22
    • /
    • 2024
  • 전통 소프트웨어 프로젝트 개발과 AI 관련된 소프트웨어 프로젝트 개발에 큰 차이가 있어서 AI 관련된 소프트웨어 프로젝트 개발 환경을 이해하려는 많은 노력이 있었지만 AI 관련 소프트웨어 프로젝트 개발에서 어떤 API들이 자주 사용되는지에 대해서 아직 충분히 조사되지 않았다. 본 논문에서는 "AI 관련 오픈 소스 소프트웨어 프로젝트에서 어떤 파이썬 API들이 자주 사용되는가?"에 대한 연구 질문의 해답을 알아보는 경험 연구를 소개한다. 이 경험 연구의 결과로 AI 관련 오픈 소스 소프트웨어 프로젝트에서 파이썬 표준 라이브러리와 관려된 API들이 가장 자주 사용된다는 것을 확인했다. 또한 기계 학습을 포함해서 데이터 처리, 이미지 처리, 테스팅, 웹 서비스와 관련된 라이브러리들에 있는 API들도 AI 관련 오픈 소스 소프트웨어 프로젝트들에 자주 사용된다는 것을 알아냈다.

  • PDF

데이터베이스에서 빈발패턴의 추출을 위한 메모리 향상기법 (Memory Improvement Method for Extraction of Frequent Patterns in DataBase)

  • 박인규
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권2호
    • /
    • pp.127-133
    • /
    • 2019
  • 지금까지의 빈발 항목 추출에서는 FP-Tree에 대한 순회와 패턴의 탐색이 필수적인 과정이기 때문에 마이닝 데이터를 트리에 저장하는데 공간이 필요하고 탐색하는데 CPU시간이 필요하기 마련이다. 이러한 단점을 극복하기 위하여 본 논문에서는 조건부 FP-Tree의 의존하지 않고 트랜잭션 데이터의 각 항목들의 위치 정보를 부여하여 트랜잭션 데이터를 2차원의 위치정보 Look-Up테이블로 변환하여 시간과 공간적인 접근성을 용이하게 한다. 또한 항목과 항목의 위치에 대한 매핑배열을 병행하여 시간 복잡도를 줄이는 방법을 고려하는 알고리즘을 제안한다. 실험 결과를 통하여 제안된 방법은 FIMI 저장소 웹 사이트에서 얻은 데이터 세트를 기반으로 많은 실행 시간과 메모리 사용을 줄일 수 있음을 보였다.

개발자 별 버그 해결 유형을 고려한 자동적 개발자 추천 접근법 (A Technique to Recommend Appropriate Developers for Reported Bugs Based on Term Similarity and Bug Resolution History)

  • 박성훈;김정일;이은주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권12호
    • /
    • pp.511-522
    • /
    • 2014
  • 소프트웨어 개발 및 유지보수 과정에서 여러 종류의 버그가 발생된다. 버그는 소프트웨어의 개발 및 유지 보수 시간을 증가시키는 주요원인으로 소프트웨어의 품질 저하를 초래한다. 버그의 발생을 사전에 완벽하게 방지하는 것은 불가능하다. 대신 버그 질라(Bugzilla), 멘티스BT(MantisGBT), 트랙 (Trac), 질라 (JIRA)와 같은 버그 트래킹 시스템을 이용하여 버그를 효과적으로 관리하는 것이 가능하다. 개발자 또는 사용자가 발생된 버그를 버그 트래킹 시스템에 보고하면, 프로젝트 매니저에 의해서 보고된 버그는 버그 해결에 적합한 개발자에게 전달되어 해결될 때까지 버그 트래킹 시스템에 의해서 추척된다. 여기서 프로젝트 매니저가 버그 해결에 적합한 개발자를 선별하는 것을 버그 분류 작업 (Bug triaging)이라고 하며, 대량으로 발생되는 버그 리포트들을 수동으로 분류하는 것은 프로젝트 매니저에게 있어서 매우 어려운 문제가 된다. 본 논문에서는 버그 트래킹 시스템에 저장된 과거에 해결된 버그 리포트에서 개발자 별 버그 해결 유형을 추출하고, 이를 활용한 버그 분류 작업, 즉 개발자 추천 방법을 제안한다. 먼저 버그 트래킹 시스템에서 각 개발자가 해결한 버그 리포트들을 분류한 후, 자연 언어 처리 알고리즘과 TF-IDF (Term frequency-Inverse document frequency)를 활용하여 각 개발자 별 단어 리스트를 생성한다. 그 후, 새로운 버그가 발생되었을 때 코사인 유사도를 통해서 생성된 개발자 별 단어 리스트와 새로운 버그 리포트의 단어 리스트를 비교하여 가장 유사한 단어 리스트를 가지는 개발자를 추천하는 방법이다. 두 오픈 소스 프로젝트인 이클립스 JDT.UI와 CDT.CORE를 대상으로 수행한 개발자 추천 실험에서 기계 학습 모델 기반의 추천 방법보다 제안하는 방법이 더 우수한 결과를 얻은 것을 확인하였다.

변경 유형의 유사도 및 커밋 시간을 이용한 파일 변경 결합도 (A Technique to Detect Change-Coupled Files Using the Similarity of Change Types and Commit Time)

  • 김정일;이은주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권2호
    • /
    • pp.65-72
    • /
    • 2014
  • 변경 결합도는 두 요소들 사이의 향후 변경 연관성을 알려준다. 만약, 소스 파일들이 자주 함께 변경된다면, 그 소스 파일들의 변경 결합도는 높다고 볼 수 있으며, 나중에 다시 함께 변경될 확률이 높다. 일반적으로 소스 파일들 사이의 변경 결합도는 공통 변경 횟수에 기반하여 정의되었다. 그런데 연관성이 낮은 변경들이 일괄적으로 함께 커밋되는 경우, 즉 뒤얽힌 변경(tangled change)과 같은 경우들이 빈번히 발생한다. 따라서 함께 변경된 횟수만으로 소스 파일의 변경 결합도를 결정하는 것은 한계가 있다. 본 논문에서는 기존의 방법을 보완하기 위해, 소스 파일의 변경 시간뿐 아니라 소스 코드 변경 유형의 유사성을 함께 고려하는 것을 제안하였다. 이를 위하여, 우선 추출된 변경 유형 정보를 이용하여 변경 유형 빈도 벡터를 정의하고, 다음에 코사인 유사도 측정을 통해서 각 소스 파일 버전에서 적용된 코드 변경 유사성을 계산한다. 이후 Eclipse 프로젝트인 JDT와 CDT에 대한 사례 연구를 통해 제안된 방법의 효용성을 보였다.