DOI QR코드

DOI QR Code

A Study of GitHub Documentation Repositories: What Makes GitHub Documentation Repository Popular?

깃허브 문서 저장소들에 대한 연구: 무엇이 깃허브 문서 저장소를 유명하게 하는가?

  • Jung Il Kim
  • 김정일 (경북대학교 소프트웨어기술연구소 )
  • Received : 2024.04.30
  • Accepted : 2024.08.05
  • Published : 2024.08.31

Abstract

Documentation repositories on GitHub are used to share information that is helpful in performing various tasks. Popular documentation repositories have an advantage in attracting contributors who can help manage and extend documentation repository. Therefore, it is important to understand the characteristic of documentation repositories helpful to obtain popularity for developing strategies attracting attention of users. This paper presents a study on GitHub documentation repositories. To conduct the study, we collected 566 documentation repositories from GitHub and manually categorized their topic into 30 topics. Based on the stargazer score of the collected documentation repositories, we divided the collected documentation repositories into popular and unpopular documentation repository groups and investigated the topics in the popular documentation group. Then we statistically examined the differences in README characteristics of the popular and unpopular documentation repository groups. As a result, we found that the studied documentation repositories have 23 popular topics. We also found that the popular and unpopular documentation repository groups have differences in 5 README characteristics. The result of our study indicates that what documentation repository become popular in GitHub.

깃허브에서 문서 저장소들은 다양한 작업을 수행하는 데 도움이 되는 정보들을 공유하기 위해서 쓰인다. 인기 있는 문서 저장소는 저장소를 관리하고 확장하는 데 도움을 주는 기여자들을 끌어들이는 데 유리하다. 따라서 문서 저장소의 관점에서 사용자들의 관심을 받는 전략을 세우기 위해서 인기 문서 저장소의 특징을 자세히 이해하는 것이 중요하다. 그 특징을 알아보기 위해서 깃허브 문서 저장소를 연구했다. 깃허브에 있는 문서 저장소 566개를 무작위로 수집하고 수집한 문서 저장소들의 주제를 수동으로 분류했다. 별점을 토대로 문서 저장소들을 인기 문서 저장소 집단과 비인기 문서 저장소 집단으로 구분했다. 그런 다음 인기 문서 저장소 집단이 가진 주제들을 추출하고, 인기 문서 저장소 집단과 비인기 문서 저장소 집단이 가지는 README 파일 특징의 차이를 통계적으로 조사했다. 그 결과로 연구 대상 문서 저장소 집단에 23가지 인기 주제가 있다는 것을 찾았다. 또한 인기 문서 저장소와 비인기 문서 저장소 사이에 5가지 README 특징 차이가 있다는 것을 찾았다. 이 연구 결과는 깃허브에서 어떤 문서 저장소가 인기 문서 저장소가 될 수 있는지를 나타낸다.

Keywords

Acknowledgement

이 연구는 과학기술정보통신부의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(1711194613, RS-2023-00213733).

References

  1. E. Kalliamvakou, G. Gousios, K. Blincoe, L. Singer, D. M. German and D. Damian, "The promises and perils of mining github," in Proceedings of the 11th Working Conference on Mining Software Repositories, pp.92-101, 2014. 
  2. E. Kalliamvakou, G. Gousios, K. Blincoe, L. Singer, D. M. German, and D. Damian, "An in-depth study of the promises and perils of mining GitHub," Empirical Software Engineering, Vol.21, pp.2035-2071, 2016. 
  3. H. Borges, A. Hora, and M. T. Valente, "Understanding the factors that impact the popularity of GitHub repositories," in 2016 IEEE International Conference on Software Maintenance and Evolution (ICSME), pp.334-344, 2016. 
  4. H. Borges, A. Hora, and M. T. Valente, "Predicting the popularity of github repositories," in Proceedings of the The 12th International Conference on Predictive Models and Data Analytics in Software Engineering, pp.1-10, 2016. 
  5. S. Weber and J. Luo, "What makes an open source code popular on github?," in 2014 IEEE International Conference on Data Mining Workshop, pp.851-855, 2014. 
  6. Y. Fan, X. Xia, D. Lo, A. E. Hassan, and S. Li, "What makes a popular academic AI repository?," Empirical Software Engineering, Vol.26, pp.1-35, 2021. 
  7. Y. Liu, E. Noei, and K. Lyons, "How ReadMe files are structured in open source Java projects," Information and Software Technology, Vol.148, pp.1-11, 2022. 
  8. K. Aggarwal, A. Hindle, and E. Stroulia, "Co-evolution of project documentation and popularity within github," in Proceedings of the 11th Working Conference on Mining Software Repositories, pp.360-363, 2014. 
  9. J. Zhu, M. Zhou, and A. Mockus, "Patterns of folder use and project popularity: A case study of GitHub repositories," in Proceedings of the 8th ACM/IEEE International Symposium on Empirical Software Engineering and Measurement, pp.1-4, 2014. 
  10. C. Phua, D. Alahakoon, and V. Lee, "Minority report in fraud detection: Classification of skewed data," ACM SIGKDD Explorations Newsletter, Vol.6, No.1, pp.50-59, 2004. 
  11. T. L. Alves, C. Ypma, and J. Visser, "Deriving metric thresholds from benchmark data," in 2010 IEEE International Conference on Software Maintenance, pp.1-10, 2010. 
  12. M. Yan, X. Xia, X. Zhang, D. Yang, and L. Xu, "Automating aggregation for software quality modeling," in 2017 IEEE International Conference on Software Maintenance and Evolution (ICSME), pp.529-533, 2017. 
  13. A. S. M. Venigalla and S. Chimalakonda, "An empirical study on correlation between readme content and project popularity," arXiv e-prints, arXiv-2206, 2022. 
  14. W. H. Kruskal and W. A. Wallis, "Use of ranks in one-criterion variance analysis," Journal of the American statistical Association, Vol.47, No.260, pp.583-621, 1952. 
  15. G. W. Corder and D. I. Foreman, "Nonparametric statistics for non-statisticians," Hoboken: John Wiley & Sons. pp. 99-105. ISBN 9780470454619. 
  16. A. B. Cantor, "Sample-size calculations for Cohen's kappa," Psychol Methods, Vol.1, No.150, 1996. 
  17. M. Hess and J. Kromrey, "Robust confidence intervals for effect sizes: A comparative study of cohen's d and cliff's delta under non-normality and heterogeneous variances," in the Annual Meeting of the American Educational Research Association, pp.1-30, 2004. 
  18. E. Noei, F. Zhang, S. Wang, and Y. Zou, "Towards prioritizing user-related issue reports of mobile applications," Empirical Software Engineering, Vol.24, pp.1964-1996, 2019. 
  19. G. A. A. Prana, C. Treude, F. Thung, T. Atapattu, and D. Lo, "Categorizing the content of github readme files," Empirical Software Engineering, Vol.24, pp.1296-1327, 2019. 
  20. F. Zanartu, C. Treude, B. Cartaxo, H. S. Borges, P. Moura, M. Wagner, and G. Pinto, "Automatically categorising github repositories by application domain," arXiv preprint arXiv:2208.00269.