DOI QR코드

DOI QR Code

머신러닝 편향성 관점에서 비식별화의 영향분석에 대한 연구

A Study on Impacts of De-identification on Machine Learning's Biased Knowledge

  • 하수현 (서울여자대학교 정보보호학과) ;
  • 김진송 (서울여자대학교 국어국문학과 및 정보보호학과) ;
  • 손예은 (서울여자대학교 정보보호학과) ;
  • 원가은 (서울여자대학교 정보보호학과) ;
  • 최유진 (서울여자대학교 정보보호학과) ;
  • 박소연 (성균관대학교 컴퓨터교육학과 및 서울여자대학교 정보보호영재교육원) ;
  • 김형종 (서울여자대학교 정보보호학과) ;
  • 강은성
  • Soohyeon Ha ;
  • Jinsong Kim ;
  • Yeeun Son ;
  • Gaeun Won ;
  • Yujin Choi ;
  • Soyeon Park ;
  • Hyung-Jong Kim ;
  • Eunsung Kang (School of Information Security, Seoul Women's University)
  • 투고 : 2024.01.05
  • 심사 : 2024.06.11
  • 발행 : 2024.06.30

초록

본고에서는 인공지능 모델 학습에 사용하는 데이터셋에 내재한 편향성이 인공지능 예측 결과에 미치는 영향을 분석함으로써, 위의 경우가 사회적 격차를 고착화시키는 문제를 조명하고자 하였다. 따라서 데이터 편향성이 인공지능 모델에 끼치는 영향을 분석하기 위해, 성별 임금 격차에 관한 편향이 포함된 원본 데이터셋을 제작하였으며 해당 데이터셋을 비식별 처리한 데이터셋을 만들었다. 또한 의사결정트리 알고리즘을 통해 원본 데이터셋과 비식별화 된 데이터셋을 학습한 각각의 인공지능 모델 간의 산출물을 비교함으로써, 데이터 비식별화가 인공지능 모델이 산출한 결과의 편향에 어떠한 영향을 미치는지 분석하였다. 이를 통해 데이터 비식별화가 개인정보 보호뿐만 아니라, 데이터의 편향에도 중요한 역할을 할 수 있음을 도출하고자 하였다.

We aimed to shed light on the issue of perpetuating societal disparities by analyzing the impact of inherent biases present in datasets used for training artificial intelligence models on the predictions generated by Artificial Intelligence(AI). Therefore, to examine the influence of data bias on AI models, we constructed an original dataset containing biases related to gender wage gaps and subsequently created a de-identified dataset. Additionally, by utilizing the decision tree algorithm, we compared the outputs of AI models trained on both the original and de-identified datasets, aiming to analyze how data de-identification affects the biases in the results produced by artificial intelligence models. Through this, our goal was to highlight the significant role of data de-identification not only in safeguarding individual privacy but also in addressing biases within the data.

키워드

과제정보

이 성과(논문)는 정부(교육부)의 지원을 받아 수행된 연구임 (2024년 부처 협업형 인재양성사업[정보보안 분야], No. 2024 개인정보보호-002)

참고문헌

  1. Angwin, J., J. Larson, S. Mattu, and L. Kirchner, ProPublica (2016) "Machine Bias: There's Software Used Across the Country to Predict Future Criminals. And it's Biased Against Blacks", Available at URL https://www.propublica.org/article/machine-biasrisk-assessments-in-criminal-sentencing
  2. Datta, A., M. Fredrikson, G. Ko, P. Mardziel and S. Sen (2017) "Proxy Non-Discrimination in DataDriven Systems", Available at https://arxiv.org/abs/1707.08120 (Accessed january 31. 2023).
  3. Datta, A., M.C. Tschantz and A. Datta (2015) "Automated Experiments on Ad Privacy Settings", Philadelphia, USA, 92-112.
  4. Hao, K., and J. Stray, MIT Technology Review (2019) "Can you make AI fairer than a judge? Play our courtroom algorithm game", Available at URL https://www.technologyreview.com/2019/10/17/75285/ai-fairer-than-judge-criminal-risk-assessment-algorithm/
  5. Hardt, M., E. Price and N. Srebro (2016) "Equality of Opportunity in Supervised Learning", Advances in neural information processing systems, 29, 3315-3323.
  6. Kamishima, T., S. Akaho and J. Sakuma (2011) "Fairness-aware Learning through Regularization Approach", IEEE Int. Conf. on Data Mining Workshops, 643-650. doi:10.1109/ICDMW.2011
  7. Kilbertus, N., M.R. Carulla, G. Parascandolo, M. Hardt, D. Janzing and B. Scholkopf (2017) "Avoiding Discrimination through Causal Reasoning", Advances in neural information processing systems, 30, 656-666.
  8. Kim J. and S. Cho (2019) "Deep Learning Model based on Autoencoder for Reducing Algorithmic Bias of Gender", Journal of KIISE, 46(8), 721-725.
  9. Kong J.W. and M.Y. Um (2016) "A qualitative case study on the experience of working mothers in labor market: Focusing on direct and indirect discrimination experience", Korean Family Welfare Studies, (51), 149-186.
  10. Reddy M.S.R, J.G. Sakuma, and N. Sambangi (2023) "Salary_Data", Kaggle, Available at https://www.kaggle.com/datasets/mohithsairamreddy/salary-data
  11. Youm Y.S., K. Yamaguchi, and K.H. Sung (2021) "A Tale of Two Gender Inequalities : Examining Inter-and Intra- Occupation Inequalities in Korea", Korean Journal of Sociology, 55(4), 161-203.
  12. Zemel, R., Y. Wu, K. Swersky, T. Pitassi and C. Dwork (2013) "Learning Fair Representations", Proceedings of the 30th International Conference on Machine Learning, Atlanta, USA, 325-333.
  13. Zhang, B.H., B. Lemoine and M. Mitchell (2018) "Mitigating Unwanted Biases with Adversarial Learning", Proceedings of the 2018 AAAI/ACM Conference on AI, Ethics, and Society, New Orleans, United States of America, 335-340
  14. Zhang, H., M. Cisse, Y. N. Dauphin and D. Lopez-Paz (2018) "mixup: Beyond empirical risk minimization", Proceedings of the 2018 International Conference on Learning Representations(ICLR), Vancouver, Canada
  15. Zhong, Z. (2018) "A Tutorial on Fairness in Machine Learning", Towards Data Science. Available at https://towardsdatascience.com/a-tutorial-on-fairness-in-machine-learning-3ff8ba1040cb