• Title/Summary/Keyword: 데이터 편향성

Search Result 42, Processing Time 0.03 seconds

Effect of Application of Ensemble Method on Machine Learning with Insufficient Training Set in Developing Automated English Essay Scoring System (영작문 자동채점 시스템 개발에서 학습데이터 부족 문제 해결을 위한 앙상블 기법 적용의 효과)

  • Lee, Gyoung Ho;Lee, Kong Joo
    • Journal of KIISE
    • /
    • v.42 no.9
    • /
    • pp.1124-1132
    • /
    • 2015
  • In order to train a supervised machine learning algorithm, it is necessary to have non-biased labels and a sufficient amount of training data. However, it is difficult to collect the required non-biased labels and a sufficient amount of training data to develop an automatic English Composition scoring system. In addition, an English writing assessment is carried out using a multi-faceted evaluation of the overall level of the answer. Therefore, it is difficult to choose an appropriate machine learning algorithm for such work. In this paper, we show that it is possible to alleviate these problems through ensemble learning. The results of the experiment indicate that the ensemble technique exhibited an overall performance that was better than that of other algorithms.

Gender Bias Mitigation in Gender Prediction Using Zero-shot Classification (제로샷 분류를 활용한 성별 편향 완화 성별 예측 방법)

  • Yeonhee Kim;Byoungju Choi;Jongkil Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.509-512
    • /
    • 2024
  • 자연어 처리 기술은 인간 언어의 이해와 처리에서 큰 진전을 이루었으나, 학습 데이터에 내재한 성별 편향이 모델의 예측 정확도와 신뢰성을 저하하는 주요한 문제로 남아 있다. 특히 성별 예측에서 이러한 편향은 더욱 두드러진다. 제로샷 분류 기법은 기존에 학습되지 않은 새로운 클래스를 효과적으로 예측할 수 있는 기술로, 학습 데이터의 제한적인 의존성을 극복하고 다양한 언어 및 데이터 제한 상황에서도 효율적으로 작동한다. 본 논문은 성별 클래스 확장과 데이터 구조 개선을 통해 성별 편향을 최소화한 새로운 데이터셋을 구축하고, 이를 제로샷 분류 기법을 통해 학습시켜 성별 편향성이 완화된 새로운 성별 예측 모델을 제안한다. 이 연구는 다양한 언어로 구성된 자연어 데이터를 추가 학습하여 성별 예측에 최적화된 모델을 개발하고, 제한된 데이터 환경에서도 모델의 유연성과 범용성을 입증한다.

Analyzing Media Bias in News Articles Using RNN and CNN (순환 신경망과 합성곱 신경망을 이용한 뉴스 기사 편향도 분석)

  • Oh, Seungbin;Kim, Hyunmin;Kim, Seungjae
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.24 no.8
    • /
    • pp.999-1005
    • /
    • 2020
  • While search portals' 'Portal News' account for the largest portion of aggregated news outlet, its neutrality as an outlet is questionable. This is because news aggregation may lead to prejudiced information consumption by recommending biased news articles. In this paper we introduce a new method of measuring political bias of news articles by using deep learning. It can provide its readers with insights on critical thinking. For this method, we build the dataset for deep learning by analyzing articles' bias from keywords, sourced from the National Assembly proceedings, and assigning bias to said keywords. Based on these data, news article bias is calculated by applying deep learning with a combination of Convolution Neural Network and Recurrent Neural Network. Using this method, 95.6% of sentences are correctly distinguished as either conservative or progressive-biased; on the entire article, the accuracy is 46.0%. This enables analyzing any articles' bias between conservative and progressive unlike previous methods that were limited on article subjects.

A Study of Mixed Augmentation for Reducing Model Bias (신경망 모델의 편향성을 줄이기 위한 데이터 증강 연구)

  • Son, Jaebeom
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.455-457
    • /
    • 2020
  • Recent studies demonstrate that deep learning model is easily biased by trained with unbalanced datasets. For example, the deep network can be trained to make a prediction by background feature instead the real target's feature. For those problem, a measurement called leakage was introduced to digitize this tendency. In this paper, we propose augmentation strategy which are used generally in computer vision problem to remedy this bias problem and we showed a simple augmentation methods have a effect to this task with experiments.

ColBERT with Adversarial Language Adaptation for Multilingual Information Retrieval (다국어 정보 검색을 위한 적대적 언어 적응을 활용한 ColBERT)

  • Jonghwi Kim;Yunsu Kim;Gary Geunbae Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.239-244
    • /
    • 2023
  • 신경망 기반의 다국어 및 교차 언어 정보 검색 모델은 타겟 언어로 된 학습 데이터가 필요하지만, 이는 고자원 언어에 치중되어있다. 본 논문에서는 이를 해결하기 위해 영어 학습 데이터와 한국어-영어 병렬 말뭉치만을 이용한 효과적인 다국어 정보 검색 모델 학습 방법을 제안한다. 언어 예측 태스크와 경사 반전 계층을 활용하여 인코더가 언어에 구애 받지 않는 벡터 표현을 생성하도록 학습 방법을 고안하였고, 이를 한국어가 포함된 다국어 정보 검색 벤치마크에 대해 실험하였다. 본 실험 결과 제안 방법이 다국어 사전학습 모델과 영어 데이터만을 이용한 베이스라인보다 높은 성능을 보임을 실험적으로 확인하였다. 또한 교차 언어 정보 검색 실험을 통해 현재 검색 모델이 언어 편향성을 가지고 있으며, 성능에 직접적인 영향을 미치는 것을 보였다.

  • PDF

Performance Comparison of Statistics-Based Machine Learning Model for Classification of Technical Documents (기술문서 분류를 위한 통계기반 기계학습 모델 성능비교 및 한계 연구)

  • Kim, Jin-gu;Yu, Heonchang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.393-396
    • /
    • 2022
  • 본 연구는 국방과학기술 분야의 특허 및 논문 실적을 이용하여 통계기반 기계학습 모델 4 종을 학습하고, 실제 분석 대상기관의 데이터 입력결과를 분석하여 실용성에 대한 한계점 분석을 목적으로 한다. 기존 연구에서는 특허분류코드를 기준으로 분류하여 특수 목적으로 활용하거나 세부 연구 범위 내 연구 주제탐색 및 특징연구 등 미시적인 관점에서의 상세연구 활용 목적인 반면, 본 연구는 거시적인 관점에서 연구의 전체적인 흐름과 경향성 파악을 목적으로 한다. 이에 ICT 기술 138 종의 특허 및 논문 30,965 건과 국방과학기술 192 종의 특허 및 논문 23,406 건을 학습데이터로 각 모델을 학습하였다. 비교한 통계기반 학습모델은 Support Vector Machines, Decision Tree, Naive Bayes, XGBoost 모델이다. 학습데이터에 대한 학습검증 단계에서는 최대 99.4%의 성능을 보였다. 다만, 실제 분석대상기관의 특허 및 논문 12,824 건으로 입력분석한 결과, 모델별 편향성 문제, 데이터 전처리 이슈, 다중클래스 및 다중레이블 문제를 확인, 도출한 문제에 대한 해결방안을 제시하고 추가 연구의 방향성을 제시한다.

A Study on Selecting Principle Component Variables Using Adaptive Correlation (적응적 상관도를 이용한 주성분 변수 선정에 관한 연구)

  • Ko, Myung-Sook
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.3
    • /
    • pp.79-84
    • /
    • 2021
  • A feature extraction method capable of reflecting features well while mainaining the properties of data is required in order to process high-dimensional data. The principal component analysis method that converts high-level data into low-dimensional data and express high-dimensional data with fewer variables than the original data is a representative method for feature extraction of data. In this study, we propose a principal component analysis method based on adaptive correlation when selecting principal component variables in principal component analysis for data feature extraction when the data is high-dimensional. The proposed method analyzes the principal components of the data by adaptively reflecting the correlation based on the correlation between the input data. I want to exclude them from the candidate list. It is intended to analyze the principal component hierarchy by the eigen-vector coefficient value, to prevent the selection of the principal component with a low hierarchy, and to minimize the occurrence of data duplication inducing data bias through correlation analysis. Through this, we propose a method of selecting a well-presented principal component variable that represents the characteristics of actual data by reducing the influence of data bias when selecting the principal component variable.

Automatic Prioritization of Requirements using Topic Modeling and Stakeholder Needs-Artifacts (토픽 모델링과 이해관계자 요구 산출물을 이용한 요구사항 자동 우선순위화)

  • Jang, Jong-In;Baik, Jongmoon
    • Journal of KIISE
    • /
    • v.43 no.2
    • /
    • pp.196-203
    • /
    • 2016
  • Due to the limitations of budget, resources, and time invested in a project, software requirements should be prioritized and be implemented in order of importance. Existing approaches to prioritizing requirements mostly depend on human decisions. The manual prioritization process is based on intensive interactions with the stakeholders, thus raising the issues of scalability and biased prioritization. To solve these problems, we propose a fully automated requirements prioritization approach, ToMSN (Topic Modeling Stakeholder Needs for requirements prioritization), by topic modeling the stakeholder needs-artifacts earned in the requirements elicitation phase. The requirements dataset of a 30,000-user system was utilized for the performance evaluation. ToMSN showed competitive prioritizing accuracy with existing approaches without human aids, therefore solving scalability and biased prioritization issues.

RAH-tree : A Efficient Index Scheme for Spatial Data with Skewed Access Patterns (RAH-tree : 편향 접근 패턴을 갖는 공간 데이터에 대한 효율적인 색인 기법)

  • Choi Keun-Ha;Lee Seung-Joong;Jung Sungwon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.31-33
    • /
    • 2005
  • GPS및 PDA의 발달로 인해서 위치 기반 서비스(LBS), 차량항법장치(CNS), 지리정보시스템(GIS)등 공간 데이터를 다루는 응용프로그램들이 급속하게 보급되었다. 이러한 응용프로그램은 높이 균등 색인 기법을 사용하여 원하는 데이터에 대한 색인을 제공하였다. 그러나 모든 공간 객체는 서로 상이한 접근 빈도를 가지고 있음에도 불구하고 기존의 공간색인 기법은 접근 빈도를 고려하지 못하는 단점을 가지고 있었다. 또한 기존의 빈도수만을 고려한 공간 객체의 색인 방법은 접근 빈도에 따른 편향성(skewed)은 제공하지만 공간 객체에 대한 지역성을 반영하지 못한다. 본 논문에서는 밀집되어 있는 공간 객체의 접근 빈도를 반영해서 편향된 색인 트리를 생성하는 기법을 제안한다. 이형 클러스터링으로 분포되어 있는 전체 영역에 대해서 Zahn의 클러스터링 알고리즘을 변형시켜서 다단계 세부영역을 구분한다. 이렇게 구간된 세부영역에 대해서 거리적 인접성과 접근 빈도수의 합을 이용해서 색인 트리를 생성한다. 다단계로 구성된 전체영역에 대해서 하향식 방식으로 편향된 색인 트리를 생성함으로써, 접근 빈도가 높은 공간 객체에 대해서 빠른 탐색이 가능하게 한다.

  • PDF

Impact Analysis of Partition Utility Score in Cluster Analysis (군집분석의 분할 유용도 점수의 영향 분석)

  • Lee, Gye Sung
    • The Journal of the Convergence on Culture Technology
    • /
    • v.7 no.3
    • /
    • pp.481-486
    • /
    • 2021
  • Machine learning algorithms adopt criterion function as a key component to measure the quality of their model derived from data. Cluster analysis also uses this function to rate the clustering result. All the criterion functions have in general certain types of favoritism in producing high quality clusters. These clusters are then described by attributes and their values. Category utility and partition utility play an important role in cluster analysis. These are fully analyzed in this research particularly in terms of how they are related to the favoritism in the final results. In this research, several data sets are selected and analyzed to show how different results are induced from these criterion functions.