• Title/Summary/Keyword: 데이터편향

Search Result 163, Processing Time 0.025 seconds

Learning Method of Data Bias employing MachineLearningforKids: Case of AI Baseball Umpire (머신러닝포키즈를 활용한 데이터 편향 인식 학습: AI야구심판 사례)

  • Kim, Hyo-eun
    • Journal of The Korean Association of Information Education
    • /
    • v.26 no.4
    • /
    • pp.273-284
    • /
    • 2022
  • The goal of this paper is to propose the use of machine learning platforms in education to train learners to recognize data biases. Learners can cultivate the ability to recognize when learners deal with AI data and systems when they want to prevent damage caused by data bias. Specifically, this paper presents a method of data bias education using MachineLearningforKids, focusing on the case of AI baseball referee. Learners take the steps of selecting a specific topic, reviewing prior research, inputting biased/unbiased data on a machine learning platform, composing test data, comparing the results of machine learning, and present implications. Learners can learn that AI data bias should be minimized and the impact of data collection and selection on society. This learning method has the significance of promoting the ease of problem-based self-directed learning, the possibility of combining with coding education, and the combination of humanities and social topics with artificial intelligence literacy.

Properties and Quantitative Analysis of Bias in Korean Language Models: A Comparison with English Language Models and Improvement Suggestions (한국어 언어모델의 속성 및 정량적 편향 분석: 영어 언어모델과의 비교 및 개선 제안)

  • Jaemin Kim;Dong-Kyu Chae
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.558-562
    • /
    • 2023
  • 최근 ChatGPT의 등장으로 텍스트 생성 모델에 대한 관심이 높아지면서, 텍스트 생성 태스크의 성능평가를 위한 지표에 대한 연구가 활발히 이뤄지고 있다. 전통적인 단어 빈도수 기반의 성능 지표는 의미적인 유사도를 고려하지 못하기 때문에, 사전학습 언어모델을 활용한 지표인 BERTScore를 주로 활용해왔다. 하지만 이러한 방법은 사전학습 언어모델이 학습한 데이터에 존재하는 편향으로 인해 공정성에 대한 문제가 우려된다. 이에 따라 한국어 사전학습 언어모델의 편향에 대한 분석 연구가 필요한데, 기존의 한국어 사전학습 언어모델의 편향 분석 연구들은 사회에서 생성되는 다양한 속성 별 편향을 고려하지 못했다는 한계가 있다. 또한 서로 다른 언어를 기반으로 하는 사전학습 언어모델들의 속성 별 편향을 비교 분석하는 연구 또한 미비하였다. 이에 따라 본 논문에서는 한국어 사전학습 언어모델의 속성 별 편향을 비교 분석하며, 영어 사전학습 언어모델이 갖고 있는 속성 별 편향과 비교 분석하였고, 비교 가능한 데이터셋을 구축하였다. 더불어 한국어 사전학습 언어모델의 종류 및 크기 별 편향 분석을 통해 적합한 모델을 선택할 수 있도록 가이드를 제시한다.

  • PDF

Gender Bias Mitigation in Gender Prediction Using Zero-shot Classification (제로샷 분류를 활용한 성별 편향 완화 성별 예측 방법)

  • Yeonhee Kim;Byoungju Choi;Jongkil Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.509-512
    • /
    • 2024
  • 자연어 처리 기술은 인간 언어의 이해와 처리에서 큰 진전을 이루었으나, 학습 데이터에 내재한 성별 편향이 모델의 예측 정확도와 신뢰성을 저하하는 주요한 문제로 남아 있다. 특히 성별 예측에서 이러한 편향은 더욱 두드러진다. 제로샷 분류 기법은 기존에 학습되지 않은 새로운 클래스를 효과적으로 예측할 수 있는 기술로, 학습 데이터의 제한적인 의존성을 극복하고 다양한 언어 및 데이터 제한 상황에서도 효율적으로 작동한다. 본 논문은 성별 클래스 확장과 데이터 구조 개선을 통해 성별 편향을 최소화한 새로운 데이터셋을 구축하고, 이를 제로샷 분류 기법을 통해 학습시켜 성별 편향성이 완화된 새로운 성별 예측 모델을 제안한다. 이 연구는 다양한 언어로 구성된 자연어 데이터를 추가 학습하여 성별 예측에 최적화된 모델을 개발하고, 제한된 데이터 환경에서도 모델의 유연성과 범용성을 입증한다.

Recommendations for the Construction of a Quslity-Controlled Stress Measurement Dataset (품질이 관리된 스트레스 측정용 테이터셋 구축을 위한 제언)

  • Tai Hoon KIM;In Seop NA
    • Smart Media Journal
    • /
    • v.13 no.2
    • /
    • pp.44-51
    • /
    • 2024
  • The construction of a stress measurement detaset plays a curcial role in various modern applications. In particular, for the efficient training of artificial intelligence models for stress measurement, it is essential to compare various biases and construct a quality-controlled dataset. In this paper, we propose the construction of a stress measurement dataset with quality management through the comparison of various biases. To achieve this, we introduce strss definitions and measurement tools, the process of building an artificial intelligence stress dataset, strategies to overcome biases for quality improvement, and considerations for stress data collection. Specifically, to manage dataset quality, we discuss various biases such as selection bias, measurement bias, causal bias, confirmation bias, and artificial intelligence bias that may arise during stress data collection. Through this paper, we aim to systematically understand considerations for stress data collection and various biases that may occur during the construction of a stress dataset, contributing to the construction of a dataset with guaranteed quality by overcoming these biases.

A Spatial Indexing Scheme for Geographical Data with Skewed Access Patterns (편향 접근 패턴을 갖는 공간 데이터에 대한 공간 색인 기법)

  • 이승중;정성원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.46-48
    • /
    • 2004
  • 차량항법장치(Car Navigation System : CNS)나 지리정보시스템(Geographic Information System : CIS)에서 공간 객체를 효율적으로 다루는 색인기법에 대한 다양한 논의가 있어왔다 기존의 방법에서는 공간 객체의 인접성(cluster)과 밀집성 만을 고려해서 색인 트리를 생성하므로, 편향된 접근 빈도론 가진 공간 객체이 대해서 효과적인 탐색시간을 제공하지 못한다. 접근 빈도를 반영한 색인 기법은 공간 데이터가 갖는 특성-2개 이상의 차원에 대한 순서 할당이 불가능-에 의해서 지리적으로 인접된 객체들을 묶지 못하고, 이로 인해서 공간 객체에 대한 효율적인 색인 기법을 제공할 수 없다. 지리 데이터에 대한 위치와 접근 빈도가 주어질 매, 색인 트리는 좌표 정보뿐 아니라 공간 객체에 대한 접근 빈도도 고려해서 생성되어야 한다 본 논문에서 제안하는 기법을 전체 영역을 세부영역으로 분할하고, 각 세부 영역에 대해서 편향색인 트리를 생성한 뒤에 트리를 병합함으로써 밀집도와 접근 빈도를 반영한, 편향된(skewed) 색인 트리를 생성하도록 한다. 편향된 색인 트리는 접근 빈도가 높은 공간객체를 상위계층(level)에 위치시킴으로써 탐색비용을 줄인다.

  • PDF

The Effect of Prediction and Emotion on Hindsight Bias (예측과 정서가 후견지명 편향에 끼치는 영향)

  • Kim, Sung-Eun;Hyun, Ju-Ha;Han, Kwang-Hee
    • 한국HCI학회:학술대회논문집
    • /
    • 2008.02b
    • /
    • pp.475-481
    • /
    • 2008
  • 본 연구는 어떤 사건에 대한 예측 정확성 여부와 기억을 회상할 때의 정서 상태가 후견지명 편향 (hindsight bias)에 미치는 영향을 알아보고자 하였다. 이에 valence 축에 따라 긍정적 정서와 부정적 정서를 일으키는 두 가지 음악을 제시하고 두 조건에 대하여 기억에 대한 과잉 확신이 얼마나 달라지는가를 분석하였다. 예측 정확성 여부에 대해서는 실험 결과 데이터 중 예측 일치 조건과 불일치 조건으로 나누어 후견지명 편향에 끼치는 영향과 정서와의 상호작용이 있는가를 분석하였다. 사람들은 예측과 반대되는 결과를 접했을 때 결과에 anchoring하여 기억을 회상하려는 편향이 더욱 커졌으며 부정적인 정서보다 긍정적 정서 상태일 때 후견지명 편향이 더욱 커졌음을 밝혔다. 특히 예측과 상이한 결과 피드백을 받고 긍정적 정서 상태일 때 가장 많은 왜곡 현상을 보였으며, 예측 불일치/ 부정적 정서 조건, 예측 일치/ 긍정적 정서 조건, 예측 일치/ 부정적 정서 조건 순으로 후견지명 편향을 보였다. 이 결과는 정서 상태보다 어떤 사건에 대한 예측 정확성 여부가 후견지명 편향에 더 큰 영향을 준다는 것을 시사한다. 본 연구의 실험실 상황을 통하여 자기와 관련이 없는 중립적 과제를 통해서도 후견지명 편향이 나타남을 알 수 있었다. 특히 그 동안 거의 이루어지지 않았던 정서와 후견지명 편향의 관계를 밝히고, 기존의 예측 정확성에 따른 편향을 설명하는 모델간 논쟁이 많았으나 실험 결과가 motivational model을 지지함을 밝혔음에 의의가 있다.

  • PDF

An Indexing Technique for Multi-Disks Broadcast Environments (멀티 디스크 방송 환경을 위한 인덱스 기술)

  • Park, KiYoung;Jung, Sungwon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.11a
    • /
    • pp.215-218
    • /
    • 2007
  • 모바일 환경에서는 상향링크와 하향링크의 대역폭이 비대칭적이며 전력이 한정되어 있기 때문에 효율적인 데이터 전송기술로 브로드캐스팅 방법이 연구되어 왔다. 브로드캐스트에서 인덱스를 사용하면 원하는 데이터가 언제 방송되는지를 알 수 있어 튜닝 시간을 줄이고, 전력의 소비를 줄이는 효과가 있다. 지금까지 연구된 싱글 채널 인덱스 기법들은 모든 데이터 아이템이 동일한 확률로 접근되는 flat 브로드캐스트 방송에 적합한 인덱스 기법들이다. 데이터 아이템에 대한 접근 확률이 편향되는 경우에는 멀티디스크 방송 기법을 사용해야 효과적이지만, 기존의 인덱스 기법들은 인덱스가 한 방송 주기 내에서 반복되어 방송되는 데이터 아이템을 가리킬 수 없기 때문에 멀티디스크 방송 기법에는 효과적이지 않다. 본 논문에서는 싱글 채널 인덱스 기법으로서 멀티디스크 방송에 적용되는 인덱스 기법인 MDEI (Multi-disk Exponential Index) 기법을 제안한다. 제안 하는 MDEI 기법은 각 디스크 별로 인덱스를 구성하기 때문에 데이터에 대한 접근확률이 편향되는 경우에 멀티디스크 방송을 기반으로 이 인덱스 기법을 사용하면 flat 브로드캐스트를 사용하는 다른 인덱스 기법을 사용했을 때보다 평균 접근지연시간 시간을 크게 줄일 수 있다. 실험 결과는 데이터에 대한 접근 확률이 편향된 환경에서 MDEI가 평균 접근지연시간에 있어서 매우 좋은 성능을 갖는 것을 보여준다.

Design of a Spatial Hash Strip Join Algorithm using Efficient Bucket Partitioning and Joining Methods (효율적인 버킷 분할과 조인 방법을 이용한 공간 해쉬 스트립 조인 알고리즘 설계)

  • Shim, Young-Bok;Lee, Jong-Yun;Jung, Soon-Key
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11c
    • /
    • pp.1367-1370
    • /
    • 2003
  • 본 논문에서는 인덱스가 존재하지 않는 두 개의 입력 릴레이션에 대해서도 최적의 조인 연산을 수행할 수 있는 공간 해쉬 조인 알고리즘을 제안한다. 인덱스가 존재하지 않는 릴레이션의 처리에 사용하는 기존의 공간 해쉬 조인(SHJ: Spatial Hash Join)과 Scalable Sweeping-Rased Spatial Join(SSSJ) 알고리즘을 결합하여 SHJ 알고리즘의 단점으로 지적되고 있는 편향된(skewed) 데이터에 대한 조인 연산의 성능저하 문제를 개선한 수 있는 Spatial Hash Strip Join(SHSJ) 알고리즘을 제안한다. SHJ에서 편향된 데이터의 경우 해쉬 버킷의 오버플로우 처리를 위해 버킷 재분할 방법을 사용하고 있는데 반하여 본 논문에서 제안한 SHSJ 알괴리즘에서는 버킷의 재분할 처리 대신에 버킷에 데이터를 삽입하고, 조인 연산과정에서 오버플로우가 발생한 버킷에 대하여 SSSJ 알고리즘을 사용함으로써 편향된 입력 릴레이션의 처리 성능을 제고시킬 수 있도록 한다.

  • PDF

A Study on Nonresponse Adjistment by Using Propensity Scores (성향점수를 이용한 무응답 보정 연구)

  • Lee, Kay-O
    • Survey Research
    • /
    • v.10 no.1
    • /
    • pp.169-186
    • /
    • 2009
  • The propensity score method is used to minimize the bias level in social survey, which comes from nonresponse. The theoretical concept and the background of the propensity score method is discussed first. The propensity score method was first applied in the epidemiology observational study. I have summarized the process of the three propensity score methods that were used to reduce estimation bias in this study. Matching by propensity score is applied to the relatively large control group. Subclassification has the advantage of using whole control group data and regression adjustment is applied to multiple covariates as well as propensity score of each unit is computable and usable. Lastly, the application procedures of propensity score method to reduce the nonresponse bias is suggested and its applicability to real situation is reviewed with the existing data.

  • PDF

Training Techniques for Data Bias Problem on Deep Learning Text Summarization (딥러닝 텍스트 요약 모델의 데이터 편향 문제 해결을 위한 학습 기법)

  • Cho, Jun Hee;Oh, Hayoung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.26 no.7
    • /
    • pp.949-955
    • /
    • 2022
  • Deep learning-based text summarization models are not free from datasets. For example, a summarization model trained with a news summarization dataset is not good at summarizing other types of texts such as internet posts and papers. In this study, we define this phenomenon as Data Bias Problem (DBP) and propose two training methods for solving it. The first is the 'proper nouns masking' that masks proper nouns. The second is the 'length variation' that randomly inflates or deflates the length of text. As a result, experiments show that our methods are efficient for solving DBP. In addition, we analyze the results of the experiments and present future development directions. Our contributions are as follows: (1) We discovered DBP and defined it for the first time. (2) We proposed two efficient training methods and conducted actual experiments. (3) Our methods can be applied to all summarization models and are easy to implement, so highly practical.