• 제목/요약/키워드: 편향된 데이터

검색결과 160건 처리시간 0.024초

머신러닝포키즈를 활용한 데이터 편향 인식 학습: AI야구심판 사례 (Learning Method of Data Bias employing MachineLearningforKids: Case of AI Baseball Umpire)

  • 김효은
    • 정보교육학회논문지
    • /
    • 제26권4호
    • /
    • pp.273-284
    • /
    • 2022
  • 본고의 목표는 데이터 편향 인식 교육에서 기계학습 플랫폼의 사용을 제안하는 것이다. 학습자들이 인공지능 데이터 및 시스템을 다루거나 인공지능윤리 요소 중 데이터 편향에 의한 피해를 방지하고자 할 때 인지할 수 있는 역량을 배양할 수 있다. 구체적으로, 머신러닝포키즈를 활용해 데이터편향 학습을 하는 방법을 AI야구심판 사례를 통해 제시한다. 학습자는 구체적 주제선정, 선행연구 검토, 기계학습 플랫폼에서 편향/비편향 데이터의 입력 및 테스트 데이터 구성, 기계학습의 결과 비교, 결과를 통해 얻을 수 있는 데이터 편향에 대한 함의를 제시한다. 이러한 과정을 통해서 학습자는 인공지능 데이터 편향이 최소화되어야 한다는 점과 데이터 수집 및 선정이 사회에 미치는 영향을 체험적으로 배울 수 있다. 이 학습방법은 문제기반의 자기주도 학습의 용이성, 코딩교육과의 결합가능성, 그리고 인문사회적 주제와 인공지능 리터러시와 결합을 추동한다는 의의를 가진다.

편향 접근 패턴을 갖는 공간 데이터에 대한 공간 색인 기법 (A Spatial Indexing Scheme for Geographical Data with Skewed Access Patterns)

  • 이승중;정성원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.46-48
    • /
    • 2004
  • 차량항법장치(Car Navigation System : CNS)나 지리정보시스템(Geographic Information System : CIS)에서 공간 객체를 효율적으로 다루는 색인기법에 대한 다양한 논의가 있어왔다 기존의 방법에서는 공간 객체의 인접성(cluster)과 밀집성 만을 고려해서 색인 트리를 생성하므로, 편향된 접근 빈도론 가진 공간 객체이 대해서 효과적인 탐색시간을 제공하지 못한다. 접근 빈도를 반영한 색인 기법은 공간 데이터가 갖는 특성-2개 이상의 차원에 대한 순서 할당이 불가능-에 의해서 지리적으로 인접된 객체들을 묶지 못하고, 이로 인해서 공간 객체에 대한 효율적인 색인 기법을 제공할 수 없다. 지리 데이터에 대한 위치와 접근 빈도가 주어질 매, 색인 트리는 좌표 정보뿐 아니라 공간 객체에 대한 접근 빈도도 고려해서 생성되어야 한다 본 논문에서 제안하는 기법을 전체 영역을 세부영역으로 분할하고, 각 세부 영역에 대해서 편향색인 트리를 생성한 뒤에 트리를 병합함으로써 밀집도와 접근 빈도를 반영한, 편향된(skewed) 색인 트리를 생성하도록 한다. 편향된 색인 트리는 접근 빈도가 높은 공간객체를 상위계층(level)에 위치시킴으로써 탐색비용을 줄인다.

  • PDF

효율적인 버킷 분할과 조인 방법을 이용한 공간 해쉬 스트립 조인 알고리즘 설계 (Design of a Spatial Hash Strip Join Algorithm using Efficient Bucket Partitioning and Joining Methods)

  • 심영복;이종연;정순기
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (하)
    • /
    • pp.1367-1370
    • /
    • 2003
  • 본 논문에서는 인덱스가 존재하지 않는 두 개의 입력 릴레이션에 대해서도 최적의 조인 연산을 수행할 수 있는 공간 해쉬 조인 알고리즘을 제안한다. 인덱스가 존재하지 않는 릴레이션의 처리에 사용하는 기존의 공간 해쉬 조인(SHJ: Spatial Hash Join)과 Scalable Sweeping-Rased Spatial Join(SSSJ) 알고리즘을 결합하여 SHJ 알고리즘의 단점으로 지적되고 있는 편향된(skewed) 데이터에 대한 조인 연산의 성능저하 문제를 개선한 수 있는 Spatial Hash Strip Join(SHSJ) 알고리즘을 제안한다. SHJ에서 편향된 데이터의 경우 해쉬 버킷의 오버플로우 처리를 위해 버킷 재분할 방법을 사용하고 있는데 반하여 본 논문에서 제안한 SHSJ 알괴리즘에서는 버킷의 재분할 처리 대신에 버킷에 데이터를 삽입하고, 조인 연산과정에서 오버플로우가 발생한 버킷에 대하여 SSSJ 알고리즘을 사용함으로써 편향된 입력 릴레이션의 처리 성능을 제고시킬 수 있도록 한다.

  • PDF

한국어 언어모델의 속성 및 정량적 편향 분석: 영어 언어모델과의 비교 및 개선 제안 (Properties and Quantitative Analysis of Bias in Korean Language Models: A Comparison with English Language Models and Improvement Suggestions)

  • 김재민;채동규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.558-562
    • /
    • 2023
  • 최근 ChatGPT의 등장으로 텍스트 생성 모델에 대한 관심이 높아지면서, 텍스트 생성 태스크의 성능평가를 위한 지표에 대한 연구가 활발히 이뤄지고 있다. 전통적인 단어 빈도수 기반의 성능 지표는 의미적인 유사도를 고려하지 못하기 때문에, 사전학습 언어모델을 활용한 지표인 BERTScore를 주로 활용해왔다. 하지만 이러한 방법은 사전학습 언어모델이 학습한 데이터에 존재하는 편향으로 인해 공정성에 대한 문제가 우려된다. 이에 따라 한국어 사전학습 언어모델의 편향에 대한 분석 연구가 필요한데, 기존의 한국어 사전학습 언어모델의 편향 분석 연구들은 사회에서 생성되는 다양한 속성 별 편향을 고려하지 못했다는 한계가 있다. 또한 서로 다른 언어를 기반으로 하는 사전학습 언어모델들의 속성 별 편향을 비교 분석하는 연구 또한 미비하였다. 이에 따라 본 논문에서는 한국어 사전학습 언어모델의 속성 별 편향을 비교 분석하며, 영어 사전학습 언어모델이 갖고 있는 속성 별 편향과 비교 분석하였고, 비교 가능한 데이터셋을 구축하였다. 더불어 한국어 사전학습 언어모델의 종류 및 크기 별 편향 분석을 통해 적합한 모델을 선택할 수 있도록 가이드를 제시한다.

  • PDF

품질이 관리된 스트레스 측정용 테이터셋 구축을 위한 제언 (Recommendations for the Construction of a Quslity-Controlled Stress Measurement Dataset)

  • 김태훈;나인섭
    • 스마트미디어저널
    • /
    • 제13권2호
    • /
    • pp.44-51
    • /
    • 2024
  • 스트레스 측정용 데이터셋의 구축은 건강, 의료분야, 심리향동, 교육분야 등 현대의 다양한 응용 분야에서 핵심적인 역할을 수행하교 있다. 특히, 스트레스 측정용 인공지능 모델의 효율적인 훈련을 위해서는 다양한 편향성을 제거하고 품질 관리된 데이터셋을 구축하는 것이 중요하다. 본 논문에서는 다양한 편향성 제거를 통한 품질의 관리된 스트레스 측정용 데이터셋 구축에 관하여 제안하였다. 이를 위해 스트레스 정의 및 측정도구 소개, 스트레스 인공지능 데이터 셋 구축과정, 품질향상을 위한 편향성 극복 전략 그리고 스트레스 데이터 수집시 고려사항을 제시하였다. 특히, 데이터셋 품질을 관리하기 위해 데이터셋 구축시 고려사항과, 발생할 수 있는 선택편향, 측정편향, 인과관계편향, 확증편향, 인공지능편향과 같은 다양한 편향서에 대해 검토하였다. 본 논문을 통해 스트레스 데이터 수집시 고려사항과 스트레스 데이터셋의 구축에서 발생할 수 있는 다양한 편향성을 체계적으로 이해하고, 이를 극복하여 품질이 보장된 데이터셋을 구축하는데 기여할 것으로 기대된다.

무선 브로드캐스트 환경에서 편향된 데이터 접근 패턴을 갖는 모바일 트랜잭션을 위한 효율적인 동시성 제어 기법 (An Efficient Concurrency Control Scheme for Mobile Transactions with Skewed Data Access Patterns in Wireless Broadcast Environments)

  • 최근하;정성원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.136-138
    • /
    • 2005
  • 무선 브로드캐스트 환경에서는 모바일 클라이언트의 제한된 배터리와 클라이언트에서 서버로의 제한된 상향 대역폭 등의 문제로 기존의 동시성 제어 기법을 그대로 사용할 수 없다. 이런 문제를 해결하고자 많은 동시성 제어 기법들이 연구되어 왔는데, 지금까지 제안된 기법들은 편향된 데이터의 접근 패턴을 반영한 브로드캐스트 환경을 고려하지 못하고 있다. 무선 브로드캐스트 환경에서 서버는 일반적으로 모바일 클라이언트의 접근 패턴을 고려하여 편향된 접근 빈도를 갖는 데이터 아이템을 브로드캐스트 한다. 본 논문에서는 무선 브로드캐스트 환경에서 편향된 데이터 접근 패턴을 고려한 동시성 제어 기법을 제안한다. 제안하는 기법은 브로드캐스트 디스크 모델에서 전체 메이저 브로드캐스트 주기마다. 모바일 트랜잭션을 위한 제어 정보를 보내는 것이 아니라 일정한 마이너 브로드캐스트 주기마다. 제어 정보를 전송한다. 이는 접근 빈도가 놓은 데이터가 갱신된 경우 갱신된 내용을 마이너 그룹마다 반영하므로 읽기 전용 트랜잭션이 접근하는 데이터가 최신 정보임을 보장할 뿐만 아니라 갱신 트랜잭션이 최종 검증을 위해서 상향 통신 대역폭을 이용하는 횟수를 줄이고, 보다. 빠른 재실행을 통해 모바일 트랜잭션의 평균 응답시간을 줄여줄 수 있다. 또한 모바일 트랜잭션의 요청이 편향된 경우, 반복적인 트랜잭션의 중단, 재실행으로 인한 성능 저하를 개선하고자 정적 백오프 기법을 이용하여 모바일 트랜잭션 간 충돌 가능성을 줄여준다. 마지막으로 시뮬레이션을 통해 기존의 기법들에 비해 평균 접근 시간, 상향 통신 대역폭 등의 사용량이 현저히 줄어드는 것을 보임으로써 제안하는 기법의 성능을 검증한다.한 평균 access time을 최소화하는 동시에 클라이언트들의 제한된 에너지 소비를 최소화하는데 목적이 있다. 제안기법에 대한 평가는 수학적 분석을 통해 HIDAF 기법과 기존의 브로드캐스트 기법의 성능을 비교 분석한다.하였으나 사료효율은 증진시켰으며, 후자(사양, 사료)와의 상호작용은 나타나지 않았다. 이상의 결과는 거세비육돈에서 1) androgen과 estrogen은 공히 자발적인 사료섭취와 등지방 침적을 억제하고 IGF-I 분비를 증가시키며, 2) 성선스테로이드호르몬의 이 같은 성장에 미치는 효과의 일부는 IGF-I을 통해 매개될 수도 있을을 시사한다. 약 $70 {\~} 90\%$의 phenoxyethanol이 유상에 존재하였다. 또한, 미생물에 대한 항균력도 phenoxyethanol이 수상에 많이 존재할수록 증가하는 경향을 나타내었다. 따라서, 제형 내 oil tomposition을 변화시킴으로써 phenoxyethanol의 사용량을 줄일 수 있을 뿐만 아니라, 피부 투과를 감소시켜 보다 피부 자극이 적은 저자극 방부시스템 개발이 가능하리라 보여 진다. 첨가하여 제조한 curd yoghurt는 저장성과 관능적인 면에서 우수한 상품적 가치가 인정되는 새로운 기능성 신제품의 개발에 기여할 수 있을 것으로 사료되었다. 여자의 경우 0.8이상이 되어서 심혈관계 질환의 위험 범위에 속하는 수준이었다. 삼두근의 두겹 두께는 남녀 각각 $20.2\pm8.58cm,\;22.2\pm4.40mm$으로 남녀간에 유의한 차이는 없었다. 조사대상자의 식습관 상태는 전체 대상자의 $84.4\%$가 대부분

  • PDF

멀티 디스크 방송 환경을 위한 인덱스 기술 (An Indexing Technique for Multi-Disks Broadcast Environments)

  • 박기영;정성원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.215-218
    • /
    • 2007
  • 모바일 환경에서는 상향링크와 하향링크의 대역폭이 비대칭적이며 전력이 한정되어 있기 때문에 효율적인 데이터 전송기술로 브로드캐스팅 방법이 연구되어 왔다. 브로드캐스트에서 인덱스를 사용하면 원하는 데이터가 언제 방송되는지를 알 수 있어 튜닝 시간을 줄이고, 전력의 소비를 줄이는 효과가 있다. 지금까지 연구된 싱글 채널 인덱스 기법들은 모든 데이터 아이템이 동일한 확률로 접근되는 flat 브로드캐스트 방송에 적합한 인덱스 기법들이다. 데이터 아이템에 대한 접근 확률이 편향되는 경우에는 멀티디스크 방송 기법을 사용해야 효과적이지만, 기존의 인덱스 기법들은 인덱스가 한 방송 주기 내에서 반복되어 방송되는 데이터 아이템을 가리킬 수 없기 때문에 멀티디스크 방송 기법에는 효과적이지 않다. 본 논문에서는 싱글 채널 인덱스 기법으로서 멀티디스크 방송에 적용되는 인덱스 기법인 MDEI (Multi-disk Exponential Index) 기법을 제안한다. 제안 하는 MDEI 기법은 각 디스크 별로 인덱스를 구성하기 때문에 데이터에 대한 접근확률이 편향되는 경우에 멀티디스크 방송을 기반으로 이 인덱스 기법을 사용하면 flat 브로드캐스트를 사용하는 다른 인덱스 기법을 사용했을 때보다 평균 접근지연시간 시간을 크게 줄일 수 있다. 실험 결과는 데이터에 대한 접근 확률이 편향된 환경에서 MDEI가 평균 접근지연시간에 있어서 매우 좋은 성능을 갖는 것을 보여준다.

  • PDF

RAH-tree : 편향 접근 패턴을 갖는 공간 데이터에 대한 효율적인 색인 기법 (RAH-tree : A Efficient Index Scheme for Spatial Data with Skewed Access Patterns)

  • 최근하;이승중;정성원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.31-33
    • /
    • 2005
  • GPS및 PDA의 발달로 인해서 위치 기반 서비스(LBS), 차량항법장치(CNS), 지리정보시스템(GIS)등 공간 데이터를 다루는 응용프로그램들이 급속하게 보급되었다. 이러한 응용프로그램은 높이 균등 색인 기법을 사용하여 원하는 데이터에 대한 색인을 제공하였다. 그러나 모든 공간 객체는 서로 상이한 접근 빈도를 가지고 있음에도 불구하고 기존의 공간색인 기법은 접근 빈도를 고려하지 못하는 단점을 가지고 있었다. 또한 기존의 빈도수만을 고려한 공간 객체의 색인 방법은 접근 빈도에 따른 편향성(skewed)은 제공하지만 공간 객체에 대한 지역성을 반영하지 못한다. 본 논문에서는 밀집되어 있는 공간 객체의 접근 빈도를 반영해서 편향된 색인 트리를 생성하는 기법을 제안한다. 이형 클러스터링으로 분포되어 있는 전체 영역에 대해서 Zahn의 클러스터링 알고리즘을 변형시켜서 다단계 세부영역을 구분한다. 이렇게 구간된 세부영역에 대해서 거리적 인접성과 접근 빈도수의 합을 이용해서 색인 트리를 생성한다. 다단계로 구성된 전체영역에 대해서 하향식 방식으로 편향된 색인 트리를 생성함으로써, 접근 빈도가 높은 공간 객체에 대해서 빠른 탐색이 가능하게 한다.

  • PDF

한국어 언어 모델의 정치 편향성 검증 및 정량적 지표 제안 (Measurement of Political Polarization in Korean Language Model by Quantitative Indicator)

  • 김정욱;김경민;;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.16-21
    • /
    • 2022
  • 사전학습 말뭉치는 위키백과 문서 뿐만 아니라 인터넷 커뮤니티의 텍스트 데이터를 포함한다. 이는 언어적 관념 및 사회적 편향된 정보를 포함하므로 사전학습된 언어 모델과 파인튜닝한 언어 모델은 편향성을 내포한다. 이에 따라 언어 모델의 중립성을 평가할 수 있는 지표의 필요성이 대두되었으나, 아직까지 언어 인공지능 모델의 정치적 중립성에 대해 정량적으로 평가할 수 있는 척도는 존재하지 않는다. 본 연구에서는 언어 모델의 정치적 편향도를 정량적으로 평가할 수 있는 지표를 제시하고 한국어 언어 모델에 대해 평가를 수행한다. 실험 결과, 위키피디아로 학습된 언어 모델이 가장 정치 중립적인 경향성을 나타내었고, 뉴스 댓글과 소셜 리뷰 데이터로 학습된 언어 모델의 경우 정치 보수적, 그리고 뉴스 기사를 기반으로 학습된 언어 모델에서 정치 진보적인 경향성을 나타냈다. 또한, 본 논문에서 제안하는 평가 방법의 안정성 검증은 각 언어 모델의 정치적 편향 평가 결과가 일관됨을 입증한다.

  • PDF

딥러닝 데이터 분석을 통한 최적의 상권 입지 추천 기술 개발 (Commercial location recommend system using deep learning data analysis)

  • 박형빈;김소희;남지수;조윤빈;전희국;임동혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.602-605
    • /
    • 2022
  • 본 연구는 대량의 상권 데이터를 바탕으로 머신 러닝과 딥러닝 분석을 이용하여 최적의 상권 입지를 추천하는 시스템 개발을 목표로 한다. 자영업자들의 오프라인 창업에 있어 개개인의 매장 정보에 기반한 입지 조건 판단은 앞으로의 매출에 중요한 시작점이다. 따라서 상권 정보를 기반으로 미래 매출을 예측하여 최적의 상권 입지를 추천하는 기술이 필요하다. 이를 위해 기존에 선행된 다수의 회귀 기법과 더불어 강하게 편향된 데이터를 레이블링 하여 다중 분류 기법으로도 문제를 접근한다. 최종적으로 딥러닝 모델과 합성하여 더 높은 성능을 이끌어내고 이로부터 편향 데이터 처리 방법과 딥러닝 모델과의 앙상블 중요성에 대해 논의하고자 한다.