• 제목/요약/키워드: 편향된 데이터

검색결과 160건 처리시간 0.024초

노드 이용률과 검색 속도 개선을 위한 비트 벡터 기반 공간 분할 색인 기법 (Bit-Vector-Based Space Partitioning Indexing Scheme for Improving Node Utilization and Information Retrieval)

  • 여명호;성동욱;유재수
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권7호
    • /
    • pp.799-803
    • /
    • 2010
  • KDB-트리는 다차원 데이터를 검색하기 위한 전통적인 색인 기법이다. 많은 연구에서 낮은 저장 공간 사용과 검색 성능이 KDB-트리군의 두 병목현상이라고 언급되고 있다. 데이터 삽입 순서와 데이터의 편향으로 인한 불필요한 공간 분할이 그 원인이다. 본 논문에서는 편향 데이터를 효율적으로 처리하고, 검색 성능을 향상시키기 위한 새로운 색인 구조인 $KDB_{CS}^+$-트리를 제안한다. $KDB_{CS}^+$-트리는 분할 정보를 비트벡터로 표현하는 압축 기법과 노드의 그룹화를 통한 포인터 제거 기법을 활용하여 중간 노드의 팬-아웃을 증가시키고, 중간 노드의 엔트리를 계층적으로 표현함으로써 중간 노드의 사용율을 높인다.

대학생의 선호직업유형이 확증편향과 취업불안에 미치는 영향 (The Effects of Preferred Job Type of University Students on the Confirmation Bias and Job Anxiety)

  • 노선희;김기승
    • 한국산학기술학회논문지
    • /
    • 제20권8호
    • /
    • pp.190-199
    • /
    • 2019
  • 본 연구는 대학생의 선호직업유형이 진로결정과정에서 확증편향과 취업불안에 미치는 영향을 분석하는 양적연구이다. 본 연구 설문조사는 서울과 수도권에 소재한 대학교 재학생을 대상으로 2017. 7. 10~8. 8까지 5주 동안 500부의 설문지를 배포하였다. 이 중 유효한 482명을 연구대상으로 데이터 코딩(data coding)과 데이터 크리닝(data cleaning)을 거쳐, SPSS 18.0 통계와 AMOS 18.0 프로그램으로 분석하였다. 본 연구의 주요결과는 확증편향에 대한 선호직업유형 중 사업형은 정(+)적 직접영향력(${\beta}=.374$), 자유형은 정(+)적 직접영향력(${\beta}=.326$), 직장형은 부(-)적 직접 영향력(${\beta}=-.274$)을 보였다. 취업불안은 직장형만 더 가중되며, 확증편향은 사업형과 자유형이 노력이나 성취동기에서 원인을 찾는 반면, 직장형은 사회적 환경 및 구조적 문제로 인식한다는 결과를 보여주었다. 결국, 확증편향과 취업불안은 정도의 차이가 있을 뿐 모든 사람이 가지고 있으며 여기에 개인별 선호 직업유형이 영향을 미친다는 것이다. 대학생들의 선호직업유형이 취업준비과정에서 갖는 확증편향과 불안감을 이해하고 취업불안감소에 도움이 될 수 있음이 검증되었으며, 진로지도에 유용하게 활용될 것으로 기대된다.

유한모집단에서 가중평균에 포함된 가중치의 효과 (Weighting Effect on the Weighted Mean in Finite Population)

  • 김규성
    • 한국조사연구학회지:조사연구
    • /
    • 제7권2호
    • /
    • pp.53-69
    • /
    • 2006
  • 표본조사에서 가중치는 설계 단계와 분석 단계에서 만들어지고 부여될 수 있다. 설계 단계의 가중치는 추출확률이나 응답률 등과 같은 표본 데이터 획득 지표에 관련되어 있고 분석 단계의 가중치는 모집단 수치나 다른 보조 변수정보 등과 같은 외적인 정보와 관련되어 있다. 그리고 최종가중치는 설계 단계의 가중치와 분석 단계의 가중치의 곱으로 만들어진다. 이 논문에서는 분석 단계에서 부여되는 가중치에 초점을 맞추어 가중평균으로 모평균을 추정할 때 가중평균에 포함된 가중치가 모평균 추론에 미치는 영향을 고찰하였다. 유한모집단에서 각 조사단위에 조사변수와 가중치가 쌍으로 있고 표본추출확률이 균등한 경우를 가정하였다. 이러한 조건에서 가중평균의 편향과 평균제곱오차를 구하여 가중평균은 모평균의 편향 추정량임을 보였고, 편향의 방향과 크기는 조사변수와 가중치의 상관관계로 설명할 수 있음을 보였다. 즉, 만일 가중치와 조사변수가 양의 상관관계가 있으면 가중평균은 모평균을 과대 추정하게 되고, 만일 음의 상관관계가 있으면 모평균을 과소 추정하게 된다. 그리고 두 변수의 상관계수가 크면 편향은 증가한다. 가중평균에 대한 이론적인 수식 유도와 함께 편향의 크기와 평균제곱오차의 크기를 수치적으로 검토하기 위하여 모의실험을 실시하였다. 모의실험에서는 상관계수가 -0.2과 0.6사이에 있는 9개의 가중치를 생성하였고, 표본수는 100부터 400까지 고려하여 편향의 크기와 평균제곱오차의 크기를 수치적으로 구하였다. 하나의 결과로써 상관계수가 0.55이고 표본수가 400인 경우에 가중평균의 편향의 제곱이 평균제곱오차에서 차지하는 비율은 무려 82%에 이르는 것으로 나타났는데, 이는 가중평균의 편향이 어떤 경우에는 매우 심각할 수도 있음을 보여주는 것이다.

  • PDF

베이지안 이론을 이용한 타입강관말뚝의 신뢰성 평가 (Reliability Updates of Driven Piles Based on Bayesian Theory Using Proof Pile Load Test Results)

  • 박재현;김동욱;곽기석;정문경;김준영;정충기
    • 한국지반공학회논문집
    • /
    • 제26권7호
    • /
    • pp.161-170
    • /
    • 2010
  • 기초구조물의 저항계수 산정 및 하중저항계수설계법의 개발을 위해서는 충분한 양의 데이터베이스 구축을 바탕으로 정확한 신뢰성 분석이 수행되어야 한다. 기존 국내외 말뚝기초의 신뢰성 분석 연구에서는 말뚝의 측정지지력 확인이 가능한 재하시험 자료만을 이용하여 저항편향계수의 분포특성을 산정하였다. 따라서, 파괴에 이르지 않은 말뚝재하시험 자료는 신뢰성 분석에서 제외되었다. 본 연구에서는 베이지안 이론을 이용하여 타입강관말뚝 저항편향계수의 사전 분포특성에 측정지지력을 확인할 수 없는 재하시험 결과를 추가하여 현장 특성을 반영한 저항편향계수의 사후분포특성을 산정하였다. 그리고 저항편향계수의 사후분포특성을 이용하여 말뚝의 신뢰성 평가를 수행하고 신뢰도수준을 갱신하였다. 국내 전역에서 수행된 양질의 정재하시험 자료를 수집, 분석하여 57개의 자료에 대한 측정지지력을 확인하였고, 이들 자료에 대해서 구조물기초설계기준에서 제안하고 있는 Meyerhof 공식을 이용하여 설계지지력을 산정하였다. 이를 통해 저항편향계수의 사전분포 특성을 정량화 하였으며, 베이지안 기법을 적용하여 다양한 현장재하시험 결과에 따라 저항편향계수의 사후분포를 산정하였다. 갱신된 저항편향계수 통계특성을 적용하여 일차신뢰도법을 이용하여 강도 높은 신뢰성 해석을 수행하고 시험결과에 따른 신뢰도 수준을 평가하였다. 본 연구에서 제시된 방법을 통해 양질의 측정지지력 데이터가 부족한 경우 베이지안 기법을 이용하여 신뢰성 분석이 가능함을 확인하였다.

포함확률비례추출에서 회귀계수 최소제곱추정량의 근사분산 (Approximate Variance of Least Square Estimators for Regression Coefficient under Inclusion Probability Proportional to Size Sampling)

  • 김규성
    • Communications for Statistical Applications and Methods
    • /
    • 제19권1호
    • /
    • pp.23-32
    • /
    • 2012
  • 본 논문은 유한모집단에서 회귀계수추정량의 근사편향과 근사분산을 다루고 있다. 유한모집단에서 고정크기 포함확률비례표본을 추출하고 이 표본에서 조사된 데이터에 기초하여 회귀계수를 일반최소제곱추정량과 가중최소제곱추정량으로 추정할 때 두 추정량의 편향, 분산 그리고 평균제곱오차의 근사식을 유도하였다. 그리고 두 추정량의 효율을 비교하기 위하여 두 추정량의 분산을 비교하는 필요충분조건을 제시하였다. 또한 수치적인 비교를 위하여 간단한 예제를 소개하였다.

LIME과 SHAP 모델 공유에 의한 모델 해석 (Model Interpretation through LIME and SHAP Model Sharing)

  • 김용길
    • 한국인터넷방송통신학회논문지
    • /
    • 제24권2호
    • /
    • pp.177-184
    • /
    • 2024
  • 데이터가 빠른 속도로 증가하고 있는 가운데 가능한 최고의 정확도를 달성하기 위해 모든 종류의 복잡한 앙상블 및 딥 러닝 알고리즘이 사용되고 있다. 그렇지만, 이러한 모델이 알 수 없는 데이터를 예측/분류/인식/추적하는 방법과 관련하여 예측, 분류, 인식, 추적이 항상 신뢰할 수 있는 것은 아니다. 데이터 부족, 불균형 데이터 세트, 편향된 데이터 세트 등과 같은 다양한 이유가 학습 모델에 의해 포착되는 결정에 영향을 미칠 수 있다. 이와 관련하여 현재 모델의 설명 가능성에 관한 연구가 관심을 끌고 있다. 현재 설명 가능성 기법과 관련하여 LIME과 SHAP가 보편적으로 사용되고 있지만, 출력 결과들은 다소 상이한 측면을 나타내고 있다. 이에 본 연구에서는 LIME과 SHAP을 결합하는 방식을 소개하고, 데모와 관련해서 IEEE CIS 데이터 세트에서 거래를 사기로 분류할 때 LightGBM 및 Keras 모델이 내린 결정에 대한 설명 가능성을 분석한다.

편향된 다양체 학습 기반 시점 변화에 강인한 인체 포즈 추정 (View-Invariant Body Pose Estimation based on Biased Manifold Learning)

  • 허동철;이성환
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권11호
    • /
    • pp.960-966
    • /
    • 2009
  • 다양체는 고차원 표본 데이터들 사이의 관계를 표현하기 위해 저차원 공간에서 생성된 구조로서 고차원 데이터인 영상과 3차원 인체 구성 데이터를 처리하는데 많이 사용되고 있다. 다양체 학습은 이러한 다양체를 생성하는 과정을 말한다. 그러나 다양체 학습을 이용한 포즈 추정은 학습하지 못한 실루엣 변화에 취약하다. 실루엣 변화는 2차원 영상에서 시점 변화, 포즈 변화, 사람 변화, 거리 변화, 잡영에 의해 발생되며, 이러한 변화를 하나의 다양체로 학습하기란 어렵다. 본 논문에서는 실루엣 변화를 유발하는 문제중 하나인 시점 변화에 대한 문제를 해결하고자 한다. 종래에 시점 변화에 상관 없이 포즈를 추정하는 방법에서는, 각 시점마다 다양체를 가지거나 사상 함수에서 시점에 관련한 요소들을 분리하석 별도의 다양체로 학습한다. 하지만 이러한 방법들은 복잡하고, 추정 과정에서 어떠한 시점의 다양체를통해 포즈를 추정할지 판단을 요구하며, 비교사 학습으로 인해 실루엣과 대응되는 3차원 인체 구성을 지정하기 어렵다. 본 논문에서는 시점 다양체, 포즈 다양체, 인체 구성 다양체를 편향된 다양체로 학습하여 사용하는 방법을 제안한다. 그리고 영상과 시점 다양체, 영상과 포즈 다양체, 인체 구성과 인체 구성 다양체, 포즈 다양체와 인체 구성 다양체 간에 사상 함수를 학습한다. 실험에서는 학습된 다양체와 사상 함수를 이용하여 24개의 시점에서 강인한 포즈 추정 결과를 보여주고 있다.

창업가의 인지편향이 지각된 위험과 조절된 창업효능감에 따라 창업기회평가에 미치는 영향 (The Effects of Cognitive Bias on Entrepreneurial Opportunity Evaluations through Perceived Risks in Entrepreneurial Self-Efficacy)

  • 김대엽;박재환
    • 벤처창업연구
    • /
    • 제15권1호
    • /
    • pp.95-112
    • /
    • 2020
  • 본 연구는 개인이 지닌 인지편향이 지각된 위험 및 창업기회평가와 어떤 연관성이 있는지를 알아보고, 창업집단에 따라 인지편향과 창업효능감이 창업기회를 다르게 평가하는지를 분석하는 것이다. 본 연구를 통해 대학생을 위한 창업교육의 개선점을 찾고, 현직의 창업가가 행하는 의사결정과정에서 어떤 문제점이 있으며 개선 가능성이 있는지를 제시하고자 한다. 대학생과 창업가를 대상으로 설문을 실시하였으며, 총 363명의 설문 데이터를 기반으로 구조방정식모형을 통해 실증하였다. 연구분석 결과는 다음과 같다. 첫째, 인지편향과 지각된 위험은 유의적인 부의 관계를 가지며, 구체적으로 인지편향 중 과잉자신감과 통제착각은 지각된 위험과 부(-)의 유의적 관계를 가지는 것으로 분석되었다. 둘째로, 인지편향은 기회평가와 유의한 정(+)의 관계가 있으며 구체적으로 통제착각과 현상유지편향과 유의한 정(+)의 관계를 가지는 것으로 분석되었다. 셋째, 지각된 위험은 기회평가와 유의한 부(-)의 관계가 있는 것으로 나타났다. 넷째, 대학생과 창업가집단을 나누어 살펴본 창업집단간의 차이를 살펴보면 창업효능감이 지각된 위험과 기회평가 사이에서 조절효과를 하고 있다는 것을 대학생집단에서는 확인할 수 있으나, 창업가집단에서는 유의미한 결과를 발견하지 못했다. 또한 대학생집단과 창업가집단은 다른 인지편향을 가지고 있으며, 지각된 위험을 매개로 창업기회평가에 다르게 관계가 있음을 실증하였다. 불확실한 상황에서 판단을 해야 하는 예비 창업가인 대학생과 기존 창업가에게는 시간적인 압박, 또는 스트레스를 원인으로 발생하는 서로 다른 인지편향이 존재하며, 이런 편향의 존재를 인정하고 스스로 자신의 판단을 개선하는 노력을 해야 한다는 점을 확인하였다. 대학생은 높은 창업효능감을 기반으로 새로운 기회에 대한 긍정적인 시각을 지닐 수 있지만, 창업교육을 통해 창업이 가지고 있는 본질적인 위험에 대한 철저한 지각과 함께 직접적인 창업경험에 존재하는 인지편향을 충분히 이해한다면 과거보다 좋은 기회평가를 하게 될 수 있다는 점이다. 본 연구는 대학생과 창업가를 통합하여 실증하였다는 점과 제한된 방식의 임의추출법에 의해 설문응답자를 선정하였다는 점에서 한계를 가진다. 두 번째로 선행연구에서 사용한 측정도구를 번역하여 사용하였으며, 언어 문제로 측정도구의 명확한 의미가 전달되지 않을 수도 있다. 연구의 정확성을 위해 보다 정밀한 척도를 구성할 필요가 있을 것이다.

인공지능 기반 화자 식별 기술의 불공정성 분석 (Analysis of unfairness of artificial intelligence-based speaker identification technology)

  • 신나연;이진민;노현;이일구
    • 융합보안논문지
    • /
    • 제23권1호
    • /
    • pp.27-33
    • /
    • 2023
  • Covid-19으로 인한 디지털화는 인공지능 기반의 음성인식 기술을 급속하게 발전시켰다. 그러나 이 기술은 데이터셋이 일부 집단에 편향될 경우 인종 및 성차별과 같은 불공정한 사회적 문제를 초래하고 인공지능 서비스의 신뢰성과 보안성을 열화시키는 요인이 된다. 본 연구에서는 대표적인 인공지능의 CNN(Convolutional Neural Network) 모델인 VGGNet(Visual Geometry Group Network), ResNet(Residual neural Network), MobileNet을 활용한 편향된 데이터 환경에서 정확도에 기반한 불공정성을 비교 및 분석한다. 실험 결과에 따르면 Top1-accuracy에서 ResNet34가 여성과 남성이 91%, 89.9%로 가장 높은 정확도를 보였고, 성별 간 정확도 차는 ResNet18이 1.8%로 가장 작았다. 모델별 성별 간의 정확도 차이는 서비스 이용 시 남녀 간의 서비스 품질에 대한 차이와 불공정한 결과를 야기한다.