• 제목/요약/키워드: 데이터편향

검색결과 169건 처리시간 0.032초

딥러닝 데이터 분석을 통한 최적의 상권 입지 추천 기술 개발 (Commercial location recommend system using deep learning data analysis)

  • 박형빈;김소희;남지수;조윤빈;전희국;임동혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.602-605
    • /
    • 2022
  • 본 연구는 대량의 상권 데이터를 바탕으로 머신 러닝과 딥러닝 분석을 이용하여 최적의 상권 입지를 추천하는 시스템 개발을 목표로 한다. 자영업자들의 오프라인 창업에 있어 개개인의 매장 정보에 기반한 입지 조건 판단은 앞으로의 매출에 중요한 시작점이다. 따라서 상권 정보를 기반으로 미래 매출을 예측하여 최적의 상권 입지를 추천하는 기술이 필요하다. 이를 위해 기존에 선행된 다수의 회귀 기법과 더불어 강하게 편향된 데이터를 레이블링 하여 다중 분류 기법으로도 문제를 접근한다. 최종적으로 딥러닝 모델과 합성하여 더 높은 성능을 이끌어내고 이로부터 편향 데이터 처리 방법과 딥러닝 모델과의 앙상블 중요성에 대해 논의하고자 한다.

거칠기맵과 편향맵을 이용한 지형 렌더링 가법 (A Terrain Rendering Method using Roughness Map and Bias Map)

  • 이은석;조인우;신병석
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제17권2호
    • /
    • pp.1-9
    • /
    • 2011
  • 최근의 지형시각화 연구에서는 대용량 데이터를 실시간에 처리하기 위하여 여러 가지 상세단계조절 기법을 사용한다. 하지만 상세단계조절을 통한 메쉬 간략화 과정에서 발생하는 기하오차 때문에 연속된 프레임에서 기하파핑 현상이 열어난다. 본 논문에서는 거칠기맵과 편향맵을 이용하여 기하파핑 현상을 효과적으로 줄일 수 있는 방법을 제안한다. 거칠기맵과 편향맵은 지형 메쉬를 구성하는 정점이 적은 기하오차를 가지는 위치로 이동 시켜주는 역할을 한다. 거칠기맵과 편향맵은 텍스쳐로 저장되기 때문에 GPU에서 사용하기 적합하다. 또한 편향맵을 이용한 정점 이동 연산은 GPU에서 수행되므로 병렬처리를 통한 빠른 시각화가 가능하다.

영작문 자동채점 시스템 개발에서 학습데이터 부족 문제 해결을 위한 앙상블 기법 적용의 효과 (Effect of Application of Ensemble Method on Machine Learning with Insufficient Training Set in Developing Automated English Essay Scoring System)

  • 이경호;이공주
    • 정보과학회 논문지
    • /
    • 제42권9호
    • /
    • pp.1124-1132
    • /
    • 2015
  • 일반적으로, 교사 학습 알고리즘이 적절히 학습되기 위해서는 레이블의 편향이 없는 충분한 양의 학습데이터가 필요하다. 그러나 영작문 자동채점 시스템 개발을 위한 충분하고 편향되지 않은 학습데이터를 수집하는 것은 어려운 일이다. 또한 영어 작문 평가의 경우, 전체적인 답안 수준에 대한 다면적인 평가가 이루어진다. 적고 편향되기 쉬운 학습데이터와 이를 이용한 여러 평가영역에 대한 학습모델을 생성해야하기 때문에, 이를 위한 적절한 기계학습 알고리즘을 결정하기 어렵다. 본 논문에서는 이러한 문제를 앙상블학습을 통해 완화할 수 있음을 실험에 통해 보이고자 한다. 실제 중, 고등학교 학생들을 대상으로 시행된 단문형 영작문 채점 결과를 학습데이터 개수와 편향성을 조절하여 실험하였다. 학습데이터의 개수 변화와 편향성 변화의 실험 결과, 에이다부스트 알고리즘을 적용한 결과를 투표로 결합한 앙상블 기법이 다른 알고리즘들 보다 전반적으로 더 나은 성능을 나타냄을 실험을 통해 나타내었다.

순환 신경망과 합성곱 신경망을 이용한 뉴스 기사 편향도 분석 (Analyzing Media Bias in News Articles Using RNN and CNN)

  • 오승빈;김현민;김승재
    • 한국정보통신학회논문지
    • /
    • 제24권8호
    • /
    • pp.999-1005
    • /
    • 2020
  • 오늘날의 검색 포털은 뉴스의 창구로서는 가장 큰 비율을 차지하지만, 중립성에 대해서는 의문이 제기되고 있다. 이는 포털 뉴스가 편향된 정보의 소비를 유도할 수 있기 때문이다. 본 논문은 뉴스 기사의 정치적 편향도를 딥러닝을 이용하여 측정하는 방법에 대하여 소개한다. 이는 기사를 비판적으로 바라보는 시각을 뉴스 독자에게 제공할 것이다. 구체적으로, 국회 회의록에서 추출한 키워드에 편향도를 부여하고, 이를 기반으로 기사의 편향도를 분석하여 머신러닝용 데이터를 구축하였다. 최종적으로 순환 신경망과 합성곱 신경망을 융합한 딥러닝을 통해 기사의 편향도를 계산하는 것을 목표로 하였다. 학습한 모델의 정확도를 분석한 결과 문장별 편향의 좌/우편향 판정은 95.6%의 정확도를 보였으나, 신문기사 전체에서는 46.0%의 정확도를 보였다. 이는 기존의 여러 편향성 연구와 다르게 특정 주제에 한정되지 않고 기사의 보수-진보 편향성을 분석할 수 있도록 한다.

MANET에서 스카이라인 질의를 위한 효과적인 필터링 방법 (An Effective Filtering Method for Skyline Queries in MANETs)

  • 박미라;김민기;민준기
    • 정보처리학회논문지D
    • /
    • 제17D권4호
    • /
    • pp.245-252
    • /
    • 2010
  • 본 연구에서는 MANET(Mobile Ad hoc NETwork) 환경에서 스카이라인 질의를 하기 위한 효과적인 필터링 방법을 제안한다. 기존의 MANET 환경에서의 스카이라인 질의 처리는 데이터가 균등하게 분포한다고 가정한다. 이러한 가정하에서 제한된 배터리 용량을 위한 에너지 소모 최소화에 중점을 두어 스카이라인 질의를 처리하는 방법을 연구한다. 그러나 실제 환경에서는 특정한 영역에 데이터가 편향되는 분포를 가진다. 배터리의 에너지 소비를 감소하기 위해서 본 논문에서는 데이터 분포를 고려한 새로운 필터링 방법을 제안한다. 그리고 기존의 필터링 방법과 본 논문에서 제안하는 필터링 방법을 비교 실험한다. 실험 결과는 본 논문에서 제안하는 방법이 기존의 방법보다 통신 오버헤드와 실행시간이 감소하는 것을 보여준다.

이동통신시장에서의 단위편향 소비행태 발생에 관한 실증연구 (Empirical Study on Unit Bias under the Flat Rate Pricing in the Korean Mobile Telecommunication Market)

  • 이상우;정선화;이형직
    • 한국통신학회논문지
    • /
    • 제41권2호
    • /
    • pp.229-237
    • /
    • 2016
  • 본 논문의 목적은 국내 이동통신시장에서 발생가능한 대표적인 인식편향(cognitive bias) 중 하나인 단위편향(unit bias) 현상의 발생 여부를 실증적으로 분석하고, 단위편향 발생을 최소화하기 위한 바람직한 요금제 개선방안을 제시하는 것이다. 분석 결과 이용자들은 정액요금제하에서 단위편향적 소비행태 발생에 따라 자신의 최적소비량보다 많은 통화량 혹은 데이터량을 사용함으로써 자신의 효용극대화를 위한 최적 통신비 지출보다 많은 통신비를 지출할 가능성이 높은 것으로 나타났다. 따라서 정액요금제의 요금구간을 보다 세분화함으로써 소비자들이 단위편향 발생에 따른 비합리적 소비를 최소화하고 자신의 효용함수에 따라 최적 소비량을 이용토록 마련하여 가계통신비 절감은 물론 소비자 후생을 극대화할 수 있도록 유도하는 것이 가능할 것으로 기대된다.

노드 이용률과 검색 속도 개선을 위한 비트 벡터 기반 공간 분할 색인 기법 (Bit-Vector-Based Space Partitioning Indexing Scheme for Improving Node Utilization and Information Retrieval)

  • 여명호;성동욱;유재수
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권7호
    • /
    • pp.799-803
    • /
    • 2010
  • KDB-트리는 다차원 데이터를 검색하기 위한 전통적인 색인 기법이다. 많은 연구에서 낮은 저장 공간 사용과 검색 성능이 KDB-트리군의 두 병목현상이라고 언급되고 있다. 데이터 삽입 순서와 데이터의 편향으로 인한 불필요한 공간 분할이 그 원인이다. 본 논문에서는 편향 데이터를 효율적으로 처리하고, 검색 성능을 향상시키기 위한 새로운 색인 구조인 $KDB_{CS}^+$-트리를 제안한다. $KDB_{CS}^+$-트리는 분할 정보를 비트벡터로 표현하는 압축 기법과 노드의 그룹화를 통한 포인터 제거 기법을 활용하여 중간 노드의 팬-아웃을 증가시키고, 중간 노드의 엔트리를 계층적으로 표현함으로써 중간 노드의 사용율을 높인다.

대학생의 선호직업유형이 확증편향과 취업불안에 미치는 영향 (The Effects of Preferred Job Type of University Students on the Confirmation Bias and Job Anxiety)

  • 노선희;김기승
    • 한국산학기술학회논문지
    • /
    • 제20권8호
    • /
    • pp.190-199
    • /
    • 2019
  • 본 연구는 대학생의 선호직업유형이 진로결정과정에서 확증편향과 취업불안에 미치는 영향을 분석하는 양적연구이다. 본 연구 설문조사는 서울과 수도권에 소재한 대학교 재학생을 대상으로 2017. 7. 10~8. 8까지 5주 동안 500부의 설문지를 배포하였다. 이 중 유효한 482명을 연구대상으로 데이터 코딩(data coding)과 데이터 크리닝(data cleaning)을 거쳐, SPSS 18.0 통계와 AMOS 18.0 프로그램으로 분석하였다. 본 연구의 주요결과는 확증편향에 대한 선호직업유형 중 사업형은 정(+)적 직접영향력(${\beta}=.374$), 자유형은 정(+)적 직접영향력(${\beta}=.326$), 직장형은 부(-)적 직접 영향력(${\beta}=-.274$)을 보였다. 취업불안은 직장형만 더 가중되며, 확증편향은 사업형과 자유형이 노력이나 성취동기에서 원인을 찾는 반면, 직장형은 사회적 환경 및 구조적 문제로 인식한다는 결과를 보여주었다. 결국, 확증편향과 취업불안은 정도의 차이가 있을 뿐 모든 사람이 가지고 있으며 여기에 개인별 선호 직업유형이 영향을 미친다는 것이다. 대학생들의 선호직업유형이 취업준비과정에서 갖는 확증편향과 불안감을 이해하고 취업불안감소에 도움이 될 수 있음이 검증되었으며, 진로지도에 유용하게 활용될 것으로 기대된다.

유한모집단에서 가중평균에 포함된 가중치의 효과 (Weighting Effect on the Weighted Mean in Finite Population)

  • 김규성
    • 한국조사연구학회지:조사연구
    • /
    • 제7권2호
    • /
    • pp.53-69
    • /
    • 2006
  • 표본조사에서 가중치는 설계 단계와 분석 단계에서 만들어지고 부여될 수 있다. 설계 단계의 가중치는 추출확률이나 응답률 등과 같은 표본 데이터 획득 지표에 관련되어 있고 분석 단계의 가중치는 모집단 수치나 다른 보조 변수정보 등과 같은 외적인 정보와 관련되어 있다. 그리고 최종가중치는 설계 단계의 가중치와 분석 단계의 가중치의 곱으로 만들어진다. 이 논문에서는 분석 단계에서 부여되는 가중치에 초점을 맞추어 가중평균으로 모평균을 추정할 때 가중평균에 포함된 가중치가 모평균 추론에 미치는 영향을 고찰하였다. 유한모집단에서 각 조사단위에 조사변수와 가중치가 쌍으로 있고 표본추출확률이 균등한 경우를 가정하였다. 이러한 조건에서 가중평균의 편향과 평균제곱오차를 구하여 가중평균은 모평균의 편향 추정량임을 보였고, 편향의 방향과 크기는 조사변수와 가중치의 상관관계로 설명할 수 있음을 보였다. 즉, 만일 가중치와 조사변수가 양의 상관관계가 있으면 가중평균은 모평균을 과대 추정하게 되고, 만일 음의 상관관계가 있으면 모평균을 과소 추정하게 된다. 그리고 두 변수의 상관계수가 크면 편향은 증가한다. 가중평균에 대한 이론적인 수식 유도와 함께 편향의 크기와 평균제곱오차의 크기를 수치적으로 검토하기 위하여 모의실험을 실시하였다. 모의실험에서는 상관계수가 -0.2과 0.6사이에 있는 9개의 가중치를 생성하였고, 표본수는 100부터 400까지 고려하여 편향의 크기와 평균제곱오차의 크기를 수치적으로 구하였다. 하나의 결과로써 상관계수가 0.55이고 표본수가 400인 경우에 가중평균의 편향의 제곱이 평균제곱오차에서 차지하는 비율은 무려 82%에 이르는 것으로 나타났는데, 이는 가중평균의 편향이 어떤 경우에는 매우 심각할 수도 있음을 보여주는 것이다.

  • PDF

독립적인 벡터 근사에 의한 분산 벡터 근사 트리의 성능 강화 (Performance Enhancement of a DVA-tree by the Independent Vector Approximation)

  • 최현화;이규철
    • 정보처리학회논문지D
    • /
    • 제19D권2호
    • /
    • pp.151-160
    • /
    • 2012
  • 지금까지 제안된 분산 고차원 색인의 대부분은 균일한 분포를 가지는 데이터 집합에서 좋은 검색 성능을 나타내나, 편향되거나 클러스터를 이루는 데이터의 집합에서는 그 성능이 크게 감소된다. 본 논문은 강하게 클러스터를 이루거나 편향된 분포를 가지는 데이터 집합에 대한 분산 벡터 근사 트리의 k-최근접 검색 성능을 향상시키는 방법을 제안한다. 기본 아이디어는 전체 데이터를 클러스터링하는 상위 트리의 말단 노드가 담당하는 데이터 공간의 크기를 계산하고, 그 공간 상의 특징 벡터를 근사하는 데 사용되는 비트의 수를 달리하여 벡터 근사의 식별 능력을 보장하는 것이다. 즉, 고밀도 클러스터에는 더 많은 수의 비트를 할당하는 것이다. 우리는 합성 데이터와 실세계 데이터를 가지고 분산 hybrid spill-tree와 기존 분산 벡터 근사 트리와의 성능 비교 실험을 수행하였다. 실험 결과는 확장된 분산 벡터 근사 트리의 검색 성능이 균일하지 않은 분포의 데이터 집합에서 크게 향상되었음을 보인다.