• 제목/요약/키워드: 편향된 데이터

검색결과 160건 처리시간 0.023초

머신 러닝을 활용한 회사 SNS 메시지에 내포된 심리적 거리 추출 연구 (A Study on the Extraction of Psychological Distance Embedded in Company's SNS Messages Using Machine Learning)

  • 이성원;김진혁
    • 경영정보학연구
    • /
    • 제21권1호
    • /
    • pp.23-38
    • /
    • 2019
  • 소셜 네트워크 서비스(이하 SNS)는 회사의 마케팅 채널로 적극 활용되고 있으며, 회사들의 고객층에 적합한 내용과 어조를 활용하여 주기적으로 SNS 메시지를 작성하는 등 활발한 마케팅을 펼치고 있다. 본 논문에서는 이제까지 간과되었던 SNS 메시지에 내포된 심리적 거리에 초점을 맞춰 전통적인 코더를 활용한 내용 분석(content analysis)과 자연어 처리 기법 및 머신 러닝 방법을 혼합하여 심리적 거리를 측정하는 분석 방법을 연구하였다. SNS 메시지의 심리적 거리 분석을 위해 코더들을 활용하여 내용분석을 수행하였으며, 이와 같은 방법으로 레이블링된 데이터를 자연어 처리 방법을 이용하여 워드 임베딩을 수행함으로써 머신 러닝 수행을 위한 입력 데이터를 마련하였다. 머신 러닝 분석법 중 Support Vector Machine(SVM)을 이용하여 SNS 메시지와 심리적 거리 간의 관계를 학습시켰으며, 마지막으로 테스트 데이터를 이용하여 심리적 거리를 예측함으로써 머신 러닝 분석의 성과를 검증하였다. 심리적 거리측정 방법론 수행 결과, 코더들의 내용분석 결과가 특정 값으로 편향되어 SVM 예측의 민감도와 정밀도가 낮은 결과가 도출되었다. 심리적 거리 응답 비율을 보정하고 코더들의 1차 내용분석 결과 중 답변이 일치한 데이터로 한정지어 머신 러닝을 실행한 결과 심리적 거리 예측의 정확도, 민감도, 특이도, 정밀도 모두 향상되어 심리적 거리가 70% 이상 예측되는 성과를 보였다. 본 연구는 SNS 메시지의 심리적 거리를 측정하는 방법을 제시함으로써 독자와의 심리적 거리를 제어 가능한 전략 요소로 활용 가능하게 할 것이라 기대된다.

사용자 리뷰 데이터를 활용한 모바일 어플리케이션 서비스 평가 척도 개선 (Improving evaluation metric of mobile application service with user review data)

  • 이범국;손창호
    • 한국산학기술학회논문지
    • /
    • 제21권1호
    • /
    • pp.380-386
    • /
    • 2020
  • 모바일 어플리케이션 시장은 스마트폰의 등장 이후로 지난 10여 년의 성장을 통해 전자기기 소프트웨어 시장에서 가장 큰 시장을 보유하게 되었다. 모바일 어플리케이션 시장의 경쟁이 심화됨에 따라, 사용자의 소비와 사용 양태에 어플리케이션 평가가 끼치는 영향력 역시 큰 폭으로 상승하였다. 이에 따라 모바일 어플리케이션을 평가하기 위한 척도에 관한 연구들이 진행됐으나, 대부분의 연구가 전문가 중심의 인터뷰 또는 설문조사와 같은 정성적인 방법에 의존하였다. 또한, 서비스 사용자의 관점이 아닌 서비스 제공자의 관점에서 평가 척도가 구성되고 있다. 하지만 최근에는 대량의 사용자 리뷰(User Review) 데이터를 통해 실제 사용자들의 어플리케이션 평가의 정량적 분석이 가능해짐에 따라, 연구자의 주관성을 최소화하는 어플리케이션 영역별 분석의 가능성이 커지고 있다. 따라서 본 연구에서는 사용자 리뷰 데이터를 활용하여 모바일 어플리케이션들에 대한 기존의 품질 평가에 대한 문제점을 보완할 수 있는 방법론을 제시하고자 한다. 이를 위해 토픽모델링 기법인 LDA(Latent Dirichlet allocation)을 적용하여, 기존의 평가 척도를 사용자 관점에서 개선하는 방법을 제안한다. 본 연구를 통해 서비스 제공자 및 연구자의 주관성으로 인한 서비스 평가의 편향을 줄이고, 소비자 관점의 모바일 어플리케이션 영역별 평가 척도를 제공할 것으로 예상된다.

유전 알고리즘을 이용한 국소가중회귀의 다중모델 결합을 위한 점진적 앙상블 학습 (Incremental Ensemble Learning for The Combination of Multiple Models of Locally Weighted Regression Using Genetic Algorithm)

  • 김상훈;정병희;이건호
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권9호
    • /
    • pp.351-360
    • /
    • 2018
  • 전통적으로 나태한 학습에 해당하는 국소가중회귀(LWR: Locally Weighted Regression)모델은 입력변수인 질의지점에 따라 예측의 해를 얻기 위해 일정구간 범위내의 학습 데이터를 대상으로 질의지점의 거리에 따라 가중값을 달리 부여하여 학습 한 결과로 얻은 짧은 구간내의 회귀식이다. 본 연구는 메모리 기반학습의 형태에 해당하는 LWR을 위한 점진적 앙상블 학습과정을 제안한다. LWR를 위한 본 연구의 점진적 앙상블 학습법은 유전알고리즘을 이용하여 시간에 따라 LWR모델들을 순차적으로 생성하고 통합하는 것이다. 기존의 LWR 한계는 인디케이터 함수와 학습 데이터의 선택에 따라 다중의 LWR모델이 생성될 수 있으며 이 모델에 따라 예측 해의 질도 달라질 수 있다. 하지만 다중의 LWR 모델의 선택이나 결합의 문제 해결을 위한 연구가 수행되지 않았다. 본 연구에서는 인디케이터 함수와 학습 데이터에 따라 초기 LWR 모델을 생성한 후 진화 학습 과정을 반복하여 적절한 인디케이터 함수를 선택하며 또한 다른 학습 데이터에 적용한 LWR 모델의 평가와 개선을 통하여 학습 데이터로 인한 편향을 극복하고자 한다. 모든 구간에 대해 데이터가 발생 되면 점진적으로 LWR모델을 생성하여 보관하는 열심학습(Eager learning)방식을 취하고 있다. 특정 시점에 예측의 해를 얻기 위해 일정구간 내에 신규로 발생된 데이터들을 기반으로 LWR모델을 생성한 후 유전자 알고리즘을 이용하여 구간 내의 기존 LWR모델들과 결합하는 방식이다. 제안하는 학습방법은 기존 단순평균법을 이용한 다중 LWR모델들의 선택방법 보다 적합도 평가에서 우수한 결과를 보여주고 있다. 특정지역의 시간 별 교통량, 고속도로 휴게소의 시간별 매출액 등의 실제 데이터를 적용하여 본 연구의 LWR에 의한 결과들의 연결된 패턴과 다중회귀분석을 이용한 예측결과를 비교하고 있다.

부산광역시 다핵구조의 공간적 변동성 측정 (The Spatial Variation Measurement of Multi-Centric Structure in Busan Metropolitan City)

  • 김호용
    • Spatial Information Research
    • /
    • 제20권2호
    • /
    • pp.93-103
    • /
    • 2012
  • 최근 대도시는 지속적인 개발과 효율적인 도시의 관리를 위하여 다핵도시공간구조를 지향하고 있다. 이에 본 연구는 도로의 교차지점에 배분된 최근 50년간 인구데이터를 이용하여 인구잠재력을 계산하고, 이를 바탕으로 바키측정치 분석과 표준편차타원체 분석을 하여 부산광역시 다핵구조의 공간적 변동성을 측정하였다. 분석결과 부산광역시는 다핵 권역을 중심으로 인구잠재력이 집중되는 다핵화가 최근까지 진행되고 있었다. 하단, 구포, 해운대 권역은 인구잠재력이 부도심으로 집중되면서 해당권역의 중심 역할이 점차 강해지고 있었고, 사상과 동래는 2000년과 1990년 이후 해당권역에서 중심으로서 역할이 약해지고 있는 것으로 분석되었다. 추가로 해운대를 제외한 모든 다핵 권역에서 특정지역 및 방향으로 치우치어 공간구조가 변화되는 편향도가 점차 증가하는 것으로 나타났다.

AIRS를 이용한 대기 수증기 관측 (Observation of Atmospheric Water Vapors Using AIRS)

  • 하지현;김두식;박관동;원지혜
    • Journal of Astronomy and Space Sciences
    • /
    • 제26권4호
    • /
    • pp.547-554
    • /
    • 2009
  • AIRS는 미국 NASA의 지구관측위성인 Aqua에 탑재되어 있으며, 적외선 채널을 이용하여 지구 대기의 수증기량을 관측한다. 이 논문에서는 AIRS 적외선 관측데이터를 이용하여 인천에 소재한 GPS 상시관측소 상공에 분포하는 가강수량을 추출하고, 이를 GPS 추정치와 비교하였다. 그 결과 AIRS에서 관측된 가강수량과 GPS 가강수량은 거의 비슷한 경향을 보였으며, GPS 가강수량을 기준으로 편향 0.3cm, RMSE 0.7cm의 정확도를 달성하였다. GPS 가강수량과 AIRS 가강수량의 상관관계 분석 결과 0.89의 높은 상관계수를 보여 AIRS 가강수량이 지역적 특성을 비교적 잘 반영함을 알 수 있었다.

다변량 분위수 회귀나무 모형에 대한 연구 (Multivariate quantile regression tree)

  • 김재오;조형준;방성완
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권3호
    • /
    • pp.533-545
    • /
    • 2017
  • 분위수 회귀모형은 반응변수의 조건부 분포에 대하여 포괄적이고 유용한 통계적 정보를 제공한다. 그러나 많은 실제 자료는 설명변수와 반응변수가 비선형의 관계를 갖고 있어 전통적인 선형 분위수 회귀모형은 왜곡되고 잘못된 결과를 초래할 수 있다. 또한 자료의 복잡성이 증가하여 반응변수가 여러개인 다변량 자료의 분석에 대한 보다 정확한 예측과 더불어 풍부한 해석에 대한 요구가 증가하고 있다. 이러한 이유로 본 연구에서는 다변량 분위수 회귀나무 모형을 제안하였다. 본 연구에서는 기존의 다변량 회귀나무 모형의 분할변수 선택 알고리즘의 문제점을 지적하고 향상된 분할변수 선택 알고리즘을 제안하였다. 제안한 알고리즘은 합리적인 계산시간으로 적용 가능하며 분할변수 선택에서 편향 발생의 문제를 갖지 않는 동시에 기존 방법보다 더 정확하게 분할변수를 선택할 수 있있다. 본 연구에서는 모의실험과 실증 예제를 통해 제안한 방법의 우수한 성능과 유용성을 확인하였다.

눈 검출에서의 픽셀 선택을 이용한 신뢰 척도 (A New Confidence Measure for Eye Detection Using Pixel Selection)

  • 이용걸;최상일
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권7호
    • /
    • pp.291-296
    • /
    • 2015
  • 본 논문에서는, 눈 검출에서의 픽셀 선택 방법을 이용한 편향 판별 분석(BDA) 기반의 신뢰 척도를 제안하고 이를 이용하여 hybrid 눈 검출기를 설계한다. 이를 위해 눈 조각 영상에서 먼저 판별 분석에 유용한 픽셀들을 선택하여 부분 영상을 만들고, 부분 영상에 BDA를 적용하여 신뢰 척도를 위한 특징 공간을 구성한다. Hybrid 눈 검출기를 구성하는 기본 검출기로는 상호 보완적인 특성을 가진 HFED와 MFED를 사용하였다. 주어진 영상에 대해, 기본 검출기들에 의해 생성된 눈 좌표를 가지고 생성한 눈 조각 영상의 부분 영상들을 BDA 특징공간에 투영하여 positive 샘플의 평균과의 거리를 측정함으로써 그 정확성을 측정하고, 기본 검출기의 결과들 중에서 신뢰도가 높은 결과를 최종 눈 검출 결과로 사용한다. 다양한 얼굴 데이터베이스들에 대한 실험 결과에서, 제안한 방법은 검출된 눈 좌표의 정확도 측면에서 뿐만 아니라 검출된 눈 좌표를 이용한 얼굴 인식 성능에서도 다른 방법들보다 우수한 결과를 나타내었다.

집단 크기 추정에 대한 미표본 집단의 영향 (Effect of an unsampled population on the estimation of a population size)

  • 정유진
    • 응용통계연구
    • /
    • 제33권3호
    • /
    • pp.347-355
    • /
    • 2020
  • IM 모형(Isolation-with-Migration model; IM model)은 현존하는 집단들의 크기, 그 집단들이 공통 조상 집단으로부터 분리 된 분화 시간, 그리고 현존 집단 간의 이주율을 추정하는 데 널리 사용되는 진화 모형이다. IM 모형과 같은 진화 모형은 그 진화 모형 내 현존 집단으로부터 추출 된 DNA 염기서열을 분석하여 추정할 수 있다. 참인 진화 모형이 데이터가 추출되지 않은 미표본 집단(unsampled population) 혹은 소위 ghost라 불리는 집단을 포함할 때, 종종 이 미표본 집단을 제외한 진화 모델이 추론된다. 본 논문에서는 미표본 집단이 표본집단의 크기 추정에 미치는 영향을 조사하기 위해 모의실험을 수행하였다. 표본집단과 미표본집단 사이에 이주 사건들이 존재하는 경우, 표본집단의 크기의 추정량은 편향되었다. 그러나 미표본집단을 포함한 진화 모델이 추정되면 표본집단의 크기의 추정량은 많은 경우 개선되었다.

잠재범주회귀모형의 성향점수를 이용한 잠재변수의 원인적 영향력 추론 연구 (Latent causal inference using the propensity score from latent class regression model)

  • 이미솔;정환
    • 응용통계연구
    • /
    • 제30권5호
    • /
    • pp.615-632
    • /
    • 2017
  • 무작위 통제시험에서와 달리, 관찰연구에서는 편향되지 않은 인과관계를 추론하기 위한 통계적 전략이 필요하다. 최근 잠재범주분석(latent class analysis; LCA)에서 처치의 평균인과효과(average causal effect; ACE)를 추정하기 위한 새로운 방법들이 제안되었으나 이러한 방법들은 실제 데이터를 분석하는 응용 연구에 초점이 맞춰있다. 따라서 ACE의 참값을 알 수 없어 추정 방법의 성능을 평가하는 데 한계가 있다. 본 연구에서는 Park과 Chung(2014)이 제안한 방법을 개선하여, 다항범주형 처치변수가 잠재변수인 상황에서 다항범주형 결과변수에 미치는 인과효과 추정방법을 제안하고 처치변수와 결과변수가 잠재변수 또는 관측변수를 포함하는 여러 상황에서 본 연구가 제안한 인과효과 추정방법의 성능을 모의실험연구를 통하여 평가하고자 한다. 더불어 'National Longitudinal Study of Adolescents Health'자료를 사용하여 미국 여성 청소년 성장과 약물사용에 대한 인과효과를 추론하고자 한다.

원격 CO2 레이저 용접이음에 대한 피로시험과 해석 (Fatigue Test of Remote CO2 Laser Welded Joints and Its Analysis)

  • 주석재;조군
    • 대한기계학회논문집A
    • /
    • 제36권10호
    • /
    • pp.1213-1219
    • /
    • 2012
  • 원격 $CO_2$ 레이저는 렌즈와 거울을 사용하여 신속하게 레이저 빔을 편향시키므로 복잡한 패턴을 그리기 쉽다. 기존 점용접 시편과 원격 $CO_2$ 레이저 여러 가지 용접선 패턴 시편을 준비하여 정적인장시험과 동적피로시험을 수행하였다. 피로수명(피로파단까지 하중반복횟수)에 대한 피로강도(최대피로하중) 데이터를 얻었다. 수명 이백만 회일 때 피로강도는 대체로 정적 인장강도의 10%이었다. 그리고, 피로하중 수준에 따라 피로파괴형태가 달라지는 것을 발견하였다. 구조해석 결과 응력이 높은 부위와 피로균열 발생부위가 일치하는 것으로 확인되었다. 수명 이백만 회일 때 모든 용접선 패턴에 대하여 최대응력이 서로 비슷하여지는 것을 확인하였다.