• 제목/요약/키워드: Imputation Accuracy

검색결과 48건 처리시간 0.023초

A Big Data-Driven Business Data Analysis System: Applications of Artificial Intelligence Techniques in Problem Solving

  • Donggeun Kim;Sangjin Kim;Juyong Ko;Jai Woo Lee
    • 한국빅데이터학회지
    • /
    • 제8권1호
    • /
    • pp.35-47
    • /
    • 2023
  • It is crucial to develop effective and efficient big data analytics methods for problem-solving in the field of business in order to improve the performance of data analytics and reduce costs and risks in the analysis of customer data. In this study, a big data-driven data analysis system using artificial intelligence techniques is designed to increase the accuracy of big data analytics along with the rapid growth of the field of data science. We present a key direction for big data analysis systems through missing value imputation, outlier detection, feature extraction, utilization of explainable artificial intelligence techniques, and exploratory data analysis. Our objective is not only to develop big data analysis techniques with complex structures of business data but also to bridge the gap between the theoretical ideas in artificial intelligence methods and the analysis of real-world data in the field of business.

심층 인공신경망을 활용한 Smoothed RSSI 기반 거리 추정 (Smoothed RSSI-Based Distance Estimation Using Deep Neural Network)

  • 권혁돈;이솔비;권정혁;김의직
    • 사물인터넷융복합논문지
    • /
    • 제9권2호
    • /
    • pp.71-76
    • /
    • 2023
  • 본 논문에서는 단일 수신기가 사용되는 환경에서 정확한 거리 추정을 위해 심층 인공신경망 (Deep Neural Network, DNN)을 활용한 Smoothed Received Signal Strength Indicator (RSSI) 기반 거리 추정 기법을 제안한다. 제안 기법은 거리 추정 정확도 향상을 위해 Data Splitting, 결측치 대치, Smoothing 단계로 구성된 전처리 과정을 수행하여 Smoothed RSSI 값을 도출한다. 도출된 다수의 Smoothed RSSI 값은 Multi-Input Single-Output(MISO) DNN 모델의 Input Data로 사용되며 Input Layer와 Hidden Layer를 통과하여 최종적으로 Output Layer에서 추정 거리로 반환된다. 제안 기법의 우수성을 입증하기 위해 제안 기법과 선형회귀 기반 거리 추정 기법의 성능을 비교하였다. 실험 결과, 제안 기법이 선형회귀 기반 거리 추정 기법 대비 29.09% 더 높은 거리 추정 정확도를 보였다.

머신러닝 기반의 강우추정 방법 개발 (Development of Machine Learning Based Precipitation Imputation Method)

  • 한희찬;김창주;김동현
    • 한국습지학회지
    • /
    • 제25권3호
    • /
    • pp.167-175
    • /
    • 2023
  • 강우 데이터는 습지관리, 수문모의, 수자원 관리와 같은 다양한 분야에서 활용되는 필수 입력자료 중 하나이다. 강우 데이터를 활용하여 효율적인 수자원관리를 위해서는 기본적으로 데이터의 결측률을 최소화 시킴으로써 최대한 많은 데이터를 확보하는 것이 필수적이다. 또한 미계측 지역에 대한 강우 데이터를 확보한다면 보다 효율적인 수문모의가 가능하다. 그러나 결측 강우 데이터는 주로 통계학적 기법에 의해 추정되어 왔다. 본 연구의 목적은 데이터 간의 상관관계를 기반으로 새로운 데이터를 예측할 수 있는 머신러닝 알고리즘을 활용하여 결측 강우 데이터를 복원할 수 있는 새로운 방법을 제안하고자 한다. 또한, 기존의 통계적 방법들과 비교하여 머신러닝 기법의 결측 강우 데이터 복원을 위한 활용가치를 평가하고자 한다. 평가를 위해 대표적인 머신러닝 알고리즘인 Artificial Neural Network (ANN)과 Random Forest (RF)을 적용하였다. 강우의 발생 유무를 분류하는 성능은 RF 알고리즘이 ANN 알고리즘보다 강우 발생유무의 분류 정확도가 높은 것으로 나타났다. 분류 모형의 평가 지표인 F1-score나 Accuracy값이 RF는 0.80, 0.77인 반면에, ANN은 0.76, 0.71로 계산되었다. 또한 강우량을 추정하는 성능 역시 RF가 ANN 알고리즘보다 보다 높은 정확도를 보였다. RF과 ANN 알고리즘의 RMSE은 2.8mm/day과 2.9mm/day이고, R2값은 0.73, 0.68으로 계산되었다.

선거여론조사에서 투표율 반영을 통한 득표율 추정 (Estimation of the Percent of the Vote by Adjustment of Voter Turnout in Election Polls)

  • 김정훈;한상태;강현철
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2873-2881
    • /
    • 2018
  • 유권자들의 올바른 투표행위에 기여하기 위하여 또는 후보나 정당의 적절한 선거전략 수립을 위하여, 선거여론조사를 통하여 신뢰성 있고 객관적인 정보를 확보하는 것은 매우 중요한 문제이다. 따라서 정당, 언론기관, 조사회사 등 관련 기관에서는 여론조사의 결과와 선거예측의 정확도 향상을 위해 지속적으로 노력해 왔다. Kim et al.(2017)에서는 선거여론조사에서 지지후보가 없다고 응답한 무응답층을 분류하여 득표율 예측의 정확도를 높일 수 있는지를 분석하였는데, 결과적으로 무응답층에 대하여 적절한 분류를 수행함으로써 득표율 추정의 정확도를 상당히 높일 수 있음을 확인한 바 있다. 본 연구에서는 특정 선거구(지역)에 대하여 전체 투표율이 주어져 있다는 조건 하에서 각 층(성, 연령대)별 투표율을 추정하는 방안을 제안하고, 투표율을 반영하여 득표율을 예측하는 절차를 제시하였다. 또한 2016년 20대 국회의원선거에 대한 여론조사에서 전화면접조사를 통해 얻어진 자료를 사용하여 사례 분석을 수행하였다.

교통 통계 정보를 이용한 속도 패턴 예측에 관한 연구 (A Study for Traffic Forecasting Using Traffic Statistic Information)

  • 최보승;강현철;이성건;한상태
    • 응용통계연구
    • /
    • 제22권6호
    • /
    • pp.1177-1190
    • /
    • 2009
  • 도로의 성능을 측정는데 있어서, 주행속도는 가장 중요한 정보가 된다. 또한 도로 교통의 정보를 제공하는데 있어서 현 시점의 교통정보와 더불어 향후 예측되는 교통정보를 함께 제공하는 것은 보다 정확한 예측 시간과 구간을 제공하기 위한 차별화된 기능이라 할 수 있다. 본 연구에서는 그 동안 축적된 도로 구간별 속도 자료를 이용하여 속도 패턴을 다양하게 분석하고 퓨리에 변환 및 삼각함수를 설명변수로 하는 시계열 회귀모형을 이용한 예측모형을 개발하여 구간별 및 시간대별 평균 속도를 예측하였다. 이와 더불어 보다 정확한 예측을 위하여 결측치에 대한 대체 방법 및 특이치 처리 방법을 함께 고려하였고 방대한 데이터에 대한 효율적인 분석을 위하여 유사 속도 구간에 대한 그룹핑(grouping) 방법도 제안하였다.

그래디언트 부스팅 모델을 활용한 상점 매출 예측 (Store Sales Prediction Using Gradient Boosting Model)

  • 최재영;양희윤;오하영
    • 한국정보통신학회논문지
    • /
    • 제25권2호
    • /
    • pp.171-177
    • /
    • 2021
  • 최근 머신러닝의 발전에 따라 일상생활과 산업에서 기술을 적용하는 사례들이 많아지고 있다. 금융 데이터와 머신러닝 기법을 활용한 연구 또한 활발하게 이루어지고 있다. 본 논문은 이러한 동향에 따라 상점 매출 데이터에 머신러닝 기법을 접목해 매출 예측 모델을 구축, 핀테크 산업에서의 활용 방안을 제시한다. 다양한 결측치 처리 기법을 적용하고 그래디언트 부스팅 기반의 머신러닝 기법인 XGBoost, LightGBM, CatBoost를 사용하여 각 모델의 상점 매출예측 성능을 비교한다. 연구 결과, 단일대체법 중 중앙값 대체법을 사용한 데이터셋에 XGBoost를 활용해 예측을 진행한 모델의 성능이 가장 우수했다. 연구를 통해 얻은 모델을 이용하여 상점의 매출 예측을 진행함으로서 핀테크 기업의 고객 상점들은 대출금을 상환하기 전 금융 보조를 받는 근거로, 핀테크 기업은 상환 가능성이 높은 우수 상점에 금융 상품을 제공하는 등 기업과 고객 모두에게 긍정적인 방향으로 활용할 수 있다.

웨어러블 디바이스 서비스 향상을 위한 개인 맞춤형 데이터 복원 알고리즘 (Personalized Data Restoration Algorithm to Improve Wearable Device Service)

  • 박기군;배혜림
    • 한국빅데이터학회지
    • /
    • 제6권2호
    • /
    • pp.51-60
    • /
    • 2021
  • 웨어러블 디바이스의 시장규모는 매년 가파르게 성장하고 있으며, 그 슈요에 발맞춰 전세계 제조업체들은 각자만의 특성을 살린 제품들을 선보이고 있다. 그중 스마트워치는 판매량 지분이 매우 높은 웨어러블 디바이스이며, 실시간으로 수집하는 정보를 활용해 사용자들에게 다양한 서비스를 제공하고 있다. 서비스의 품질은 스마트워치가 수집하는 데이터의 정확성에 의존하게 되는데, 상황에 따라 데이터 측정이 되지 않는 경우가 발생한다. 본 논문은 스마트워치가 수집하지 못한 데이터를 복원하는 방법을 소개한다. 데이터 복원을 위해 시간의 흐름에 따라 측정되는 운동궤적(Trajectory) 정보의 유사도 계산 방법을 다루며, 유사도에 따라 결측 구간을 복원하는 절차를 소개한다. 제안된 방법의 성능을 입증하기 위해 기계학습 알고리즘과의 비교실험을 진행하였으며 마지막으로 본 연구의 기대효과와 향후 연구 방향에 대해 다룬다.

Accuracy of genomic-polygenic estimated breeding value for milk yield and fat yield in the Thai multibreed dairy population with five single nucleotide polymorphism sets

  • Wongpom, Bodin;Koonawootrittriron, Skorn;Elzo, Mauricio A.;Suwanasopee, Thanathip;Jattawa, Danai
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제32권9호
    • /
    • pp.1340-1348
    • /
    • 2019
  • Objective: The objectives were to compare variance components, genetic parameters, prediction accuracies, and genomic-polygenic estimated breeding value (EBV) rankings for milk yield (MY) and fat yield (FY) in the Thai multibreed dairy population using five single nucleotide polymorphism (SNP) sets from GeneSeek GGP80K chip. Methods: The dataset contained monthly MY and FY of 8,361 first-lactation cows from 810 farms. Variance components, genetic parameters, and EBV for five SNP sets from the GeneSeek GGP80K chip were obtained using a 2-trait single-step average-information restricted maximum likelihood procedure. The SNP sets were the complete SNP set (all available SNP; SNP100), top 75% set (SNP75), top 50% set (SNP50), top 25% set (SNP25), and top 5% set (SNP5). The 2-trait models included herd-year-season, heterozygosity and age at first calving as fixed effects, and animal additive genetic and residual as random effects. Results: The estimates of additive genetic variances for MY and FY from SNP subsets were mostly higher than those of the complete set. The SNP25 MY and FY heritability estimates (0.276 and 0.183) were higher than those from SNP75 (0.265 and 0.168), SNP50 (0.275 and 0.179), SNP5 (0.231 and 0.169), and SNP100 (0.251and 0.159). The SNP25 EBV accuracies for MY and FY (39.76% and 33.82%) were higher than for SNP75 (35.01% and 32.60%), SNP50 (39.64% and 33.38%), SNP5 (38.61% and 29.70%), and SNP100 (34.43% and 31.61%). All rank correlations between SNP100 and SNP subsets were above 0.98 for both traits, except for SNP100 and SNP5 (0.93 for MY; 0.92 for FY). Conclusion: The high SNP25 estimates of genetic variances, heritabilities, EBV accuracies, and rank correlations between SNP100 and SNP25 for MY and FY indicated that genotyping animals with SNP25 dedicated chip would be a suitable to maintain genotyping costs low while speeding up genetic progress for MY and FY in the Thai dairy population.