• Title/Summary/Keyword: 데이터예측

Search Result 6,818, Processing Time 0.034 seconds

Churn Prediction Model using Logistic Regression (Logistic Regression을 이용한 이탈고객예측모형)

  • Jeong, Han-Na;Park, Hye-Jin;Kim, Nam-Hyeong;Jeon, Chi-Hyeok;Lee, Jae-Uk
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2008.10a
    • /
    • pp.324-328
    • /
    • 2008
  • 금융산업에서 고객의 이탈비율은 기대수익에 영향을 미친다는 점에서 예측이 필요한 부분이며 최근 들어 정확한 예측을 통한 비용관리가 이루어지면서 고객 이탈을 예측하는 것이 중요한 문제로 떠오르고 있다. 그러나 보험 고객 데이터가 대용량이고 불균형한 출력 값을 갖는 특성으로 인해 기존의 방법으로 예측 모델을 만드는 것이 적합하지 않다. 본 연구에서는 대용량 데이터를 처리하는 데 효과적으로 알려져 있는 Trust-region Newton method를 적용한 로지스틱 회귀분석을 통해 이탈고객을 예측하는 것을 주된 연구로 하며, 불균형한 데이터에서의 예측정확도를 높이기 위해 Oversampling, Clustering, Boosting 등을 이용하여 고객 데이터에 적합한 이탈 고객 예측 모형을 제시하고자 한다.

  • PDF

A Study on the Prediction of Apartment Sale Price Using Machine Learning : Focused on the Collection of Internal and External Data and Price Prediction of Korean Apartments (기계학습을 이용한 아파트 매매가격 예측 연구 : 한국 아파트의 내·외적 데이터 수집과 가격 예측 중심으로)

  • Ju, Jeong-Min;Kang, Sun-Mee;Choi, Ji-Wung;Han, Youngwoo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.956-959
    • /
    • 2020
  • 본 연구에서는 아파트를 대표할 수 있는 내·외적 데이터를 수집하고 인공지능 기술들을 활용하여 아파트 가격을 예측하는 시스템을 구축하고자 한다. 구체적으로 웹크롤링 기법을 통해 수집한 아파트 내·외적 데이터의 변수들에 대한 특성 선택(Feature Selection)을 수행하였고, 다양한 인공지능 기법을 활용하여 부동산 가격 예측 모형을 개발하였다. 아파트 가격 예측 모형 생성을 위해 Linear Regression, Ridge, Xgboost, Lightgbm, Catboost 등의 기계학습 알고리즘을 사용하였고, RMSE를 사용하여 각 예측 모형 간의 성능 비교를 수행하였다. 가장 성능이 좋은 예측 모형은 Xgboost기반 예측 모형이였으며, RMSE값이 약 0.0366으로 가장 낮았으며 테스트 데이터에 대한 정확도는 약 95.1%였다.

대형 할인점 매출 데이터를 이용한 Semi-Variogram의 추정과 거리에 의한 할인점 이용권 지도 작성에 관한 연구

  • Yu, Seong-Mo;Yun, Yeon-Sang;Kim, Gi-Hwan
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 2006.04a
    • /
    • pp.99-108
    • /
    • 2006
  • 대형 할인점 매출 데이터는 G-CRM, 에어기어 마케팅(Area Marketing)에 활용하기 위해 고객의 구매정보와 위치정보를 포함한다. TM중부좌표로 이루어진 고객 위치정보를 이용하여 지점간의 거리를 구할 수 있다. 서로 다른 위치에서 통시에 측정된 자료들이 공간적인 변인에 의하여 영향을 받는다면, 공간적인 변인의 함수식에 의한 예측모형을 설정하는 것이 타당하다. 본 연구에서는 공간적인 변인으로 거리가 주어졌을 때, 대형 할인점 매출 자료에 대한 세미베리오그램(Semi-Variogram)의 모형을 추정하고, 관측되지 않은 지역에 대한 할인점 이용권을 공간예측기법으로 예측하였다. 그리고 공간예측 기법을 통해 예측된 할인점 이용권을 토대로 할인점 이용권 지도를 작성하였다. 또한 매출 데이터의 공간이상치 탐지를 위한 방법을 제시하고 실례로 알아보았다.

  • PDF

Software Reliability Prediction Incorporating Information from a Similar Project (ACE64/256) (유사 프로젝트(ACE64/256)로부터 얻은 경험 데이터에 의한 소프트웨어 신뢰도 예측)

  • Lee, J.K.;Shin, S.K.;Nam, S.S.;Park, K.C.
    • Electronics and Telecommunications Trends
    • /
    • v.15 no.5 s.65
    • /
    • pp.94-102
    • /
    • 2000
  • 시험기간 동안 수집된 고장 데이터를 이용하여 소프트웨어 신뢰도를 예측할 수 있는 모델은 많으나 이 예측 방법은 정확하지 못하며, 특히 초기 시험 단계에서는 더욱 더 부정확하여 예측자들은 이러한 소프트웨어 신뢰도 모델의 적용을 주저한다. 한편 소프트웨어 신뢰도 성장 모델은 유사 프로젝트나 개발 초기에 얻은 정보를 가지고는 신뢰도 예측 데이터로 활용이 불가능하다. 예를 들면 최근의 소프트웨어 시스템들은 항시 유사 프로젝트들로부터 활용이 가능한 일련의 정보와 동일 응용 영역의 초기 또는 최신의 정보들이 변경, 개선되기 때문이다. 본 논문에서는 유사한 프로젝트로부터 얻은 공통의 데이터들을 활용하여 소프트웨어 신뢰도를 예측할 수 있는 방법들을 제안한다. 특히 일반적으로 사용되고 있는 Goel-Okumoto(G-O) 모델이나 고장 검출률을 이용하거나 시험 데이터를 활용하는 방법 등을 이용하여 모델 파라미터를 추정하고 실제 프로젝트 수행중에 얻어진 각종 결과를 토대로 해서 Numerical Algorithm이 아닌 통계적인 관점의 분석 결과와 MLE(Maximum Likelihood Estimation) 추정 방법 등을 동원하여 초기에 우리 프로젝트에 맞는 정확한 소프트웨어 신뢰도 평가 방법을 제안하였다.

The Conversion of Transportation Casualty Recording to Numerical Data (운항사고 자료의 수량화 데이터 작성에 관한 연구)

  • Yim, Jeong-Bin
    • Proceedings of KOSOMES biannual meeting
    • /
    • 2007.05a
    • /
    • pp.115-119
    • /
    • 2007
  • 본 연구의 목적은 선박관리회사에서 관리하는 선박의 운항사고를 사전에 예측하여 사고를 미연에 예방 또는 저감하고, 사고 발생시에는 신속 대처하여 사고결과 발생되는 손실을 최소화하기 위한 운항사고 예측 시스템을 개발하는데 있다. 이러한 운항사고 예측 시스템을 개발하기 위해서는 과거 문서로 작성된 사건을 숫자로 변환시킨 수량화 데이터 제작이 우선 필요하다. 수량화 데이터를 이용하면 통계기법을 적용하여 다양한 사건 사이에 숨어 있는 기본적인 요소를 축출할 수 있고, 이러한 요소 사이의 상관관계를 통하여 사고발생 수준을 숫자로 표시할 수 있기 때문에 사전에 해당 위험정도를 알 수 있다. 본 연구에서는 운항사고 예측 시스템 개발의 초보단계로서, 과거 사건기록을 수량화 데이터로 변환하기 위한 절차와 결과를 기술하였다.

  • PDF

A Study on Prediction Model of Subjective Well-Being Using Collaborative Filtering (협력적 필터링을 이용한 주관적 행복감 예측 모형연구)

  • Lee Sangyeop;Kim Jiyeon;Ryu dong in;Gi Hyeon Han;Park Saehan;Koo Jee Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.552-553
    • /
    • 2024
  • 협력적 필터링은 추천시스템을 구축하는 알고리즘으로 고객별 선호도를 예측하는데 사용되고 있다. 이에 본 연구는 행복감에 영향을 주는 요인인 자존감과 생활여건을 사용하여, 협력적 필터링을 기반으로 한 예측정확도가 높은 모형을 연구하고자 한다. 이를 위해, 자존감과 생활여건에 대한 응답자 간의 유사도 가중치를 각각 계산한 후, 자존감 유사도 가중치를 적용한 모형으로 행복감을 예측하고, 자존감 유사도 가중치에 생활여건 유사도 가중치를 부여한 유사도 가중치를 적용한 모형으로 행복감을 예측하였다. 그 결과 전자의 모형이 후자의 모형보다 예측정확도가 높게 나타났다.

A Study on the Prediction of Fuel Consumption of Bulk Ship Main Engine Using Explainable Artificial Intelligence (SHAP을 활용한 벌크선 메인엔진 연료 소모량 예측연구)

  • Hyun-Ju Kim;Min-Gyu Park;Ji-Hwan Lee
    • Journal of Navigation and Port Research
    • /
    • v.47 no.4
    • /
    • pp.182-190
    • /
    • 2023
  • This study proposes a predictive model using XGBoost and SHapley Additive exPlanation (SHAP) to estimate fuel consumption in bulk carriers. Previous studies have also utilized ship engine data and weather data. However, they lacked reliability in predicted results and explanations of variables used in the fuel consumption prediction model implementation. To address these limitations, this study developed a predictive model using XGBoost and SHAP. It provides research background, scope, relevant regulations, previous studies, and research methodology. Additionally, it explains the data cleaning method for bulk carriers and verifies results of the predictive model.

Analysis of AI-based techniques for predicting water level according to rainfall (강우에 따른 수위 예측을 위한 AI 기반 기법 분석)

  • Kim, Jin Hyuck;Kim, Chung-Soo;Kim, Cho-Rong
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.294-294
    • /
    • 2021
  • 강우에 따른 수위예측은 수자원 관리 및 재해 예방에 있어 중요하다. 기존의 수문분석은 해당지역의 지형 데이터, 매개변수 최적화 등 수위예측 분석에 있어 어려움을 동반한다. 최근 AI(Artificial Intelligence) 기술의 발전에 따라, 수자원 분야에 AI 기술을 활용하는 연구가 수행되고 있다. 본 연구에서는 데이터 간의 관계를 포착할 수 있는 AI 기반의 기법을 이용하여 강우에 따른 수위예측을 실시하였다. 연구대상 유역으로는 과거 수문데이터가 풍부한 설마천 유역으로 선정하였다. AI 기법으로는 머신러닝 중 SVM (Support Vector Machine)과 Gradient boosting 기법을 이용하였으며, 딥러닝으로는 시계열 분석에 사용되는 RNN (Recurrent Neural Network) 중 LSTM (Long Short-Term Memory) 네트워크을 이용하여 수위 예측 분석을 수행하였다. 성능지표로는 수문분석에 주로 사용되는 상관계수와 NSE (Nash-Sutcliffe Efficiency)를 이용하였다. 분석결과 세 기법 모두 강우에 따른 수위예측을 우수하게 수행하였다. 이 중, LSTM 네트워크는 과거데이터를 이용한 보정기간이 늘어날수록 더욱 높은 성능을 보여주었다. 우리나라의 집중호우와 같은 긴급 재난이 우려되는 상황 시 수위예측은 빠른 판단을 요구한다. 비교적 간편한 데이터를 이용하여 수위예측이 가능한 AI 기반 기법을 적용할 시 위의 요구사항을 충족할 것이라 사료된다.

  • PDF

Scalar First Replacement Strategy for Reference Prediction Table Used in Prefetching Streaming Data (스트리밍 데이터의 선인출에 사용되는 참조예측표의 스칼라 우선 교체 전략)

  • Lim, Chul-hoo;Chon, Young-Suk;Kim, Suk-il;Jeon, Joong-nam
    • The KIPS Transactions:PartA
    • /
    • v.11A no.3
    • /
    • pp.163-172
    • /
    • 2004
  • Multimedia applications tend to access their data as a streaming pattern with regular intervals. This characteristic can be utilized in prefetching the multimedia data into cache memory so as to reduce their execution speeds. The reference-prediction prefetch algorithm predicts the memory address that seems to be used in the next time based on the previous history of memory references stored in the prediction reference table. This paper proposes a strategy to manipulate the reference prediction table which contains all of the data reference instructions to scalar and streaming data. We have recognized that the scalar reference instructions do not contribute to the data prefetching algorithm. Therefore, when replacing an element in the reference prediction table, the proposed algorithm preferentially selects the scalar reference instruction before the stream reference instruction. It makes the stream reference instruction to stay for a long time compared to the FIFO replacement policy, and eventually improves the performance of data prefetching.

Performance Comparison of Data Mining Approaches for Prediction Models of Near Infrared Spectroscopy Data (근적외선 분광 데이터 예측 모형을 위한 데이터 마이닝 기법의 성능비교)

  • Baek, Seung Hyun
    • Journal of the Korea Safety Management & Science
    • /
    • v.15 no.4
    • /
    • pp.311-315
    • /
    • 2013
  • 본 논문에서는 주성분 회귀법과 부분최소자승 회귀법을 비교하여 보여준다. 이 비교의 목적은 선형형태를 보유한 근적외선 분광 데이터의 분석에 사용할 수 있는 적합한 예측 방법을 찾기 위해서이다. 두 가지 데이터 마이닝 방법론인 주성분 회귀법과 부분최소자승 회귀법이 비교되어 질 것이다. 본 논문에서는 부분최소자승 회귀법은 주성분 회귀법과 비교했을 때 약간 나은 예측능력을 가진 결과를 보여준다. 주성분 회귀법에서 50개의 주성분이 모델을 생성하기 위해서 사용지만 부분최소자승 회귀법에서는 12개의 잠재요소가 사용되었다. 평균제곱오차가 예측능력을 측정하는 도구로 사용되었다. 본 논문의 근적외선 분광데이터 분석에 따르면 부분최소자승회귀법이 선형경향을 가진 데이터의 예측에 가장 적합한 모델로 판명되었다.