• Title/Summary/Keyword: 결측정보

Search Result 137, Processing Time 0.039 seconds

Classification of Heart Disease Using K-Nearest Neighbor Imputation (K-최근접 이웃 알고리즘을 활용한 심장병 진단 및 예측)

  • Park, Pyoung-Woo;Lee, Seok-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.11a
    • /
    • pp.742-745
    • /
    • 2017
  • 본 논문은 심장질환 도메인에 데이터 마이닝 기법을 적용한 연구로, 기존 환자의 정보에 대하여 K-최근접 이웃 알고리즘을 통해 결측 값을 대체하고, 대표적인 예측 분류기인 나이브 베이지안, 소포트 벡터 머신, 그리고 다층 퍼셉트론을 적용하여 각각 결과를 비교 및 분석한다. 본 연구의 실험은 K 최적화 과정을 포함하고 10-겹 교차 검증 방식으로 수행되었으며, 비교 및 분석은 정확도와 카파 통계치를 통해 판별한다.

Spatial Gap-filling of GK-2A/AMI Hourly AOD Products Using Meteorological Data and Machine Learning (기상모델자료와 기계학습을 이용한 GK-2A/AMI Hourly AOD 산출물의 결측화소 복원)

  • Youn, Youjeong;Kang, Jonggu;Kim, Geunah;Park, Ganghyun;Choi, Soyeon;Lee, Yangwon
    • Korean Journal of Remote Sensing
    • /
    • v.38 no.5_3
    • /
    • pp.953-966
    • /
    • 2022
  • Since aerosols adversely affect human health, such as deteriorating air quality, quantitative observation of the distribution and characteristics of aerosols is essential. Recently, satellite-based Aerosol Optical Depth (AOD) data is used in various studies as periodic and quantitative information acquisition means on the global scale, but optical sensor-based satellite AOD images are missing in some areas with cloud conditions. In this study, we produced gap-free GeoKompsat 2A (GK-2A) Advanced Meteorological Imager (AMI) AOD hourly images after generating a Random Forest based gap-filling model using grid meteorological and geographic elements as input variables. The accuracy of the model is Mean Bias Error (MBE) of -0.002 and Root Mean Square Error (RMSE) of 0.145, which is higher than the target accuracy of the original data and considering that the target object is an atmospheric variable with Correlation Coefficient (CC) of 0.714, it is a model with sufficient explanatory power. The high temporal resolution of geostationary satellites is suitable for diurnal variation observation and is an important model for other research such as input for atmospheric correction, estimation of ground PM, analysis of small fires or pollutants.

Development of Performance to Predict the Prognosis of Korean Patients with Acute Myocardial Infarction by Data Transformation for Naïve Bayes Method (나이브 베이지안 방법을 위한 데이터 변환법으로 한국인 급성 심근경색증 환자의 예후를 예측하는 성능의 향상)

  • Cho, Sun Ho;Kim, Jeong-su;Kwon, Hyuk-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.11a
    • /
    • pp.868-871
    • /
    • 2014
  • 오늘날 한국에서는 급성 심근경색증으로 인한 사망률이 높은 상태로, 발병 시에 치료까지 신속한 의사결정이 요구되는 위중한 질병이기 때문에, 한국인에게 맞는 급성 심근경색증 연구가 매우 중요 하다. 본 연구는 한국인 급성 심근경색증 등록 데이터를 이용해 기계 학습 방법의 한 종류인 나이브 베이지안 방법을 이용해 급성 심근경색증 환자의 예후를 예측하고자, 의료 데이터의 특성에 따른 데이터 변환 방법을 제안한다. 타겟 클래스에서 보다 중요한 의미를 가진 death 값에 대해 각 값을, nominal value, numeric value, 결측치로 구분한 방식에 따라, 확률을 계산해 변환한다. 실험 결과를 통해 결측치를 피처마다 존재하는 값들의 평균을 낸 값으로 대입하였을 때 가장 좋은 성능임을 알 수 있었는데, 기존의 방법에 비해 precision=5.4%, recall=7.0%의 성능이 향상되었다. 따라서 제안한 방법은 나이브 베이지안 방법의 예측 성능 향상에 기여하였다고 판단된다. 이후 적용했던 데이터 변환 방법을 여러 가지 기계 학습 방법에서 판단해보고, 다른 타겟 클래스에도 시험해보고자 한다.

A study on the factors influencing the data collection performance of smart buoys (스마트 항로표지의 데이터 수집 성능에 영향을 미치는 요인에 관한 연구)

  • Ho-Joon Kim;Min-Kyu Kim;Nam-Yong Lee;Chul-Soo Kim;Sangmun Shin;Se-woong Oh;Jin-Hong Yang
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2021.11a
    • /
    • pp.60-62
    • /
    • 2021
  • 항로표지는 해상상황 정보를 수집하고 선박들의 항해에 안전을 도모하기 위해 설치 및 운용되고 있다. 관련해 개별 지방청에서 운영되는 데이터를 빅데이터 형태로 활용하고자 하는 경우 수집된 데이터의 품질에 대한 평가가 이루어져야 한다. 본 논문에서는 수집된 항로표지 데이터의 누락 정보를 중심으로 데이터 수집에 있어 장애 생성의 주된 원인을 찾고자 하였다. 수집된 데이터의 분석 결과 기상악화와 표지의 전압이 하락한 날에 데이터 결측 발생률이 톺음을 확인할 수 있었다. 이를 통해 기상 상황, 표지의 전압 상태 그리고 수집된 데이터 개수의 비교를 통해 기상악화가 영향을 미쳤을 수 있음을 확인하였다.

  • PDF

A Study on Hydraulic Stability of Stream Reach using GIS (GIS 기반의 하천의 수리학적 안정성 분석 연구)

  • Park, Min-Ji;Park, Geun-Ae;Kim, Seong-Joon
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 2005.11a
    • /
    • pp.245-250
    • /
    • 2005
  • 현재까지 국내에서 2차원 흐름 해석을 위한 SMS의 RMA-2는 합류지점이나 만곡수로 내의 유속분포, 수위변동 등에 관한 연구가 대부분이었다. 그러나 경계조건으로 입력되어지는 하천의 유입량과 유출수위는 실측이 어려우며 자료의 특성상 결측값도 많아 실제와는 다르게 대부분의 연구에서 정상류로 모의되었다. 본 연구에서는 WMS의 HEC-1 프로그램을 이용하여 RMA를 부정상류로 모의하였다. 모의결과 실제 하천은 빈도별 지류의 영향을 받아 유속이 0.05에서 0.46까지 변화하였다.

  • PDF

Undecided inference using bivariate probit models (이변량 프로빗모형을 이용한 미결정자 추론)

  • Hong, Chong-Sun;Jung, Mi-Yang
    • Journal of the Korean Data and Information Science Society
    • /
    • v.22 no.6
    • /
    • pp.1017-1028
    • /
    • 2011
  • When it is not easy to decide the credit scoring for some loan applicants, credit evaluation is postponded and reserve to ask a specialist for further evaluation of undecided applicants. This undecided inference is one of problems that happen to most statistical models including the biostatistics and sportal statistics as well as credit evaluation area. In this work, the undecided inference is regarded as a missing data mechanism under the assumption of MNAR, and use the bivariate probit model which is one of sample selection models. Two undecided inference methods are proposed: one is to make use of characteristic variables to represent the state for decided applicants, and the other is that more accurate and additional informations are collected and apply these new variables. With an illustrated example, misclassification error rates for undecided and overall applicants are obtainded and compared according to various characteristic variables, undecided intervals, and thresholds. It is found that misclassification error rates could be reduced when the undecided interval is increased and more accurate information is put to model, since more accurate situation of decided applications are reflected in the bivariate probit model.

The Study for Estimating Traffic Volumes on Urban Roads Using Spatial Statistic and Navigation Data (공간통계기법과 내비게이션 자료를 활용한 도시부 도로 교통량 추정연구)

  • HONG, Dahee;KIM, Jinho;JANG, Doogik;LEE, Taewoo
    • Journal of Korean Society of Transportation
    • /
    • v.35 no.3
    • /
    • pp.220-233
    • /
    • 2017
  • Traffic volumes are fundamental data widely used in various traffic analysis, such as origin-and-destination establishment, total traveled kilometer distance calculation, congestion evaluation, and so on. The low number of links collecting the traffic-volume data in a large urban highway network has weakened the quality of the analyses in practice. This study proposes a method to estimate the traffic volume data on a highway link where no collection device is available by introducing a spatial statistic technique with (1) the traffic-volume data from TOPIS, and National Transport Information Center in the Ministry of Land, Infrastructure, and (2) the navigation data from private navigation. Two different component models were prepared for the interrupted and the uninterrupted flows respectively, due to their different traffic-flow characteristics: the piecewise constant function and the regression kriging. The comparison of the traffic volumes estimated by the proposed method against the ones counted in the field showed that the level of error includes 6.26% in MAPE and 5,410 in RMSE, and thus the prediction error is 20.3% in MAPE.

Analysis of flow relationship for replacement to IRDIMS continuous data (자동유량측정시설 연속유량자료 보완을 위한 상하류관계 검토)

  • Kwon, Young Bin;Kim, Dong Su;Cha, Jun Ho;Jung, Sung Won
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2019.05a
    • /
    • pp.359-359
    • /
    • 2019
  • 2011년 4대강 다기능보 설치에 따라 배수영향을 받는 구간은 기존의 측정방법으로는 유량측정이 어려워 보 구간별로 자동유량측정시설을 설치하여 실시간으로 유량을 생산하고 있다. 하지만 현재 수질개선 및 하천 자연화를 위해 보 운영수위를 저하시켰다. 이에 수위 저하에 따른 측정영역 한계로 정상적인 운영에 어려움이 발생하고 있다. 본 연구에서는 낙동강 합천창녕보 영향 구간 내 합천군(율지교), 합천군(적포교) 지점을 대상으로 상하류 유량관계를 활용하여 결측 및 오측자료를 보완하고자 한다. 대상지점은 2018년 수문개방에 따른 수위저하로 인한 결측과 부유물에 걸림에 의한 유속자료 오측으로 자료의 보완이 필요하였다. 이로 인해 자료 보완을 위하여 각 지점의 환산유량을 이용하여 경향성 검토를 하였으며, 상하류 환산유량과 검보정 측정성과와의 관계를 활용한 관계식을 개발하여 유량을 산정하였다. 산정된 유량과 검보정 측정결과 상관도(R2)는 0.95 이상으로 나타나 매우 합리적으로 판단되나 수문조작 시에 일부 편차는 보인다는 결과를 나타냈다. 단기적인 자료보완은 품질관리를 통해 다양한 방법으로 가능하지만 상하류 유량관계를 활용한 방법이 장기적인 자료를 보완하는 방법으로 적절하다고 판단된다. 향후 보완방법을 다른 보 구간의 지점에도 적용하여 보 수위저하에 따른 시설물 개선공사가 진행되는 동안 실시간 유량자료의 제공으로 연속적인 유량자료 생산이 가능하도록 하고자 한다.

  • PDF

Inferring the Transit Trip Destination Zone of Smart Card User Using Trip Chain Structure (통행사슬 구조를 이용한 교통카드 이용자의 대중교통 통행종점 추정)

  • SHIN, Kangwon
    • Journal of Korean Society of Transportation
    • /
    • v.34 no.5
    • /
    • pp.437-448
    • /
    • 2016
  • Some previous researches suggested a transit trip destination inference method by constructing trip chains with incomplete(missing destination) smart card dataset obtained on the entry fare control systems. To explore the feasibility of the transit trip destination inference method, the transit trip chains are constructed from the pre-paid smart card tagging data collected in Busan on October 2014 weekdays by tracing the card IDs, tagging times(boarding, alighting, transfer), and the trip linking distances between two consecutive transit trips in a daily sequences. Assuming that most trips in the transit trip chains are linked successively, the individual transit trip destination zones are inferred as the consecutive linking trip's origin zones. Applying the model to the complete trips with observed OD reveals that about 82% of the inferred trip destinations are the same as those of the observed trip destinations and the inference error defined as the difference in distance between the inferred and observed alighting stops is minimized when the trip linking distance is less than or equal to 0.5km. When applying the model to the incomplete trips with missing destinations, the overall destination missing rate decreases from 71.40% to 21.74% and approximately 77% of the destination missing trips are the single transit trips for which the destinations can not be inferable. In addition, the model remarkably reduces the destination missing rate of the multiple incomplete transit trips from 69.56% to 6.27%. Spearman's rank correlation and Chi-squared goodness-of-fit tests showed that the ranks for transit trips of each zone are not significantly affected by the inferred trips, but the transit trip distributions only using small complete trips are significantly different from those using complete and inferred trips. Therefore, it is concluded that the model should be applicable to derive a realistic transit trip patterns in cities with the incomplete smart card data.

Nearest-Neighbor Collaborative Filtering Using Dimensionality Reduction by Non-negative Matrix Factorization (비부정 행렬 인수분해 차원 감소를 이용한 최근 인접 협력적 여과)

  • Ko, Su-Jeong
    • The KIPS Transactions:PartB
    • /
    • v.13B no.6 s.109
    • /
    • pp.625-632
    • /
    • 2006
  • Collaborative filtering is a technology that aims at teaming predictive models of user preferences. Collaborative filtering systems have succeeded in Ecommerce market but they have shortcomings of high dimensionality and sparsity. In this paper we propose the nearest neighbor collaborative filtering method using non-negative matrix factorization(NNMF). We replace the missing values in the user-item matrix by using the user variance coefficient method as preprocessing for matrix decomposition and apply non-negative factorization to the matrix. The positive decomposition method using the non-negative decomposition represents users as semantic vectors and classifies the users into groups based on semantic relations. We compute the similarity between users by using vector similarity and selects the nearest neighbors based on the similarity. We predict the missing values of items that didn't rate by a new user based on the values that the nearest neighbors rated items.