• 제목/요약/키워드: KNN모형

검색결과 20건 처리시간 0.027초

부도예측을 위한 KNN 앙상블 모형의 동시 최적화 (Investigating Dynamic Mutation Process of Issues Using Unstructured Text Analysis)

  • 민성환
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.139-157
    • /
    • 2016
  • 앙상블 분류기란 개별 분류기보다 더 좋은 성과를 내기 위해 다수의 분류기를 결합하는 것을 의미한다. 이와 같은 앙상블 분류기는 단일 분류기의 일반화 성능을 향상시키는데 매우 유용한 것으로 알려져 있다. 랜덤 서브스페이스 앙상블 기법은 각각의 기저 분류기들을 위해 원 입력 변수 집합으로부터 랜덤하게 입력 변수 집합을 선택하며 이를 통해 기저 분류기들을 다양화 시키는 기법이다. k-최근접 이웃(KNN: k nearest neighbor)을 기저 분류기로 하는 랜덤 서브스페이스 앙상블 모형의 성과는 단일 모형의 성과를 개선시키는 데 효과적인 것으로 알려져 있으며, 이와 같은 랜덤 서브스페이스 앙상블의 성과는 각 기저 분류기를 위해 랜덤하게 선택된 입력 변수 집합과 KNN의 파라미터 k의 값이 중요한 영향을 미친다. 하지만, 단일 모형을 위한 k의 최적 선택이나 단일 모형을 위한 입력 변수 집합의 최적 선택에 관한 연구는 있었지만 KNN을 기저 분류기로 하는 앙상블 모형에서 이들의 최적화와 관련된 연구는 없는 것이 현실이다. 이에 본 연구에서는 KNN을 기저 분류기로 하는 앙상블 모형의 성과 개선을 위해 각 기저 분류기들의 k 파라미터 값과 입력 변수 집합을 동시에 최적화하는 새로운 형태의 앙상블 모형을 제안하였다. 본 논문에서 제안한 방법은 앙상블을 구성하게 될 각각의 KNN 기저 분류기들에 대해 최적의 앙상블 성과가 나올 수 있도록 각각의 기저 분류기가 사용할 파라미터 k의 값과 입력 변수를 유전자 알고리즘을 이용해 탐색하였다. 제안한 모형의 검증을 위해 국내 기업의 부도 예측 관련 데이터를 가지고 다양한 실험을 하였으며, 실험 결과 제안한 모형이 기존의 앙상블 모형보다 기저 분류기의 다양화와 예측 성과 개선에 효과적임을 알 수 있었다.

사고등급별 고속도로 교통사고 처리시간 예측모형 개발 (Development of Freeway Traffic Incident Clearance Time Prediction Model by Accident Level)

  • 이숭봉;한동희;이영인
    • 대한교통학회지
    • /
    • 제33권5호
    • /
    • pp.497-507
    • /
    • 2015
  • 고속도로의 비반복 혼잡은 주로 돌발상황에 의해 발생된다. 돌발상황의 주요 원인은 교통사고로 알려져 있다. 따라서 교통사고 시 사고처리시간을 정확하게 예측하는 것은 돌발상황 관리에서 매우 중요하다. 본 연구에서는 전국고속도로의 2008-2014년 총 7년치(60,473건)의 사고 자료를 이용하였다. 사고처리시간 예측모형은 과거의 교통사고 이력자료를 바탕으로 비모수모형인 KNN (K-Nearest Neighbor) 알고리즘을 활용하였다. 사고자료 현황 분석결과 사고등급별로 사고처리시간에 미치는 영향이 매우 큰 것으로 분석되었다. 따라서 사고처리시간은 사고등급별로 분류하여 모형을 구축하였다. 그리고 현재 발생한 사고의 교통상황과 도로 기하구조를 반영하기 위하여 교통량, 차로수, 시간대를 구분하여 데이터를 추출하였다. 추출된 데이터 중 현재 교통사고와 유사한 사고를 검색하기 위하여 사고처리시간에 영향을 미치는 요인들을 분석하였다. 마지막으로, 상태간 거리 산정을 위해서 세부항목별 가중치를 산정하였다. 가중치산정은 정규분포 표준화방법을 적용하였고, 이를 통해 사고처리시간을 예측하였다. 본 연구에서 개발된 모형의 예측결과는 기존의 연구들의 결과에 비해 낮은 예측오차(MAPE)를 보여 모형의 우수성을 입증할 수 있다고 판단된다. 본 연구를 통해 고속도로의 돌발상황 발생 시 효율적인 고속도로의 운영관리에 기여할 수 있고, 기존의 모형들이 갖고 있던 한계를 개선 및 보완할 수 있을 것으로 판단된다.

가중 적응 최근접 이웃을 이용한 결측치 대치 (On the use of weighted adaptive nearest neighbors for missing value imputation)

  • 염윤진;김동재
    • 응용통계연구
    • /
    • 제31권4호
    • /
    • pp.507-516
    • /
    • 2018
  • 결측치를 대치하는 여러가지 단일대치법 중에서 다변량 정규성 등의 모수적 모형이 만족되지 않을 때에도 강건성(robustness)을 지니는 k-최근접 이웃 대치법(k-nearest neighbors; KNN)이 널리 활용된다. KNN대치법에서 자료의 국소적 특징을 반영한 적응 최근접 이웃(adaptive nearest neighbors; ANN) 대치법과 k개의 최근접 이웃들 중 극단값이나 이상값이 있는 경우 이들의 영향에 덜 민감한 가중 k-최근접 이웃(weighted KNN; WKNN) 대치법의 장점을 결합한 가중 적응 최근접 이웃(weighted ANN; WANN) 대치법을 제안하였다. 또한 모의실험을 통하여 기존의 방법들과 제안한 방법을 비교하였다.

PGA 투어의 골프 스코어 예측 및 분석 (Prediction of golf scores on the PGA tour using statistical models)

  • 임정은;임영인;송종우
    • 응용통계연구
    • /
    • 제30권1호
    • /
    • pp.41-55
    • /
    • 2017
  • 최근 골프는 많은 사람들의 취미 생활로서 자리를 잡아가고 있으며 골프와 관련된 연구도 다양하게 이루어지고 있다. 본 연구에서는 데이터 마이닝 기법을 사용하여 PGA 투어에 참여하는 선수들의 평균스코어를 예측하고 스코어에 유의한 영향을 미치는 변수들을 제시하고자 한다. 그리고 추가적으로 4개의 PGA 투어 플레이오프에 대해 상위 10명, 상위 25명의 선수들을 예측하는 것을 목표로 한다. 우리는 다양한 선형/비선형 회귀분석 방법을 이용하여 평균스코어를 예측하는데, 선형회귀분석 방법으로는 단계적 선택법, 모든 가능한 회귀모형, 라소(LASSO), 능형회귀, 주성분회귀분석을 사용하였으며 비선형회귀분석 방법으로는 트리(CART), 배깅, 그래디언트 부스팅, 신경망 모형, 랜덤 포레스트, 최근접이웃방법(KNN)을 사용하였다. 대부분의 모형에서 공통적으로 선택된 변수들을 살펴보면 페어웨이의 단단함와 그린의 풀의 높이, 평균최대풍속이 높을수록 선수들의 평균스코어는 높아지며 반대로 한 번에 퍼팅을 성공시키는 횟수와 그린적중률 실패 후 버디나 이글로 점수를 만드는 scrambling 변수들, 그리고 공을 멀리 보낼 수 있는 능력을 나타내는 longest drive는 그 값이 높아짐에 따라 선수들의 평균스코어가 낮아지는 경향이 있음을 알 수 있었다. 11가지 모형 모두 테스트 데이터인 2015년 경기 결과를 예측하는데 낮은 오류율을 보였으나 배깅과 랜덤 포레스트의 예측률이 가장 좋았으며 두 모형 모두 상위 10명과 상위 25명의 랭킹을 예측할 때 상당히 높은 적중률을 보였다.

머신러닝 기반의 수도권 지역 고령운전자 차대사람 사고심각도 분류 연구 (Classifying Severity of Senior Driver Accidents In Capital Regions Based on Machine Learning Algorithms)

  • 김승훈;임영빈;김기정
    • 디지털융복합연구
    • /
    • 제19권4호
    • /
    • pp.25-31
    • /
    • 2021
  • 고령화 시대에 따라 고령운전자 역시 증가하고 있으며, 이들에 의한 교통사고 심각성에 대한 관심이 높아지고 있다. 이에 고령운전자에 의한 사고심각도 예측 모형의 필요성이 점차 요구됨에 따라, 본 연구에서는 기계학습 기법을 활용하여 고령운전자에 의한 차대사람 사고심각도 예측을 위한 모형 정립 및 분석을 수행하고자 한다. 이를 위해 4개의 기계학습 알고리즘 (Logistic Model, KNN, RF, SVM)을 활용, 예측 모형을 개발하고 각 결과를 비교하였다. 연구 결과에 따르면 Logistic과 SVM 모형이 상대적으로 높은 예측력을 보였으며, 정확도 측면에서는 RF가 높은 것으로 나타났다. 추가적으로 각 중요 변수들을 이용하여 교차분석을 수행한 후 그 결과를 제시하였다. 본 연구의 결과들은 고령화시대에 고령운전자에 의한 사고심각성을 예방하기 위한 안전정책 및 인프라 개발에 활용될 것으로 판단된다.

기후모형을 이용한 한반도 확률강수량 예측 (Prediction of Frequency Based Precipitation in Korean Peninsular Using Climate Model)

  • 경민수;김형수
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2010년도 학술발표회
    • /
    • pp.278-282
    • /
    • 2010
  • 기후변화는 홍수나 가뭄과 같은 극한사상의 발생가능성을 증가시키게 됨과 동시에 하천유량, 홍수, 수질, 생태, 지하수, 농업, 융설, 수력발전 등 수자원 전반에 걸쳐 영향을 미치고 있다. 이 중 홍수는 국민의 생명과 재산에 직접적으로 영향을 미치기 때문에 상당수의 국가들이 홍수로부터 자국민을 보호하기 위한 다양한 정책을 제시하고 있다. 이러한 정책을 수립하는데 있어서 무엇보다 중요한 것이 미래의 강수량이 기후변화로 인하여 얼마나 변하게 되는지를 정량적으로 평가하는 것이다. 이에 본 연구에서는 기후변화의 영향을 평가하기 위해서 프랑스 국립기상연구소에서 개발한 A1b시나리오 기반의 CNCM3모형을 대상으로 KNN기법과 일강수발생모형을 적용하여 기상청 산하 58개 관측소의 일 강수량으로 축소하였다. 제시된 일 강수량을 이용하여 2020s, 2050s, 2080s에 해당하는 80년, 100년, 150년, 200년 빈도의 확률강수량을 각각 산정하였다. 검토결과 확률강수량은 전국 58개 지점 중 49~52개 지점정도가 증가하는 것으로 나타나 현재에 비해서 전반적으로 증가하는 것으로 예측되었으며, 지점별 증가량의 경우, 빈도별로 차이를 보이기는 하나 현재에 비해서 전반적으로 3%~7%정도 증가하는 것을 알 수 있었다.

  • PDF

KNN 알고리즘을 활용한 고속도로 통행시간 예측 (Expressway Travel Time Prediction Using K-Nearest Neighborhood)

  • 신강원;심상우;최기주;김수희
    • 대한토목학회논문집
    • /
    • 제34권6호
    • /
    • pp.1873-1879
    • /
    • 2014
  • 실시간 자료를 반영한 통행시간 예측 기법은 다양하지만 관련 연구 검토 결과 과거이력데이터가 충분하다면 타 모형에 비해 K 최대근접이웃(K-Nearest Neighbors)의 정확도가 우수하므로 본 연구에서는 이에 대한 적용 방법 도출 및 가능성 평가를 목적으로 한다. 본 연구에서는 KNN의 입력 자료로 TCS 교통량 및 DSRC 구간통행시간의 실시간 및 과거 이력자료, 경로통행시간 이력자료를 활용하였다. 통행시간 예측치는 TCS 교통량 및 DSRC 구간통행시간의 실시간 자료와 유사한 경로통행시간을 탐색한 후 이를 가중평균하여 산출하였다. 예측 기법을 적용한 결과 DSRC 구간통행시간의 가중치가 증가할수록 정확도는 증가하였으며, 이는 실시간 교통상황 변화를 DSRC 구간통행시간이 잘 반영하기 때문이다. 그러나 TCS 교통량을 기반으로 한 경우 역시 정확도의 차이가 크지 않으며, 변화 추이도 유사하게 나타났다. 이러한 결과를 볼 때 향후 대용량의 과거이력자료가 축적될 경우 예측오차는 더욱 감소될 것으로 기대된다.

건강검진 데이터 기반 흡연자 분류를 위한 모형별 성능 분석 (Performance Evaluation between Models for Smoker Classification Based on Health Examination Data)

  • 윤지선;유헌창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.648-651
    • /
    • 2018
  • 흡연여부를 감별하는 지표가 있지만 반감기 등 여러 가지 요인에 따라 결과가 변한다는 단점이 있다. 그렇기 때문에 흡연여부 감별 시 외부요인에 영향을 덜 받는 지표가 필요하게 되었다. 그래서 흡연 여부 감별하는데 적합한 모형을 찾아 외부요인에 영향이 적은 지표를 개발에 도움이 될 것을 기대하며 연구를 진행하였다. 실험은 국민건강보험공단에서 제공한 건강검진정보데이터를 기반으로, SVM, Logistic Regression, KNN 등의 머신러닝 모델을 이용하여 흡연 여부를 감별하는 것을 진행한다. 이 실험은 속성에 따른 모형의 성능변화와 학습데이터 수에 따른 모형의 성능변화에 대한 2가지 측면에서 모델의 성능을 측정하였다. 모델의 평가는 정확도(accuracy), 정밀도(precision), 재현율(recall), 조화 평균(f1-score)으로 진행하였으며, 약 70퍼센트 정도의 정확도와, 60퍼센트 대의 재현율을 보인다. 실험 결과, SVM이 속성에 따른 모형의 성능 변화 실험에서는 63%의 재현율, 학습데이터 수에 따른 성능 변화 실험에서는 68%의 재현율을 보여, 흡연자 판별에 가장 좋은 성능을 보였다. 또한 재현율을 기준으로 실험 차수별로 가장 좋은 성능을 보인 모델과 가장 저조한 성능을 보인 모델의 차이를 비교한 결과, '속성에 따른 모형의 성능 변화 실험'에서는 최고 36%의 차이를 보였으며, '학습데이터 수에 따른 성능 변화 실험'에서 최고 42%의 차이를 보여 주었다. 이에 판별을 위한 속성도 중요하지만, 적합한 모형 선택 또한 중요하다는 것을 확인하였다.

이기종 머신러닝기법을 활용한 KOSPI200 옵션변동성 예측 (Estimation of KOSPI200 Index option volatility using Artificial Intelligence)

  • 신소희;오하영;김장현
    • 한국정보통신학회논문지
    • /
    • 제26권10호
    • /
    • pp.1423-1431
    • /
    • 2022
  • 블랙숄즈모형에서 옵션가격을 결정하는 변수 중 기초자산의 변동성은 현재 시점에서는 알 수 없고, 미래시점에 실현된 변동성을 사후에야 알 수 있다. 하지만 옵션이 거래되는 시장에서 관찰되는 가격이 있기 때문에 가격에 내재된 변동성을 역으로 산출한 내재변동성은 현재 시점에 구할 수 있다. 내재변동성을 구하기 위해서는 옵션가격과, 블랙숄즈 모형의 변동성을 제외한 옵션가격결정변수인 기초자산가격, 무위험이자율, 배당률, 행사가격, 잔존기간이 필요하다. 블랙숄즈모형의 변동성은 고정된 상수이나, 내재변동성 산출시 행사가격에 따라 변동성이 다르게 산출되는 변동성스마일현상을 보이기도 한다. 따라서 내재변동성 산출시 옵션 단일 종목이 아닌 시장전반의 변동성을 감안하는 것이 필요하다고 판단하여 본 연구에서는 V-KOSPI지수도 설명변수로 추가하였다. 머신러닝기법 중 지도학습방법을 사용하였으며, Linear Regression 계열, Tree 계열, SVR과 KNN 알고리즘 및 딥뉴럴네트워크로 학습 및 예측하였다. Training성능은 Decision Tree모형이 99.9%로 가장 높았고 Test성능은 Random Forest 알고리즘이 96.9%로 가장 높았다.

레이블 노이즈가 존재하는 자료의 판별분석 방법 비교연구 (A Comparative Study of Classification Methods Using Data with Label Noise)

  • 권소영;김경희
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2853-2864
    • /
    • 2018
  • 판별분석(discriminant analysis)은 새로운 개체가 입력되었을 때, 그 개체가 어느 그룹에 속하는지 예측하는데 사용되는 분석방법이다. 판별분석에서는 레이블(label)을 통해 새로운 개체를 예측하기 때문에 판별분석에서 레이블은 중요하다. 레이블 노이즈(label noise)는 관측된 레이블에 오류가 포함된 것을 의미하며, 실데이터에 발생하기 쉽고 판별성능에 영향을 미칠 수 있는 중요한 요인이다. 이를 개선하기 위해 레이블 노이즈와 레이블 노이즈에 강건한 모형들이 연구되고 있지만, 레이블 노이즈가 존재할 때 판별성능에 영향을 줄 수 있는 요인을 고려하고 이 요인들이 판별성능에 미치는 영향을 비교한 연구는 찾기 힘들다. 따라서 이 논문에서는 분류문제에서 많이 사용되는 LDA, QDA, KNN, SVM 방법을 이용하여 레이블 노이즈가 판별성능에 미치는 영향을 알아보고자 한다. 특히 판별분석의 성능과 연관이 있을 것으로 예상되는 레이블 노이즈의 발생 비율, 발생형태, 데이터의 개수에 따른 판별성능을 모의실험을 통해 살펴보았다. 그 결과, 데이터의 형태와 분석기법에 따라 레이블 노이즈가 판별성능에 영향을 미치는 정도가 다름을 확인하였다.