• 제목/요약/키워드: 의사결정나무회귀분석

검색결과 124건 처리시간 0.027초

효과적 이모션마이닝을 위한 속성선택 방법에 관한 연구 (Exploring Feature Selection Methods for Effective Emotion Mining)

  • 어균선;이건창
    • 디지털융복합연구
    • /
    • 제17권3호
    • /
    • pp.107-117
    • /
    • 2019
  • 블로그, 소셜 미디어 등의 발달로 인해 점점 더 많은 사람들이 본인의 의견이나 감정을 표현하기 위해 온라인상에서 텍스트 문장을 작성한다. 그리고 이같은 온라인 텍스트 문장속에 숨겨져 있는 긍정 또는 부정등의 감성을 찾아내는 연구분야를 감성분석 이라고 한다. 그중에서도 이모션 마이닝은 사람들의 구체적인 이모션을 찾아내는데 초점을 맞춘 연구분야이다. 본 연구에서는 속성선택 방법과 단일 및 앙상블 분류기를 조합하여 효과적인 이모션 마이닝 예측모델을 제시하고자 한다. 이를 위해 두가지 대표적인 오픈 데이터인 Tweet와 SemEval2007 데이터를 이용하여 TF-IDF를 계산하고 백 오브 워즈(BOW: bag-of-words) 형태로 속성 셋을 구성하였다. 그리고 효과적인 이모션 마이닝이 될 수 있는 최적의 속성을 선택하기 위하여 상관관계 기반 속성선택(CFS), 정보획득 속성선택 (IG), 그리고 ReliefF 등 세가지 속성선택 방법을 적용하였다. 선택된 속성을 이용하여 아홉가지 분류기 모델로 이모션 마이닝의 정확도를 비교하였다. 실험 결과, Tweet 데이터는 의사결정나무(DT)가 CFS, IG, ReliefF에 의한 속성을 이용할 경우 정확도가 상승했고, 랜덤서브스페이스(RS)는 CFS, IG에 선택된 속성을 사용할 경우 정확도가 상승했다. SemEval2007 데이터는 ReliefF에 의해 선택된 속성으로 로지스틱 회귀분석(LR)을 적용하였을 때 정확도가 상승했고, 나이브 베이지안 네트워크(NBN)은 CFS, IG에 의한 속성을 사용할 경우 정확도가 상승하였다.

장기요양 필요 발생의 고위험 대상자 발굴을 위한 예측모형 개발 (Development of prediction model identifying high-risk older persons in need of long-term care)

  • 송미경;박영우;한은정
    • 응용통계연구
    • /
    • 제35권4호
    • /
    • pp.457-468
    • /
    • 2022
  • 고령인구가 증가함에 따라 국가차원에서 노인의 건강노화 실현을 위한 장기요양 필요 발생의 예방 방안을 마련하는 것은 매우 중요하며, 정책적 효과를 극대화하기 위해서는 적절한 대상자의 선정이 선행되어야 한다. 이에 본 연구는 국민건강보험공단의 국민건강정보를 활용하여, 장기요양 필요를 야기하는 기능장애 발생 가능성이 높은 대상자를 발굴하기 위한 예측모형을 개발하고자 한다. 본 연구는 연구대상자의 과거 수집된 자료를 활용하는 후향적 연구로, 본 연구의 연구대상자는 만 65세 이상 의료보장등록인구이다(총 7,724,101명). 예측모형 개발을 위해 고유 방법인 로지스틱 회귀모형, 머신러닝 방법인 의사결정나무와 랜덤포레스트, 딥러닝 방법인 다층퍼셉트론 신경망을 분석하였다. 체계적 분석절차를 통해 각 분석방법별 모형을 적합하였고, 내적 타당성 및 외적 타당성 평가 결과를 기반으로 최종 예측모형을 랜덤포레스트로 선정하였다. 랜덤포레스트는 모집단에서의 4.50%밖에 되지 않는 장기요양 필요 대상자의 약 90%를 장기요양 필요 발생 고위험 대상자로 예측할 수 있다. 본 연구의 예측모형 및 고위험군 기준은 노인의 욕구 중심에서 예방 서비스가 필요한 대상자를 선제적으로 발굴하는데 기여할 것으로 기대된다.

한국과 미국 의료기관의 중증도 보정 사망률 비교 (The Comparison of Risk-adjusted Mortality Rate between Korea and United States)

  • 정태경;강성홍
    • 디지털융복합연구
    • /
    • 제11권5호
    • /
    • pp.371-384
    • /
    • 2013
  • 본 연구에서는 한국 및 미국의 퇴원환자 자료를 이용하여 한국 및 미국의 중증도 보정 사망 모형을 개발하고 개발된 중증도 보정 사망모형에 따라 중증도 보정 사망률 지표를 산출 및 비교한 다음 이를 통해 국내 의료기관 사망률 관리 방안을 제시하고자 하였다. 한국 및 미국 의료기관의 중증도 보정 사망 모형은 데이터마이닝기법인 다중 로지스틱회귀분석 기법, 의사결정나무분석 기법을 이용하여 개발하였다. 개발된 의료기관의 중증도 보정 사망모형에 따라 한국 및 미국 의료기관의 중증도 보정 사망률을 산출한 결과 한국은 매년 증가하고 있는 반면 미국은 매년 감소하고 있는 것으로 나타나 한국과 미국간에 차이가 있었다. 의료기관의 병상규모별 중증도 보정 사망률의 변이 또한 한국이 미국보다 높았다. 국내 의료기관의 사망률 관리를 위해서는 의료기관 자체내에서 사망환자 관리가 가능한 대형 의료기관들의 경우 의료기관 중증도 보정 사망률 평가 결과 공개를 통해 지속적으로 사망률 관리를 유도하고, 의료기관 자체내에서 사망률 관리가 힘든 중소병원들은 국가 차원에서 파악한 국내 의료기관 사망환자 관리의 문제점 및 이를 개선할 수 있는 개선방안을 토대로 사망률 관리 컨설팅을 시행하는 등 의료기관 사망환자 관리 사업을 진행하여야 한다.

주식 시장 예측을 위한 π-퍼지 논리와 SVM의 최적 결합 (An Optimized Combination of π-fuzzy Logic and Support Vector Machine for Stock Market Prediction)

  • 다오두안훙;안현철
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.43-58
    • /
    • 2014
  • 최근 정보기술의 발전으로 복잡하고 방대한 양의 주가 데이터에 대한 실시간 분석이 가능해지면서 인공지능 기법을 활용해 주식 시장의 등락을 예측하고, 이를 기반으로 매매 거래를 수행하는 트레이딩 시스템에 대한 세간의 관심이 높아지고 있다. 본 연구는 이러한 트레이딩 시스템의 시장 예측 알고리즘으로 활용될 수 있는 새로운 주식 시장 등락 예측 모형을 제시한다. 본 연구의 제안 모형은 ${\pi}$-퍼지 논리를 이용해 모든 입력변수의 차원을 low, medium, high로 퍼지변환한 입력값을 대상으로 Support Vector Machine(SVM)을 적용하여 익일 시장의 등락을 예측하도록 설계되었다. 그런데 이 경우 입력변수의 수가 3배로 늘어나기 때문에, 적절한 입력변수의 선택이 요구된다. 이에 본 연구에서는 유전자 알고리즘을 활용하여 입력변수 선택 집합을 최적화하도록 하였으며, 동시에 ${\pi}$-퍼지 논리 및 SVM에 적용되는 조절 파라미터들의 값도 함께 최적화 하도록 하였다. 모형의 성능을 검증하기 위해, 본 연구에서는 지난 2004년부터 2013년까지의 10년치 국내 주식시장 데이터를 기반으로 한 KOSPI 200 지수의 등락 예측에 제안모형을 적용해 보았다. 이 때, 비교모형으로 로지스틱 회귀모형, 다중판별분석, 의사결정나무, 인공신경망, SVM, 퍼지SVM 등도 함께 적용시켜 성과를 정밀하게 검증해 보고자 하였다. 그 결과, 제안모형이 예측 정확도는 물론 투자수익률(Return on Investment) 측면에서도 다른 모든 비교모형들에 비해 월등히 우수한 성능을 보임을 확인할 수 있었다.

인공지능기법을 이용한 온라인 P2P 대출거래의 채무불이행 예측에 관한 실증연구 (Artificial Intelligence Techniques for Predicting Online Peer-to-Peer(P2P) Loan Default)

  • 배재권;이승연;서희진
    • 한국전자거래학회지
    • /
    • 제23권3호
    • /
    • pp.207-224
    • /
    • 2018
  • 온라인 P2P 대출(Online Peer-to-Peer Lending)이란 대출자(차입자)들이 인터넷 및 모바일 P2P 플랫폼을 통해 대출을 신청하면 P2P 플랫폼 기업이 이를 심사하고, 공개하여 불특정 다수가 자금을 빌려주고 이자를 받는 대출중개 서비스를 말한다. 국내외적으로 P2P 대출시장의 성장과 수익률에 대한 관심이 커진 상황에서 현재는 P2P 대출에 대한 안정성 측면에서 문제가 제기되고 있다. P2P 대출시장은 높은 수익률을 제공하지만 P2P 업체의 연체율과 부실률(채무불이행률)도 함께 높아지고 있는 실정이다. P2P 금융시장의 신뢰도를 높이기 위해서는 P2P 대출의 연체율과 채무불이행률을 줄이는 것이 무엇보다 중요하다. 본 연구는 세계적인 P2P 기업인 렌딩클럽(Lending Club)의 P2P 대출거래데이터베이스를 이용하여 인공지능기반의 P2P 채무불이행 예측모형을 구축하고자 한다. 구체적으로 벤치마크(benchmark) 모형으로 통계기법인 판별분석과 로지스틱 회귀분석을 이용하고, 인공지능기법으로는 신경망, CART, 그리고 C5.0을 이용하여 P2P 대출거래의 채무불이행 예측모형을 구축하고자 한다. 연구결과, P2P 대출거래의 채무불이행 예측을 위해 우선 고려해야 할 변수는 대출이자율이며, 중요도 3순위에 가장 많이 언급된 대출금액과 총부채상환비율도 고려해야 할 요인으로 추출되었다. 전통적인 통계기법보다는 인공지능기법의 예측성과가 더 좋은 것으로 나타났으며, 신경망의 경우 모든 데이터 셋에서 오분류율이 가장 낮은 예측모형으로 나타났다.

국내 연체경험자의 정상변제 요인에 관한 연구 (A Study on the Factors of Normal Repayment of Financial Debt Delinquents)

  • 최성민;김호영
    • 경영정보학연구
    • /
    • 제23권1호
    • /
    • pp.69-91
    • /
    • 2021
  • 국내 개인신용평가회사들은 과거와 현재 시점의 다양한 금융거래 정보를 활용하여 개인의 신용을 평가하고 있는데, 이 중 과거에 대출을 실행하여 이를 상환 또는 연체한 이력에 대한 정보를 의미하는 '상환이력정보'는 신용평가에 활용되는 다른 항목들에 비해 상대적으로 활용 비중이 높은 항목이다. 그러나 개인이 연체된 채무를 모두 변제하여 현재 연체중인 상태가 아닌 경우에도 과거의 연체 이력이 부정적인 요인으로 최장 5년간 평가에 반영되고 있어 금융소비자에게 과도한 불이익을 준다는 지적이 지속적으로 있어 왔다. 실제로 연체 이력이 있는 개인의 경우, 연체된 채무를 성실하게 변제한 개인(정상변제)과 그렇지 않은 개인(비정상변제)으로 구분할 수 있는데, 이들 간에는 신용도의 차이가 존재하므로 '정상변제'하는 개인의 특징을 확인하여 이들에게 '상환이력정보'의 활용기간을 단축시켜 주는 등의 혜택을 제공하는 것이 바람직하다고 판단된다. 본 연구는 이러한 문제의식에서 출발하여 한국신용정보원에서 보유하고 있는 2019년 12월 말 기준, 개인의 대출·연체·변제 정보에 기반하여 국내 연체경험자의 정상변제 요인을 분석하였다. 방법론은 개인신용평가모형에서 주로 사용하는 로지스틱 회귀모형을 기본으로 하여 의사결정나무, 신경망 모형 등의 머신러닝 방법론을 추가로 활용하였으며, 각 방법론별 성능을 비교해보았다. 실증분석 결과, 연체건수, 대출·연체유형 등이 정상변제 여부에 영향을 미치는 유의한 변수들로 확인되었으며 방법론 중에는 신경망 모형의 성능이 가장 높은 것으로 나타났다. 이러한 연구결과는 연체된 개인 차주의 정상변제 여부에 영향을 미치는 요인을 확인하여 개인신용평가모형을 고도화하는데 도움이 될 수 있을 것으로 보이며 연체 후 성실하게 변제하는 개인을 정책적으로 지원하기 위한 기초자료로도 활용될 수 있을 것으로 보인다. 향후에는 정상변제 요인을 추가 발굴하여 금융업권별 정상변제 요인의 세부적인 차이를 확인하고 이를 실제 모형에 반영하는 연구가 필요할 것이다.

머신러닝을 이용한 급성심근경색증 환자의 퇴원 시 사망 중증도 보정 방법 개발에 대한 융복합 연구 (Convergence Study in Development of Severity Adjustment Method for Death with Acute Myocardial Infarction Patients using Machine Learning)

  • 백설경;박혜진;강성홍;최준영;박종호
    • 디지털융복합연구
    • /
    • 제17권2호
    • /
    • pp.217-230
    • /
    • 2019
  • 본 연구는 기존 동반질환을 이용한 중증도 보정 방법의 제한점을 보완하기 위해 급성심근경색증 환자의 맞춤형 중증도 보정방법을 개발하고, 이의 타당성을 평가하기 위해 수행되었다. 이를 위하여 질병관리본부에서 2006년부터 2015년까지 10년간 수집한 퇴원손상심층조사 자료 중 주진단이 급성심근경색증인 한국표준질병사인분류(KCD-7) 코드 I20.0~I20.9의 대상자를 추출하였고, 동반질환 중증도 보정 도구로는 기존 활용되고 있는 CCI(Charlson comorbidity index), ECI(Elixhauser comorbidity index)와 새로이 제안하는 CCS(Clinical Classification Software)를 사용하였다. 이에 대한 중증도 보정 사망예측모형 개발을 위하여 머신러닝 기법인 로지스틱 회귀분석, 의사결정나무, 신경망, 서포트 벡터 머신기법을 활용하여 비교하였고 각각의 AUC(Area Under Curve)를 이용하여 개발된 모형을 평가하였다. 이를 평가한 결과 중증도 보정도구로는 CCS 가 가장 우수한 것으로 나타났으며, 머신러닝 기법 중에서는 서포트 벡터 머신을 이용한 모형의 예측력이 가장 우수한 것으로 확인되었다. 이에 향후 의료서비스 결과평가 등 중증도 보정을 위한 연구에서는 본 연구에서 제시한 맞춤형 중증도 보정방법과 머신러닝 기법을 활용하도록 하는 것을 제안한다.

SVM과 meta-learning algorithm을 이용한 고지혈증 유병 예측모형 개발과 활용 (Development and application of prediction model of hyperlipidemia using SVM and meta-learning algorithm)

  • 이슬기;신택수
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.111-124
    • /
    • 2018
  • 본 연구는 만성질환 중의 하나인 고지혈증 유병을 예측하는 분류모형을 개발하고자 한다. 이를 위해 SVM과 meta-learning 알고리즘을 이용하여 성과를 비교하였다. 또한 각 알고리즘에서 성과를 향상시키기 위해 변수선정 방법을 통해 유의한 변수만을 선정하여 투입하여 분석하였고 이 결과 역시 각각 성과를 비교하였다. 본 연구목적을 달성하기 위해 한국의료패널 2012년 자료를 이용하였고, 변수 선정을 위해 세 가지 방법을 사용하였다. 먼저 단계적 회귀분석(stepwise regression)을 실시하였다. 둘째, 의사결정나무(decision tree) 알고리즘을 사용하였다. 마지막으로 유전자 알고리즘을 사용하여 변수를 선정하였다. 한편, 이렇게 선정된 변수를 기준으로 SVM, meta-learning 알고리즘 등을 이용하여 고지혈증 환자분류 예측모형을 비교하였고, TP rate, precision 등을 사용하여 분류 성과를 비교분석하였다. 이에 대한 분석결과는 다음과 같다. 첫째, 모든 변수를 투입하여 분류한 결과 SVM의 정확도는 88.4%, 인공신경망의 정확도는 86.7%로 SVM의 정확도가 좀 더 높았다. 둘째, stepwise를 통해 선정된 변수만을 투입하여 분류한 결과 전체 변수를 투입하였을 때보다 각각 정확도가 약간 높았다. 셋째, 의사결정나무에 의해 선정된 변수 3개만을 투입하였을 때 인공신경망의 정확도가 SVM보다 높았다. 유전자 알고리즘을 통해 선정된 변수를 투입하여 분류한 결과 SVM은 88.5%, 인공신경망은 87.9%의 분류 정확도를 보여 주었다. 마지막으로, 본 연구에서 제안하는 meta-learning 알고리즘인 스태킹(stacking)을 적용한 결과로서, SVM과 MLP의 예측결과를 메타 분류기인 SVM의 입력변수로 사용하여 예측한 결과, 고지혈증 분류 정확도가 meta-learning 알고리즘 중에서는 가장 높은 것으로 나타났다.

추천시스템관련 학술논문 분석 및 분류 (A Literature Review and Classification of Recommender Systems on Academic Journals)

  • 박득희;김혜경;최일영;김재경
    • 지능정보연구
    • /
    • 제17권1호
    • /
    • pp.139-152
    • /
    • 2011
  • 1990년대 중반에 협업 필터링의 출현으로 인하여 추천시스템에 관련된 연구가 늘어나게 되었다. 협업 필터링의 출현 이후 내용 기반 필터링, 협업 필터링과 내용 기반 필터링이 혼합된 하이브리드 필터링 등 새로운 기법들이 출현함으로써 2000년대에는 추천시스템의 연구가 눈에 띄게 증가하였다. 하지만 현재까지 추천시스템에 관련된 문헌들에 대한 리뷰와 분류가 체계적으로 되어있지 않다. 이와 같은 문제에 대한 해결방안으로써, 본 연구에서는 2001년부터 2010년도까지의 추천시스템에 관련된 문헌들 중 MIS Journal Ranking의 125개의 저널에서 추천시스템(Recommender system, Recommendation system), 협업 필터링(Collaborative Filtering), 내용 기반 필터링(Content based Filtering), 개인화 시스템(Personalized system) 등의 5가지 키워드로 제한하여 조사하였다. 총 37개의 저널에서 논문을 검색하였으며, 검색되어진 논문을 분석한 결과 추천시스템과 관련이 없는 논문을 제외한 총 187개의 논문을 선정하여 분석하였다. 이 연구에서는 그러나 컨퍼런스 논문, 석사, 박사학위 논문, 영어로 작성되지 않은 논문, 완성되지 않은 논문 등은 제외하였다. 본 연구에서는 187개의 논문을 분석하여 2001년부터 2010년까지의 각각의 년도 별 추천시스템의 연구에 대한 동향 분석, Journal별 추천시스템의 게재 분류, 추천시스템 어플리케이션의 사용 분야(책, 문서, 이미지, 영화, 음악, 쇼핑, TV 프로그램, 기타)별 분류 및 분석, 추천시스템에 사용된 데이터마이닝 기술(연관 규칙, 군집화, 의사 결정나무, 최근접 이웃 기법, 링크 분석 기법, 신경망, 회귀분석, 휴리스틱 기법)별 분류 및 분석을 수행하였다. 따라서 본 연구에서 제안한 각각의 분류 및 분석 결과들을 통하여 현재까지 추천시스템의 연구에 대한 연구 동향을 파악 할 수 있었으며, 분석결과를 통해 추천시스템에 관심이 있는 연구자와 전문가에게 미래의 추천시스템의 연구에 대한 가이드라인을 제시 할 수 있을 것이라고 기대한다.

비대칭 오류 비용을 고려한 XGBoost 기반 재범 예측 모델 (A Recidivism Prediction Model Based on XGBoost Considering Asymmetric Error Costs)

  • 원하람;심재승;안현철
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.127-137
    • /
    • 2019
  • 재범예측은 70년대 이전부터 전문가들에 의해서 꾸준히 연구되어온 분야지만, 최근 재범에 의한 범죄가 꾸준히 증가하면서 재범예측의 중요성이 커지고 있다. 특히 미국과 캐나다에서 재판이나 가석방심사 시 재범 위험 평가 보고서를 결정적인 기준으로 채택하게 된 90년대를 기점으로 재범예측에 관한 연구가 활발해졌으며, 비슷한 시기에 국내에서도 재범요인에 관한 실증적인 연구가 시작되었다. 지금까지 대부분의 재범예측 연구는 재범요인 분석이나 재범예측의 정확성을 높이는 연구에 집중된 경향을 보이고 있다. 그러나 재범 예측에는 비대칭 오류 비용 구조가 있기 때문에 경우에 따라 예측 정확도를 최대화함과 동시에 예측 오분류 비용을 최소화하는 연구도 중요한 의미를 가진다. 일반적으로 재범을 저지르지 않을 사람을 재범을 저지를 것으로 오분류하는 비용은 재범을 저지를 사람을 재범을 저지르지 않을 것으로 오분류하는 비용보다 낮다. 전자는 추가적인 감시 비용만 증가되는 반면, 후자는 범죄 발생에 따른 막대한 사회적, 경제적 비용을 야기하기 때문이다. 이러한 비대칭비용에 따른 비용 경제성을 반영하여, 본 연구에서 비대칭 오류 비용을 고려한 XGBoost 기반 재범 예측모델을 제안한다. 모델의 첫 단계에서 최근 데이터 마이닝 분야에서 높은 성능으로 각광받고 있는 앙상블 기법, XGBoost를 적용하였고, XGBoost의 결과를 로지스틱 회귀 분석(Logistic Regression Analysis), 의사결정나무(Decision Trees), 인공신경망(Artificial Neural Networks), 서포트 벡터 머신(Support Vector Machine)과 같은 다양한 예측 기법과 비교하였다. 다음 단계에서 임계치의 최적화를 통해 FNE(False Negative Error)와 FPE(False Positive Error)의 가중 평균인 전체 오분류 비용을 최소화한다. 이후 모델의 유용성을 검증하기 위해 모델을 실제 재범예측 데이터셋에 적용하여 XGBoost 모델이 다른 비교 모델 보다 우수한 예측 정확도를 보일 뿐 아니라 오분류 비용도 가장 효과적으로 낮춘다는 점을 확인하였다.