• 제목/요약/키워드: predictive analysis

검색결과 2,055건 처리시간 0.029초

XGBoost를 활용한 리스크패리티 자산배분 모형에 관한 연구 (A Study on Risk Parity Asset Allocation Model with XGBoos)

  • 김영훈;최흥식;김선웅
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.135-149
    • /
    • 2020
  • 인공지능을 기반으로 한 다양한 연구들이 현대사회에 많은 변화를 불러일으키고 있다. 금융시장 역시 예외는 아니다. 로보어드바이저 개발이 활발하게 진행되고 있으며 전통적 방식의 단점을 보완하고 사람이 분석하기 어려운 부분을 대체하고 있다. 로보어드바이저는 인공지능 알고리즘으로 자동화된 투자 결정을 내려 다양한 자산배분 모형과 함께 활용되고 있다. 자산배분 모형 중 리스크패리티는 대표적인 위험 기반 자산배분 모형의 하나로 큰 자산을 운용하는 데 있어 안정성을 나타내고 현업에서 역시 널리 쓰이고 있다. 그리고 XGBoost 모형은 병렬화된 트리 부스팅 기법으로 제한된 메모리 환경에서도 수십억 가지의 예제로 확장이 가능할 뿐만 아니라 기존의 부스팅에 비해 학습속도가 매우 빨라 많은 분야에서 널리 활용되고 있다. 이에 본 연구에서 리스크패리티와 XGBoost를 장점을 결합한 모형을 제안하고자 한다. 기존에 널리 사용되는 최적화 자산배분 모형은 과거 데이터를 기반으로 투자 비중을 추정하기 때문에 과거와 실투자 기간 사이의 추정 오차가 발생하게 된다. 최적화 자산배분 모형은 추정 오차로 인해 포트폴리오 성과에서 악영향을 받게 된다. 본 연구는 XGBoost를 통해 실투자 기간의 변동성을 예측하여 최적화 자산배분 모형의 추정 오차를 줄여 모형의 안정성과 포트폴리오 성과를 개선하고자 한다. 본 연구에서 제시한 모형의 실증 검증을 위해 한국 주식시장의 10개 업종 지수 데이터를 활용하여 2003년부터 2019년까지 총 17년간 주가 자료를 활용하였으며 in-sample 1,000개, out-of-sample 20개씩 Moving-window 방식으로 예측 결과값을 누적하여 총 154회의 리밸런싱이 이루어진 백테스팅 결과를 도출하였다. 본 연구에서 제안한 자산배분 모형은 기계학습을 사용하지 않은 기존의 리스크패리티와 비교하였을 때 누적수익률 및 추정 오차에서 모두 개선된 성과를 보여주었다. 총 누적수익률은 45.748%로 리스크패리티 대비 약 5% 높은 결과를 보였고 추정오차 역시 10개 업종 중 9개에서 감소한 결과를 보였다. 실험 결과를 통해 최적화 자산배분 모형의 추정 오차를 감소시킴으로써 포트폴리오 성과를 개선하였다. 포트폴리오의 추정 오차를 줄이기 위해 모수 추정 방법에 관한 다양한 연구 사례들이 존재한다. 본 연구는 추정 오차를 줄이기 위한 새로운 추정방법으로 기계학습을 제시하여 최근 빠른 속도로 발전하는 금융시장에 맞는 진보된 인공지능형 자산배분 모형을 제시한 점에서 의의가 있다.

비정형 정보와 CNN 기법을 활용한 이진 분류 모델의 고객 행태 예측: 전자상거래 사례를 중심으로 (Customer Behavior Prediction of Binary Classification Model Using Unstructured Information and Convolution Neural Network: The Case of Online Storefront)

  • 김승수;김종우
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.221-241
    • /
    • 2018
  • 최근 딥러닝 기술이 주목을 받고 있다. 대중들의 관심을 받았던 국제 이미지 인식 기술 대회(ILSVR)와 알파고(AlphaGo)에서 사용된 딥러닝 기술이 바로 합성곱 신경망(CNN; Convolution Neural Network)이다. 합성곱 신경망은 입력 이미지를 작은 구역으로 나누어 부분적인 특징을 인식하고 이것을 결합하여 전체를 인식하는 특징을 가진다. 이러한 딥러닝 기술이 우리의 생활에 있어 많은 변화를 야기할 것이라는 기대를 주고 있지만 현재까지는 이미지 인식과 자연어 처리 등에 그 성과가 국한되어 있다. 비즈니스 문제에 대한 딥러닝 활용은 아직까지 초기 연구 단계로 향후 마케팅 응답 예측이나 허위 거래 식별, 부도 예측과 같은 전통적 비즈니스 문제들에 대해 보다 깊게 활용되고 그 성능이 입증된다면 딥러닝 기술의 활용 가치가 보다 더 주목받게 될 것으로 기대된다. 이러한 때 비교적 고객 식별이 용이하고 활용 가치가 높은 빅데이터를 보유하고 있는 전자상거래 기업의 사례를 바탕으로 하여 딥러닝 기술의 비즈니스 문제 해결 가능성을 진단해보는 것은 학술적으로 매우 의미 있는 시도라 할 수 있겠다. 이에 본 연구에서는 전자상거래 기업의 고객 행태 예측력을 높이기 위한 방안으로 합성곱 신경망을 활용한 '이종 정보 결합(Heterogeneous Information Integration)의 CNN 모델'을 제시한다. 이는 정형과 비정형 정보를 결합하여 다층 퍼셉트론 구조의 합성곱 신경망에서 학습시키는 모델로서 최적의 성능을 발휘하도록 '이종 정보 결합'과 '비정형 정보의 벡터 전환', 그리고 '다층 퍼셉트론 설계'로 하는 3개의 내부 아키텍처를 정의하고 각 아키텍처 단위로 구성되는 방식에 따른 성능을 평가하여 그 결과를 바탕으로 제안 모델을 확정하고 그 성능을 평가해보고자 한다. 고객 행태 예측을 위한 목표 변수는 전자상거래 기업에서 중요하게 관리하고 있는 재구매 고객, 이탈 고객, 고빈도 구매 고객, 고빈도 반품 고객, 고단가 구매 고객, 고할인 구매 고객 등 모두 6개의 이진 분류 문제로 정의한다. 제안한 모델의 유용성을 검증하기 위해서 국내 특정 전자상거래 기업의 실제 데이터를 활용하여 실험을 수행하였다. 실험 결과 정형과 비정형 정보를 결합하여 CNN을 활용한 제안 모델이 NBC(Naïve Bayes classification)과 SVM(Support vector machine), 그리고 ANN(Artificial neural network)에 비해서 예측 정확도와 F1 Measure가 높게 평가되었다. 또 NBC, SVM, ANN에서 정형 정보만을 사용할 때 보다 정형과 비정형 정보를 결합하여 입력 변수로 함께 활용한 경우에 예측 정확도가 향상되는 것으로 나타났다. 따라서 실험 결과로부터 비정형 정보의 활용이 고객 행태 예측의 정확도 향상에 기여한다는 점과 CNN 기법의 특징 추출 알고리즘이 VOC에 사용된 단어들의 분포와 위치 정보를 해석하여 문장의 의미를 파악하는데 효과적이라는 점을 실증적으로 확인하였다는데 그 의미가 있다고 할 수 있겠다. 이를 통해서 CNN 기법이 지금까지 소개된 이미지 인식이나 자연어 처리 분야 외에 비즈니스 문제 해결에도 활용 가치가 높다는 점을 확인하였다는데 이 연구의 의의가 있다 하겠다.

만성폐질환자의 폐기능손상 및 장애 평가에 있어서 호흡곤란정도의 유용성 (The Usefulness of Dyspnea Rating in Evaluation for Pulmonary Impairment/Disability in Patients with Chronic Pulmonary Disease)

  • 박재민;이준구;김영삼;장윤수;안강현;조현명;김세규;장준;김성규;이원영
    • Tuberculosis and Respiratory Diseases
    • /
    • 제46권2호
    • /
    • pp.204-214
    • /
    • 1999
  • 연구배경: 만성폐질환자가 일상생활에서 느끼는 호흡곤란정도, 안정상태에서 시행된 폐기능검사 및 심폐운동검사사이에 어떤 관계가 있는지, 안정시 폐기능검사와 심폐운동검사가 호흡곤란의 정도를 잘 반영하는지 등을 연구하고자 만성폐질환자에서 기초호흡곤란지수, 안정시 폐기능검사 및 심폐운동능력을 조사하여 다음과 같은 결과를 얻었다. 연구방법: 최근 2개월내에 악화되지 않은 만성폐질환자 50명을, 기존의 안정시 폐기능검사 및 증상 제한적 심폐운동검사결과를 이용하는 폐기능손상/장애 평가기준과 baseline dyspnea index의 초점점수에 따라 저자들이 임의로 정한 기준으로 비중증군과 중증군으로 분류후 각 군간의 안정시 폐기능검사, 심폐운동검사, 초점점수를 비교하였으며, 각 기준의 상호 민감도 및 특이도를 비교하였다. 연구결과: 안정시 폐기능검사치상 중증군에서 max WR(%), $VO_2$max, $VO_2$max(%) 및 초점 점수가 유의하게 낮았고(p<0.01), $VO_2$max으로 구분하였을 때는 중증군에서 안정시 폐기능검사치 중 $FEV_1$(%)만 유의하게 낮았다(p<0.05). Max WR, max WR(%) 및 초점 접수는 중증군에서 유의하게 낮았다(p<0.01) $VO_2$max(%)이 60% 미만인 경우를 중증군으로 하였을 때 $FEV_1$, $FEV_1$(%), MVV(%), max WR와 max WR(%), 초점 점수 등이 중증군에서 유의하게 낮았다(p<0.05). 초점 점수의 중위수 혹은 5점보다 낮은 경우를 중증군으로 분류하였을 때, 중증군에서 안정시 폐기능치들은 비중증군과 차이가 없었으나(p>0.05), max WR와 max WR(%), $VO_2$max와 $VO_2$max(%)는 유의하게 낮았다(p<0.01). 초점점수와 $VO_2$max의 상관계수는 0.51(p<0.01), $VO_2$max(%)은 0.52(p<0.01)이었으며, 안정시 폐기능 검사치 중 $FEV_1$(%)은 0.41(p<0.01)였다. 초점 점수의 $VO_2$max에 대한 결정계수는 0.26(p=0.0002)였고, $VO_2$max(%)에 대한 결정계수는 0.06(p=0.0001)였다. $FEV_1$은 각각 0.08(p=0.01), 0.38(p=0.0189)였다. 안정시 폐기능검사치 $VO_2$max, $VO_2$max(%)를 기준으로 중증 폐기능손상을 구분하였을 때 선택기준에 따라 민감도와 특이도가 차이가 있었고, 초점 점수의 중위수 및 5점을 기준으로 중증 폐기능 손상을 분류했을 때의 민감도 및 특이도와 큰 차이가 없었다. 결 론: 이상과 같은 결과로 안정시 폐기능검사만으로는 $VO_2$max를 정확하게 예측하기 힘들며, 특별한 금기사항이 없는 한 안정시 폐기능검사상 정상 혹은 경미한 손상을 보이는 환자뿐만 아니라 중증손상을 보이는 환자에서도 심폐운동검사를 시행하여 폐기능 손상 평가의 정확도를 높이는 것이 좋을 것으로 여겨지며, 폐기능 손상평가의 기존 기준들에 호흡곤란정도를 반영할 수 있을 것으로 여겨진다.

  • PDF

약물용출 스텐트를 이용한 관상동맥중재술 후 재협착의 독립적 예측인자에 관한 연구 : MDCT calcium-scoring 시행 환자 대상으로 (The Study on the Independent Predictive Factor of Restenosis after Percutaneous Coronary Intervention used Drug-Eluting Stent : Case on MDCT Calcium-Scoring Implementation Patient)

  • 김인수;한재복;장성주;장영일
    • 대한방사선기술학회지:방사선기술과학
    • /
    • 제33권1호
    • /
    • pp.37-44
    • /
    • 2010
  • 본 연구에서는 약물용출성 스텐트 삽입 후 재협착에 관한 독립적 인자를 확인하고 MDCT로 측정된 calcium score가 재협착 발생의 예측인자로써 가능성을 알아보고자 하였다. 2006년 5월부터 2009년 5월까지 전남대학교병원에서 MDCT상 관상동맥 협착이 발견되어 약물 용출 스텐트를 삽입 받은 환자 1,131명 중 추적검사로 관상동맥조영술을 시행되었던 178명(남자 159명, 여자 19명, 평균 연령 61.7, 연령분포 51~71세), 190개소 병변을 대상으로 하였으며 재협착 여부에 따라 두 군(비협착군 133병변, 재협착군 57병변)으로 나누어 비교 분석하였다. 그 결과 임상진단명은 진구성 심근경색이 비협착군 3예(2.3%), 재협착군 5예(8.8%)로 유의한 차이가 있었으며(p = 0.040), 급성 심근경색증, 불안정 협심증, 안정 협심증의 유병률은 차이가 없었다. 관상동맥 조영술 소견에서 병변 혈관의 위치는 재협착군에서 좌주간지 병변이 더 많았다(0.8% vs. 5.3%, p = 0.047). 스텐트 직경은 재협착군에서 유의하게 작았으며($3.3{\pm}0.4\;mm$ vs. $3.1{\pm}0.3\;mm$, p = 0.004), 스텐트 길이는 양군 간에 차이가 없었다. 관상동맥 조영술 상 혈관의 초기 협착 정도는 재협착군에서 더 심했으며($86.1{\pm}11.4%$ vs. $91.5{\pm}9.2%$, p = 0.001), 복잡 병변(B2/C형)은 양 군간에 차이가 없었다. 연령은 재협착군에서 더 높았고($60.2{\pm}9.9$세 vs. $65.8{\pm}9.0$세, p = 0.0001), 흡연력과 고지혈증은 비협착군에서(42.1% vs. 19.3%, p = 0.003, 23.3% vs. 8.8%, p = 0.019), 그리고 당뇨병은 재협착군에서 많았다(21.8% vs. 52.6%, p = 0.0001). 심초음파로 측정한 좌심실 구혈률은 양 군 간에 유의한 차이는 없었다. 전체 MDCT coronary artery calcium scoring는 비협착군 $371.2{\pm}500.8$, 재협착군 $389.3{\pm}458.3$로 차이가 없었고, 목표혈관과 좌주간지, 좌전하행지, 좌회선지 및 우관상동맥 각각의 calcium score 역시 양군 간 차이가 없었다. 다 변량 로지스틱 회귀분석에서 좌주간지 병변(OR = 168.0, 95% CI = 7.83-3,604.3, p = 0.001), 남성(OR = 36.5, 95% CI = 5.89-2,226.9, p = 0.0001), 당뇨병의 존재(OR = 2.62, 95% CI = 1.071~6.450, p = 0.035)가 약물용출성 스텐트 삽입 후 재협착 발생에 대한 독립적인 예측인자이었다. 따라서 관상동맥 협착에 대해 약물용출 스텐트를 삽입 받은 환자에서 스텐트 내 재협착의 발생은 좌주간지 병변, 남성, 당뇨병의 존재와 관련이 있었으나, MDCT로 측정된 calcium score는 재협착 발생에 대한 독립적인 예측인자로써 기능은 없었다.

흉수분석에 의한 질병의 감별진단 (Differential Diagnosis By Analysis of Pleural Effusion)

  • 고원기;이준구;정재호;박무석;정낙영;김영삼;양동규;유내춘;안철민;김성규
    • Tuberculosis and Respiratory Diseases
    • /
    • 제51권6호
    • /
    • pp.559-569
    • /
    • 2001
  • 연구배경 : 흉수는 악성종양이나 결핵, 폐렴 등의 다양한 호흡기질환과 관계하여 흔하게 나타나는 임상양상이다. 그러나 그 원인의 감별진단에 도움이 되는 유용한 흉수의 생화학적 검사는 없는 상태이다. 그러므로 본 연구에서는 각 질환의 삼출액을 비교분석하여 각 질환을 감별 진단할 수 있는 생화학적 지표를 찾아보고 악성과 비악성을 감별 진단할 수 있는 생화학적 지표를 찾아보고자 하였다. 방 법 : 본 저자 등은 1998년 1월부터 1999년 8월까지 연세대학교 의과대학 세브란스병원 호흡기내과 외래 및 입원 환자 93명을 대상으로 흉수의 혈구감별 및 세포수, 단백, 당, 비중, 산도, LDH, cholesterol, protein, albumin, bilirubin, Mg, iron, amylase, ferritin, haptoglobin, ceruloplasmin, C3, C4, ADA, 그람 염색 및 및 세균배양, Z-N 염색 및 M. tuberculosis 배양을 하였으며 그 외 조직병리검사 및 세포병리검사를 시행하였다. 결 과 : 대상군의 남녀비는 각각 56 : 37명이었고 평균 연령은 $47.1{\pm}21.8$세 이었으며 진단은 악성 삼출액 16례, 부악성 삼출액 12례, 결핵성 삼출액 36례, 부폐렴성 심출액 22례, 여출액 7례이었다. 각 질환별로 비교하여 보았을 때 부폐렴성 흉수와 비교하여 유의하게 증가하는 생화학적 지표는 부악성 흉수에서 LDH2 분절이었고 각각의 LDH2 분절치는 $20.2{\pm}7.5%$$30.6{\pm}6.4%$이었으며 각 질환별로 상호 비교하여 보았을 때 결핵성 흉수와 비교하여 유의하게 증가하는 생화학적 지표는 부악성 흉수에서 LDH1 분절, LDH2 분절이었고 각각의 LDH1 분절치는 $7.6{\pm}4.7%$$16.4{\pm}7.2%$ 각각의 LDH2 분절치는 $17.6{\pm}6.3%$$30.6{\pm}6.4%$ 이었다. 각 질환별로 상호 비교하여 보았을 때 결핵성 흉수와 비교하여 유의하게 감소하는 생화학적 지표는 악성 흉수에서 흉수/혈청 LDH4 분절비이었고 각각의 흉수/혈청 LDH4 분절 비치는 $2.1{\pm}0.6$$1.5{\pm}0.8$이었다. 또한 각 질환별로 상호 비교하여 보았을 때 결핵성 흉수와 비교하여 유의하게 감소하는 생화학적 지표는 부악성 흉수는에서 LDH4 분절과 흉수/혈청 LDH4 분절비이었고 각각의 LDH4 분절치는 $23.5{\pm}4.6%$$17.0{\pm}5.8%$이었고 흉수/혈청 LDH4 분절비치는 각각 $2.1{\pm}0.6$$1.3{\pm}0.4$ 이었다. 결 론 : 각질환의 감별진단하는데 유용한 생화학적 지표는 LDH isoenzyme 이었고 이 중 부악성 삼출액과 결핵성 삼출액을 감별하는 흉막액/혈청 LDH4 분절비가 cut-off value 1.75에서 sensitivity 61.0% specificity 100% positive predictive value 91.2%로 가장 유용하였다.

  • PDF