• 제목/요약/키워드: 의사결정나무회귀분석

검색결과 124건 처리시간 0.035초

머신러닝 기법을 활용한 아이돌 생존 가능성 예측 연구 : 산업 경쟁력 증진을 중심으로 (A Study on the Idol Survivability Prediction Using Machine Learning Techniques : Focused on the Industrial Competitiveness)

  • 김슬아;안주혁;최복권
    • 한국콘텐츠학회논문지
    • /
    • 제20권5호
    • /
    • pp.291-302
    • /
    • 2020
  • 아이돌이 주도하는 한국의 대중음악은 이제 전세계적인 팬덤을 확보하였다. 이로 인해, 아티스트를 넘어서 한국의 경제 상황에도 커다란 영향력을 행사하고 있다. 즉, 아이돌 그룹 하나가 크게 히트를 치면 조 단위의 외화를 벌어들일 수 있게 된 것이다. 따라서 아이돌 그룹을 성공시키고 이를 유지시키는 것이 상당히 중요한 과제로 떠올랐다. 본 연구에서는 소속사가 손익분기점으로 삼는 데뷔 후 3년차 및 평균적인 재계약 직후 시점인 8년차 아이돌의 생존여부를 인공신경망, 의사결정나무, 랜덤 포레스트를 활용하여 예측해보고자 한다. 그리고 생존에 있어 무엇이 중요한 요인인지를 나무 모델의 특성중요도 및 로지스틱 회귀분석을 활용하여 설명하였다. 그 결과, 데뷔 시점의 경쟁자 수, 최초 그룹의 구성원 수, 다루는 장르의 수 등의 요인이 유의하다는 결론을 얻을 수 있었다. 이를 통해, 최종적으로 아이돌 그룹을 보다 효율적으로 기획, 관리함으로써 산업 경쟁력을 증진할 수 있을 것으로 기대한다.

국외 상수도 원격검침 시스템(IBM, Oracle, Itron) 분석 (Analysis of Automatic Meter Reading Systems (IBM, Oracle, and Itron))

  • 주진철;김주환;이두진;최태호;김종규
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2017년도 학술발표회
    • /
    • pp.264-264
    • /
    • 2017
  • 국외의 상수도 원격검침 시스템 내 데이터 전송방식은 도시 규모, 계량기의 밀도, 전력공급 여부 및 통신망의 설치 여부 등을 종합적으로 고려하여 결정되었다. 대부분의 스마트워터미터 제조업체들은 계량기의 부호기가 공급하는 판독 내용(데이터)을 전송할 검침단말기와 근거리 통신망(neighborhood area network)을 연계하여 개발 및 판매하였으며, 자체 소유 통신 프로토콜을 사용하여 라디오 주파수(RF) 통신 기술을 사용하고 있다. 광역통신망(wide area network)의 경우, 노드(말단의 계량기 및 센서)들과 이에 연결된 통신망 들을 포함한 네트웍의 배열이나 구성이 스타(star), 메쉬(mesh), 버스(bus), 나무(tree) 등의 형태로 통신망이 구성되어 있으나, 스타와 메쉬형 통신망 구성형태가 가장 널리 활용되는 것으로 조사되었다. 시스템 통합운영관리 업체들인 IBM, Oracle, Itron 등은 용수 인프라 관리 또는 통합네트워크 솔루션 등의 통합 물관리 시스템(integrated water management system)을 개발하여 현장적용을 하고 있으며, 원격검침 시스템을 통해 고객들의 현재 소비량과 과거 누적 소비량, 누수 감지 서비스 및 실시간 요금 고지 등을 실시간으로 웹 포털과 앱을 통해 제공하고 있다. 또한, 일부 제조업체들은 도시 용수공급/소비 관리자가 주민의 용수사용량을 모니터링하여 일평균 용수사용량 및 사용 경향을 파악하고, 누수를 검지하여 복구 및 용수 사용 지속가능성 지수를 제시하고, 실시간으로 주민의 용수사용량 관련 데이터를 모니터링하여 용수공급의 최적화를 위한 의사결정지원 서비스를 용수공급자에게 제공하고 있다. 최근에는 인공지능을 활용해 가정용수의 용도별(세탁용수, 화장실용수, 샤워용수, 식기세척용수 등) 사용량 곡선을 패터닝하여 profiling 기법을 도입해, 스마트워터미터에서 용수사용량이 통합되어 검지될 시 용수사용량의 세부 용도별 re-profiling 기법을 도입하여 가정용수내 과소비되는 지점을 도출 후 절감을 유도하는 기술이 개발 중이다. 또한, 미래 용수 사용량 예측을 위해 다양한 시계열 자료를 분석하는 선형 종속 모형(자기회귀모형, 자기회귀이동평균모형, 자기회귀적분이동평균모형 등)과 비선형 종속 모형(Fuzzy Logic, Neural Network, Genetic Algorithm 등)을 활용한 예측기능이 구축되어 상호 비교하여 최적의 용수사용량 예측 도구를 제공되고 있다.

  • PDF

퇴원손상심층조사 자료를 기반으로 한 급성심근경색환자 재원일수의 중증도 보정 모형 개발 (Severity-Adjusted LOS Model of AMI patients based on the Korean National Hospital Discharge in-depth Injury Survey Data)

  • 김원중;김성수;김은주;강성홍
    • 한국산학기술학회논문지
    • /
    • 제14권10호
    • /
    • pp.4910-4918
    • /
    • 2013
  • 본 연구는 급성심근경색환자의 효율적인 재원일수 관리를 위해 재원일수에 대한 중증도 보정 모형을 개발하고자 하였다. 2004-2009년 퇴원손상심층조사 자료에서 주진단이 I21인 급성심근경색환자 6,074명을 추출하였으며, 모형 개발 시 데이터마이닝 기법(다중회귀분석, 의사결정나무, 신경망 기법)을 적용하였다. 개발된 모형들 중에서 의사결정나무 모형이 가장 우수한 모형으로 판정되어 이를 본 연구의 중증도 보정 모형으로 채택하였다. 급성심근경색 환자의 재원일수의 중증도 보정에 영향을 미치는 주요한 요인은 관상동맥우회술 시행유무, 퇴원 시 사망유무, 동반지수 등 이였으며, 병상규모와 의료기관 소재지 별로 중증도 보정 재원일수와 실제 재원일수에 차이가 있었다. 급성심근경색환자의 재원일수 변이를 줄이고 효율적으로 관리하기 위해서는 개발된 모형에 각 의료기관의 자료를 적용하여 중증도를 보정한 후, 차이가 나는 요인을 규명하여 이를 해결하는 활동이 수행되어야 할 것이다.

돌발홍수 예보를 위한 빅데이터 분석방법 (The big data method for flash flood warning)

  • 박다인;윤상후
    • 디지털융복합연구
    • /
    • 제15권11호
    • /
    • pp.245-250
    • /
    • 2017
  • 돌발홍수는 강우유출수가 하천으로 모여드는 유역이 좁은 지역에 집중호우로 인해 유입되는 물의 양이 급증하여 나타난다. 돌발홍수는 유속이 빠르고 홍수를 대비할 수 있는 시간이 부족하므로 인명과 재산상의 피해를 발생시킨다. 본 연구에서는 돌발홍수를 예보를 위한 빅데이터 분석방법을 수행하였다. 연구 자료는 2009년에서 2012년까지 국민안전처 국가재난정보센터에 보고된 38건의 홍수 피해 자료와 지표수문모형(TOPLATS)에 의해 생성된 수문기상정보인 강우량, 토양수분 상태, 지표유출량이다. 돌발홍수 발생 선행 6시간의 강우량, 토양수분 상태, 지표유출량 데이터를 요인분석을 통해 토양수분 상태, 장기요인에 의한 강우량과 지표유출량, 단기요인에 의한 강우량과 지표유출량으로 축소하였다. 빅데이터 분석 방법으로는 유형분석인 의사결정나무, 랜덤포레스트, 나이브베이즈, 서포트벡터머신, 로지스틱 회귀모형을 사용하였다. 돌발홍수 사고발생 자료가 38건으로 한정되어 있기 때문에 예측성능 정확도 판단이 중요하다. 예측성능 정확도 평가방법으로 kappa계수, TP Rate, FP Rate, F-Measure를 이용하였다. 이 외에 돌발홍수 발생 선행 시점별 재현성 평가와 과거 4년간 돌발홍수 경보 횟수를 통해 최적 유형분석 방법을 제시하였다. 연구결과 로지스틱회귀모형과 랜덤포레스트가 돌발홍수 예보를 위한 예측 성능이 가장 좋았다. 사고발생 자료가 2009년부터 2012년까지 38건으로 한정되어 있어 분석을 위한 훈련자료와 검증자료 구축에 한계가 있었다. 장기간의 자료가 수집된다면 더욱 정확한 빅데이터 분석을 수행할 수 있다.

개인정보보호법에 따른 가명처리로 인한 데이터 손실이 데이터 분석의 정확도에 미치는 영향 (Pseudonymization's effect on data quality: A study under personal information protection act)

  • 김민정;유재근
    • 응용통계연구
    • /
    • 제37권3호
    • /
    • pp.381-393
    • /
    • 2024
  • 이 연구는 개인정보의 가명처리와 이것이 데이터 분석의 정확도에 미치는 영향을 조사하였다. 로지스틱 회귀 모델, 의사결정나무 및 랜덤 포레스트를 사용하여 가명처리의 적용 정도와 가명처리된 데이터 분석의 정확도 간의 관계를 정량적으로 평가하였으며, 이를 통해 민감한 정보의 가명처리가 데이터 분석의 정확도를 크게 손상시키지 않으면서도 개인정보보호를 실현할 수 있음을 확인하였다. 그러나, 단일한 샘플 데이터, 일관된 가명처리 비율의 적용 등의 한계가 있음을 인지하였다. 이러한 한계를 극복하기 위해, 다양한 데이터에 대한 추가적인 연구를 통하여 결과의 일반성을 강화하는 것이 필요하다. 또한, 개별 변수에 대해 최적의 가명처리 비율을 찾는 방법론을 개발하고 적용해 볼 것을 제안한다. 이 연구 결과는 규제 준수와 개인정보 보호를 달성하면서도 데이터의 활용성을 유지하는 방법에 대한 새로운 통찰을 제공한다.

위계적 선형모형을 이용한 대졸 신규취업자 임금 결정요인 분석 (Determinants of employee's wage using hierarchical linear model)

  • 박성익;조장식
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권1호
    • /
    • pp.65-75
    • /
    • 2015
  • 본 논문에서는 전문대 및 4년제 대졸 신규취업자의 임금을 결정하는 요인을 분석하기 위해 개인수준의 인적특성 변수들과 업종수준의 특성변수들을 사용하였다. 본 논문은 개인수준의 임금이 개인수준의 인적특성 (1-수준)과 업종 수준의 산업특성 (2-수준)에 의해 영향을 받는 다층구조 (multi-level)를 가지게 된다는 점을 주목하였다. 이와 같이 위계적 자료 특성을 가지는 복수의 분석단위 구조가 되면, 전통적인 회귀분석에서와 같이 개인수준의 임금이 독립이라는 가정을 할 수 없게 된다. 따라서 본 논문에서는 개인수준의 임금에 영향을 미치는 다층구조의 특성을 가진 변수들의 영향력을 보다 타당하게 분석하기 위한 방법으로 위계선형모형 (HLM; hierarchical linear model)을 이용하였다. 주요 결과는 다음과 같다. 첫째, 개인수준과 업종수준 변수들 모두를 포함한 다중대응분석의 결과에 의하면, 개인수준의 임금이 서로 다른 그룹에 대응되는 개인 특성 변수값과 업종 특성 변수값이 그룹별로 서로 상이하여 개인특성 변수만이 아니라 업종특성 변수도 개인수준의 임금에 영향을 미치고 있다는 점이 발견되었다. 둘째, 개인수준과 업종수준 변수들 모두를 포함한 의사결정나무분석의 결과에 의하면, 개인수준의 임금에 가장 많은 영향을 미치는 변수가 업종별 임금이고, 그 다음으로는 업종별 근로시간, 연령, 성별 등의 순으로 나타났다. 이와 같이 개인수준의 임금을 결정하는 데 있어서 업종의 특성이 매우 중요한 것으로 나타났다는 점은 위계적 선형모형의 활용이 타당하다는 것을 시사하는 것이다. 셋째, 개인수준의 인적특성과 업종 수준의 산업특성 변수들을 모두 포함한 모형이 다른 모형들에 비해서 모형 적합도가 가장 개선되어 위계적 선형모형이 적합한 것으로 나타났다.

차대차 교통사고에 대한 상해 심각도 예측 연구 (A Study on Injury Severity Prediction for Car-to-Car Traffic Accidents)

  • 고창완;김현민;정영선;김재희
    • 한국ITS학회 논문지
    • /
    • 제19권4호
    • /
    • pp.13-29
    • /
    • 2020
  • 자동차는 우리의 일상에 필수재가 된 지 오래지만 자동차 교통사고로 인한 사회적 비용이 국가 예산의 9%를 넘을 정도로 심각하여 이에 대한 국가적인 예방 및 대응 체계 구축이 매우 필요한 실정이다. 이에 본 연구에서는 빅데이터 분석 기법을 활용하여 차대차 교통사고의 상해 심각도를 정확히 예측할 수 있는 모형을 제시하고자 하였다. 이를 위해 과거 3년간의 전국교통사고 발생 데이터를 토대로, K-최근접 이웃, 로지스틱 회귀분석, 나이브베이즈, 의사결정나무, 앙상블 알고리즘을 적용하여 각 모델의 상해 심각도 분류의 성능을 비교 분석하였다. 특히 이 과정에서 각 상해 심각도 수준 간의 데이터 수에 차이가 있음에 주목하여 표본수가 많은 그룹에 대해서는 과소표본추출을 시행하는 등의 방법을 통해 분류 예측의 정확도를 높일 수 있었고, 분산 분석을 통해 모델의 유의성을 검증하였다.

시뮬레이티드 어니일링 기반의 랜덤 포레스트를 이용한 기업부도예측 (Predicting Corporate Bankruptcy using Simulated Annealing-based Random Fores)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.155-170
    • /
    • 2018
  • 기업의 금융 부도를 예측하는 것은 전통적으로 비즈니스 분석에서 가장 중요한 예측문제 중 하나이다. 선행연구에서 예측모델은 통계 및 기계학습 기반의 기법을 적용하거나 결합하는 방식으로 제안되었다. 본 논문에서는 잘 알려진 최적화기법 중 하나인 시뮬레이티드 어니일링에 기반한 새로운 지능형 예측모델을 제안한다. 시뮬레이티드 어니일링은 유전자알고리즘과 유사한 최적화 성능을 가진 것으로 알려져 있다. 그럼에도 불구하고, 시뮬레이티드 어니일링을 사용한 비즈니스 의사결정 문제의 예측과 분류에 관한 연구가 거의 없었기 때문에, 비즈니스 분석에서의 유용성을 확인하는 것은 의미가 있다. 본 연구에서는 시뮬레이티드 어니일링과 기계학습의 결합 모델을 사용하여 부도예측모델의 입력 특징을 선정한다. 최적화 기법과 기계학습기법을 결합하는 대표적인 유형은 특징 선택, 특징 가중치 및 사례 선택이다. 이 연구에서는 선행연구에서 가장 많이 연구된 특징 선택을 위한 결합모델을 제안한다. 제안하는 모델의 우수성을 확인하기 위하여 본 연구에서는 한국 기업의 실제 재무데이터를 이용하여 그 결과를 분석한다. 분석결과는 제안된 모델의 예측 정확도가 단순한 모델의 예측 정확성보다 우수하다는 것을 보여준다. 특히 기존의 의사결정나무, 랜덤포레스트, 인공신경망, SVM 및 로지스틱 회귀분석에 비해 분류성능이 향상되었다.

비행교육과정 단계별 분석을 통한 조종적성검사 항목 타당성 연구 (A Study on Propriety of Pilot Aptitude Test Using Phased Analysis of Pilot Training)

  • 김희영;김수환;문호석
    • 한국지능시스템학회논문지
    • /
    • 제26권3호
    • /
    • pp.218-225
    • /
    • 2016
  • 첨단과학기술의 집합체로서 비약적으로 발전한 항공기 성능과 나날이 고도화되어 가고 있는 군 작전 환경을 고려해 볼 때 이상적인 조종적성을 가지고 있는 인원을 선발하는 문제는 매우 중요하다. 또한 무위로 돌아갈 수밖에 없는 중도 탈락자의 손실비용과 항공사고의 대부분이 인적요인에 의해 발생하고 있다는 사실은 조종적성검사를 통한 인원선발이 왜 중요한지에 대한 좀 더 현실적인 이유가 될 것이다. 이에 본 연구에서는 한국 공군이 2004년 개선하여 조종사 선발에 사용하고 있는 조종적성검사 항목의 타당성을 다양한 분류모형을 통하여 분석하고 선택된 변수에 대한 의미와 향후 발전방향에 대하여 논의하였다. 그리고 광의의 적성검사 항목에 속하는 개인특성변수를 투입하여 분류모형을 구성함으로써 예측력을 높이는 연구를 수행하였다.

데이터마이닝을 활용한 사랑의 형태에 따른 연인관계 몰입수준 및 관계 지속여부 예측 (Prediction of commitment and persistence in heterosexual involvements according to the styles of loving using a datamining technique)

  • 박윤주
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.69-85
    • /
    • 2016
  • 연인과의 성공적인 관계형성은 인생의 만족감을 결정짓는 핵심적인 요소 중 하나이다. 기존에 심리학 분야에서는 성공적인 연인관계에 영향을 미치는 요인들에 대한 다양한 연구가 수행되어 왔으나, 주로 통계적인 분석기법에 기반하고 있기 때문에 복잡한 비선형의 관계를 분석하고, 특징을 추출하는 데에는 한계가 있었다. 이에, 본 연구는, 기존의 통계적인 분석 기법과 더불어, 데이터마이닝의 의사결정나무 분석기법을 활용하여 사랑의 형태에 따른 연인관계의 몰입(commitment) 수준과 관계지속 여부를 분석하였다. 특히, 기존 연구에서 도출된 주요 변인들 이외에 사랑의 여섯 가지 형태인 에로스(eros), 루두스(ludus), 스트로게(storge), 매니아(mania), 프래그마(pragma) 그리고 아가페(agape)를 추가적으로 고려하여, 이들이 연인관계에서 서로에 대한 몰입수준 및 연인관계 지속여부에 어떠한 영향을 미치는지 분석하고, 예측하는 모형을 수립하였다. 본 연구에는 실제 남녀커플 105쌍, 총 210명에 대한 데이터가 활용되었다. 본 연구결과 연인관계 몰입수준 및 관계 지속여부의 영향요인으로, 기존에 심리학 분야에서 제시된 변수들 이외에, 에로스, 아가페, 프래그마 등이 유의한 영향을 미친다는 것을 확인하였다. 특히, 남성은 아가페적 사랑의 형태가 몰입에 중요한 영향을 미치는 반면, 여성은 에로스적 사랑의 형태가 더욱 중요한 영향을 미치는 것으로 나타났다. 또한, 연인관계 지속여부에는 남성의 나르시시즘, 만족, 투자 및 매니아적 성향이 영향을 주고 있는 것으로 나타난 반면, 여성의 경우, 여성이 남성을 매니아적으로 사랑하는 정도만이 영향을 주고 있어, 남성이 관계의 지속 또는 결별에 더욱 결정적인 영향을 미치고 있는 것을 알 수 있었다. 이러한 연구는 데이터마이닝의 적용분야를 심리학 영역으로 확장한 융합연구로, 연인관계에 대한 새로운 분석을 시도하였다는 점에서 의의가 있으며, 조화로운 연인관계를 형성하는데 실질적인 시사점을 제공할 수 있을 것으로 기대된다.