• 제목/요약/키워드: 의사결정나무 분석

검색결과 409건 처리시간 0.03초

데이터마이닝을 이용한 표준정책 수요 중소기업의 프로파일링 연구: R&D 동기와 사업화 지원 정책을 중심으로 (An Empirical Study of Profiling Model for the SMEs with High Demand for Standards Using Data Mining)

  • 전승표;정재웅;최산
    • 기술혁신학회지
    • /
    • 제19권3호
    • /
    • pp.511-544
    • /
    • 2016
  • 표준은 호환성 증진, 품질확보 및 안정성 증진, 정보제공 등의 긍정적인 기능과 함께 기술혁신을 유발하는 것으로 알려져 있다. 표준의 순기능이 어떤 특정 기업 집단의 기술혁신 활동이나 사업화에 영향을 주는지 밝히는 것은 표준관련 정책을 수요 집단에 맞춰 적절하게 기획하고 집행하는 것을 가능하게 한다. 따라서 본 연구는 표준 정책 수립과 집행에서 증거기반 정책이라는 측면에서 기여하고자 중소기업 중에서 연구개발 동기가 표준 대응인 기업과 기술사업화를 위해서 표준제도 도입이 필요한 기업을 프로파일링하여, 이런 특정 기업을 판별할 수 있는 예측모형을 개발하고자 한다. 이를 위해, 본 연구는 의사결정나무 분석을 통해 표준 대응을 위해 연구개발을 하는 중소기업과 기술사업화를 위해 표준 규격이나 기술인증 정책을 필요로 하는 중소기업의 특징을 데이터마이닝을 통해 프로파일링 했다. 또한 판별분석을 활용하여 프로파일링된 두 가지 조건의 기업군을 몇 가지 변수로 판별할 수 있는 예측모형을 제시하였으며 판별식의 활용 가능성도 통계적으로 확인했다. 연구결과에 따르면 표준 및 규제 대응을 위해 연구개발을 수행하는 기업은 R&D기획 소요기간, 표준산업분류, 종업원 수, 기술의 신규성 등의 변수에서 차이가 있는 것으로 나타났다. 기술사업화를 위한 표준정책지원 수요기업의 프로파일링 결과에 따르면 표준산업분류, 주거래처, 연구개발 소요기간, 시험검사 능력 등의 변수에서 차이가 있었다. 본 연구에서 프로파일링 결과와 판별분석을 통해 제시한 모형은 향후 표준관련 정책을 기획하거나 집행할 때 표준지원을 필요로 하는 기업에 대한 객관적인 정보를 제공하여 표준관련 사업 성공률을 제고하는데 기여할 것으로 기대된다.

퇴원손상심층조사 자료를 이용한 의료기관 중증도 보정 사망비 비교 (Comparison of Hospital Standardized Mortality Ratio Using National Hospital Discharge Injury Data)

  • 박종호;김유미;김성수;김원중;강성홍
    • 한국산학기술학회논문지
    • /
    • 제13권4호
    • /
    • pp.1739-1750
    • /
    • 2012
  • 본 연구는 의료서비스의 결과지표인 의료기관 중증도 보정 사망비(HSMR)를 산출하고, 비교하여 행정자료를 이용한 의료서비스 결과를 평가할 수 있는 방안을 마련하고자 수행되었다. 이를 위해서 질병관리본부의 2007-2008년의 퇴원손상환자 63,664건의 자료를 분석하였다. 중증도 보정모형 개발을 위해 데이터마이닝을 이용한 의사결정나무와 로지스틱 회귀분석을 실시하였으며, 최종 모형으로 선정된 로지스틱 회귀분석에는 성별, 재원일수, Elixhauser 상병지수, 입원경로, 주상병 변수가 포함되었다. 퇴원시 사망에 영향을 끼치는 이러한 변수를 보정 후 병원간의 중증도 보정 사망비(HSMR)를 비교한 결과 병원간의 중증도 보정 사망비(HSMR)는 차이가 있는 것으로 나타남에 따라 병원의 의료서비스 수준 차이가 있는 것이 확인되었다(HSMR 범위: 55.6-201.6). 본 연구를 통하여 병원간의 퇴원시 사망률을 비교할 수 있는 방법이 개발되었으므로 향후에 이를 이용하여 다양한 의료의 질 향상 활동을 할 수 있는 방안을 마련하여야 할 것이다.

신병 주특기교육 성취집단 예측모형 개발 (Development of newly recruited privates on-the-job Training Achievements Group Classification Model)

  • 곽기효;서용무
    • 한국국방경영분석학회지
    • /
    • 제33권2호
    • /
    • pp.101-113
    • /
    • 2007
  • 국방부에서 발표한 '국방개혁에 관한 법률'에 따라 2014년까지 현역병들에 대한 복무기간이 단계적으로 단축될 예정이다. 이에 따라 육군에서는 좀 더 효율적인 직무교육 방안의 일환으로 훈련병들에게 '차등제 교육'을 시행하고 있다. 이러한 차등제 교육의 효과를 향상시키기 위해서는 훈련병들의 예상 학업 성취도를 미리 예측하여 성취집단별로 차별화 된 교육과정을 거치게 하는 것이 매우 중요하다. 따라서 본 연구에서는 입교초기에 얻을 수 있는 신병들의 제한된 자료들만을 이용하여 그들의 예상 교육 성취집단을 예측하는 모형을 개발하였다. 본 모형의 목적 변수는 '성취집단'이며 '일반관리 인원' 및 '집중관리 인원'의 두 가지 값을 갖는다. 사용된 기법은 인공신경망(Neural Network) 모형, 의사결정나무(Decision Tree) 모형, SVM 모형, 그리고 Naive Bayesian모형 등 4가지 순수 모형과, 각각의 순수 모형을 k-means군집기법과 혼합한 4가지의 혼합모형 등 총 8개의 모형의 성능을 비교 분석하였다. 실험 결과 k-means군집기법과 인공신경망 기법을 혼합한 모형이 가장 좋은 예측력을 보이는 것으로 나타났다. 이러한 교육 성취집단 예측 모형은 향후 군에서 이루어지는 다양한 교육 프로그램에 효과적으로 이용될 수 있을 것으로 기대된다.

통계적 검정과 데이터마이닝기법의 융합을 통한 민간요법 인식 요인 탐색조사 (Research of recognition factors of folk medicine using statistical testing and data mining)

  • 유진아;최경호;조정근
    • 디지털융복합연구
    • /
    • 제13권2호
    • /
    • pp.393-399
    • /
    • 2015
  • 오늘날은 가히 웰빙과 LOHAS 시대를 넘어 힐링시대라 할 만큼 모두들 스스로의 치료(self therapy)에 관심이 많다. 이에 따라 민간요법과 관련된 분야의 활발한 산업화 그리고 질병치료가 아닌 건강증진 등에 대한 관심이 증대되면서 다양한 분야에서 대체의학이나 대체요법에 대한 연구가 수행되고 있다. 이렇듯 민간요법을 통한 건강증진 및 인간의 자연치유력에 대한 관심이 증대되고 있는 시점에서, 민간요법에 대한 인식을 구성하는 요인들을 탐색해 보는 것은 매우 의미 있는 일이다. 이에 본 연구에서는 선행연구를 토대로 인식 속성 관련 설문문항을 개발하여 요인분석 등을 이용하여 민간요법을 구성하는 요인에 대해 탐색해 보고, 인구통계학적인 특성들에 따라 인식 속성에 어떠한 차이가 있는지를 통계적 검정해 보았다. 그 결과 24개로 구성된 민간요법 관련 측정 변수들은 4개의 요인, 즉, 건강증진요인, 안전요인, 심리요인 그리고 대안요인 등으로 분류되었다. 그리고 전체적으로 30세 이하의 젊은 층보다는 40~60대의 중장년층 그리고 학력이 높을수록 민간요법에 대한 사용경험이 높으며, 성별로는 큰 차이가 없음을 알 수 있었다.

당뇨 환자의 관리행태에 대한 군집 분류 (Group Classification on Management Behavior of Diabetic Mellitus)

  • 강성홍;최순호
    • 한국산학기술학회논문지
    • /
    • 제12권2호
    • /
    • pp.765-774
    • /
    • 2011
  • 본 연구는 효율적인 당뇨관리사업을 할 수 있는 기초자료를 제공하기 위해 수행되었다. 연구를 위해 2007년, 2008년도 국민건강영양조사를 통해 검진에 참여한 당뇨인지환자 666명의 자료를 수집하여 분석하였다. 당뇨인지 환자의 관리행태에 대한 군집분류는 K-means 기법을 이용하였고 관리행태에 대한 요인분석은 의사결정나무와 다중로지스틱 회귀분석을 이용하였다. 당뇨인지환자의 군집은 크게 3개로 분류되었다. 건강행태사업 대상군은 당뇨 치료와 합병증 검사는 잘 받고 있으나 음주, 흡연, 운동실천 등 건강행태 개선이 보다 적극적으로 이루어져야 하는 집단이다, 중점관리사업 대상군은 치료를 제대로 받지 않고, 합병증검사도 하지 않으며 혈당관리를 위한 건강행태 개선도 적극적으로 하지 않는 집단이다, 합병증검사사업 대상군은 치료를 잘 받고 있으며 건강행태도 개선하고 있지만 급만성 합병증을 조기 발견하기 위한 합병증검사를 소흘히 하는 집단이다. 군집을 분류하는데 가장 중요한 요인은 고지혈증 유무로 나타났으며 그 외 성, 소득, 연령, 직업, 주관적 건강상태도 주요한 변수였다. 당뇨 조절율을 향상시키기 위해서는 각 군집의 특성에 따라 보다 특화된 당뇨관리 프로그램이 적용되어야 할 것이다.

효과적 이모션마이닝을 위한 속성선택 방법에 관한 연구 (Exploring Feature Selection Methods for Effective Emotion Mining)

  • 어균선;이건창
    • 디지털융복합연구
    • /
    • 제17권3호
    • /
    • pp.107-117
    • /
    • 2019
  • 블로그, 소셜 미디어 등의 발달로 인해 점점 더 많은 사람들이 본인의 의견이나 감정을 표현하기 위해 온라인상에서 텍스트 문장을 작성한다. 그리고 이같은 온라인 텍스트 문장속에 숨겨져 있는 긍정 또는 부정등의 감성을 찾아내는 연구분야를 감성분석 이라고 한다. 그중에서도 이모션 마이닝은 사람들의 구체적인 이모션을 찾아내는데 초점을 맞춘 연구분야이다. 본 연구에서는 속성선택 방법과 단일 및 앙상블 분류기를 조합하여 효과적인 이모션 마이닝 예측모델을 제시하고자 한다. 이를 위해 두가지 대표적인 오픈 데이터인 Tweet와 SemEval2007 데이터를 이용하여 TF-IDF를 계산하고 백 오브 워즈(BOW: bag-of-words) 형태로 속성 셋을 구성하였다. 그리고 효과적인 이모션 마이닝이 될 수 있는 최적의 속성을 선택하기 위하여 상관관계 기반 속성선택(CFS), 정보획득 속성선택 (IG), 그리고 ReliefF 등 세가지 속성선택 방법을 적용하였다. 선택된 속성을 이용하여 아홉가지 분류기 모델로 이모션 마이닝의 정확도를 비교하였다. 실험 결과, Tweet 데이터는 의사결정나무(DT)가 CFS, IG, ReliefF에 의한 속성을 이용할 경우 정확도가 상승했고, 랜덤서브스페이스(RS)는 CFS, IG에 선택된 속성을 사용할 경우 정확도가 상승했다. SemEval2007 데이터는 ReliefF에 의해 선택된 속성으로 로지스틱 회귀분석(LR)을 적용하였을 때 정확도가 상승했고, 나이브 베이지안 네트워크(NBN)은 CFS, IG에 의한 속성을 사용할 경우 정확도가 상승하였다.

장기요양 필요 발생의 고위험 대상자 발굴을 위한 예측모형 개발 (Development of prediction model identifying high-risk older persons in need of long-term care)

  • 송미경;박영우;한은정
    • 응용통계연구
    • /
    • 제35권4호
    • /
    • pp.457-468
    • /
    • 2022
  • 고령인구가 증가함에 따라 국가차원에서 노인의 건강노화 실현을 위한 장기요양 필요 발생의 예방 방안을 마련하는 것은 매우 중요하며, 정책적 효과를 극대화하기 위해서는 적절한 대상자의 선정이 선행되어야 한다. 이에 본 연구는 국민건강보험공단의 국민건강정보를 활용하여, 장기요양 필요를 야기하는 기능장애 발생 가능성이 높은 대상자를 발굴하기 위한 예측모형을 개발하고자 한다. 본 연구는 연구대상자의 과거 수집된 자료를 활용하는 후향적 연구로, 본 연구의 연구대상자는 만 65세 이상 의료보장등록인구이다(총 7,724,101명). 예측모형 개발을 위해 고유 방법인 로지스틱 회귀모형, 머신러닝 방법인 의사결정나무와 랜덤포레스트, 딥러닝 방법인 다층퍼셉트론 신경망을 분석하였다. 체계적 분석절차를 통해 각 분석방법별 모형을 적합하였고, 내적 타당성 및 외적 타당성 평가 결과를 기반으로 최종 예측모형을 랜덤포레스트로 선정하였다. 랜덤포레스트는 모집단에서의 4.50%밖에 되지 않는 장기요양 필요 대상자의 약 90%를 장기요양 필요 발생 고위험 대상자로 예측할 수 있다. 본 연구의 예측모형 및 고위험군 기준은 노인의 욕구 중심에서 예방 서비스가 필요한 대상자를 선제적으로 발굴하는데 기여할 것으로 기대된다.

SVM과 meta-learning algorithm을 이용한 고지혈증 유병 예측모형 개발과 활용 (Development and application of prediction model of hyperlipidemia using SVM and meta-learning algorithm)

  • 이슬기;신택수
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.111-124
    • /
    • 2018
  • 본 연구는 만성질환 중의 하나인 고지혈증 유병을 예측하는 분류모형을 개발하고자 한다. 이를 위해 SVM과 meta-learning 알고리즘을 이용하여 성과를 비교하였다. 또한 각 알고리즘에서 성과를 향상시키기 위해 변수선정 방법을 통해 유의한 변수만을 선정하여 투입하여 분석하였고 이 결과 역시 각각 성과를 비교하였다. 본 연구목적을 달성하기 위해 한국의료패널 2012년 자료를 이용하였고, 변수 선정을 위해 세 가지 방법을 사용하였다. 먼저 단계적 회귀분석(stepwise regression)을 실시하였다. 둘째, 의사결정나무(decision tree) 알고리즘을 사용하였다. 마지막으로 유전자 알고리즘을 사용하여 변수를 선정하였다. 한편, 이렇게 선정된 변수를 기준으로 SVM, meta-learning 알고리즘 등을 이용하여 고지혈증 환자분류 예측모형을 비교하였고, TP rate, precision 등을 사용하여 분류 성과를 비교분석하였다. 이에 대한 분석결과는 다음과 같다. 첫째, 모든 변수를 투입하여 분류한 결과 SVM의 정확도는 88.4%, 인공신경망의 정확도는 86.7%로 SVM의 정확도가 좀 더 높았다. 둘째, stepwise를 통해 선정된 변수만을 투입하여 분류한 결과 전체 변수를 투입하였을 때보다 각각 정확도가 약간 높았다. 셋째, 의사결정나무에 의해 선정된 변수 3개만을 투입하였을 때 인공신경망의 정확도가 SVM보다 높았다. 유전자 알고리즘을 통해 선정된 변수를 투입하여 분류한 결과 SVM은 88.5%, 인공신경망은 87.9%의 분류 정확도를 보여 주었다. 마지막으로, 본 연구에서 제안하는 meta-learning 알고리즘인 스태킹(stacking)을 적용한 결과로서, SVM과 MLP의 예측결과를 메타 분류기인 SVM의 입력변수로 사용하여 예측한 결과, 고지혈증 분류 정확도가 meta-learning 알고리즘 중에서는 가장 높은 것으로 나타났다.

국외 상수도 원격검침 시스템(IBM, Oracle, Itron) 분석 (Analysis of Automatic Meter Reading Systems (IBM, Oracle, and Itron))

  • 주진철;김주환;이두진;최태호;김종규
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2017년도 학술발표회
    • /
    • pp.264-264
    • /
    • 2017
  • 국외의 상수도 원격검침 시스템 내 데이터 전송방식은 도시 규모, 계량기의 밀도, 전력공급 여부 및 통신망의 설치 여부 등을 종합적으로 고려하여 결정되었다. 대부분의 스마트워터미터 제조업체들은 계량기의 부호기가 공급하는 판독 내용(데이터)을 전송할 검침단말기와 근거리 통신망(neighborhood area network)을 연계하여 개발 및 판매하였으며, 자체 소유 통신 프로토콜을 사용하여 라디오 주파수(RF) 통신 기술을 사용하고 있다. 광역통신망(wide area network)의 경우, 노드(말단의 계량기 및 센서)들과 이에 연결된 통신망 들을 포함한 네트웍의 배열이나 구성이 스타(star), 메쉬(mesh), 버스(bus), 나무(tree) 등의 형태로 통신망이 구성되어 있으나, 스타와 메쉬형 통신망 구성형태가 가장 널리 활용되는 것으로 조사되었다. 시스템 통합운영관리 업체들인 IBM, Oracle, Itron 등은 용수 인프라 관리 또는 통합네트워크 솔루션 등의 통합 물관리 시스템(integrated water management system)을 개발하여 현장적용을 하고 있으며, 원격검침 시스템을 통해 고객들의 현재 소비량과 과거 누적 소비량, 누수 감지 서비스 및 실시간 요금 고지 등을 실시간으로 웹 포털과 앱을 통해 제공하고 있다. 또한, 일부 제조업체들은 도시 용수공급/소비 관리자가 주민의 용수사용량을 모니터링하여 일평균 용수사용량 및 사용 경향을 파악하고, 누수를 검지하여 복구 및 용수 사용 지속가능성 지수를 제시하고, 실시간으로 주민의 용수사용량 관련 데이터를 모니터링하여 용수공급의 최적화를 위한 의사결정지원 서비스를 용수공급자에게 제공하고 있다. 최근에는 인공지능을 활용해 가정용수의 용도별(세탁용수, 화장실용수, 샤워용수, 식기세척용수 등) 사용량 곡선을 패터닝하여 profiling 기법을 도입해, 스마트워터미터에서 용수사용량이 통합되어 검지될 시 용수사용량의 세부 용도별 re-profiling 기법을 도입하여 가정용수내 과소비되는 지점을 도출 후 절감을 유도하는 기술이 개발 중이다. 또한, 미래 용수 사용량 예측을 위해 다양한 시계열 자료를 분석하는 선형 종속 모형(자기회귀모형, 자기회귀이동평균모형, 자기회귀적분이동평균모형 등)과 비선형 종속 모형(Fuzzy Logic, Neural Network, Genetic Algorithm 등)을 활용한 예측기능이 구축되어 상호 비교하여 최적의 용수사용량 예측 도구를 제공되고 있다.

  • PDF

의사결정나무분석에 의한 스포츠 레저활동 심정지군과 자발순환 회복군의 비교 (Comparison of cardiac arrests from sport & leisure activities with patients returning of spontaneous circulation using Answer Tree analysis)

  • 박상규;엄태환
    • 한국응급구조학회지
    • /
    • 제15권3호
    • /
    • pp.57-70
    • /
    • 2011
  • Purpose : The purpose of this study was to reveal some factors of ROSC & survival for cardiac arrests from sport & leisure activities(CASLs). Methods : A retrospective study of the 1,341 out of hospital cardiac arrests(OHCAs) treated by EMS in Gyeonggi Provincial Fire and Disaster Headquarters from January to December in 2008 was conducted. The primary end-point was admission to emergency room. To clarify the factors through comparison of CASLs(n=58) with ROSCs & survivals(n=58), Answer Tree analysis for data mining with the CHAID algorithm was performed and alpha was set at .05. Mean, median, and percentile of time intervals, distances, and age on the 58 CASLs, 75 ROSCs, and 27 survivals(patients admitted to emergency room) were analysed. Results : Fourteen CASLs(24.1%), 41 ROSCs(54.7%), 16 survivals(59.3%) were treated with CPR within 5 min., and only 2 CASLs(3.4%), 11 ROSCs(14.7%), 10 survivals(37.0%) were treated with defilbrillation within 10 min. from arrest. If time recording from arrest to defilbrillation, the patients were classified 81.0%($X^2=9.83$, p=.005) into ROSCs & survivals. And the patients with no history, 100.0%($X^2=5.44$, p=.020). The other patients with no intention, 87.5%($X^2=7.00$, p=.024). Whereas the other patients with intention, treated with CPR after 4 min. from arrest were classified 67.2%($X^2=3.99$, p=.046) into CASLs. Conclusion : CPR within 4 minutes was the most important factor that discriminates between CASLs and ROSCs & survivals to record cardiac arrests-defilbrillation time. CPR within 4 min. from arrest, no history, and no intention were factors for improved ROSC & survival.