• 제목/요약/키워드: Decision Tree Algorithm

검색결과 452건 처리시간 0.024초

데이터 마이닝을 이용한 고혈압환자의 당뇨질환 동반에 관한 데이터 질 관리 알고리즘 개발 (Developing data quality management algorithm for Hypertension Patients accompanied with Diabetes Mellitus By Data Mining)

  • 황규연;이은숙;김고원;홍성옥;박정선;곽미숙;이예진;임채혁;박태현;박종호;강성홍
    • 디지털융복합연구
    • /
    • 제14권7호
    • /
    • pp.309-319
    • /
    • 2016
  • 보건의료데이터의 질적 수준을 향상시키기 위해서는 데이터 질 관리 알고리즘을 개발할 필요성이 있다. 이에 본 연구에서는 질환의 유병률, 입원율이 높은 고혈압 환자의 당뇨질환 동반에 관련된 데이터 질 관리 알고리즘을 개발하고자 하였다. 이를 위해 2011년, 2012년 퇴원손상심층조사 자료 중 고혈압 환자 61,199건을 추출하여 분석대상으로 하였다. 데이터 마이닝의 대화식 의사결정나무 방법과 Outlier Detection 방법론을 통해 데이터 질 관리 알고리즘 개발한 결과 고혈압 환자가 당뇨병을 동반상병으로 가지는데 영향을 미치는 요인으로는 성별, 연령, 당뇨병성 사구체 장애, 당뇨병성 망막병증, 당병성 다발성 신경병증 등이 있었다. 의사결정나무 결과에 따라 당뇨병을 동반상병으로 가질 확률 값이 80% 이상이거나, 20% 이하인 집단을 Outlier(극단치)로 정의하고, 고혈압 환자의 당뇨 동반에 대한 극단치를 가지는 6개 집단을 발견하였다. 이와 같이 Outlier(극단치) 집단에 포함되는 실제 데이터를 확인하여 데이터의 질적 수준을 향상 시킬 필요가 있다.

의사결정나무 CART 알고리즘을 이용한 청소년 아침결식 예측 모형: 제7기 (2016-2018년) 국민건강영양조사 자료분석 (A prediction model for adolescents' skipping breakfast using the CART algorithm for decision trees: 7th (2016-2018) Korea National Health and Nutrition Examination Survey)

  • 최선아;정성석;노정옥
    • Journal of Nutrition and Health
    • /
    • 제56권3호
    • /
    • pp.300-314
    • /
    • 2023
  • 본 연구는 2016-2018년 국민건강영양조사 자료를 이용하여 청소년의 아침결식과 관련된 요인을 찾고 아침결식 예측모형을 분석하여 청소년의 아침결식 예방 교육 및 정책 수립에 기초 자료를 제공하고자 하였다. 2016-2018년 국민건강영양조사의 참여자는 총 24,269명으로 12-18세의 청소년 중 변수 결측자를 제외한 대상자는 1,024명이며, 이중 아침식사 섭취자 579명, 결식자 445명이었다. 남학생의 49.1%, 여학생의 50.9%가 아침결식자였다. 연령은 아침식사 결식군이 유의적으로 높으며, 결식군의 고등학생 비율이 높았다. 가구소득 4분위수는 아침식사 섭취군의 9.1%, 결식군의 15.4%가 '하'로 유의적인 차이를 보였다. 조사대상자의 신체적 요인은 유의적인 차이를 보이지 않았으나 체중감소를 위해 결식을 하는 경우는 아침식사 결식군의 25.3%, 섭취군의 10.4%로 유의적인 차이를 보였다. 조사대상자의 식습관과 정신건강에서 아침식사 결식군이 섭취군보다 1일 1회이상 외식횟수가 유의적으로 높았으며, 최근 1년간 1주 동안 5-7회 이상의 저녁식사 섭취빈도는 아침섭취군이 유의적으로 높았다. 또한, 아침식사 섭취군은 결식군보다 영양교육 경험이 유의적으로 높았으며, 아침식사 섭취군이 결식군보다 에너지, 단백질, 지방, 탄수화물, 식이섬유, 콜레스테롤, 비타민 A, 비타민 B1, 비타민 B2, 니아신, 비타민 C, 칼슘, 인, 나트륨, 칼륨, 철의 섭취율 및 탄수화물, 단백질, 지방의 섭취비율도 유의적으로 높았다. 아침결식 예측 모형을 도출하기 위해 CART 알고리즘을 사용한 의사결정나무 분석결과, 아침식사 섭취여부를 결정하는 주요인은 투입된 7개의 변수 중 교육수준과 영양교육 경험을 제외한 결식을 통한 체중조절, 가구소득 4분위수, 저녁식사 빈도, 연령, 외식 횟수였다. 체중조절을 위하여 결식을 하는 경우는 아침식사 결식군에서 높았다. 체중조절을 위하여 결식을 하지 않는 대상자는 가구소득 4분위수의 수준에서 소득이 '하', '중하'일 때 아침결식 비율이 높았다. 가구소득수준이 '상', '중상' 대상자의 경우는 저녁식사 빈도가 주 3-4회 이하인 경우 아침결식 비율이 높았다. 저녁식사 빈도가 주 5-7회이더라도 연령이 14.5세 초과인 경우 아침결식을 하고 있으며, 연령이 14.5세 미만인 대상자들은 외식횟수가 일 1회 이상인 경우, 주 6회 이하인 경우 아침결식을 하고 있었다. 따라서 아침결식을 감소시키기 위해서 청소년 대상의 각 그룹의 결식 주요인에 따라 올바른 체중조절 방법, 아침식사 배달, 건강정보에 대한 접근성 높이기, 아침결식과 질병과의 관련성 교육을 위한 토론수업 및 역할놀이 등과 같은 맞춤형 교육이 필요하며, 향후 청소년의 저녁식사 결식 감소 방안에 대한 연구가 추가적으로 진행되어야 하겠다.

정보 엔트로피에 의한 RC 교량 상판의 상태속성 및 등급 영향 구조 분석 (The State Attribute and Grade Influence Structure for the RC Bridge Deck Slabs by Information Entropy)

  • 황진하;박종회;안승수
    • 한국전산구조공학회논문집
    • /
    • 제23권1호
    • /
    • pp.61-71
    • /
    • 2010
  • 기 수행된 1, 2종 교량에 관한 정밀안전진단 등의 많은 사례를 분석해 보면, 실제로 많은 경우 외관상태가 교량의 대표등급 결정에 지배적인 요인이 되는 것을 볼 수 있다. 본 연구는 기 시행된 점검 및 진단 자료를 학습사례집합으로 인공지능 분야의 귀납적 학습법을 활용하여 철근 콘크리트 교량 바닥판의 상태평가를 지배하는 상태속성들의 교량등급에 대한 계층적 영향도와 구조적 연관성을 분석하였다. 이는 세부적으로 목표속성은 평가등급으로, 평가속성은 1방향균열, 2방향균열, 백태, 박락 및 층분리, 재료분리 등 7가지로 구성하고, 엔트로피 분석을 통해 주요 속성의 정보량, 정보기대값 및 정보 이득을 산정하고 범주별 상태 등급 분포를 분석하였다. 이를 위해 본 논문은 먼저 6개 교량에 대한 안전진단보고서를 토대로 상태등급 평가 과정에서 각 속성이 미치는 간접적 영향을 개관하고 정보공학적 분석의 동기를 부여하였다. 아울러 본 연구는 정보 변별력에 대한 순서로 평가를 지배하는 주 속성 및 조건별 하위 속성 연관성을 의사결정트리 형태로 나타내어 계층적 영향 및 속성간의 구조적 연관성을 보임으로써 손상에 대한 이해도를 높이고 차후 상태평가를 위한 합리적 접근을 지원할 수 있도록 하였다.

데이터마이닝을 활용한 소프트웨어 개발인력의 업무 지속수행의도 결정요인 분석 (A Study of Factors Associated with Software Developers Job Turnover)

  • 전인호;박선웅;박윤주
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.191-204
    • /
    • 2015
  • 국내 소프트웨어(SW) 개발인력의 미충원율은 매우 높으며, 특히 2년 이상의 현장경력이 있는 고급 개발자의 부족문제는 심각하다. 최근 정부도 이를 인식하고, 정책적으로 SW개발 신규인력 양성에 힘을 기울이고 있다. 그러나, 이러한 노력은 초급개발자의 수급문제를 해결하는데 효과적일 수 있지만, 업계에서 요구하는 고급 개발자의 부족현상을 해결하는 근본적인 대책으로 인식되지는 못하고 있다. SW 전문개발자를 양성하기 위해서는 초급개발자들이 지속적으로 직무를 수행하여 풍부한 업무경험을 갖춘 고급 개발자로 성장해야 하기 때문이다. 이에, 본 연구는 국내 SW업체에서 근무하고 있는 개발관련 인력들의 업무 지속수행 의도를 조사하고, 이에 영향을 주는 주요요인들을 분석하였다. 이를 위해, 2014년 9월부터 10월까지 국내 SW업체에 근무하고 있는 현직 개발자 총 130명을 대상으로 설문조사를 수행하였으며, 이를 기반으로 SW개발업무 지속수행의도 및 이에 영향을 주는 요인들을 개발자의 특성, 직무환경, 그리고 SW개발자에 대한 사회적 인식 및 산업전망 등의 측면에서 분석하였다. 분석에는 데이터마이닝 기법들 중에서, 분석과정에서의 설명능력이 있는 회귀분석과 의사결정나무가 사용되었다. 회귀분석 결과, SW개발자가 스스로 인식하는 근무 가능한 연령이 높을수록, 내성적인 성향을 가질수록, 또한 적성에 맞아서 직무를 선택한 경우, 지속적 직무 수행 의도가 높은 것으로 나타났다. 이와 더불어, 선형회귀분석에서는 유의하지 않았으나, 규칙기반의 의사결정나무 분석에서 파악된 추가적 요인으로, 새로운 기술에 대한 학습능력 및 SW산업에 대한 전망이 직무 지속수행의도에 영향을 미치는 것으로 나타났다. 이러한 연구결과는 기업의 인적자원관리 및 고급 SW인력 양성정책에 활용될 수 있을 것으로 생각되며, 궁극적으로 SW개발인력의 직무 지속성을 증진시키는 데 기여할 수 있을 것으로 기대된다.

데이터 분포를 고려한 연속 값 속성의 이산화 (Discretization of Continuous-Valued Attributes considering Data Distribution)

  • 이상훈;박정은;오경환
    • 한국지능시스템학회논문지
    • /
    • 제13권4호
    • /
    • pp.391-396
    • /
    • 2003
  • 본 논문에서는 특정 매개변수(parameter)의 입력 없이 속성(attribute)에 따른 목적속성(class)값의 분포를 고려하여 연속형(continuous) 속성 값을 범주형(categorical)의 형태로 변환시키는 새로운 방법을 제안하였다. 각각의 속성에 대해 목적속성의 분포를 1차원 공간에 사상(mapping)하고, 각 목적속성의 밀도, 다른 목적속성과의 중복 정도 등의 기준에 따라 구간을 군집화 한다. 이렇게 생성된 군집들은 각각 목적속성을 예측할 수 있는 확률적 수치에 기반한 것으로, 각 속성이 제공하는 정보의 손실을 최소화 하는 이산화 경계선을 갖고 있다. 제안된 데이터 이산화 방법의 향상된 성능은 C4.5 알고리즘과 UCI Machine Learning Data Repository 데이터를 사용하여 확인할 수 있다.

순환적 최적우선탐색을 이용한 배전계통의 정전복구 (Service Restoration In Distribution Networks Using Cyclic Best-First Search)

  • 최상열
    • 조명전기설비학회논문지
    • /
    • 제18권5호
    • /
    • pp.162-168
    • /
    • 2004
  • 정전복구 문제는 배전계통에서 고장이 발생한 겨우 사고 구간 이후의 비 고장 정전구간내의 부하를 적절한 스위칭을 통하여 인접된 건전피더로 빠른 시간 내에 절체 시키는 것이며 이때 방사상 선로구성, 전압, 전류 등의 제약조건들이 만족되어야 한다. 본 논문에서는 건전피더들이 고장 발생 직후 계통으로 공급하여야 할 부하의 총량을 규정하는 함수와 순환적 최적우선탐색을 이용하여 사고 발생 시 단지 정전의 복구뿐만 아니라 부하의 균등화까지도 함께 수행되는 효율적인 정전복구 알고리즘을 제시한다. 제시되는 알고리즘은 건전피더들이 고장 발생 직후 계통으로 공급하여야 할 부하의 총량을 규정하는 함수로부터 각 피더들이 공급하여야 할 목표치를 제안하고 또한 지수의 목적 값을 만족하는 스위칭을 찾기 위하여 순환적 최적우선 탐색법을 이용한다. 본 논문에서는 제시한 알고리즘을 실제로 서울의 K지사에서 윤용하고 있는 108모선에 적용하여 결과를 도출 했으며 그 결과 제안된 알고리즘을 이용할 경우에 적은 탐색 횟수로 정전이 복구됨과 동시에 건전 선로간의 부하가 균등화되었음을 입증하였다.

휴대폰 카메라로 촬영한 악보 영상 인식을 위한 의사트리 알고리즘 (Decision-Tree Algorithm for Recognition of Music Score Images Obtained by Mobile Phone Camera)

  • 박건희;오성열;손화정;유재명;김수형;이귀상
    • 한국콘텐츠학회논문지
    • /
    • 제8권6호
    • /
    • pp.16-25
    • /
    • 2008
  • 현대 사회에서 빼놓을 수 없는 기기인 휴대폰 카메라를 통하여 획득한 악보를 인식함으로써 누구나 손쉽게 전문적인 악보에 대한 지식이 없어도 악보를 연주할 수 있는 시스템을 제안한다. 본 실험은 휴대폰 카메라를 이용하여 촬영한 악보 영상을 전처리과정을 통하여 분리된 심볼들을 인식한 후 미디를 구성한다. 본 논문에서는 실험을 위하여 휴대폰 카메라로 촬영한 임의의 악보 영상 11종을 사용하였다. 전처리 과정을 거친 심볼을 대상으로 제안한 방법을 통하여 인식한 결과 평균 98%의 높은 인식률을 보였다. 본 시스템을 휴대폰에 포팅하여 수행시간을 측정한 결과, 영상의 입력 후 미디 생성까지 걸리는 시간이 평균 8.63초가 소요됨을 알 수 있었다.

상대 복잡도를 이용한 네트워크 연결기반의 탐지척도 선정 (Selection of Detection Measures using Relative Entropy based on Network Connections)

  • 문길종;김용민;김동국;노봉남
    • 정보처리학회논문지C
    • /
    • 제12C권7호
    • /
    • pp.1007-1014
    • /
    • 2005
  • 최근 네트워크가 발전함에 따라 네트워크의 취약점을 이용한 침입과 공격이 많이 발생하고 있다. 네트워크에서 공격과 침입을 탐지하기 위해 규칙을 만들거나 패턴을 생성하는 것은 매우 어렵다. 대부분 전문가의 경험에 의해서 만들어지고, 많은 인력, 비용, 시간을 소비하고 있다. 본 논문에서는 전문가의 경험 없이 네트워크의 공격 행위를 효과적으로 탐지하기 위해서 네트워크 연결기반의 정보를 이용한 척도선정 기법과 탐지기법을 제안한다. 정상과 각 공격의 네트워크 연결 데이터를 추출하고, 상대 복잡도를 이용하여 복잡도의 임계값 설정함으로써 공격 탐지에 유용한 척도를 선정한다. 그리고 선정된 척도를 바탕으로 확률패턴을 생성하고 우도비 검증을 이용해 공격을 탐지한다. 이 탐지방법으로 임계값 조절에 따라 탐지율과 오탐율을 조절할 수 있었다. KDD CUP 99 데이터를 이용하여 공격행위를 분석, 분류하고, 결정트리 알고리즘의 규칙기반 탐지 결과와 비교함으로써 본 논문에서 제시한 기법이 유용함을 확인하였다.

모바일 디바이스에서 상황인식 컴퓨팅을 위한 사용자 활동 상태 추정 (Estimation of User Activity States for Context-Aware Computing in Mobile Devices)

  • 백종훈;윤병주
    • 대한전자공학회논문지SP
    • /
    • 제43권1호
    • /
    • pp.67-74
    • /
    • 2006
  • 모바일 단말 환경에서 상황인식 컴퓨팅 기술은 유비쿼터스 컴퓨팅의 핵심기술 중 하나이다. 상황인식 컴퓨팅은 사용자의 일상생활 활동에 능동적으로 반응하는 컴퓨터 응용들을 실현 가능하게 한다. 본 논문에서는 물체나 인간의 물리적인 활동 상태를 감지할 수 있는 가속도센서를 사용하여 모바일 디바이스에 적용한다. 인간의 활동 상태를 추정하기위한 방법은 평균, 표준 편차, 왜도와 같은 다양한 통계치를 분류를 위한 특징으로 활용하는 것이 몇몇 간단한 통계치만을 의존하는 기존의 방법들 보다 더 효과적일 것이다. 분류 알고리듬은 제한된 리소스를 가진 모바일 디바이스를 고려하여 기존의 신경망 대신 간단한 결정 트리를 이용하고자 한다. 유비쿼터스 컴퓨팅과 모바일 응용들을 위한 우리의 상황 검출 시스템의 실험은 기존의 방법들 보다 성능이 향상되었으며 그 결과를 제시한다.

차대차 교통사고에 대한 상해 심각도 예측 연구 (A Study on Injury Severity Prediction for Car-to-Car Traffic Accidents)

  • 고창완;김현민;정영선;김재희
    • 한국ITS학회 논문지
    • /
    • 제19권4호
    • /
    • pp.13-29
    • /
    • 2020
  • 자동차는 우리의 일상에 필수재가 된 지 오래지만 자동차 교통사고로 인한 사회적 비용이 국가 예산의 9%를 넘을 정도로 심각하여 이에 대한 국가적인 예방 및 대응 체계 구축이 매우 필요한 실정이다. 이에 본 연구에서는 빅데이터 분석 기법을 활용하여 차대차 교통사고의 상해 심각도를 정확히 예측할 수 있는 모형을 제시하고자 하였다. 이를 위해 과거 3년간의 전국교통사고 발생 데이터를 토대로, K-최근접 이웃, 로지스틱 회귀분석, 나이브베이즈, 의사결정나무, 앙상블 알고리즘을 적용하여 각 모델의 상해 심각도 분류의 성능을 비교 분석하였다. 특히 이 과정에서 각 상해 심각도 수준 간의 데이터 수에 차이가 있음에 주목하여 표본수가 많은 그룹에 대해서는 과소표본추출을 시행하는 등의 방법을 통해 분류 예측의 정확도를 높일 수 있었고, 분산 분석을 통해 모델의 유의성을 검증하였다.