• 제목/요약/키워드: 의사결정나무 알고리즘

검색결과 106건 처리시간 0.023초

토지 보상비 추정 모델 개발 - 건설CALS데이터와 공공데이터 중심으로 (Development of Land Compensation Cost Estimation Model : The Use of the Construction CALS Data and Linked Open Data)

  • 이상규;김진욱;서명배
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.375-378
    • /
    • 2020
  • 본 연구는 토지 보상비의 추정 모델 개발을 위해서 건설 CALS (Continuous Acquisition & Life-cycle Support) 시스템의 내부데이터와 개별공시지가 및 표준지 공시지가 등의 외부데이터, 그리고 개발된 추정 모델의 고도화를 위한 개별공시가 데이터를 기반으로 생성된 데이터를 활용하였다. 이렇게 수집된 3가지 유형의 데이터를 분석하기 위해서 기존 선형 모델 또는 의사결정나무 (Tree) 기반의 모델상 과적합 오류를 제거할 경우 매우 유용한 알고리즘으로 Decision Tree 기반의 Xgboost 알고리즘을 데이터 분석 방법론으로 토지 보상비 추정 모델 개발에 활용하였다. Xgboost 알고리즘의 고도화를 위해 하이퍼파라미터 튜닝을 적용한 결과, 실제 보상비와 개발된 보상비 추정 모델의 MAPE(Mean Absolute Percentage Error) 범위는 19.5%로 확인하였다.

  • PDF

ID3 알고리즘 기반의 귀납적 추론을 활용한 인터넷 기업 비즈니스 모델의 성공과 실패에 영향을 미치는 요인에 관한 연구 (Factors affecting success and failure of Internet company business model using inductive learning based on ID3 algorithm)

  • 진동수
    • 한국정보통신학회논문지
    • /
    • 제23권2호
    • /
    • pp.111-116
    • /
    • 2019
  • 웹에서, 모바일, 스마트에서 시작하여 사물인터넷, 빅데이터, 인공지능과 같은 형태의 새로운 기술들은 이전에 존재하지 않았던 새로운 비즈니스 모델을 가능하게 하고 있고, 이와 같은 비즈니스 모델에 기반한 다양한 형태의 인터넷 기업들이 출현하고 있다. 본 연구에서는 이와 같은 인터넷 기업들의 성공과 실패에 비즈니스 모델의 어떠한 요소가 영향을 미쳐왔는지를 중다사례 연구로 분석하고자 한다. 이를 위하여 비즈니스 모델에 대한 최근 연구들을 고찰하고, 인터넷 기업의 성공에 영향을 미치는 변수를 네트워크 효과 발생, 사용자 인터페이스, 제공 이해관계자와의 협력, 사용자에 대한 가치창출, 수익모델의 확보의 다섯 가지로 도출하고자 한다. 도출한 다섯 가지 변수를 사용하여, 상업화가 활발한 일곱 가지 카테고리에서 성공하고 실패한 인터넷 기업 14개를 선정하여 사례분석을 실시하고자 한다. 분석결과에 대하여 ID3 알고리즘에 기반을 둔 귀납적 추론을 적용하여 의사결정 나무를 도출하고, 도출한 의사결정 나무를 기반으로 성공과 실패에 영향을 미치는 규칙을 도출하고자 한다. 이와 같이 도출된 규칙을 가지고, 인터넷 기업들이 성공하기 위하여 필요한 전략적 방향을 이해관계자에게 제시하고자 한다.

중학생을 위한 의사결정나무 알고리즘 교육을 제공하는 메타버스 기반 게임 콘텐츠 개발 (Development of a Game Content Based on Metaverse Providing Decision Tree Algorithm Education for Middle School Students)

  • 현수빈;김유진;박찬정
    • 한국콘텐츠학회논문지
    • /
    • 제22권4호
    • /
    • pp.106-117
    • /
    • 2022
  • 2021년에는 고등학교 교육과정에서 인공지능기초 과목이 도입되었다. 과거 교육에 ICT 접목 시 발생했던 원리 보다 활용 중심 교육의 문제가 인공지능 교육의 도입에도 되풀이될까 우려하는 의견이 다수 존재한다. 기존의 인공지능 교육 플랫폼은 대부분 인공지능의 활용에만 초점을 두고 있다. 중학생의 인공지능 교육을 위해 인공지능이 결과를 도출하는 과정에 관한 학습과 인공지능 알고리즘의 원리 학습에 어려움이 있다. 최근 메타버스의 교육적 적용이 화두가 되면서, 학생들의 몰입감과 흥미를 유발해 학습성취도 향상에 도움을 주려는 연구들이 시작되었다. 본 연구는 중학교 인공지능 교육에서 활용될 수 있는 교육 콘텐츠로 메타버스를 활용한 의사결정나무 알고리즘에 관한 교육 게임 콘텐츠를 개발하였다. 게임을 교육에 접목함으로써 학생들의 인공지능에 대해 흥미와 몰입감을 높이고 교육 효과를 높이고자 하였다. 본 연구에서는 개발한 게임 콘텐츠에 관하여 예비 교원들을 대상으로 교육 효과성, 난이도, 흥미 정도를 조사·분석하였고, 이를 바탕으로 향후 원리 중심의 인공지능 교육 방법에 관하여 제언하였다.

미국 인구통계 데이터를 이용한 분산형 데이터마이닝 시스템 성능평가 (The evaluation of Distributed Data Mining System using USA census Database)

  • 김충곤;우정근;김성국;백성욱
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.191-194
    • /
    • 2007
  • 본 논문에서는 분산형 환경에 적합한 새로운 의사결정나무 알고리즘을 제안하고 그 실용성을 확인하기 위해 분산형 데이터마이닝 시스템을 구현하였다. 그리고 본 논문에서 구현한 시스템을 평가하기 위해 데이터의 신뢰성이 높은 방대한 양의 미국의 인구통계 데이터(Census bureau database)를 사용하였다. 본 논문에서 구현한 시스템을 이용하여 신뢰성을 테스트하였고 그 결과가 다른 시스템의 알고리즘과 유사한 신뢰성을 나타내었다.

  • PDF

데이터 마이닝을 이용한 고혈압환자의 당뇨질환 동반에 관한 데이터 질 관리 알고리즘 개발 (Developing data quality management algorithm for Hypertension Patients accompanied with Diabetes Mellitus By Data Mining)

  • 황규연;이은숙;김고원;홍성옥;박정선;곽미숙;이예진;임채혁;박태현;박종호;강성홍
    • 디지털융복합연구
    • /
    • 제14권7호
    • /
    • pp.309-319
    • /
    • 2016
  • 보건의료데이터의 질적 수준을 향상시키기 위해서는 데이터 질 관리 알고리즘을 개발할 필요성이 있다. 이에 본 연구에서는 질환의 유병률, 입원율이 높은 고혈압 환자의 당뇨질환 동반에 관련된 데이터 질 관리 알고리즘을 개발하고자 하였다. 이를 위해 2011년, 2012년 퇴원손상심층조사 자료 중 고혈압 환자 61,199건을 추출하여 분석대상으로 하였다. 데이터 마이닝의 대화식 의사결정나무 방법과 Outlier Detection 방법론을 통해 데이터 질 관리 알고리즘 개발한 결과 고혈압 환자가 당뇨병을 동반상병으로 가지는데 영향을 미치는 요인으로는 성별, 연령, 당뇨병성 사구체 장애, 당뇨병성 망막병증, 당병성 다발성 신경병증 등이 있었다. 의사결정나무 결과에 따라 당뇨병을 동반상병으로 가질 확률 값이 80% 이상이거나, 20% 이하인 집단을 Outlier(극단치)로 정의하고, 고혈압 환자의 당뇨 동반에 대한 극단치를 가지는 6개 집단을 발견하였다. 이와 같이 Outlier(극단치) 집단에 포함되는 실제 데이터를 확인하여 데이터의 질적 수준을 향상 시킬 필요가 있다.

국민건강영양조사를 활용한 대사증후군 유병 예측모형 개발을 위한 융복합 연구: 데이터마이닝을 활용하여 (Development of Prediction Model for Prevalence of Metabolic Syndrome Using Data Mining: Korea National Health and Nutrition Examination Study)

  • 김한결;최근호;임성원;이현실
    • 디지털융복합연구
    • /
    • 제14권2호
    • /
    • pp.325-332
    • /
    • 2016
  • 이 연구의 목적은 국민건강영양조사 2012년 자료 중 40세 이상 성인의 대사증후군 유병 여부를 예측에 영향을 미치는 변수를 확인하고 이를 예측하는 모형 개발하는데 있다. 선행연구를 통해 모델 생성에 필요한 투입변수를 선정하였다. 연구결과 투입변수 중 사회경제적 요인이 상위 순위에 해당하였으며, 건강행위 요인의 경우 하위 순위로 나타났다. 또한, 최종 예측모형은 의사결정나무 (Decision Tree)일 경우 90. 32%의 가장 높은 예측력을 나타내고 있었다. 이 연구의 결과는 다음과 같은 시사점을 나타낸다. 먼저, 대사증후군에 대한 예방 및 관리에 있어 건강행위에 대한 접근과 함께 사회경제적 요인에 대한 접근도 병행을 고려해야 한다. 또한, 의사결정나무 알고리즘의 경우 결과해석의 용이성이 있어 보건의료분야에서 많이 사용되며, 선행연구의 결과와 마찬가지로 높은 예측정확도를 나타내고 있다.

Decision Tree를 이용한 효과적인 유방암 진단 (Effective Diagnostic Method Of Breast Cancer Data Using Decision Tree)

  • 정용규;이승호;성호중
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권5호
    • /
    • pp.57-62
    • /
    • 2010
  • 최근 의료분야에서는 대규모의 데이터를 빠르게 검색 및 추출이 가능하게 의사결정트리 기법에 대한 연구들이 진행되고 있다. 현재 CART, C4.5, CHAID 등 여러 기법이 개발되었는데, 이러한 클레시파이 기법들은 몇몇 의사결정 나무 알고리즘이 이진분리로 분류를 하는데, 나머지 데이터의 결과가 손실될 우려가 있다. 그중 C4.5는 엔트로피의 측정값에 높고 낮음으로 트리 모양을 구성해 가는 방식이고, CART 알고리즘은 엔트로피 매트릭스를 사용하여 범주형 자료나 연속형 자료에 적용할수가 있다. 이에 본 논문에서는 클래시파이 기법 중 C4.5와 CART를 유방암 환자 데이터에 대해 적용하여 실험하여, 그 결과 분석을 통한 성능 평가를 수행하였다. 실험에서는 교차검증을 통해 그 결과에 대한 정확성을 측정하였다.

의사결정나무 모형을 이용한 주관적 음성장애 예측모형 (The Prediction Model for Self-Reported Voice Problem Using a Decision Tree Model)

  • 변해원
    • 한국산학기술학회논문지
    • /
    • 제14권7호
    • /
    • pp.3368-3373
    • /
    • 2013
  • 본 연구에서는 주관적 음성문제의 위험요인으로 구명된 주요 변수를 기반으로 주관적 음성장애를 예측할 수 있는 모형을 개발 하였다. 연구자료는 2008년도 국민건강영양조사이며, 이비인후검진을 완료한 전국의 19세 이상 지역사회 성인 3,600명(남 1,501명, 여 2,099명)을 분석대상으로 하였다. 분석방법은 주관적 음성장애 여부를 결과변수로 성, 연령, 흡연, 음주, 교육수준, 직업, 갑상선장애, 최근 2주간 급성 및 만성질환으로 인한 통증 및 불편감을 설명변수로 사용하였고, 예측모형은 의사결정나무 모형(Decision Tree)의 exhaustive CHAID(Chi Squared Automatic Interaction Detection) 알고리즘을 이용하였다. 주관적 음성 장애와 관련된 통계학적 분류 모형을 구축한 결과, 유의미한 예측 변수는 연령, 교육수준, 최장 직업, 갑상선 장애, 최근 2주 동안의 신체 불편 및 통증경험 여부였다. 이 연구의 모형을 기초로 음성장애 예방을 위해서 음성장애 고위험군에 대한 조기 관리의 필요성이 제기된다.

전문가의 형태소 분류를 활용한 과학 논증 자동 채점 (Automated Scoring of Scientific Argumentation Using Expert Morpheme Classification Approaches)

  • 이만형;유선아
    • 한국과학교육학회지
    • /
    • 제40권3호
    • /
    • pp.321-336
    • /
    • 2020
  • 본 연구는 실제 교실에서 이루어진 학생의 과학 논증과정을 기계학습을 활용한 자동 채점에 적용함으로써, 논증 자동 채점의 가능성 및 개선 방향을 탐색한다. 분자 구조에 대한 고등학생의 과학 논증수업 중 발생한 2,605개의 모든 발화를 대상으로 연구를 진행하였다. 지도 학습을 위해 5가지의 논증 요소로 발화를 분류하였고, 분류된 발화를 대상으로 텍스트 전처리를 수행하였다. 전처리된 학생 발화를 활용하여 서포트 벡터 머신, 의사결정나무, 랜덤 포레스트, 인공신경망의 기계 학습 방법으로 자동 채점 모델을 구성하였다. 불용어 처리가 되지 않은 학생 발화를 활용한 자동 채점의 결과 랜덤 포레스트의 정확도는 65.96%, kappa는 0.5298의 유미한 결과를 얻었다. 불용어 처리를 수행한 학생 발화를 활용한 새로운 채점 모델의 결과 채점의 정확도가 크게 변화하지 않음에도 논증 발화 중 과학 용어 및 논증 요소의 담화표지가 채점 모델의 분류 기준이 되는 결과를 얻었다. 또한 인간 전문가의 논증 채점 과정을 분석하여 얻어진 전문가 형태소를 자동 채점 모델에 생성 규칙 알고리즘으로 적용하였다. 그 결과 의사결정나무에서 반박에 대한 재현율(recall)이 21.74% 증가하였다. 이에 본 연구 결과는 과학 교육 연구에서 기계 학습 및 논증에 대한 자동 채점의 활용 가능성과 연구 방향성을 제안하였다.

스마트 팩토리를 위한 센서 데이터 분석과 제품 불량 개선 연구 (A Study on Sensor Data Analysis and Product Defect Improvement for Smart Factory)

  • 황세웅;김종혁;황보현우
    • 한국빅데이터학회지
    • /
    • 제3권1호
    • /
    • pp.95-103
    • /
    • 2018
  • ICT 기술의 발전에 따라 제조 산업은 공정 상에서 생성되는 제조 데이터를 분석하여 효율을 높이고자 많은 노력을 하고 있다. 본 논문에서는 스마트 공장의 일환으로 의사결정나무 알고리즘(CHAID)을 이용한 데이터 마이닝 기반 제조공정을 제안한다. 약 5개월간 수집된 실제 제조 공정의 432개 센서 데이터를 활용하여 불량률이 낮은 안정적인 공정 기간과 불량률이 높은 불안정한 공정 기간 간에 유의미한 차이를 보이는 변수를 찾아냈다. 선정된 최종 변수가 불량률 개선에 실제로 효과가 있는지를 측정하기 위해 해당 변수의 안정 값 범위를 설정하여 14일 간 공정에서 해당 센서가 안정 값의 범위를 벗어나지 않도록 공정 설정 값을 조절했고, 불량률 개선의 효과를 측정하였다. 이를 통해 제조 산업에서 생성되는 공정 센서 데이터를 활용 및 분석하여 불량률을 개선할 수 있는 실증적인 가이드라인을 제시할 수 있을 것으로 기대한다.