• 제목/요약/키워드: 회귀트리

검색결과 81건 처리시간 0.024초

정규화 지속시간 회귀트리를 기반으로 한 음운지속시가 모델화 (A Modelling of segmental Duration based on Regression Tree of the Normalized Duration)

  • 정지혜
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.278-281
    • /
    • 1998
  • 본 논문에서는 자연음성으로부터 통계적인 방법으로 일반적인 음성합성 규칙을 생성하기 위해, 남녀 각각 1명이 200문장에 대해 발성한 문음성 데이터를 음운 세그먼트, 음운 라벨링, 음운별 품사 태깅, 문법 정보 태깅하여 음성 데이터베이스를 구축하였다. 이 음성 데이터베이스로부터 휴지지속시간을 분석하여 긴 휴지와 짧은 휴지로 분류하였고, 이러한 휴지가 어느 경우에 나타나는가를 조사하였다. 음운지속시간을 보다 정교하게 예측하기 위하여, 각 음운의 고유 지속시간의 영향을 배제시킨 정규화 지속시간에 대해 2가지 class(장, 단)의 휴지시간을 고려한 회귀트리로 음운지속시간을 모델화하였다. 제안된 모델의 평가 결과 예측치와 관측치 간의 다중 상관 계수는 남성은 0.82, 여성은 0.84 정도로 평가되었다.

  • PDF

위성원격탐사와 분류 및 회귀트리를 이용한 중랑천 유역의 불투수층 추정 (Impervious Surface Estimation of Jungnangcheon Basin Using Satellite Remote Sensing and Classification and Regression Tree)

  • 김수영;허준행;허준;김성훈
    • 대한토목학회논문집
    • /
    • 제28권6D호
    • /
    • pp.915-922
    • /
    • 2008
  • 불투수층은 자연적인 침투를 허용하지 않는 인위적인 토지피복상태로, 도시화율을 추정하거나 도시의 환경변화 정도를 분석하기 위한 척도로 사용되어 왔다. 수문학적인 관점에서 불투수층은 단기 유출현상에 큰 영향을 끼치는 요소로 급속한 도시화로 인해 불투수층의 영향이 더욱 커짐에 따라 불투수층의 추정에 대한 필요성이 증가하고 있다. 따라서 본 연구에서는 불투수층을 추정하기 위해 중랑천 유역을 대상지역으로 선정하고, $30m{\times}30m$ 공간해상도의 Landsat-7 ETM+ 영상과 $1m{\times}1m$의 고해상도 위성영상을 구축하였으며 tasselled cap 변환과 식생지수(NDVI) 변환을 수행하여 다양한 예측변수를 고려하였다. 수집된 학습자료에 분류 및 회귀트리를 적용하여 불투수층 추정모델을 구성하였고, 이를 지도화하여 중랑천 유역의 불투수층을 나타냈다.

데이터마이닝과 텍스트마이닝을 활용한 영화 흥행 예측 (Box Office Hit Prediction Using Data mining and Text mining)

  • 조효정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.316-318
    • /
    • 2021
  • 영화 수익에 있어 영화의 흥행 여부는 중요한 영향을 끼친다. 영화 흥행 요인은 영화 산업의 규모가 커지면서 많은 제작사들 및 투자자들이 고려해야 하는 사항이 되었다. 따라서 영화의 흥행을 예측하기 위한 많은 모델이 연구되었다. 본 연구의 목적은 선행연구에서 흥행에 유의미한 영향을 끼친다고 밝혀진 스크린 수, 감독명, 제작사명 등의 내재적인 속성과 더불어 온라인 구전 변수를 사용하여 영화 흥행 예측 모델을 만드는 것이다. 이때 기사 수, 블로그 수와 같이 온라인 구전의 크기를 나타내는 변수들을 사용하는 대신 개봉 후 첫 주간의 관람객 리뷰를 텍스트마이닝을 이용하여 전체 리뷰 중 긍정 리뷰의 비율에 따라 점수를 매긴 후 독립변수로 사용한다. 그 후, 데이터 마이닝 기법을 활용하여 만든 모델에 앞서 언급한 독립변수를 입력 값으로 사용하여 영화의 흥행을 예측한다. 최종적으로 의사결정트리와 로지스틱회귀를 수행한 결과 영화 흥행에 영향을 주는 독립변수를 찾고 모델의 성능을 평가하였다. 로지스틱회귀의 결과 관객 수, 평점이 영화의 흥행에 특히 유의한 영향을 끼치는 변수로 선정되었고 리뷰 역시 유의한 변수로 선정되었다. 이때 만들어진 모델은 약 90%의 높은 수준의 정확도를 보여주었다. 의사결정트리의 결과 관객 수가 가장 중요한 변수로 선정되었다.

머신러닝 기법을 이용한 대설피해 예측 및 적합성 검토 (Prediction of Snow Damage Using Machine Learning Technique)

  • 이형주;정건희
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.192-192
    • /
    • 2020
  • 취약성 분석의 결과로 폭설에 의한 기후노출은 현재에는 강원권이 가장 취약한 것으로 나타났다. 그러나 미래에는 강원권, 충청권, 호남권을 연결하는 축으로 취약지역이 확대될 것으로 전망된다. 본 연구에서는 다양한 머신러닝 기법을 이용하여 대설피해 예측을 실시하였다. 머신러닝 기법으로는 로지스틱회귀모형, 서포트벡터 머신, 의사결정트리 모형을 적용하였다. 종속변수로 대설피해액 자료를 이용하였고, 독립변수로 기상관측자료, 사회·경제적 요소를 사용하였다. 결과적으로 기존에 사용했던 다중회귀모형과 머신러닝 기법으로 예측한 예측력을 비교 및 분석하였고, 예측력이 가장 높은 머신러닝 기법을 제시하였다. 본 연구에서 대설피해 예측을 위해 사용된 예측력이 가장 높은 기법을 활용하여 대설피해를 예측한다면, 미래에 전국적으로 확대될 대설피해에 대해 효과적으로 대비할 수 있을 것으로 기대된다.

  • PDF

트리구조 기반 GP 연산자의 구현 및 다양성 분석 (Implementation and Diversity Analysis of Tree Structure based Genetic Operators in GP)

  • 방철혁;서기성
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2008년도 춘계학술대회 학술발표회 논문집
    • /
    • pp.294-298
    • /
    • 2008
  • 이메본 논문은 GP 트리의 노드포화도를 제어함으로써 트리의 구조공간에서 효율적인 개체 분포를 유도하는 GP 진화연산자를 제안한다. 특정 영역으로의 트리 개체의 분포가 성능에 미치는 영향을 검증하고 진화과정에서 나타나는 군집내의 개체 다양성과의 관계를 분석한다. 제안된 진화연산자를 회귀다항식, 멀티플렉서, 짝수 패리티의 3가지 벤치마크 문제에 대해서 실험을 하였고, 표준 GP 연산자와 비교하였다.

  • PDF

모델트리의 결측치 처리 방법에 따른 콜레스테롤수치 예측의 성능 변화 (Using Missing Values in the Model Tree to Change Performance for Predict Cholesterol Levels)

  • 정용규;원재강;신성철
    • 서비스연구
    • /
    • 제2권2호
    • /
    • pp.35-43
    • /
    • 2012
  • 데이터 마이닝은 특정분야에서만 관심을 갖는 분야가 아니라 현재 우리주변 여러 분야에서 많이 사용되고 응용되고 있다. 즉, 수많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 예측하여 추출해 내고 추후에 의사 결정에 이용하는 과정을 말한다. 하지만, 일부 데이터 집합에서는 매우 많은 결측치를 포함하는 변수들이 존재한다. 다시 말해서 다수의 레코드에서 측정치가 존재하지 않는 데이터 집합이 존재한다. 그래서 본 논문에서는 Cholesterol 값을 예측하기 위한 결측치 처리에 따른 모델트리 알고리즘을 적용하고, 실험을 통해서 각 처리방식에 대한 성능을 분석한다. 또는 이 결과를 통하여 결측치 대체방법에 대한 효율적인 적용사례를 제시한다.

  • PDF

형용사구에서의 관계추출 개선을 위한 의존구문트리의 최소공동조상 (LCA) 변경 (Altering LCA of dependency parse trees for improving relation extraction from adjective clauses)

  • 이대석;맹성현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.552-556
    • /
    • 2018
  • 본 논문에서는 텍스트에서 개체(entity) 간 관계(relation) 추출 문제에서 의존구문트리를 이용하여 자질을 추출할 때 형용사구 내에 관계가 나타나는 경우의 성능을 향상시키는 방법을 제안한다. 일률적으로 의존구문트리의 최소공동조상(LCA: Least Common Ancestor)을 이용하는 일반적인 방법보다 형용사구가 나타날 때는 형용사구의 술어를 대신 이용하는 것이 더 좋은 자질이 된다는 것을 제안하고 로지스틱 회귀분석, SVM(linear), SVM(exponential kernel)을 이용한 실험들을 통해 그 효과를 확인하였다. 이는 트리커널을 이용한 것과 같이 의존구문트리의 최소공동조상이 주요한 역할을 하는 관계추출 모델들의 성능을 높일 수 있음을 보여 준다. 수행한 실험 과정을 통해 관계추출 데이터 셋에서 형용사구 내 관계를 포함하는 문장이 전체에서 차지하는 비율이 낮을 경우 생길 수 있는 문제를 추가적으로 얻을 수 있었다.

  • PDF

확률적 이진 검색 트리 성능 추정 (Estimation of performance for random binary search trees)

  • 김숙영
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권2호
    • /
    • pp.203-210
    • /
    • 2001
  • 이진 트리 검색에 관한 관계 모형들을 추정하고 이론 가설들을 검정하기 위하여 중복되지 않는 자연수들을 자료로 하는 3개 이상 7개 이하의 노드를 가진 모든 가능한 이진 검색 트리 들을 생성하였다. 노드 개수 별로 높이 및 균형도 에 따른 이진 검색 트리 생성 확률들을 추정하였으며 노드 개수와 트리의 높이, 검색에 필요한 비교 횟수의 관계를 나타내는 회귀 모형이 구축되었고 이진 검색 트리의 O(1g(n)) 이론이 적합도 검정 절차에 의하여 실험적으로 채택되었다. 이진 검색 트리의 균형에 따른 검색 성능의 유의적 차이들을 통계적으로 증명하기 위하여 균형도에 따라 확률적으로 생성된 이진 검색 트리들을 세 그룹으로 그룹화하고 그룹간의 검색 비교 횟수를 분산 분석 모형에 의하여 비교 분석하였다.

  • PDF

대학 컴퓨터 실습 교양과목에서의 학업성취 요인에 대한 연구 (A Study on Factors of the Academic Achievement in Computer Training Courses as the Liberal Arts in University)

  • 김완섭
    • 정보교육학회논문지
    • /
    • 제17권4호
    • /
    • pp.433-447
    • /
    • 2013
  • 본 연구는 실습 중심의 컴퓨터 교양과목에서의 학생들의 학업성취에 영향을 미치는 요인을 발견하기 위한 것이다. 교과목 운영을 통한 교육성과 즉 학생들의 학업성취도를 향상시키기 위해서는 학업성취도에 영향을 미치는 요인들을 분석하고 그 결과를 교육에 반영하여 개선하는 순환 과정이 필요하다. 특히 컴퓨터 실습을 중심으로 하는 실용 교과목은 이론 중심의 과목들과 특성이 다르므로 그 요인에 대한 연구가 요구된다. 본 연구에서는 요인을 발견하기 위한 분석으로 로지스틱 회귀분석과 데이터마이닝 분야의 결정트리 분석을 수행하였다. 실험을 위한 데이터로는 서울소재 S대학의 교양필수과목에서 시행된 MOS 자격증 시험결과를 사용하였다. 로지스틱 회귀분석을 통해서는 담당교수, 수강인원, 수업시간, 그룹(강의기간) 순으로 중요성을 파악할 수 있었다. 데이터마이닝의 의사결정트리 분석을 통해서는 그 외에 학번, 재수강 여부, 강의실 환경의 추가 요인을 발견할 수 있었고, 특히 다양한 요인들이 학업성취에 복합적으로 영향을 미치는 것을 트리 모형을 통해 파악할 수 있었다. 분석 결과의 트리모형을 결과로 제시하였으며, 수식을 제안하여 여러개의 트리 모형으로부터 요인의 중요도를 수치화하여 제시하였다.

모델트리를 활용한 죽산보 단기조류예측에 관한 연구 (Study on the Prediction of short-term Algal Bloom in Juksan weir Using the Model Tree)

  • 이보미;이혜숙;정선아;주용은;김호준;최광순
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2018년도 학술발표회
    • /
    • pp.450-450
    • /
    • 2018
  • 최근 기후변화와 수온상승으로 인한 녹조발생이 빈번하게 나타나며, 녹조발생에 관한 관심은 꾸준히 증가하고 있는 추세이다. 본 연구는 효율적인 녹조관리를 위하여 모델트리를 활용하여 클로로필-a 단기조류예측 기법을 개발하였다. 대상지역으로 영산강수계의 죽산보를 선정하였으며, 2013년 1월부터 2016년 12월까지 나주 수질자동측정망의 일 단위자료와 동일기간 광주 기상청의 일별 기상자료를 이용하였다. 상관 분석을 통해 T-N, T-P, N/Pratio와 클로로필-a, 수온, 일사량, 강수량을 독립변수로, 단기(t+1일, t+3일, t+5일, t+7일) 클로로필-a를 종속변수로 선정하여 단기조류예측기법을 개발하였다. 수집한 자료의 데이터세트는 격일 간격으로 Training, Testing 기간으로 구분하여 적용한 결과, 상관계수는 1일 예측 시, Training 기간에 0.89, Testing 기간에 0.91, 3일 예측 시, Training 기간에 0.74, Testing 기간에 0.68, 5일 예측 시, Training 기간에 0.70, Testing 기간에 0.66, 7일 예측 시, Training 기간에 0.63, Testing 기간에 0.62로 나타났다. RMSE(Root Mean Square Error)는 1일 예측 시, Training 기간에 13.96, Testing 기간에 12.22, 3일 예측 시, Training 기간에 20.03, Testing 기간에 22.14, 5일 예측 시, Training 기간에 21.32, Testing 기간에 22.57, 7일 예측 시, Training 기간에 23.52, Testing 기간에 23.45로 나타났다. 예측주기에 따라 모델트리와 회귀식에서 활용한 독립변수는 1일 예측 시, 모델트리는 N/Pratio, 클로로필-a, 회귀식은 클로로필-a로 다르게 나타났다. 반면, 3일, 5일, 7일 예측 시, 모델트리와 회귀식에 활용된 변수는 같게 나타났다. 클로로필-a, 수온, 일사량은 5일 예측 시 활용된 변수로, 3일 예측 시에는 기상항목인 강수량이, 7일 예측 시에는 수질항목인 T-N, N/Pratio가 추가되었다. 특히 1일 예측 시 일 때, 높은 예측정도와 활용된 변수의 수가 적게 나타나는 것을 확인하였으며, 예측기간이 길어질수록 예측의 정확성이 낮아지고, 활용된 변수의 수가 많아지는 것을 확인하였다. 향후 적정한 예측기간을 판단하고 예측가능성을 높이기 위해서는 지속적인 자료취득 및 개선이 필요하며, 이를 바탕으로 적절한 단기조류예측이 가능할 것으로 판단된다.

  • PDF