• 제목/요약/키워드: 랜덤효과모형

검색결과 73건 처리시간 0.025초

혼합모형에서 실험의 크기에 관한 연구 (Study on the size of experiments in mixed models)

  • 이연수;임용빈;김재주
    • 응용통계연구
    • /
    • 제12권2호
    • /
    • pp.593-603
    • /
    • 1999
  • 표본의 크기의 제1종오류의 확률 $\alpha$, 실용적으로 차이가 있다고 판독되어서 검출하고자하는 요인효과의 오차에 대한 상대적인 크기, 그 값에서의 제2종오류의 확률 $\beta$에 따라서 결정된다. 이 논문에서, 우리는 고정요인과 랜덤요인이 포함된 실험계획에서 표본의 크기를 결정하는 방법을 간단한 MATLAB 프로그램을 사용하여 고려한다. 분할법과 지분요인배치법의 예제를 들어 유의수준 $\alpha$와 최소 표준과 검출효과 $\Delta^*$에서 검정력이 적어도 $1-\beta$를 갖도록 표본의 크기를 결정한다

  • PDF

전통적인 통계와 기계학습 기반 중국 문화산업 기업의 재무적 곤경 예측모형 연구 (Research on Financial Distress Prediction Model of Chinese Cultural Industry Enterprises Based on Machine Learning and Traditional Statistical)

  • 원도;왕콘;란희;배기형
    • 한국콘텐츠학회논문지
    • /
    • 제22권2호
    • /
    • pp.545-558
    • /
    • 2022
  • 본 연구의 목적은 전통적인 통계과 기계학습(Machine Learning)을 통해 중국 문화산업 기업의 재무적 곤경을 정확하게 예측하는 분석 모형을 탐색하는 데 있다. 예측모형을 구축하기 위하여 중국 128개 문화산업상장 기업의 데이터를 수집하였다. 25개 설명변수로 이뤄진 데이터베이스를 토대로 판별분석과 로지스틱 회귀(Logistic) 등 전통적인 통계 방법과 서포트 벡터 기계(SVM), 결정 트리(Decision Tree)와 랜덤 포레스트(Random Forest) 등 기계학습을 이용한 예측모형을 구축하고 각 모형의 성능 평가를 위해 Python 소프트웨어를 사용한다. 분석 결과, 예측 성능이 가장 좋은 모형은 랜덤 포레스트(Random Forest) 모형으로 95%의 정확도를 보였다. 그 다음은 서포트 벡터 기계(SVM) 모형으로 93%의 정확도를 보였다. 그 다음은 결정 트리(Decision Tree) 모형으로 92%의 정확도를 보였다. 그 다음은 판정분석 모형으로 89%의 정확도를 보였다. 예측 효과가 가장 낮은 모형은 로지스틱 회귀(Logistic) 모형으로 88%의 정확도를 보였다. 이는 중국 문화산업 기업의 재무적 곤경을 예측하면서 기계학습 모형이 전통적인 통계 모형보다 더 좋은 예측 효과를 얻을 수 있음을 설명한다.

장기요양 필요 발생의 고위험 대상자 발굴을 위한 예측모형 개발 (Development of prediction model identifying high-risk older persons in need of long-term care)

  • 송미경;박영우;한은정
    • 응용통계연구
    • /
    • 제35권4호
    • /
    • pp.457-468
    • /
    • 2022
  • 고령인구가 증가함에 따라 국가차원에서 노인의 건강노화 실현을 위한 장기요양 필요 발생의 예방 방안을 마련하는 것은 매우 중요하며, 정책적 효과를 극대화하기 위해서는 적절한 대상자의 선정이 선행되어야 한다. 이에 본 연구는 국민건강보험공단의 국민건강정보를 활용하여, 장기요양 필요를 야기하는 기능장애 발생 가능성이 높은 대상자를 발굴하기 위한 예측모형을 개발하고자 한다. 본 연구는 연구대상자의 과거 수집된 자료를 활용하는 후향적 연구로, 본 연구의 연구대상자는 만 65세 이상 의료보장등록인구이다(총 7,724,101명). 예측모형 개발을 위해 고유 방법인 로지스틱 회귀모형, 머신러닝 방법인 의사결정나무와 랜덤포레스트, 딥러닝 방법인 다층퍼셉트론 신경망을 분석하였다. 체계적 분석절차를 통해 각 분석방법별 모형을 적합하였고, 내적 타당성 및 외적 타당성 평가 결과를 기반으로 최종 예측모형을 랜덤포레스트로 선정하였다. 랜덤포레스트는 모집단에서의 4.50%밖에 되지 않는 장기요양 필요 대상자의 약 90%를 장기요양 필요 발생 고위험 대상자로 예측할 수 있다. 본 연구의 예측모형 및 고위험군 기준은 노인의 욕구 중심에서 예방 서비스가 필요한 대상자를 선제적으로 발굴하는데 기여할 것으로 기대된다.

기상인자의 주기성 분석 및 일반화 선형모형을 이용한 강수영향분석: 2004KEOP의 한반도 남서지방 8개 지역 기상관측자료사용 (Analysis of Periodicity of Meteorological Measures and Their Effects on Precipitation Observed with Surface Meteorological Instruments at Eight Southwestern Areas, Korea during 2004KOEP)

  • 김혜중;염준근;이영섭;김영아;정효상;조천호
    • 응용통계연구
    • /
    • 제18권2호
    • /
    • pp.281-296
    • /
    • 2005
  • 본 연구에서는 2004년 기상청 집중관측기간(KEOP)에 수집된 지상관측자료를 사용하여 한반도 남서지방의 지역별(해남 외 7개 지역) 기상인자들의 주기성과 이들이 강수현상에 미치는 영향을 분석하였다. 이를 위하여 기술통계와 스펙트럴분석을 사용하여 주기성을 분석하고, 관측기간 및 지역별 랜덤효과를 반영할 수 있는 일반화 선형모형을 제시하여 강수현상에 미치는 기상인자들의 영향을 분석했다. 분석결과에 의하면 기상인자들과 강수현상은 연관성을 가지며 특정주기에 따라 변동하는 것으로 나타났으며, 기상인자들은 지역에 따라 상이한 패턴으로 강수현상에 영향을 미치는 것으로 나타났다.

통계적 기법을 이용한 악성 소프트웨어 분류 (Malware classification using statistical techniques)

  • 원성민;김현주;송종우
    • 응용통계연구
    • /
    • 제30권6호
    • /
    • pp.851-865
    • /
    • 2017
  • 최근 워너크라이라는 이름의 랜섬웨어가 전 세계적으로 큰 화두에 오르면서, 악성 소프트웨어로 인한 피해를 줄이기 위한 방법들이 재조명 되고 있다. 새로운 악성 소프트웨어가 발생했을 때 피해를 최소화하기 위해서는 해당 소프트웨어가 어떤 공격 유형을 가진 악성 소프트웨어인지 빠르게 분류할 필요가 있다. 본 연구 목적은 다양한 통계적 기법을 이용하여 악성 소프트웨어를 효과적으로 분류할 수 있는 모형을 구축하는 데 있다. 모형 적합 시 다항 로지스틱, 랜덤 포레스트, 그래디언트 부스팅, 서포트 벡터 기계 등의 기법들을 이용하였으며, 본 연구를 통해 악성 소프트웨어를 분류하는 데에 있어 중요한 역할을 하는 변수들이 존재한다는 사실을 발견하였다.

4 $\times$ 4 균형불완전블럭모형의 순위변환분석 (Rank transformation analysis for 4 $\times$ 4 balanced incomplete block design)

  • 최영훈
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권2호
    • /
    • pp.231-240
    • /
    • 2010
  • 4 $\times$ 4 균형불완전블럭모형에서 고정효과만이 존재하는 경우 주효과를 검정하기 위한 순위변환 통계량의 검정력은 적은 반복수에도 가장 높은 수준을 유지하며, 지수분포와 이중지수분포하에서는 모수적 통계량의 검정력보다 큰 격차의 상대적 우위를 보인다. 특히 전형적인 균형불완전블럭모형하에서 주인자는 고정이며 블럭인자는 랜덤인 경우의 순위변환 통계량의 검정력은 주효과의 효과크기 및 블럭효과의 모집단 분포와 모수크기에 상관없이 모든 상황에 걸쳐 현저하게 높은 우위성를 보인다. 또한 반복수가 증가함에따라 순위변환 통계량의 검정력은 빠른 속도로 증가한다. 전체적인 주효과의 순위변환 통계량의 검정력 우위는 하나의 주효과 및 블럭효과와 결측값이 존재하는 균형불완전블럭모형의 고유특성으로 말미암아 고정효과 및 표본의 작은 크기변화에 민감하게 반응하며 상대적 검정력 우위를 갖는다고 볼 수 있다.

랜덤 포레스트 기법을 이용한 한국 프로야구 승부 예측에 관한 연구 (A Study on Result Prediction of Korean professional baseball using Random Forest Method)

  • 이재익;이종혁;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.721-722
    • /
    • 2014
  • 야구는 흔히 기록의 스포츠라는 별명으로 많이 불린다. 그만큼 야구라는 운동이 갖는 기록의 종류는 무척 다양하고 또한 기록의 활용 가능성 역시 무궁무진하다. 이러한 별명에 걸맞게 미국에서는 야구에 대한 다양하고 방대한 정보를 수집하고 활용하고 있다. 그러나 한국 프로야구에 대한 정보의 수집과 활용은 아직까지 크게 부각되지 못하는 것이 현실이다. 랜덤 포레스트 기법을 이용하여 경기의 승부를 예측함으로써 한국 프로야구 데이터의 수집과 활용을 증대 시키는 효과를 기대 해 본다. 본 논문에서는 2014년 한국 프로야구의 승부 예측을 주제로 어떠한 누적 스포츠 데이터집단이 가장 유효한지를 실험 하였다. 승부 예측을 하기위해 사용된 누적 스포츠 데이터는 2014년 선수와 팀 기록, 2013부터 2014년까지의 선수와 팀 기록, 2012년부터 2014년까지의 선수와 팀 기록이다. 이들 세 그룹의 데이터를 이용하여 이분데이터 모형에 랜덤 포레스트 기법을 사용한 승부예측 알고리즘에 적용 시킨 후 어느 그룹의 데이터가 가장 실제 2014 한국 프로야구 정기결과와 맞을 확률이 높음을 구하여 가장 유용한 데이터 그룹이 어떤 그룹인지 연구 하였다.

17대 국회의 공동법안발의에 관한 네트워크 분석 (Cosponsorship networks in the 17th National Assembly of Republic of Korea)

  • 박찬무;장원철
    • 응용통계연구
    • /
    • 제30권3호
    • /
    • pp.403-415
    • /
    • 2017
  • 본 논문에서는 대한민국 17대 국회의 공동발의 네트워크에 대하여 연구한다. 대한민국 국회에서 발의되는 법안은 대표발의자를 포함하여 10명의 공동발의자의 동의가 있어야 그 효력이 유의하다. 따라서, 공동발의라는 개념을 이용하여 공동발의자들로 부터 대표발의자로 향하는 방향성 있는 네트워크를 구성할 수 있으며, 이 네트워크는 곧 국회 내의 국회의원들 간의 사회적 관계를 나타낸다고 볼 수 있다. 우리는 이 네트워크에 가중치가 있는 네트워크를 위한 지수 랜덤 그래프 모형을 적합하여 네트워크의 구성원리에 미치는 네트워크 구조적 성질의 영향과, 공변량의 효과에 대해서 알아보고자 한다. 분석 결과, 17대 국회의 공동발의 네트워크의 구성에 가장 큰 영향을 미치는 것은 같은 정당 효과였다. 상호 호혜성 역시 공동발의 네트워크 구성에 중요한 역할을 하였으며, 당선 횟수의 효과는 작지만 유의한 영향을 보였다.

주택매매가격 영향요인의 비선형적 효과 분석 (An Analysis of Non-linear Effects of Impact Factors on Housing Price)

  • 장영재
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2953-2966
    • /
    • 2018
  • 주택가격은 거시경제상황을 나타내는 다양한 변수들과 밀접한 관계를 지니고 있다. 다수의 선행연구에서는 경제상황 변화 하에서의 주택가격 행태나 여러 변수들과의 관계성에 초점을 맞추고 있다. 본 논문에서는 선행연구를 참고하되 데이터에 근거한 새로운 시각의 실증분석을 실시하고자 하였다. 주택가격에 미치는 잠재적 영향요인들 중 정책금리에 초점을 맞추고 금리충격에 대한 여타 주요 변수들의 비선형적 반응 행태를 분석하였다. 데이터마이닝 기법 중 하나인 랜덤 포레스트 알고리즘을 이용하여 선행연구에서 제시되었던 거시경제변수들의 변수 중요도 점수를 산출하였다. 이 과정을 통해 변수를 선택한 뒤, 비선형성을 포착할 수 있는 모형을 사용하여 충격반응을 산출하였다. 동 모형에 따르면 주택가격의 경우에 있어서 금리 인상 시에만 충격반응이 유의미하게 나타났다. 특히 기존 전통적 VAR(vector autoregression) 방법론에서 포착하지 못한 비선형적 특징에 기인하여 금리 인상 충격의 크기가 커질 경우 그 효과가 정률적으로만 증가하는 것이 아니라 그 이상 증폭될 수 있다는 분석 결과를 얻었다. 이러한 파급효과의 비선형성, 비대칭성은 정책 수단으로서의 금리를 보다 신중한 시각에서 접근해야 함을 의미한다고 하겠다.

혼합모형을 이용한 특성화고 졸업생의 임금결정요인 분석 (The wage determinants of the vocational high school graduates using mixed effects mode)

  • 류장수;조장식
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권4호
    • /
    • pp.935-946
    • /
    • 2016
  • 본 연구에서는 한국고용정보원에서 실시한 "2013 고졸자 취업진로조사" 자료를 활용하여 특성화고 졸업자의 임금결정요인을 분석하였다. 그런데 임금은 개인수준의 인적특성 (1-수준)과 취업지역 수준의 산업특성 (2-수준)에 의해 영향을 받는 다층구조를 가지게 된다. 이와 같이 다층구조 자료특성을 가지는 복수의 분석단위 구조가 되면, 전통적인 회귀분석과 같이 개인수준의 임금이 독립이라는 가정을 할 수 없게 된다. 따라서 개인수준의 임금에 영향을 미치는 다층구조의 특성을 가진 변수들의 영향력을 분석하기 위한 타당한 방법으로 위계적 선형모형을 이용하였다. 그리고 전통적인 회귀분석과 위계적 선형모형의 비교를 통하여 다음과 같은 주요 결과를 얻었다. 첫째, 다층구조를 갖는 위계적 선형모형이 전통적인 회귀모형보다 통계적으로 유의함을 알 수 있었다. 둘째, 2-수준의 총근로시간과 상용직의 평균임금이 개인수준의 임금에 통계적으로 유의하게 영향을 미치는 것으로 나타났다. 셋째, 마이스터고 졸업생이 그렇지 않은 졸업생에 비해서, 부모의 소득이 높을수록 통계적으로 유의하게 개인수준의 임금이 높아짐을 알 수 있다. 넷째, 부모의 교육수준이 높을수록, 학점이 높을수록, 학교 만족도가 높고 자격증 수가 많을수록 임금이 높아짐을 알 수 있다. 마지막으로 2-수준의 산업특성을 고려한 랜덤효과가 통계적으로 유의하게 나타났다.