• 제목/요약/키워드: K-Means군집모형

검색결과 41건 처리시간 0.023초

혼합효과 영과잉 포아송 회귀모형을 이용한 대전광역시 코로나 발생 동향 분석 (Mixed-effects zero-inflated Poisson regression for analyzing the spread of COVID-19 in Daejeon)

  • 김광희;이은지
    • 응용통계연구
    • /
    • 제34권3호
    • /
    • pp.375-388
    • /
    • 2021
  • 본 연구는 대전광역시에서 나타난 확진자 증가 현상을 분석하여 COVID-19의 확산을 방지할 대책 마련에 도움이 되고자 계획되었다. 확진자 증가의 원인이 시민들의 잦은 이동과 장기간 지속한 사회적 거리두기로 인한 피로와 방심에 있다고 보고, 각 행정동의 주별 확진자 수를 반응변수로, 생활 속 거리두기로 전환된 시점으로부터 흐른 시간, 행정동의 버스 하차 인원을 설명변수로 하여 이들의 관계를 모형화하였다. 행정동별 확진자 수가 주 단위로 반복측정 되었고, 포아송분포로 기대되는 0보다 더 많은 0이 관측될 수 있기 때문에 혼합효과 영과잉 포아송 회귀모형을 적용하였다. 행정동의 성격에 따라 확진자 발생 동향이 다를 수 있어서서 서로 유사한 성격을 갖는 행정동을 군집화하여 이를 범주형 설명변수로 사용하였다. 또한 버스 하차 인원의 효과가 행정동의 성격에 따라 달라질 수 있다는 점을 고려하여 두 변수 간의 교호작용항을 포함하였고 상대적으로 번화한 행정동에서 그 효과가 유의한 것으로 나타났다 (유의수준=0.1). 모형 적합 결과 인구수의 증가와 번화한 행정동이라는 요인, 그리고 버스 하차 인원의 증가가 확진자 수의 증가와 중요한 연관 관계를 가진다는 것을 보였다. 한편, 추정된 모형에 따르면 인구수와 버스 하차량이 고정되었을 때 번화한 집단의 확진자 수가 그렇지 않은 집단에 비해 훨씬 적을 것으로 기대되었는데, 이는 코로나 고위험 지역에 대한 시 차원의 강력한 대응이 효과를 발휘한 것으로 해석할 수 있다.

Apache Spark를 활용한 대용량 데이터의 처리 (Processing large-scale data with Apache Spark)

  • 고세윤;원중호
    • 응용통계연구
    • /
    • 제29권6호
    • /
    • pp.1077-1094
    • /
    • 2016
  • 아파치 스파크는 빠르고 범용성이 뛰어난 클러스터 컴퓨팅 패키지로, 복구 가능한 분산 데이터셋이라는 새로운 추상화를 통해 데이터를 인메모리에 유지하면서도 결함 감내성을 얻을 수 있는 방법을 제공한다. 이러한 추상화는 하드디스크에 직접 데이터를 읽고 쓰는 방식으로 결함 감내성을 제공하는 기존의 대표적인 대용량 데이터 분석 기술인 맵 리듀스 프레임워크에 비해 상당한 속도 향상을 거두었다. 특히 로지스틱 회귀 분석이나 K-평균 군집화와 같은 반복적인 기계 학습 알고리즘이나 사용자가 실시간으로 데이터에 관한 질의를 하는 대화형 자료 분석에서 스파크는 매우 효율적인 성능을 보인다. 뿐만 아니라, 높은 범용성을 바탕으로 하여 기계 학습, 스트리밍 자료 처리, SQL, 그래프 자료 처리와 같은 다양한 고수준 라이브러리를 제공한다. 이 논문에서는 스파크의 개념과 프로그래밍 모형에 대해 소개하고, 이를 통해 몇 가지 통계 분석 알고리즘을 구현하는 방법에 대해 소개한다. 아울러, 스파크에서 제공하는 기계 학습 라이브러리인 MLlib과 R 언어 인터페이스인 SparkR에 대해 다룬다.

온라인 주식 포럼의 핫토픽 탐지를 위한 감성분석 모형의 개발 (Development of Sentiment Analysis Model for the hot topic detection of online stock forums)

  • 홍태호;이태원;리징징
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.187-204
    • /
    • 2016
  • 소셜 미디어를 이용하는 사용자들이 직접 작성한 의견 혹은 리뷰를 이용하여 상호간의 교류 및 정보를 공유하게 되었다. 이를 통해 고객리뷰를 이용하는 오피니언마이닝, 웹마이닝 및 감성분석 등 다양한 연구분야에서의 연구가 진행되기 시작하였다. 특히, 감성분석은 어떠한 토픽(주제)를 기준으로 직접적으로 글을 작성한 사람들의 태도, 입장 및 감성을 알아내는데 목적을 두고 있다. 고객의 의견을 내포하고 있는 정보 혹은 데이터는 감성분석을 위한 핵심 데이터가 되기 때문에 토픽을 통한 고객들의 의견을 분석하는데 효율적이며, 기업에서는 소비자들의 니즈에 맞는 마케팅 혹은 투자자들의 시장동향에 따른 많은 투자가 이루어지고 있다. 본 연구에서는 중국의 온라인 시나 주식 포럼에서 사용자들이 직접 작성한 포스팅(글)을 이용하여 기존에 제시된 토픽들로부터 핫토픽을 선정하고 탐지하고자 한다. 기존에 사용된 감성 사전을 활용하여 토픽들에 대한 감성값과 극성을 분류하고, 군집분석을 통해 핫토픽을 선정하였다. 핫토픽을 선정하기 위해 k-means 알고리즘을 이용하였으며, 추가로 인공지능기법인 SOM을 적용하여 핫토픽 선정하는 절차를 제시하였다. 또한, 로짓, 의사결정나무, SVM 등의 데이터마이닝 기법을 이용하여 핫토픽 사전 탐지를 하는 감성분석을 위한 모형을 개발하여 관심지수를 통해 선정된 핫토픽과 탐지된 핫토픽을 비교하였다. 본 연구를 통해 핫토픽에 대한 정보 제공함으로써 최신 동향에 대한 흐름을 알 수 있게 되고, 주식 포럼에 대한 핫토픽은 주식 시장에서의 투자자들에게 유용한 정보를 제공하게 될 뿐만 아니라 소비자들의 니즈를 충족시킬 수 있을 것이라 기대된다.

제주지역 감귤가격의 시계열적 특성 및 가격변동성에 관한 연구 (A Study on Price Volatility and Properties of Time-series for the Tangerine Price in Jeju)

  • 고봉현
    • 한국산학기술학회논문지
    • /
    • 제21권6호
    • /
    • pp.212-217
    • /
    • 2020
  • 본 연구의 목적은 Bollerslev(1986)의 GARCH 모형을 이용하여 제주지역 감귤가격의 시계열적 특성과 가격변동성(price volatility)에 대한 실증분석을 수행하는 것이다. 본 연구의 주요결과는 다음과 같이 요약된다. 첫째, 감귤 가격 변화율의 시계열이 정규분포가 아닌 꼬리가 두터운 분포를 지니고 있는 것으로 나타났다. 이는 Jarque-Bera 통계량이 1%의 유의수준에서 감귤 가격변화율의 시계열의 분포가 정규분포라는 귀무가설을 기각함으로써 검증되었다. 둘째, Ljung-Box Q 통계량을 통해 감귤 가격변화율 시계열 간 상관관계가 높은 것으로 분석되었으며, 이는 ARCH-LM 검정을 통해 통계적으로 검증되었다. 셋째 GARCH(1,1) 모형 추정결과, 평균방정식의 상수항을 제외하고는 모든 계수의 추정 값이 1%의 유의수준에서 통계적으로 유의한 결과를 보였다. 그리고 분산방정식의 지속성 모수(λ=α11) 값이 1에 근접한 것으로 추정되었다. 이는 현재와 유사한 변동성 수준이 장래에도 지속될 가능성이 매우 높은 것으로 해석된다. 그리고 이러한 결과는 제주감귤 가격변화율 시계열에서도 기존의 선행연구에서처럼 '변동성 군집(volatility clustering)' 현상이 나타나고 있음을 밝혀낸 것이다. 끝으로, 본 연구의 결과는 정부의 감귤 수급조절정책을 수립하는데 유용한 기초 자료로 활용될 수 있을 것으로 기대된다.

산업군 내 동질성을 고려한 온라인 뉴스 기반 주가예측 (Online news-based stock price forecasting considering homogeneity in the industrial sector)

  • 성노윤;남기환
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.1-19
    • /
    • 2018
  • 주가 예측은 학문적으로나 실용적으로나 중요한 문제이기에, 주가 예측에 관련된 연구가 활발히 진행되었다. 빅 데이터 시대에 도입하면서, 빅 데이터를 결합한 주가 예측 연구도 활발히 진행되고 있다. 다수의 데이터를 기반으로 기계 학습을 이용한 연구가 주를 이룬다. 특히 언론의 효과를 접목한 연구 방법들이 주목을 받고 있는데, 그중 온라인 뉴스를 분석하여 주가 예측에 활용하는 연구가 주를 이루고 있다. 기존 연구들은 온라인 뉴스가 개별 회사에 대한 미치는 영향을 주로 살펴보았다. 또한, 관련성이 높은 기업끼리 서로 영향을 주는 것을 고려하는 방법도 최근에 연구되고 있다. 이는 동질성을 가지는 산업군에 대한 효과를 살펴본 것인데, 기존 연구에서 동질성을 가지는 산업군은 국제 산업 분류 표준에 따른다. 즉, 기존 연구들은 국제 산업 분류 표준으로 나뉜 산업군이 동질성을 가진다는 가정하에서 분석을 시행하였다. 하지만 기존 연구들은 영향력을 가지는 회사를 고려하지 못한 채 예측하였거나 산업군 내에서 이질성이 존재하는 점을 반영하지 못했다는 한계점을 가진다. 본 연구는 산업군 내에 이질성이 존재함을 밝히고, 이질성을 반영하지 못한 기존 연구의 한계점을 K-평균 군집 분석을 적용하여, 주가에 영향을 미치는 산업군의 동질적인 효과를 반영할 수 있는 방법론을 제안하였다. 방법론이 적합하다는 것을 증명하기 위해 3년간의 온라인 뉴스와 주가를 통해 실험한 결과, 다수의 경우에서 본 논문에서 제시한 방법이 좋은 결과를 나타냄을 확인할 수 있었으며, 국제 산업 분류 표준 산업군 내에서 이질성이 클수록 본 논문에서 제시한 방법이 좋은 효과를 보인다는 것을 확인할 수 있었다. 본 연구는 국제 산업 분류 표준으로 나누어진 기업들이 높은 동질성을 가지지 않는 다는것을 밝히고 이를 반영한 예측 모형의 효율성을 입증하였다는 점에서 의의를 가진다.

논 생태계 서식 수서생물 채집 도구 개발: 유인제를 사용한 수중트랩 (The Development of a Sampling Instrument for Aquatic Organisms in Rice Paddy Fields: Submerged Funnel Traps with Attractants)

  • 윤성수;김명현;최순군;어진우;권순익;송영주
    • 환경생물
    • /
    • 제35권4호
    • /
    • pp.640-647
    • /
    • 2017
  • 생물다양성 측면에서 논 생태계의 중요성이 대두되면서 수서생물을 효율적으로 채집하는 방법이 요구되고 있다. 본 연구는 논 생태계 내에서 수서생물을 객관적이고 정량적으로 쉽게 채집하기 위해 두 가지 유인제(어분, 캐미라이트)를 활용한 수중트랩을 고안하였다. 고안된 트랩으로 채집된 수서생물의 유인제 선호도는 일반화선형혼합모형을 통해 분석되었다. 또한 선행연구의 데이터를 활용하여 방형구와 수중트랩으로 채집된 수서 무척추동물의 군집 조성을 비계량형다차원척도법을 통해 비교 분석하였다. 그 결과, 수중트랩에 의해 채집된 65분류군의 수서생물 중 18분류군이 유인제에 의해 채집효율이 달라지는 것을 확인하였다. 18분류군 중왕우렁이, 수정또아리물달팽이, 애기물달팽이, 돌거머리, 패충류, 풍년새우, 꼬마줄물방개, 애기물방개, 깔따구류, 참개구리, 미꾸리류 등 12분류군은 어분을 선호하였고, 아시아실잠자리, 실잠자리류, 깃동잠자리, 방물벌레, 검정배물벌레, 애물땡땡이 등 6종은 캐미라이트를 선호하였다. 또한 수중트랩은 방형구법에 비해 생물다양성의 측정도구로서의 활용도는 낮지만 특정 분류군의 선택적인 채집에는 효과적이었다. 본 연구에서 간단하고 정량적인 방법으로 수서생물을 채집할 수 있도록 고안된 트랩은 장기적이고 광범위한 논 수서생물 생태 조사에 유용하게 활용될 수 있을 것으로 판단된다.

일개 종합병원의 민간 건강검진 수검자의 검진이용 특성, 건강행태 및 건강관리 수준 분석 (Analysis of Utilization Characteristics, Health Behaviors and Health Management Level of Participants in Private Health Examination in a General Hospital)

  • 김유미;박종호;김원중
    • 한국산학기술학회논문지
    • /
    • 제14권1호
    • /
    • pp.301-311
    • /
    • 2013
  • 본 연구의 목적은 2차 종합병원급 건강검진센터를 이용한 민간 종합검진 환자의 검진 이용특성과 이들의 건강행태 및 건강관리 수준을 분석하는 것이다. 이를 위해 대전지역 일개 2차 종합병원급 건강검진센터의 2011년 20,696명의 민간 건강검진 수검자를 대상으로 이들의 2001년에서 2011년까지 11년간의 수검자료 150,501건을 분석하였다. 민간 종합검진 수검자의 검진군 분류를 위한 군집분석은 K-means기법의 z-score표준화 방법을 이용하여 분류하였으며, 정기/비정기 검진 분류모형 개발을 위해 로지스틱회귀분석, 의사결정나무, 신경망 분석을 이용하였다. 개발된 비정기 검진군 분류 모형에 따라 신규 검진군 중 비정기 검진군이 될 확률이 높은 1,000명을 추출하여 고객관리사업 대상자로 하였다. 분석결과, 수검자는 신규 검진군, 정기 검진군, 비정기 검진군으로 분류하였다. 신규 검진군은 30대가 많고, 신장질환 의심자의 비율이 높았다. 정기 검진군은 남자, 이상지혈증 의심 비율이 높았다. 비정기 검진군은 흡연율과 운동부족 비율이 높았고, 빈혈 및 당뇨의심 비율이 높았다. 의사결정나무 분석결과 비정기 검진환자의 특성에 영향을 미치는 변수로는 성별, 연령, 거주지, 운동, 빈혈, 이상지혈증, 당뇨, 비만, 간질환 등이었다. 특히 여자 수검자로서 빈혈 검사는 정상, 운동을 하지 않는 군이면서 비만이 의심되는 수검자의 비정기적 수검율은 71.4%에 달하였다. 이러한 연구결과 토대로 맞춤형 고객관리 사업을 진행한다면 건강검진센터 효율적인 운영에 기여할 수 있을 것이다.

교통기반 공공보건 정책 수립을 위한 고속도로 차량배출가스 시공간 패턴분석 (Spatio-temporal Analysis of Freeway Emissions for Establishing Public Health Policies Based on Transportation)

  • 이설영;주신혜;윤석민;오철
    • 대한교통학회지
    • /
    • 제34권5호
    • /
    • pp.377-393
    • /
    • 2016
  • 차량배출가스는 대기오염을 유발하는 주요 요인인 것으로 알려져 있으며, 배출가스 감소를 위한 다양한 정책수립 및 기술개발이 활발히 진행 중이다. 이에 본 연구는 차량의 배출가스 중 호흡기 질환에 특히 유해한 것으로 알려진 질소산화물($NO_x$)과 초미세먼지($PM_{2.5}$)를 대상으로 시공간적 배출량의 패턴을 분석하고 교통기반 공공보건 증진 방안을 제시하였다. 서울외곽순환고속도로를 공간적 분석범위로 설정하고 2015년 1월부터 6월 사이에 수집된 속도와 교통량 자료를 기반으로 배출계수를 이용하여 거시적 모형을 통한 차량배출가스 발생 총량을 추정하였다. 추정된 배출가스 자료에 군집분석을 적용하여 차량배출가스 수준(Level of Vehicle Emission)을 정의하였으며, 평일 차량배출가스 발생량의 물질별 시간대별 공간별 패턴을 분석하였다. 이를 바탕으로 교통기반 공공보건 정책방안을 교통계획 및 교통시설물, 공공보건 정보, 교통운영 및 관리 측면으로 나누어 제시하였다. 본 연구에서 제시한 차량배출가스 분석방향 및 전략은 공공보건 정책 마련에 기여할 것으로 판단된다.

초등학생용 부모애착척도의 구성 (Construction of Parent attachment Scale for Children)

  • 이현숙;홍상황
    • 초등상담연구
    • /
    • 제9권2호
    • /
    • pp.143-162
    • /
    • 2010
  • 본 연구는 Fraley, Waller 및 Brennan(2000)이 개발한 개정판 친밀관계경험 질문지(Experiences in Close Relationships -Revised: ECR-R)의 문항 제작과정을 근거로 하여 아동의 애착유형을 신뢰롭고 타당하게 측정하기 위한 아동용 부모애착척도를 구성하고 기본적인 신뢰도와 문항반응이론에 근거한 몇가지 문항특성정보를 알아보는데 목적이 있다. 이를 위해 ECR-R의 원래 문항과 기존의 애착검사들에서 사용하고 있는 문항들을 수집하여 1차 예비문항을 도출하고, 이를 4~6학년 아동이 이해하기 쉽고 근거한 원문항의 의미와 최대한 같도록 수정하고 보완하여 2차 예비문항을 작성한 후, 초등학교 4~6학년 학생(N=576명)에게 실시하였다. 수거한 자료를 사용해서 2모수 등급반응모형을 적용하여 30문항으로 된 애착척도를 구성하였다. 그 결과 아동용 부모애착검사의 내적 합치도는 회피척도의 경우 .94~.95, 불안척도의 경우 .85~.86의 범위이었고, 검사-재검사 신뢰도는 회피척도의 경우 .71~.77, 불안척도의 경우 .53~.68의 범위이었다. 또한 문항반응이론(IRT)을 적용하여 문항변별도와 문항정보값을 살펴본 결과 문항변별도는 적절한 범위에 있었고 문항정보값 역시 높았다. 위계적 군집분석인 K-means방법을 적용한 결과 안정형, 거부형, 몰두형, 두려움형의 4범주로 분류할 수 있었다. 또한 애착유형에 따른 애착척도 점수의 평균과 표준편차를 알아보기 위해 일원분산분석(ANOVA)한 결과 회피와 불안척도는 안정형, 몰두형, 거부형, 두려움형 애착에서 모두 유의한 차이를 나타내었다. 마지막으로 본 연구의 의의와 타당도와 관련한 제한점을 논의하였다.

  • PDF

이미지 감성분류를 위한 CNN과 K-means RGB Cluster 이-단계 학습 방안 (A Two-Stage Learning Method of CNN and K-means RGB Cluster for Sentiment Classification of Images)

  • 김정태;박은비;한기웅;이정현;이홍주
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.139-156
    • /
    • 2021
  • 이미지 분류에서 딥러닝 모형을 사용하는 가장 큰 이유는 이미지의 전체적인 정보에서 각 지역 특징을 추출하여 서로의 관계를 고려할 수 있기 때문이다. 하지만 이미지의 지역 특징이 없는 감정 이미지 데이터는 CNN 모델이 적합하지 않을 수 있다. 이러한 감정 이미지 분류의 어려움을 해결하기 위하여 매년 많은 연구자들이 감정 이미지에 적합한 CNN기반 아키텍처를 제시하고 있다. 색깔과 사람 감정간의 관계에 대한 연구들도 수행되었으며, 색깔에 따라 다른 감정이 유도된다는 결과들이 도출되었다. 딥러닝을 활용한 연구에서도 색깔정보를 활용하여 이미지 감성분류에 적용하는 연구들이 있어왔으며, 이미지만을 가지고 분류 모형을 학습한 경우보다 이미지의 색깔 정보를 추가로 활용한 경우가 이미지 감성 분류 정확도를 더 높일 수 있었다. 본 연구는 사람이 이미지의 감정을 분류하는 기준 중 많은 부분을 차지하는 색감을 이용하여 이미지 감성 분류 정확도를 향상시키는 방안을 제안한다. 이미지의 RGB 값에 K 평균 군집화 방안을 적용하여 이미지를 대표하는 색을 추출하여, 각 감성 클래스 별 해당 색깔이 나올 확률을 가중치 식으로 변형 후 CNN 모델의 최종 Layer에 적용하는 이-단계 학습방안을 구현하였다. 이미지 데이터는 6가지 감정으로 분류되는 Emotion6와 8가지 감정으로 분류되는 Artphoto를 사용하였다. 학습에 사용한 CNN 모델은 Densenet169, Mnasnet, Resnet101, Resnet152, Vgg19를 사용하였으며, 성능 평가는 5겹 교차검증으로 CNN 모델에 이-단계 학습 방안을 적용하여 전후 성과를 비교하였다. CNN 아키텍처만을 활용한 경우보다 색 속성에서 추출한 정보를 함께 사용하였을 때 더 좋은 분류 정확도를 보였다.