통합 검색 | Korea Science

토픽 모형을 이용한 텍스트 데이터의 단어 선택 (Feature selection for text data via topic modeling)

장우솔;김예은;손원
- 응용통계연구
- /
- 제35권6호
- /
- pp.739-754
- /
- 2022
텍스트 데이터는 일반적으로 많은 변수를 포함하고 있으며 변수들 사이의 연관성도 높아 통계 분석의 정확성, 효율성 등에서 문제가 생길 수 있다. 이러한 문제점에 대처하기 위해 목표 변수가 주어진 지도 학습에서는 목표 변수를 잘 설명할 수 있는 단어들을 선택하여 이 단어들만 통계 분석에 이용하기도 한다. 반면, 비지도 학습에서는 목표 변수가 주어지지 않으므로 지도 학습에서와 같은 단어 선택 절차를 활용하기 어렵다. 이 연구에서는 토픽 모형을 이용하여 지도 학습에서의 목표 변수를 대신할 수 있는 토픽을 생성하고 각 토픽별로 연관성이 높은 단어들을 선택하는 단어 선택 절차를 제안한다. 제안된 절차를 실제 텍스트 데이터에 적용한 결과, 단어 선택 절차를 이용하면 많은 토픽에서 공통적으로 자주 등장하는 단어들을 제거함으로써 토픽을 더 명확하게 식별할 수 있었다. 또한, 군집 분석에 적용한 결과, 군집과 범주 사이에 높은 연관성을 가지는 군집 분석 결과를 얻을 수 있는 것으로 나타났다. 목표 변수에 대한 정보없이 토픽 모형을 이용하여 선택한 단어들을 분류 분석에 적용하였을 때 목표 변수를 이용하여 단어들을 선택한 경우와 비슷한 분류 정확성을 얻을 수 있음도 확인하였다.
https://doi.org/10.5351/KJAS.2022.35.6.739 인용 PDF KSCI

리즈렐모형을 이용한 임도사업의 계량적 분석 (Analyses of Forest Road Construction Policy Using LISREL Approach)

최관
- 한국산림과학회지
- /
- 제97권1호
- /
- pp.22-29
- /
- 2008
이 연구는 주요 산림정책사업 중 하나인 임도사업의 집행분석을 통하여 효율적인 집행전략 수립에 필요한 정보를 얻고자 수행되었다. 분석에 필요한 자료는 대구경북, 울산, 부산지역의 정책집행 담당자를 대상으로 하는 설문조사를 통하여 수집되었다. 이 평가모형에서는 정책집행요인, 정책환경요인, 정책내용요인을 독립변수로, 정책결과를 종속변수로 하는 회귀식이 추정되었고 다시 정책결과를 독립변수로 정책효과를 종속변수로 하는 회귀식을 추정하였다. 그러나 이와 같은 변수들은 직접측정이 불가능한 잠재변수(latent variable)로서 이의 측정을 위한 측정지표를 설정하였다. 잠재변수들과 이들 변수들 간의 관계를 측정지표를 통하여 계량화 하고 분석하기 위하여 LISREL(Linear Structural Relationship)분석방식을 사용 하였다. LISREL 분석결과 정책결과변수는 정책집행변수, 정책내용변수와 통계적으로 유의한 관계가 있음을 확인하였다. 당초 평가모형에 포함된 정책주체요인 변수는 정책결과와는 유의성 있는 관계가 나타나지 않았고 정책효과와 유의성 있는 관계가 있는 것으로 추정되었다. 또한 정책결과는 정책효과와 유의성 있는 관계가 있는 것으로 추정되었다. 즉 임도건설은 임업기반조성, 산촌지역주민에 대한 편의 제공, 지역균형발전을 위한 유효한 정책수단임을 확인하였다. 다만, 정책결과가 측정지표의 평가에서 보는바와 같이 만족할 만한 수준에 있지 못한바, 이의 개선을 위하여 정책내용의 개선이 필요하며, 특히 적정단비의 확보와 노선의 선정, 시공방법 등에 있어서 현장집행요원의 의견이 실질적으로 반영될 수 있도록 하는 제도의 개선이 요구된다.
PDF KSCI

구조방정식 모형을 활용한 고등학생의 식품위생인식, 식품위생태도, 개인위생관리 간의 관계 연구 (A Study on the Relationship between Food Hygiene Cognition, Food Hygiene Attitude and Personal Hygiene Control of High School Students based on A Structural Equation Model)

김숙희
- 한국산학기술학회논문지
- /
- 제20권5호
- /
- pp.427-435
- /
- 2019
본 연구는 고등학생의 식품위생인식, 식품위생태도와 개인위생관리의 요인 간 관계를 구조방정식 모형 으로 분석하였다. 실증분석을 위해, 2015년 7월 16일부터 10월 15일 까지 충남지역 16개 고등학교의 학년 당 30명씩의 학생들에게 설문지를 배부하여 미회수 및 불충분한 설문지를 제외하고 총 1,214부를 분석하였다. 각각의 측정변수들이 잠재변수(식품위생인식, 식품위생태도와 개인위생관리)를 얼마나 잘 반영하고 있는지 살펴본 결과, 유의수준 0.001 수준에서 통계적으로 유의하게 나타났다. 이는 각각의 개별 측정변수들이 잠재변수를 잘 반영하는 것으로 해석할 수 있다. 또한 잠재 변수들 간의 상관계수는 유의수준 0.01에서 모두 정적 관계로 나타났다. 구조모형의 경로계수를 살펴본 결과, 식품위생인식은 식품위생태도(표준요인 부하랑=0.753)에, 식품위생태도는 개인위생관리(표준요인 부하랑=0.840)에 통계적으로 유의한 정적인 영향을 미치는 것으로 나타났다. 이는 식품위생인식이 식품위생태도에 영향을 미치고, 이러한 식품위생태도가 개인위생관리에 영향을 미치는 것을 보여주는 결과이다. 본 연구는 식품위생인식이 바로 개인위생관리를 높이지는 않으나, 식품위생태도를 높이고, 식품위생태도는 개인위생관리를 높일 수 있음을 시사한다.
https://doi.org/10.5762/KAIS.2019.20.5.427 인용 PDF KSCI HTML

가뭄전망을 위한 주간 강우-유출 모형의 개발 및 적용 (Development of weekly rainfall-runoff model for drought outlooks)

강신욱;전근일;남우성;박진혁
- 한국수자원학회:학술대회논문집
- /
- 한국수자원학회 2019년도 학술발표회
- /
- pp.214-214
- /
- 2019
가뭄이 '심함' 단계 이상 도달 시에는 매주 수문분석을 수행하여 가뭄전망을 수행하여야 한다. 이를 위해서는 기상청의 강수량과 기온 등의 기상예측 자료가 필요하다. 현재 기상청에서는 3개월 기상전망으로 월단위 강수량과 평균기온을 매월 제공하고 있다. 1개월 전망에서 4주의 강수량합과 평균기온을 제공하고 있다. 하지만, 향후 4주간을 전망하는 1개월 전망에서는 1주단위의 강수량과 평균기온이 아닌, 4주간의 강수량합과 평균기온을 1주일 단위로 업데이트해 WINS에 제공하고 있다. 1주단위의 강수량과 평균기온을 취득하기 어려워, 평년 일단위 강수량과 평균기온 자료를 사용하여 4주간의 자료를 1주 단위로 분할하는 방법을 사용하였다. 주간단위 수문자료의 처리를 위해 국제표준기구(ISO)에서 제시하는 기준(ISO 8601)에 따랐다. ISO 8601은 월요일부터 일요일까지를 1주로 정의하며 현재 사용하고 있는 날짜체계와 1대1로 대응되도록 하였다. 예를 들면 1981년 2월 22일은 '1981-W07-7' 또는 '1981W077'로 표시한다. 표시된 형식은 1981년 7번째 주 일요일을 뜻한다. 이 기준에 따라 수문자료를 정리할 수 있도록 프로그램을 개발하였다. 주간 단위 잠재증발산량 계산은 월잠재증발산량 프로그램을 1주단위로 계산할 수 있도록 수정 및 보완하여 개발하였다. 수정 및 보완한 부분은 외기복사(外氣輻射)량 계산부분이다. 외기복사량은 지구가 태양을 1년 주기로 공전하므로 특정 위도에서 특정날짜에 따라 복사량이 달라지므로 주간단위의 월요일부터 일요일에 해당하는 날짜의 외기복사량을 각각 계산하고 이를 평균하여 주간단위 대푯값으로 사용하도록 하였다. 계산된 주간단위 외기복사량과 최고 최저기온을 입력하여 Hargreaves식에 의해 잠재증발산량을 계산한다. 융적설을 포함한 주단위 강우-유출 모형의 매개변수를 추정하기 위해 전국 24개 지점의 수문자료를 사용하였다. abcd 모형과 융적설모듈의 초기값 포함 11개 매개변수를 SCE-UA 전역최적화 알고리즘으로 추정하였다. 추정된 유역의 매개변수는 토양배수, 토양심도, 수문지질, 유역특성인자를 사용한 군집분석 결과에 의해 113개 중권역에 할당하였다. 개발된 주간단위 강우-유출 모형은 비교적 단기 가뭄전망을 위해 사용된다. 계산된 유량은 자연유량이며, 전국 취수장 수량, 하수처리장 방류수, 회귀수를 반영하여 지점별 유량을 계산하여 가뭄전망에 사용되고 있다.
PDF

GIS 기반의 SWAT 모형을 이용한 하천 유출량 모의 (Simulation of Daily Streamflows by SWAT Based on GIS)

장대원;김남원;김형수;서병하
- 한국수자원학회:학술대회논문집
- /
- 한국수자원학회 2004년도 학술발표회
- /
- pp.724-730
- /
- 2004
본 연구에서는 GIS와 연계되는 SWAT 모형을 이용하여 소양강댐 유역의 일 유출량을 모의하였으며, 모형에서 제공하는 단일 지점을 이용하는 기본 방법과 다지점 강우를 이용하기 위한 방법으로 나누어 비교하였다. 모형의 민감도 분석을 통해 매개변수를 최적화 하였고, 잠재 증발산량을 산정하기 위하여 Penman-Monteith 방법을 이용하였다. 과거의 관측 수문곡선을 SWAT 모형에 의해 모의된 일 유출 수문곡선과 비교한 결과, 두 가지 방법 모두 총 유출체적은 물수지에 기본을 둔 모형의 특성상 잘 일치 하였다. 그러나 갈수기와 홍수기의 일 유출 수문곡선은 다지점의 강우자료를 이용한 경우가 더 적합함을 알 수 있었다. 또한 SWAT 모형이 장기 일 유출량 모의에 적용 가능함을 확인하였다.
PDF

초등학교 과학 수업에서 교사가 인식하는 pPCK와 ePCK 사이의 관계에서 그릿의 매개효과 (The Mediating Effect of Grit in the Relationship between pPCK and ePCK Perceived by Teachers in Elementary School Science Classes)

채유정;이기영;박재용
- 한국초등과학교육학회지:초등과학교육
- /
- 제43권1호
- /
- pp.95-107
- /
- 2024
이 연구에서는 초등학교 과학 수업에서 교사가 인식하는 개인적 PCK(pPCK)와 실행된 PCK(ePCK) 사이의 관계에서 그릿의 매개효과를 확인하고자 하였다. 문헌분석 결과에 기초하여 pPCK, ePCK, 그릿을 잠재변수로 설정하여 연구 가설 모형을 설계하였다. 분석 방법은 잠재 변수를 구성하는 측정변수들 사이의 상호관련성을 살펴보기 위해 Pearson 적률상관분석을 실시했고, 모형의 적합도를 분석하기 위해 구조방정식 모형을 사용하였다. 또한, 그릿의 매개효과를 구체적으로 살펴보기 위해 부트스트랩핑(bootstrapping) 분석을 실행하였다. 연구 결과, 측정변수들은 통계적으로 유의한 상관을 보였다. 구조방정식 분석 결과, 측정 모형은 연구 가설 모형에 부합하였다. 또한, 부트스트랩핑 분석 결과, 초등학교 과학 수업에서 교사가 인식하는 pPCK와 ePCK 사이의 관계에서 그릿의 매개효과가 통계적으로 유의하였다. 교사 전문성 영역에서 그릿의 중요성과 그 효과를 정량적으로 살펴본 이 연구의 결과는 초등학교 과학 수업에서 교사의 전문성 계발 및 교사교육 연구를 위한 중요한 시사점을 제공할 것으로 기대된다.
https://doi.org/10.15267/keses.2024.43.1.95 인용 PDF

인공신경망 Downscaling모형에 있어서 최적신경망구조 선택기법 (Optimal Network Selection Method for Artificial Neural Network Downscaling Method)

강부식;류승엽;문수진
- 한국수자원학회:학술대회논문집
- /
- 한국수자원학회 2010년도 학술발표회
- /
- pp.1605-1609
- /
- 2010
CGCM3.1 SRES B1 시나리오의 2D 변수들을 입력값으로 인공신경망 모형을 이용한 스케일 상세화기법으로 강부식(2009)은 소양강댐 유역의 월 누적강수 경향분석을 실시하였다. 원시 GCM 시나리오를 스케일 상세화 시키기 위한 기법의 하나로 인공신경망 모형을 사용할 수 있는데, 이 경우 GCM에서 모의되는 강수플럭스, 해면기압, 지표면 근처에서의 일 평균온도, 지표면 근처에서의 일평균온도, 지표면으로부터 발생하는 잠열플럭스 등과 같은 22개의 변수를 잠재적인 예측인자로 사용하여 신경망을 구성하게 된다. 입력변수세트의 구성은 인공신경망의 계산 효율을 좌우하는 중요한 요소라 할 수 있다. 본 연구에서는 변수의 물리적 특성을 고려하여 순차적인 변수선택을 통한 신경망 입력변수 세트를 구성하고 입력세트 간의 학습성과 비교를 통하여, 최적 입력변수 선정 및 신경망의 학습효과를 높일 수 있는 방법에 대해 연구하였다. 물리적 상관성이 높다고 판단되는 GCM_Prec, huss, ps를 입력변수로 하여 순차적인 케이스를 학습해본 결과 huss와 ps를 입력변수로 하는 케이스에 대해서 적은 오차와 높은 상관성을 보였다, 또한, 신경망의 학습 효과를 높이기 위해 홍수기와 비홍수기로 구분하여 학습한 결과 홍수기와 비홍수기로 구분하여 신경망을 구성하였을 경우가 향상된 모의값을 나타내었다. 기후변화모의자료는 CCCma(Canadian Center for Climate Modeling and Analysis)에서 제공되는 CGCM3.1/T63 20C3M 시나리오를 사용하였으며, 관측값으로는 AWS에서 제공된 일 누적강수를 사용하였다. 인공신경망의 학습기간은 1997년부터 2000년이며, 검증기간은 2001년부터 2004년으로 구성하였다.
PDF

대형 데이터에서 VIF회귀를 이용한 신속 강건 변수선택법 (Fast robust variable selection using VIF regression in large datasets)

서한손
- 응용통계연구
- /
- 제31권4호
- /
- pp.463-473
- /
- 2018
연구에서는 선형회귀모형을 가정한 대형 데이터에서의 변수선택 알고리즘을 다룬다. 방법의 속도와 강건성에 주안점을 둔 여러 알고리즘들이 제안되었다. 그 중에서 streamwise 회귀 접근법을 사용한 VIF회귀는 신속하고 정확하게 수행된다. 그러나 VIF회귀는 최소제곱방법에 의해 모형이 추정되므로 이상치에 민감하다. 변수선택방법의 강건성을 높이기 위해 가중 추정치를 사용한 강건측도가 제안되었으며 강건 VIF회귀도 제안되었다. 본 연구에서는 잠재적 이상치를 탐지하여 제거한 후 VIF회귀를 수행하는, 빠르고 강건한 변수선택 방법을 제안한다. 제안된 방법은 모의실험과 데이터 분석 통해 다른 방법들과 비교된다.
https://doi.org/10.5351/KJAS.2018.31.4.463 인용 PDF KSCI

주택가격(住宅價格)에 내재(內在)된 대기질(大氣質)의 가격측정(價格測定) - 공간계량경제모형(空間計量經濟模型)을 이용한 접근(接近) -

김종원
- 자원ㆍ환경경제연구
- /
- 제7권1호
- /
- pp.61-84
- /
- 1997
본 연구는 기존의 특성가격기법(特性價格技法)(hedonic price technique)에 공간(空間)개념을 도입한 계량경제모형을 이용하여 분석하였다. 이 공간시차모형은 기존의 모형과 달리 특성변수의 변화에 따른 직(直) 간접효과(間接效果)를 동시에 포착할 수 있는 장점을 가지고 있다. 또한 공간시차모형의 회귀진단 및 가설검정 결과는 공간시차모형이 적합한 것으로 나타났다. 이 경우 공간시차를 고려하지 않은 OLS 회귀분석 결과의 계수들은 편기추정(biased)된 동시에 효율적(efficiency)이지 못하다는 것이다. 회귀분석 결과는 주택에 자본화된 대기오염에 대한 잠재가격(潛在價格)(marginal implicit price)은 주택평균가격의 약 1.5% 정도인 것으로 추정된다.
PDF

하나 매개변수로 유출 모의 가능한가? (Is that possible to simulate daily runoff with one parameter?)

노재경;안현욱;이재남
- 한국수자원학회:학술대회논문집
- /
- 한국수자원학회 2017년도 학술발표회
- /
- pp.29-29
- /
- 2017
유역의 물수지를 강수, 증발산, 토양수분저류, 유출 등 성분으로 구성하고, 토양수분저류 상태에 따라 증발산과 유출이 변화하는 식을 기본식으로 구성하였으며, 물수지를 개선하는 매개변수를 변수화하는 개념을 도입하여 다음 식의 모형을 개발하였다. 여기서, ETa는 실제증발산량, ETo는 잠재증발산량, Q는 유출량, S는 토양수분저류량이고, C1은 증발산, C2, ${\alpha}$는 유출반응, C3, C4는 매개변수 ${\alpha}$를 변수화시키는 데 관련한 매개변수이다. $$ETa(i)=(1-e^{-c1{\times}s(i)}){\times}ETo_{(i)}$$ $$Q_{(i)}=S_{(i)}{\times}(1-e^{-c2{\times}s(i)})^{[(c3+e^{-c4{\times}s(i)}){\times}a]}$$ 모형의 검증을 위해 Monte Calro 기법으로 최적 매개변수를 결정한 결과 수많은 매개변수 조합이 최적영역에 분포되는 것을 확인하였으며, 이를 바탕으로 매개변수 하나만 남겨 놓고 나머지 매개변수는 상수화시켜도 모의결과가 똑같다는 결과를 관찰하였으며, 이를 토대로 하나 매개변수만으로 일 유출 모의가 가능하다고 결론을 내렸다. 하나의 매개변수는 ${\alpha}$를 우선 추천하고, C1도 유역의 토지이용에 따라 증발산이 변화하기 때문에 의미있다고 판단하고 있다. 하나의 매개변수를 결정하는 방법은 유출 자료가 있으면 유출량으로, 없으면 유출률을 맞추는 방법이며, 일반화하기 쉽고 실용성이 매우 높은 것으로 평가된다. 유역면적 $209km^2$인 보령댐의 2007년부터 2009년까지 Monte Calro 기법으로 매개변수를 결정한 결과 C1=0.0196, C2=0.0023, C3=0.3230, C4=0.0051, ${\alpha}=2.3304$ 이었으며, 이 때 연평균 강우량 1221.2mm, 유출량 651.2mm, 유출률 53.3%이었으며, $R^2=0.833$, RMSE=2.073, NSE=0.831이었고, 관측 유출량 610.8mm, 유출률 50.0%였다. 매개변수 C1, C2, C3, C4를 고정시키고 유출률 50%에 이를 때 ${\alpha}$는 2.6946이었으며, 이 때 $R^2=0.831$, RMSE=2.102, NSE=0.826이었고, 매개변수 C2, C3, C4, ${\alpha}$를 고정시키고 유출률 50%에 이를 때 C1은 0.0255이었으며, 이 때 $R^2=0.833$, RMSE=2.083, NSE=0.829이었다. 한편 똑같은 자료로 탱크모형은 $R^2=0.79$, RMSE=2.43, NSE=0.77이었고, SWAT 모형은 $R^2=0.56$, RMSE=3.97, NSE=0.40으로 나타난 것과 비교할 때, 개발된 모형의 성능이 우수한 것이라 결론내릴 수 있었다.
PDF

검색결과 244건 처리시간 0.029초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)