• 제목/요약/키워드: Data Bias

검색결과 1,757건 처리시간 0.026초

비선형회귀 분석을 통한 난지형 마늘의 적지기준 설정연구 (Setting Criteria of Suitable Site for Southern-type Garlic Using Non-linear Regression Model)

  • 최원준;김용석;심교문;허지나;조세라;강민구
    • 한국농림기상학회지
    • /
    • 제23권4호
    • /
    • pp.366-373
    • /
    • 2021
  • 본 연구는 현장관측자료의 분석을 통해 현장데이터 기반 생육적온 분석 및 재배적지 분석 기준을 제시하고자 하였다. 연구에 활용된 현장 데이터는 고흥, 남해, 신안, 창녕, 해남 등 5개 지역의 난지형 마늘 생산량데이터를 구득하였으며, 관측소별 관측값을 역거리 가중법(Inverse Distance Weighted)를 통해 지역내 농경지 기온데이터를 추출하였다. 데이터 분석에 활용된 기간은 2010년부터 2019년까지 10년간 데이터를 활용하였다. 조사된 생산량과 기온의 국소(Kernel)회귀분석을 통해 생육적온을 분석하였으며, 대역폭에 따라 0.8(18.781℃), 0.9(18.930℃), 1.0(19.542℃), 1.1(20.165℃), 1.2(21.042℃)이었다. 생육적온의 검증 및 재배적지 기준 적용을 위해 온도반응모델을 진행하였다. 분석된 생육적온과 생산량데이터 간의 회귀 분석 및 상관 분석을 수행결과 결정계수(R2)는 0.325~0.438로 분석되었으며, 상관관계 분석에서는 유의 확률 0.001 수준에서 상관계수 0.57~0.66로 분석되었다. 전체적으로 대역폭이 증가함에 따라 결정 계수가 더 높아졌으나 대역폭 1.0을 제외한 모든 대역폭에서는 편향된 결과로 일부 데이터가 모델에 크게 영향을 주는 것으로 나타났다. 이에 비선형분석을 통해 모든 데이터가 평이하게 반영된 모델인 대역폭 1.0이 본 연구 목적에 적합한 것으로 분석되었다.

다종 위성자료와 인공지능 기법을 이용한 한반도 주변 해역의 고해상도 해수면온도 자료 생산 (Generation of Daily High-resolution Sea Surface Temperature for the Seas around the Korean Peninsula Using Multi-satellite Data and Artificial Intelligence)

  • 정시훈;추민기;임정호;조동진
    • 대한원격탐사학회지
    • /
    • 제38권5_2호
    • /
    • pp.707-723
    • /
    • 2022
  • 위성기반 해수면온도는 광역 모니터링이 가능한 장점이 있지만, 다양한 환경적 그리고 기계적 이유로 인한 시공간적 자료공백이 발생한다. 자료공백으로 인한 활용성의 한계가 있으므로, 공백이 없는 자료 생산이 필수적이다. 따라서 본 연구에서는 한반도 주변 해역에 대해 극궤도와 정지궤도 위성에서 생산되는 해수면온도 자료를 두 단계의 기계학습을 통해 융합하여 4 km의 공간해상도를 가지는 일별 해수면온도 합성장을 만들었다. 첫번째 복원 단계에서는 Data INterpolate Convolutional AutoEncoder (DINCAE) 모델을 이용하여 다종 위성기반 해수면온도 자료를 합성하여 복원하였고, 두번째 보정 단계에서는 복원된 해수면온도 자료를 현장관측자료에 맞춰 Light Gradient Boosting Machine (LGBM) 모델로 학습시켜 최종적인 일별 해수면온도 합성장을 만들었다. 개발된 모델의 검증을 위해 복원 단계에서 무작위 50일의 자료 중 일부분을 제거하여 복원한 뒤 제거된 영역에 대해 검증하였으며, 보정 단계에서는 Leave One Year Out Cross Validation (LOYOCV) 기법을 이용하여 현장자료와의 정확도를 검증하였다. DINCAE 모델의 해수면온도 복원 결과는 상당히 높은 정확도(R2=0.98, bias=0.27℃, RMSE=0.97℃, MAE=0.73℃)를 보였다. 두번째 단계의 LGBM 보정 모델의 정확도 개선은 표층 뜰개 부이와 계류형 부이 현장자료와의 비교에서 모두 상당한 향상(RMSE=∆0.21-0.29℃, rRMSE=∆0.91-1.65%, MAE=∆0.17-0.24℃)을 보여주었다. 특히, 모든 현장 자료를 이용한 보정 모델의 표층 뜰개 부이와의 정확도는 동일한 현장 자료가 동화된 기존 해수면온도 합성장보다 나은 정확도를 보였다. 또한 LGBM 보정 모델은 랜덤포레스트(random forest)를 사용한 선행연구에서 보고된 과적합의 문제를 상당부분 해결하였다. 보정된 해수면온도는 기존의 초고해상도 해수면온도 합성장들과 유사한 수준으로 수온 전선과 와동 등의 중규모 해양현상을 뚜렷하게 모의하였다. 본 연구는 다종위성 자료와 기계학습 기법을 사용해 시공간적 공백 없는 고해상도 해수면온도 합성장 제작 방법을 제시하였다는 점에서 가치가 있다.

유전 알고리즘을 이용한 국소가중회귀의 다중모델 결합을 위한 점진적 앙상블 학습 (Incremental Ensemble Learning for The Combination of Multiple Models of Locally Weighted Regression Using Genetic Algorithm)

  • 김상훈;정병희;이건호
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권9호
    • /
    • pp.351-360
    • /
    • 2018
  • 전통적으로 나태한 학습에 해당하는 국소가중회귀(LWR: Locally Weighted Regression)모델은 입력변수인 질의지점에 따라 예측의 해를 얻기 위해 일정구간 범위내의 학습 데이터를 대상으로 질의지점의 거리에 따라 가중값을 달리 부여하여 학습 한 결과로 얻은 짧은 구간내의 회귀식이다. 본 연구는 메모리 기반학습의 형태에 해당하는 LWR을 위한 점진적 앙상블 학습과정을 제안한다. LWR를 위한 본 연구의 점진적 앙상블 학습법은 유전알고리즘을 이용하여 시간에 따라 LWR모델들을 순차적으로 생성하고 통합하는 것이다. 기존의 LWR 한계는 인디케이터 함수와 학습 데이터의 선택에 따라 다중의 LWR모델이 생성될 수 있으며 이 모델에 따라 예측 해의 질도 달라질 수 있다. 하지만 다중의 LWR 모델의 선택이나 결합의 문제 해결을 위한 연구가 수행되지 않았다. 본 연구에서는 인디케이터 함수와 학습 데이터에 따라 초기 LWR 모델을 생성한 후 진화 학습 과정을 반복하여 적절한 인디케이터 함수를 선택하며 또한 다른 학습 데이터에 적용한 LWR 모델의 평가와 개선을 통하여 학습 데이터로 인한 편향을 극복하고자 한다. 모든 구간에 대해 데이터가 발생 되면 점진적으로 LWR모델을 생성하여 보관하는 열심학습(Eager learning)방식을 취하고 있다. 특정 시점에 예측의 해를 얻기 위해 일정구간 내에 신규로 발생된 데이터들을 기반으로 LWR모델을 생성한 후 유전자 알고리즘을 이용하여 구간 내의 기존 LWR모델들과 결합하는 방식이다. 제안하는 학습방법은 기존 단순평균법을 이용한 다중 LWR모델들의 선택방법 보다 적합도 평가에서 우수한 결과를 보여주고 있다. 특정지역의 시간 별 교통량, 고속도로 휴게소의 시간별 매출액 등의 실제 데이터를 적용하여 본 연구의 LWR에 의한 결과들의 연결된 패턴과 다중회귀분석을 이용한 예측결과를 비교하고 있다.

한국 기업의 기술혁신 지속 특성에 대한 탐색적 연구 (An exploratory study on the characteristics of technology innovation persistence of Korean firms)

  • 송창현;이정우;장필성
    • 기술혁신연구
    • /
    • 제29권3호
    • /
    • pp.1-31
    • /
    • 2021
  • 기업의 경쟁우위를 결정하는 핵심 요소로서 기술혁신의 중요성이 강조되는 가운데, 혁신의 지속 여부 또한 중요한 연구 대상이 되고 있다. 혁신 지속(innovation persistence)은 기업의 혁신이 일회성으로 그치지 않고 지속적으로 이루어지고 있는지를 나타내는 개념이다. 혁신 연구에 사용되는 자료는 대부분의 국가에서 횡단면 조사로 수행됨에 따라 종단적인 지속 현상을 다룬 연구는 드문 편이며, 특히 국내의 혁신조사 자료를 이용하여 혁신 지속 현상을 살펴본 연구는 거의 없다. 본 연구는 문헌 연구를 바탕으로 기업의 혁신 지속에 대한 개념과 특징을 고찰하는 한편, 우리나라 기업의 기술혁신 지속 현황 및 특성에 대한 실증 분석을 수행하였다. 분석을 위해 2012년부터 2018년까지 격년으로 수행된 한국기업혁신조사 자료를 바탕으로, 복수관측된 3,379개 기업에 대한 불균형 패널자료를 구성하였다. 기술혁신의 지속 현상을 살펴본 결과, 지속적인 혁신이 관측되는 기업은 전체 중 일부(혁신성과에서는 10~12%, 혁신활동에서는 15~17%)에 불과하였으며, 오히려 비혁신의 지속 현상이 두드러지는 것으로 나타났다(약 52~57%). 또한 혁신성과보다는 혁신활동의 지속 현상이 강한 것으로 확인되었다. 이 외에도 제품혁신이 공정혁신보다, 내부 R&D가 공동/외부 R&D보다 지속성이 높게 나타나는 등 세부 유형에 따른 지속 현상의 특징들을 도출할 수 있었다. 그리고 혁신 지속의 영향요인 식별을 위해 추가적으로 로짓분석을 수행한 결과, 급진적 혹은 점진적 제품혁신이 다음 시기에서 혁신이 지속되게 하는 가장 영향력 높은 요인인 것으로 나타났다. 본 연구에서 구축한 패널자료는 원시자료의 한계로 인해 표본 선택 편의가 존재하기 때문에, 분석 결과의 지나친 일반화는 경계해야 한다. 그럼에도 불구하고 한국 기업을 대상으로 기술혁신 지속 현상을 종합적으로 분석한 초기연구로서 의의가 있으며, 후속 연구의 시발점이 될 것으로 기대된다. 향후 공식적인 패널자료의 구축 및 개선된 방법론 등을 통해, 혁신 지속 관련 발전된 연구 결과가 도출되기를 기대한다.

딥러닝 시계열 알고리즘 적용한 기업부도예측모형 유용성 검증 (Corporate Default Prediction Model Using Deep Learning Time Series Algorithm, RNN and LSTM)

  • 차성재;강정석
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.1-32
    • /
    • 2018
  • 본 연구는 경제적으로 국내에 큰 영향을 주었던 글로벌 금융위기를 기반으로 총 10년의 연간 기업데이터를 이용한다. 먼저 시대 변화 흐름에 일관성있는 부도 모형을 구축하는 것을 목표로 금융위기 이전(2000~2006년)의 데이터를 학습한다. 이후 매개 변수 튜닝을 통해 금융위기 기간이 포함(2007~2008년)된 유효성 검증 데이터가 학습데이터의 결과와 비슷한 양상을 보이고, 우수한 예측력을 가지도록 조정한다. 이후 학습 및 유효성 검증 데이터를 통합(2000~2008년)하여 유효성 검증 때와 같은 매개변수를 적용하여 모형을 재구축하고, 결과적으로 최종 학습된 모형을 기반으로 시험 데이터(2009년) 결과를 바탕으로 딥러닝 시계열 알고리즘 기반의 기업부도예측 모형이 유용함을 검증한다. 부도에 대한 정의는 Lee(2015) 연구와 동일하게 기업의 상장폐지 사유들 중 실적이 부진했던 경우를 부도로 선정한다. 독립변수의 경우, 기존 선행연구에서 이용되었던 재무비율 변수를 비롯한 기타 재무정보를 포함한다. 이후 최적의 변수군을 선별하는 방식으로 다변량 판별분석, 로짓 모형, 그리고 Lasso 회귀분석 모형을 이용한다. 기업부도예측 모형 방법론으로는 Altman(1968)이 제시했던 다중판별분석 모형, Ohlson(1980)이 제시한 로짓모형, 그리고 비시계열 기계학습 기반 부도예측모형과 딥러닝 시계열 알고리즘을 이용한다. 기업 데이터의 경우, '비선형적인 변수들', 변수들의 '다중 공선성 문제', 그리고 '데이터 수 부족'이란 한계점이 존재한다. 이에 로짓 모형은 '비선형성'을, Lasso 회귀분석 모형은 '다중 공선성 문제'를 해결하고, 가변적인 데이터 생성 방식을 이용하는 딥러닝 시계열 알고리즘을 접목함으로서 데이터 수가 부족한 점을 보완하여 연구를 진행한다. 현 정부를 비롯한 해외 정부에서는 4차 산업혁명을 통해 국가 및 사회의 시스템, 일상생활 전반을 아우르기 위해 힘쓰고 있다. 즉, 현재는 다양한 산업에 이르러 빅데이터를 이용한 딥러닝 연구가 활발히 진행되고 있지만, 금융 산업을 위한 연구분야는 아직도 미비하다. 따라서 이 연구는 기업 부도에 관하여 딥러닝 시계열 알고리즘 분석을 진행한 초기 논문으로서, 금융 데이터와 딥러닝 시계열 알고리즘을 접목한 연구를 시작하는 비 전공자에게 비교분석 자료로 쓰이기를 바란다.

산림 바이오매스 변환표와 위성영상을 이용한 무주군의 산림 바이오매스추정 (Estimation of Forest Biomass for Muju County using Biomass Conversion Table and Remote Sensing Data)

  • 정상영;임종수;조현국;정진현;김성호;신만용
    • 한국산림과학회지
    • /
    • 제98권4호
    • /
    • pp.409-416
    • /
    • 2009
  • 위성영상은 대면적의 산림 바이오매스 추정 및 주제도의 제작에 있어서 효과적인 자료로 이용되고 있다. 본 연구는 제5차 국가산림자원조사에서 수집된 야외 표본점의 임분 변수와 위성영상을 이용하여 산림 바이오매스 변환표를 작성한 후, 무주군의 산림 바이오매스를 추정 및 주제도를 제작하기 위해 수행되었다. 4개의 표본점별 임분 변수와 산림 바이오매스 간의 상관분석을 실시한 결과, 수고, 수관밀도, 그리고 영급이 산림 바이오매스에 영향을 미치는 변수로 파악되었다. 따라서 산림 바이오매스 변환표 작성을 위해 이들 3가지 임분 변수의 조합을 독립변수로 하는 6개 회귀모형을 사용하여 최적 회귀추정식을 도출한 후, 임상별로 산림 바이오매스 변환표를 작성하였다. 회귀추정식의 적합도를 평가하기 위하여 교차대조법에 의한 추정치 오차와 편차를 산출한 결과, 수관밀도와 수고등급을 독립변수로 하는 추정식(모형 V)이 다른 모형에 비해 산림 바이오매스 추정능력이 우수한 것으로 나타났다. 회귀모형 V를 이용한 산림 바이오매스 변환표와 위성영상의 분류에 의해 생성된 임분 변수의 주제도를 이용하여 추정된 전라북도 무주군의 총 산림 바이오매스는 약 881만 톤이며, ha당 산림 바이오매스는 128.3톤으로 나타났다.

미경험 교통수단에 대한 이용자 선택행태 분석: Personal Rapid Transit 사례를 중심으로 (An approach to capture travelers' choice behaviour in response to unexperienced transportation modes: A case study of Personal Rapid Transit)

  • 유정훈;신승권;최정윤
    • 한국철도학회:학술대회논문집
    • /
    • 한국철도학회 2011년도 정기총회 및 추계학술대회 논문집
    • /
    • pp.1730-1738
    • /
    • 2011
  • Personal Rapid Transit(PRT)는 경쟁력 있는 건설비와 운영비로 보행중심의 환경을 제공함으로써 대중교통 중심의 지속가능한 사회를 위한 바람직한 교통수단으로 등장하였다. 본 연구에서는 PRT 도입시 PRT 이용경험이 없는 사람들의 교통수단선택 행태의 변화를 분석하였다. PRT 선택행태 분석의 핵심 이슈는 경험해보지 못한 교통수단에 대한 이용자들의 인지와 평가를 어떻게 효과적으로 측정하는 가이다. PRT 도입전후의 교통수단 선택에 대한 RP와 SP 자료를 설문조사를 이용하여 수집하였다. 설문지는 PRT 선호에 대한 bias를 최소화하도록 설계하였으며, 설문응답자의 성실한 답변을 방해하는 수많은 SP 설문항목을 획기적으로 줄일 수 있도록, 복잡한 fractional factorial 설계를 사용하지 않았다. 분석결과를 통해 본 연구에서 제안된 방법이 교통수단선택과 관련된 설명변수들을 효과적으로 측정하고 있음을 알 수 있다. 이산선택모형을 이용하여 다양한 PRT 시스템 특성과 운영방식하에서의 교통수단선택을 추정하였으며, 2개의 대상도시에 대해 PRT 이용수요를 예측하였다.

  • PDF

도심 인구구심력의 유효범위 변동성 측정 (Variability in the Effective Spatial Range of the Population Centripetal Force of CBD)

  • 남광우;강인주;임두현
    • 한국지리정보학회지
    • /
    • 제12권2호
    • /
    • pp.120-131
    • /
    • 2009
  • 본 연구는 다핵구조를 형성하고 있는 대도시의 도시공간구조 진단을 위해 도심 및 부도심의 인구분포상의 구심력 및 유효범위의 변동성을 측정하였다. 이를 위해 부산광역시를 대상으로 1995년부터 2005년까지 5년 간격으로 도심 및 부도심의 인구구심력의 유효범위 변화를 측정하고자 5km 단위로 범위를 확장하여 인구밀도함수 중 음지수함수를 활용한 결정계수 값의 변동성을 분석하였다. 이를 통해 인구분포에 대한 공간적 영향권역의 변동성을 파악하여 도심 및 부도심의 생성, 성장, 쇠퇴 등의 진행과정에 따른 각 과정별 도심 및 부도심의 인구구심력의 유효범위와 도심 및 부도심간의 충돌과정에서의 유효범위 변화과정을 분석하였다. 분석결과를 요약하면 중앙동은 지속적인 결정계수의 감소를 보이고 있으며 서면(부전동)은 설명력이 큰 변화없이 유지되고 있는 것으로 나타났다. 도심으로부터 5km씩 거리를 늘려 인구밀도함수를 적용한 경우에도 부전동의 경우는 10km이후부터 중앙동은 15km구간 이후부터 대체로 증가하였다. 전체적으로는 부산의 인구가 감소추세임에도 불구하고 지속적인 분산화 단계인 것으로 나타나 보다 효율적인 도시공간구조를 형성하기 위해 도심 및 부도심지역의 도심기능강화와 인접지역의 양호한 주거지역 공급이 필요한 것으로 판단된다. 본 연구의 결과는 도시공간구조의 변동성이 갖는 구체적인 공간적 차원의 정보를 제시하여 효율적 공간구조의 재편을 위한 정책적 접근의 기초자료로의 활용이 기대된다.

  • PDF

직무 - 노출매트릭스의 설계 (The Construction of Job Exposure Matrix)

  • 임현우;노영만;이원철
    • 한국산업보건학회지
    • /
    • 제11권2호
    • /
    • pp.161-168
    • /
    • 2001
  • 직업성 역학 연구에서 직업적으로 유해인자와 질병과의 연관성에 대한 연구를 수행함에 타당도 높은 노출 평가를 어떻게 실시할 것인가에 대한 논의가 있어 왔다. 노출 평가를 위한 최상의 상태는 관심있는 물질에 대하여 개인별로 계량화된 노출값을 가지고 있을 때이고, 노출 값의 계산 방법 중 가장 가치가 적은 정보는 노출확률이 높은 공장, 산업 또는 직업에 고용된 사실여부만을 갖고 있을 때이다. 대부분의 산업보건연구에서 노출정보는 두 극단사이에 존재한다. 최근 유사노출군 설정 방법과 대표치 추정을 위한 통계방법들이 소개되면서 전향적으로는 이러한 노출 값의 계산이 가능해지고 있다. 그러나 후향적 노출 평가에서는 순수하게 노출 평가를 목적으로 조사된 자료가 아닌 자료들을 수집하여 노출을 추정하여야 하기 때문에 사실상 계량화된 개인 노출 값을 얻기는 매우 어렵다. 직무-노출매트릭스를 통하여 노출 값을 추정하는 것은 환자-대조군 연구, 단면조사 연구 등의 연구방법에서 흔히 일어 날 수 있는 정보편의를 줄일 수 있어 직업성 역학 연구에서 생애 노출 값의 추정 혹은 노출강도의 추정에 직무-노출매트릭스의 사용이 점차 증가되고 있다. 따라서 직업성 역학연구에서 유용하게 사용되고 있는 직무-노출매트릭스를 고찰하고 분석함으로써 특정 사업장 혹은 산업 중심의 직무-노출매트릭스의 설계 방안을 제시하고자 하였다. 특히 직무구분 축을 중점적으로 설명함으로써 향후 직업적 역학연구의 노출평가를 수행할 때와 근로자 건강보호를 위한 작업장 유해인자 관리를 위한 노출평가를 수행할 때 유용한 방법을 제공하고자 하였다.

  • PDF

위성강수 GPM IMERG, GSMaP, CMORPH 정확도 비교 (Comparison of Accuracy for GPM IMERG, GSMaP and CMORPH Satellite Precipitation Products over Korea)

  • 김주훈;최윤석;김경탁
    • 한국지리정보학회지
    • /
    • 제23권3호
    • /
    • pp.208-219
    • /
    • 2020
  • 본 연구는 위성강수에 대한 정확도를 비교함으로써 미계측 혹은 비접근 지역에 대한 적용성을 판단하는 것을 목적으로 하고 있다. 정확도 평가 결과 전체적인 강수의 공간분포는 세 개의 이벤트 모두 지상계측강우와 위성강수가 유사한 것으로 분석되었다. 1개월간의 강수의 경우 지상계측강수(ASOS)와 위성강수의 1시간의 시간해상도에서 상관계수는 0.42~0.46정도로 분석되었다. 강수가 집중된 기간에 대한 평가에서 1시간의 시간해상도에 대한 상관계수가 IMERG는 0.55~0.66, GSMaP는 0.56~0.67로 분석되었다. 세 개의 이벤트에 대한 관측소별 총강우의 분석결과 상관계수는 IMERG와 GSMaP이 CMORPH 보다 상대적으로 우수한 것으로 분석되었고, 바이어스는 상대적으로 CMORPH가 우수한 것으로 분석되었다. 그러나 3개 위성강수 모두 지상계측강수와 비교하여 과소하게 추정되고 있는 것으로 분석되었다. 향후에는 본 연구를 통해 얻어진 결과를 반영하여 북한을 포함한 한반도 전체에 대한 강수량을 추정하는 연구를 수행할 계획이다.