• 제목/요약/키워드: 계수데이터

검색결과 1,899건 처리시간 0.029초

다중선형회귀경험식과 머신러닝모델의 2차원 횡 분산계수 예측성능 평가 (Performance Evaluation of Multilinear Regression Empirical Formula and Machine Learning Model for Prediction of Two-dimensional Transverse Dispersion Coefficient)

  • 이선미;박인환
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.172-172
    • /
    • 2022
  • 분산계수는 하천에서 오염물질의 혼합능을 파악할 수 있는 대표적인 인자이다. 특히 하수처리장 방류수 혼합예측과 같이 횡 방향 혼합에 대한 예측이 중요한 경우, 하천의 지형적, 수리학적 특성을 고려한 2차원 횡 분산계수의 결정이 필요하다. 2차원 횡 분산계수의 결정을 위해 기존 연구에서는 추적자실험결과로부터 경험식을 만들어 횡 분산계수 산정에 사용해왔다. 회귀분석을 통한 경험식 산정을 위해서는 충분한 데이터가 필요하지만, 2차원 추적자 실험 건수가 충분치 않아 신뢰성 높은 경험식 산정이 어려운 상황이다. 따라서 본 연구에서는 SMOTE기법을 이용하여 횡분산계수 실험데이터를 증폭시켜 이로부터 횡 분산계수 경험식을 산정하고자 한다. 또한 다중선형회귀분석을 통해 도출된 경험식의 한계를 보완하기 위해 다양한 머신러닝 기법을 적용하고, 횡 분산계수 산정에 적합한 머신러닝 기법을 제안하고자 한다. 기존 추적자실험 데이터로부터 하폭 대 수심비, 유속 대 마찰유속비, 횡 분산계수 데이터 셋을 수집하였으며, SMOTE 알고리즘의 적용을 통해 회귀분석과 머신러닝 기법 적용에 필요한 데이터그룹을 생성했다. 새롭게 생성된 데이터 셋을 포함하여 다중선형회귀분석을 통해 횡 분산계수 경험식을 결정하였으며, 새로 제안한 경험식과 기존 경험식에 대한 정확도를 비교했다. 또한 다중선형회귀분석을 통해 결정된 경험식은 횡 분산계수 예측범위에 한계를 보였기 때문에 머신러닝기법을 적용하여 다중선형회귀분석에 대한 예측성능을 평가했다. 이를 위해 머신러닝 기법으로서 서포트 벡터 머신 회귀(SVR), K근접이웃 회귀(KNN-R), 랜덤 포레스트 회귀(RFR)를 활용했다. 세 가지 머신러닝 기법을 통해 도출된 횡 분산계수와 경험식으로부터 결정된 횡 분산계수를 비교하여 예측 성능을 비교했다. 이를 통해 제한된 실험데이터 셋으로부터 2차원 횡 분산계수 산정을 위한 데이터 전처리 기법 및 횡 분산계수 산정에 적합한 머신러닝 절차와 최적 학습기법을 도출했다.

  • PDF

Bass 확산 모형 계수의 추정치에 대한 민감도 분석 (Sensitivity analysis of the parameter estimates in the Bass Diffusion Model)

  • 홍정식;김영재;안재경;김태구
    • 한국경영과학회:학술대회논문집
    • /
    • 한국경영과학회 2006년도 추계학술대회
    • /
    • pp.413-416
    • /
    • 2006
  • 신제품이나 서비스의 수요 예측을 Bass 확산 모형을 토대로 수행할 때의 가장 큰 문제점은모형의 파라미터 추정에 필요한 데이터가 충분치 않다는 것이다. 따라서 Bass 확산 모형의 핵심적인 두 파라미터인 혁신 계수(p)와 모방 계수(q)의 추정을 시도할 때, 어느 정도의 데이터 개수가 요구되는 지를 파악하는 것은 매우 현실적인 중요성을 갖는 문제이다. 이제까지의 연구는 주로 기존의 판매 데이터를 토대로 Bass 모형의 파라미터를 추정할 때, 생기는 다양한 문제점 파악에 집중되었다. 시뮬레이션의 경우는 Bass 모형에 랜덤 오차를 추가하여 실시하였다. 이 경우 데이터 개수가 계수추정에 미치는 영향은 도출되나 각 계수별 민감도 분석이 제대로 이루어지지 못하는 한계를 가지고 있다, 따라서 본 논문에서는 시뮬레이션에서 예측치를 발생시킬 때 랜덤 오차 대신, 혁신 계수와 확산 계수의 변동을 주는 방법을 도입한다. 결과는 다음과 같다. 첫째, p 변동보다는 q 변동이 예측치의 오차에 대해 보다 중요하다. 둘째, 오차가 잠재수요의 30%이하로 떨어지기 위해서는 수요가 최대로 도달하는 시점이 $t^*$ 일 경우, $t^*\;+1$까지 데이터가 요구된다.

  • PDF

데이터 마이닝에서 Cohen의 kappa를 이용한 분류정확도 측정 (Assessing Classification Accuracy using Cohen's kappa in Data Mining)

  • 엄용환
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권1호
    • /
    • pp.177-183
    • /
    • 2013
  • 본 논문에서는 데이터 마이닝에서 분류 작업을 실시할 때 그 분류정확도을 측정하기 위해 Cohen의 kappa 계수와 weighted kappa 계수를 제안하였다. kappa 계수는 우연에 의해 생기는 분류를 보정하여 분류정확도을 측정하며 명목척도와 순서척도의 데이터에 대해 사용된다. 특히 순서척도의 데이터에서는 오분류의 크기를 가중치에 의해 정량화하여 분류정확도을 측정하는 weighted kappa 계수가 더 유용하게 사용된다. weighted kappa 계수 계산을 위해서는 2가지 가중치(일차형 가중치, 이차형 가중치)를 사용하였다.. 또한 실제 데이터인 지방간 데이터에 대해 kappa 계수와 weighted kappa 계수를 계산하여 비교하였다.

Chatterjee의 ξ 계수에 대한 탐색적자료분석 (Exploratory data analysis for Chatterjee's ξ coefficient)

  • 장대흥
    • 응용통계연구
    • /
    • 제35권3호
    • /
    • pp.421-434
    • /
    • 2022
  • Chatterjee (2021)는 새로운 상관계수 ξ를 제안하였다. 두 가지 질문 (1. Anscombe's quartet 데이터셋에 대하여 ξ 계수는 구별이 가능한가?, 2. 다양한 종류의 산점도에서 데이터의 개수에 따라 ξ 계수 값의 변화는 어떠한가?)을 중심으로 ξ 계수에 대한 탐색적자료분석을 시도하였다. 세 가지 측도 (ξ 계수, 피어슨상관계수, 상호정보)를 서로 비교하였다.

상관계수의 안전한 다자간 계산 (Secure Multi-Party Computation of Correlation Coefficients)

  • 홍선경;김상필;임효상;문양세
    • 정보과학회 논문지
    • /
    • 제41권10호
    • /
    • pp.799-809
    • /
    • 2014
  • 본 논문에서는 분산 컴퓨팅 환경에서 데이터 제공자들이 각자 소유한 데이터의 프라이버시는 보호하면서도 피어슨(Pearson) 상관계수와 스피어만(Spearman)의 순위상관계수를 안전하게 계산하는 해결책을 각각 제안한다. 분산 컴퓨팅 환경에서 마이닝(또는 데이터 분석)을 수행하기 위해서는 원본 데이터를 상대방에게 제공해야 한다. 그러나, 원본 데이터는 민감한 정보를 포함하는 경우가 많고, 이때 데이터 제공자(소유자)는 프라이버시 보호를 이유로 정확한 값을 직접 노출하기를 원하지 않는다. 본 논문에서는 분산 컴퓨팅 환경의 데이터 제공자들이 각자 소유한 데이터는 상대방에게 공개하지 않으면서 상관관계를 계산하는 문제, 즉 안전한 상관관계 계산(SCC: Secure Correlation Computation) 문제를 정형적으로 정의한다. 그리고, 임의 행렬 기반 안전한 스칼라 곱을 사용하여 피어슨 상관계수와 순위상관계수에 대한 SCC 문제를 해결하는 방법을 각각 제안한다. 제안한 해결책이 바르게 수행함을 보이기 위해, 정확성과 안전성을 정리로 제시하고 증명한다. 또한, 실험을 통해 제안한 기법이 수행 시간 측면에서도 실용적인 방법임을 보인다.

Sentinel-1 자료를 이용한 한반도 산지에서의 토양수분 복원 연구 (Soil Moisture Retrieval of Mountainous Area on Korean Peninsula using Sentinel-1 Data)

  • 조성근;최민하
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2019년도 학술발표회
    • /
    • pp.102-102
    • /
    • 2019
  • 토양수분은 수문 및 기상 현상의 주요 요인으로 가뭄, 홍수 및 범람과 같은 자연 재해와 관련이 깊은 인자이다. 이러한 토양수분의 관측 기술 중 위성 데이터를 활용한 원격탐사 기술은 광범위한 지역의 관측이 용이하고 지점이 아닌 공간 데이터를 제공하는 장점을 지니고 있어 토양수분의 관측에 유리하다. 특히 높은 해상도의 위성기반 토양수분 데이터는 토양수분의 변동성이 큰 지역의 수문, 기상학적 현상을 보다 자세히 분석할 수 있게 해주며 가뭄 및 범람과 같은 수자원 관련 재해를 정확하게 분석하는데 요구된다. 이로 인해 최근 Sentinel-1 위성에서 운용중인 Synthetic Aperture Radar(SAR) 데이터를 이용한 매우 높은 공간해상도(10m~1km)를 지니고 있는 토양수분데이터 생산에 관한 연구가 세계적으로 활발히 진행되고 있다. 그러나 국내에서는 Sentinel-1 위성을 이용한 토양수분 데이터 복원에 관한 연구가 미비한 실정이다. 따라서 본 연구에서는 파주 감악산 설마천 유역에서의 Sentinel-1 위성의 SAR 데이터를 이용한 고해상도 토양수분 데이터를 복원하고자 한다. 파주 설마천 유역은 감악산 일대로 경사가 심하고 식생이 두터운 산악지형이다. SAR를 이용하여 산지에서 신뢰성 있는 토양수분 자료를 복원하기 위해서는 가장 큰 오차의 원인으로 작용하는 경사와 식생을 고려하여야 한다. 먼저 표면 경사의 영향의 경우 SAR 센서의 레이더 입사각과 수치 표고 모델을 이용하여 고려하고자 한다. 다음 과정으로 표면 경사가 고려된 Sentinel-1 데이터의 후방산란계수와 Landsat-8 데이터 및 지점 토양수분 데이터를 이용하여 식생에 따른 후방산란계수의 거동을 Water Cloud Model을 이용하여 분석하였다. Water Cloud Model은 토양위의 식생의 수분이 후방산란계수에 혼동을 주는 구름과 같이 작용한다고 가정하고 식생수분을 후방산란계수와 레이더 입사각 및 식생지수를 통해 계산하는 모델이며 이를 이용하여 토양수분 복원에 있어 식생의 영향을 제거하고자 하였다. 이를 통해 식생과 표면 경사를 고려하여 복원된 토양수분 데이터를 설마천 유역의 지점 데이터와 비교 분석하고 다른 위성기반 토양수분 데이터 및 강우 데이터를 이용하여 평가하였다. 본 연구결과를 통해 한반도 산지에서의 SAR 데이터를 이용한 토양수분 복원 기술의 기초가 마련될 것이며 이를 통해 산지가 대부분인 한반도의 토양수분 거동을 이해하는데 유용한 자료를 제공할 수 있을 것으로 기대된다. 본 연구 이후에는 연구결과분석을 통한 산지에서의 고해상도 토양수분 복원 알고리즘을 분석, 보완하고 한반도에서의 SAR 기반 토양수분 데이터의 정확도를 높이는 연구가 진행되어야 할 것이다.

  • PDF

코크리깅을 활용한 신속한 유도무기 공력계수 추정 (Rapid Estimation of the Aerodynamic Coefficients of a Missile via Co-Kriging)

  • 강신성;이경훈
    • 한국항공우주학회지
    • /
    • 제48권1호
    • /
    • pp.13-21
    • /
    • 2020
  • 유도무기의 설계 및 제어에서 6자유도 공력계수의 신속한 추정을 위해 공력계수 데이터에 기반한 예측 모형이 주로 이용된다. 고정확도의 공력계수 예측 모형은 다수의 풍동시험 데이터로 생성할 수 있지만, 이는 많은 시간과 자원을 요구한다. 따라서 본 연구에서는 소수의 풍동시험 데이터를 다수의 전산유체역학 데이터와 혼합한 코크리깅 기법을 활용해 고정확도의 공력계수를 신속하고 효율적으로 예측하고자 한다. 풍동시험과 전산유체역학 데이터를 혼용한 예측 모형의 우수성을 보기 위해, 전산유체역학 데이터 보조의 유무에 따라 두 가지 공력계수 예측 모형을 생성한 후 수치적 검증과 예측 경향성 점검으로 두 모형의 예측 정확도를 비교하였다. 그 결과, 전산유체역학 데이터의 도움 덕분에 코크리깅 모형으로 크리깅 모형보다 더 정확한 공력계수 산출이 가능한 것을 확인하였다.

2차원 분산계수 경험식 산정을 위한 오버샘플링 기법 활용 데이터 샘플링 (Data Sampling Using Oversampling Technique for Estimating Two-Dimensional Dispersion Coefficients)

  • 이선미;박인환
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.449-449
    • /
    • 2021
  • 하천 내 오염물질 유입원은 하수처리장과 같이 농도를 예측 가능한 점오염원이 일반적이지만, 수질오염사고와 같이 다량의 유해물질이 일시에 하천에 유입되는 경우도 발생하곤 한다. 특히 오염물질 유입지점과 취수장이 인접한 경우, 오염물질 혼합해석에 대한 이해가 오염사고 대응 및 수질 관리 측면에서 매우 중요하다. 자연하천에서는 사행에 따른 유속 구조의 불균일성 등으로 인하여 오염물질의 이송 및 분산 과정은 매우 복잡하게 나타난다. 이러한 하천의 지형적, 수리학적 특성이 오염물질의 혼합 거동에 미치는 영향을 정확하게 모의하기 위해서는 3차원 수치모형을 적용해야 한다. 그러나 대부분의 하천은 하폭 대 수심비가 매우 크기 때문에 2차원 이송-분산 방정식을 지배방정식으로 채택하는 2차원 수치 모형이 널리 사용되어왔다. 2차원 이송-분산 방정식의 해석결과는 입력된 종, 횡 분산계수의 값에 따라 변화하기 때문에 정확한 혼합해석을 위해 분산계수의 결정이 매우 중요하다. 과거 연구에서는 횡 분산계수의 결정을 위해 기본 수리량을 이용한 경험식을 활용하여 계산한 바 있다. 종 분산계수의 경우에는 경험식의 산정에 필요한 충분한 실험 자료가 축적되어 있지 않아 이상적 흐름 상태를 가정하여 유도된 Elder의 이론식(Elder, 1959)을 사용해왔다. 하지만 많은 연구에서 이러한 Elder의 이론식이 종 분산계수를 과소산정 할 우려가 있다고 제시했다. 따라서 하천의 전단류 분산특성을 나타낼 수 있는 데이터 확보를 통해 종 분산계수의 경험식 산정 및 횡 분산계수의 정확도 향상이 필요한 상황이다. 본 연구에서는 기존 선행 연구에서 수행된 2차원 추적자실험 데이터의 확장을 위해 오버샘플링 기법을 적용하였으며, 이를 통한 머신러닝을 통한 분산계수 산정 가능성을 분석하고자 한다. 부족한 추적자 실험 데이터를 확장하기 위해 오버샘플링 기법 중 SMOTE 기법을 활용했다. 오버샘플링 기법을 이용하여 생산된 데이터의 신뢰성을 검증하였으며, 추후 머신러닝을 이용한 2차원 종, 횡 분산계수 산정에 대한 활용 가능성을 분석했다.

  • PDF

한의학에서의 사상체질판별함수 개발에 관한 연구 (I) - 크론박 알파 계수에 의한 변수선택 -

  • 김규곤;최승배
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2004년도 춘계학술대회
    • /
    • pp.61-68
    • /
    • 2004
  • 본 논문에서는 한방병원에서 사상체질분류검사설문지를 이용하여 사상체질을 진단할 때 진단의 정확도를 향상시키기 위한 사상체질분류함수를 개발하기 위하여 데이터마이닝에서의 판별분석모형을 이용한다. 데이터 정제 과정에서 불성실한 응답자를 제거시키기 위한 기준은 상반되는 설문의 응답 패턴과 체질별 설문의 응답 비율을 이용하며, 변수선택의 기준은 상관분석의 크론박 알파 계수와 선형판별함수의 계수를 이용한다.

  • PDF

변위 시계열 데이터를 이용한 교량거더의 Flutter 계수 추정기법에 관한 연구 (A Study on the Identification Method for Flutter Derivatives of Bridge Girders using Displacement Time History Data)

  • 이재형;민원;이용재
    • 한국강구조학회 논문집
    • /
    • 제13권5호
    • /
    • pp.525-533
    • /
    • 2001
  • 교량의 내풍 안전성을 평가하기 위해서는 플러터 계수(Flutter Derivatives)의 안정적 추정이 필요하다. 본 논문에서는 풍동실험에서 얻어지는 시간영역에서의 데이터중 변위 시계열데이터를 이용해서 플러터 계수를 구하는 동특성 계수 측정기법 2가지를 검토하였다. 검토된 MITD(Modified Ibrahim Time Domain) 방법과 AKF(Adaptive Kalman Filtering) 방법은 2차원단면모형 실험으로부터 동시에 8개의 플러터 계수를 산출할 수 있는 유용한 방법이다. 제안된 방법의 실제상황에서의 적용성을 검토하기 위해서 Bandlimited Gausian white noise을 가상의 데이터에 첨가하여 수학적 시뮬레이션으로 잡음에 대한 안정성을 검증해 보았다. 그 결과 교량의 플러터 해석에서는 본 연구에서 검증된 MITD 방법을 통한 플러터 계수의 산출이 추전된다.

  • PDF