• Title/Summary/Keyword: 조건부분포

Search Result 138, Processing Time 0.024 seconds

A distance metric of nominal attribute based on conditional probability (조건부 확률에 기반한 범주형 자료의 거리 측정)

  • 이재호;우종하;오경환
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2003.09b
    • /
    • pp.53-56
    • /
    • 2003
  • 유사도 혹은 자료간의 거리 개념은 많은 기계학습 알고리즘에서 사용되고 있는 중요한 측정개념이다 하지만 입력되는 자료의 속성들중 순서가 정의되지 않은 범주형 속성이 포함되어 있는 경우, 자료간의 유사도나 거리 측정에 어려움이 따른다. 비거리 기반의 알고리즘들의 경우-C4.5, CART-거리의 측정없이 작동할 수 있지만, 거리기반의 알고리즘들의 경우 범주형 속성의 거리 정보 결여로 효과적으로 적용될 수 없는 문제점을 갖고 있다. 본 논문에서는 이러한 범주형 자료들간 거리 측정을 자료 집합의 특성을 충분히 고려한 방법을 제안한다. 이를 위해 자료 집합의 선험적인 정보를 필요로 한다. 이런 선험적 정보인 조건부 확률을 기반으로한 거리 측정방법을 제시하고 오류 피드백을 통해서 속성 간 거리 측정을 최적화 하려고 노력한다. 주어진 자료 집합에 대해 서로 다른 두 범주형 값이 목적 속성에 대해서 유사한 분포를 보인다면 이들 값들은 비교적 가까운 거리로 결정한다 이렇게 결정된 거리를 기반으로 학습 단계를 진행하며 이때 발생한 오류들에 대해 피드백 작업을 진행한다. UCI Machine Learning Repository의 자료들을 이용한 실험 결과를 통해 제안한 거리 측정 방법의 우수한 성능을 확인하였다.

  • PDF

Optimized Polynomial RBF Neural Networks Based on PSO Algorithm (PSO 기반 최적화 다항식 RBF 뉴럴 네트워크)

  • Baek, Jin-Yeol;Oh, Sung-Kwun
    • Proceedings of the KIEE Conference
    • /
    • 2008.07a
    • /
    • pp.1887-1888
    • /
    • 2008
  • 본 논문에서는 퍼지 추론 기반의 다항식 RBF 뉴럴네트워크(Polynomial Radial Basis Function Neural Network; pRBFNN)를 설계하고 PSO(Particle Swarm Optimization) 알고리즘을 이용하여 모델의 파라미터를 동정한다. 제안된 모델은 "IF-THEN" 형식으로 기술되는 퍼지 규칙에 의해 조건부, 결론부, 추론부의 기능적 모듈로 표현된다. 조건부의 입력공간 분할에는 HCM 클러스터링에 기반을 두어 구조가 결정되며, 기존에 주로 사용된 가우시안 함수를 RBF로 이용하고, 원뿔형태의 선형 함수를 제안한다. 또한 입력공간 분할시 데이터 집합의 특성을 반영하기 위해 분포상수를 각 입력마다 고려하여 설계함으로서 공간 분할의 정밀성을 높인다. 결론부에서는 기존 상수항의 연결가중치를 다항식 형태로 표현하는 pRBFNN을 제안한다. 제안한 모델의 성능을 평가하기 위해 Box와 Jenkins가 사용한 가스로 시계열 데이터를 적용하고, 기존 모델과의 근사화와 일반화 능력에 대하여 토의한다.

  • PDF

Accurate Estimation of Settlement Profile Behind Excavation Using Conditional Merging Technique (조건부 합성 기법을 이용한 굴착 배면 침하량 분포의 정밀 산정)

  • Kim, Taesik;Jung, Young-Hoon
    • Journal of the Korean GEO-environmental Society
    • /
    • v.17 no.8
    • /
    • pp.39-44
    • /
    • 2016
  • Ground deformation around construction site in urban area where typically adjacent structures are located needs to be strictly controlled. Accordingly, it is very important to precisely monitor the ground deformation. Settlement beacon is typically employed to measure the ground deformation, but meanwhile the rapid development in electronic technology enables 3D image scanner to become available for measuring the ground deformation profile in usual construction sites. With respect to the profile measurement, the 3D scanner has an advantage, whereas its accuracy is somewhat limited because it does not measure the displacement directly. In this paper, we developed a conditional merging technique to combine the ground displacement measured from settlement beacon and the profile measured by the 3D scanner. Synthetic ground deformation profile was generated to validate the proposed technique. It is found that the ground deformation measurement error can be reduced significantly via the conditional merging technique.

Bayesian Estimation of k-Population Weibull Distribution Under Ordered Scale Parameters (순서를 갖는 척도모수들의 사전정보 하에 k-모집단 와이블분포의 베이지안 모수추정)

  • 손영숙;김성욱
    • The Korean Journal of Applied Statistics
    • /
    • v.16 no.2
    • /
    • pp.273-282
    • /
    • 2003
  • The problem of estimating the parameters of k-population Weibull distributions is discussed under the prior of ordered scale parameters. Parameters are estimated by the Gibbs sampling method. Since the conditional posterior distribution of the shape parameter in the Gibbs sampler is not log-concave, the shape parameter is generated by the adaptive rejection sampling. Finally, we applied this estimation methodology to the data discussed in Nelson (1970).

Bayesian estimation of ordered parameters (순서화 모수에 대한 베이지안 추정)

  • 정광모;정윤식
    • The Korean Journal of Applied Statistics
    • /
    • v.9 no.1
    • /
    • pp.153-164
    • /
    • 1996
  • We discussed estimation of parameters using Gibbs sampler under order restriction on the parameters. Two well-knwon probability models, ordered exponential family and binomial distribution, are considered. We derived full conditional distributions(FCD) and also used one-for-one sampling algorithm to sample from the FCD's under order restrictions. Finally through two real data sets we compared three kinds of estimators; isotonic regression estimator, isotonic Bayesian estimator and the estimator using Gibbs sampler.

  • PDF

A Study on Drought Trend in Han River Basin (한강유역의 가뭄경향에 관한 연구)

  • Kim, Hyeong-Su;Mun, Jang-Won;Kim, Jae-Hyeong;Kim, Jung-Hun
    • Journal of Korea Water Resources Association
    • /
    • v.33 no.4
    • /
    • pp.437-446
    • /
    • 2000
  • THe drought analysis is performed by applications of truncation level method and conditional probability concept for hydrologic time series in Han river basin. The distributed trend of conditional probability is determined using kriging method for the time series. This study uses daily flowrate, monthly rainfall, and daily high temperature data sets. The daily flowrate data of 12 years(1986~1997) is used for the analysis. Also, the 14 years' data sets(1986~1999) for monthly rainfall and daily high temperature obtained from the National Weather Service of Korea are used in this study. In the cases of flowrate and rainfall data sets, the estimated value corresponding to the truncation level is decreased as the truncation level is increased but in the high temperature data, the value is increased as the truncation level is increased. The conditional probability varies according to the observations and sites. However, the distributed trend of drought is similar over the basin. As a result, the possibility of the drought is high in the middle and lower parts of Han river basin and thus it is recommended the distributed trend of drought be considered when the plan or measures for drought are established.

  • PDF

On Information Theoretical Research of the Korean Language (한국어의 정보이론적 연구 방향)

  • Lee, Jae-Hong;Yi, Chae-Hag
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.367-375
    • /
    • 1992
  • 한국어는 다른 언어와는 달리 초성, 중성, 종성의 자소가 모여서 한 음절을 이룬다. 음절을 이루는 자소는 그 발생의 확률적 성질에 따라 확률변수로 간주된다. 음절 안에서 자소간의 발생의 상관관계는 자소간 조건부 확률 및 엔트로피로 표시된다. 음절이 모여서 단어를 이루고 단어를 이루는 음절은 그 발생의 확률적 성질에 따라 확률변수로 간주된다. 한국어 단어안에서 음절간의 발생의 상관관계는 음절간 조건부 확률 및 엔트로피로 표시된다. 수 있다. 그런데 가능한 음절의 종류가 매우 많기 때문에 음절 발생의 상관관계를 표시하는 지표로서 음절간 조건부 확률 대신 초성, 중성, 종성 단위의 조건부 확률을 사용하는 것이 음절간의 발생의 상관관계를 표시하는데 효과적이다. 이러한 한국어의 정보이론적 연구를 위하여서는 기초자료로서 한국어 단어의 빈도분포가 필요하다. 한국어 단어의 빈도분포의 포괄적인 조사는 1956년의 "우리말 말수 사용의 잦기 조사"가 유일한 실정이다. 시간 경과에 따른 한국어의 정보이론적 특성 변화의 분석을 위하여서는 한국어 단어 빈도의 주기적인 조사가 필요하다. 한국어에서 초성, 중성, 종성단위의 정보이론적 연구결과는 한국어 음성인식 및 함성, 자연언어처리, 암호법, 언어학, 음성학, 한국어부호 표준화 연구등에 이용될 것으로 기대된다. 남북한의 언어는 분단이 지속됨에 따라 상호 이질화가 진행되고 있다. 이러한 이질화를 극복하려는 부분적인 노력으로 남북한 언어의 한국어 영문표기의 단일화 등이 있었다. 이러한 노력에 병행하여 남한과 북한의 언어에 대한 정보이론적 비교 연구도 있어야 할 것이다. 정보를 효과적으로 캐싱할 수 있도록 인접한 데이터를 클러스터링해서 브로드캐스팅하여 이동 호스트의 구성 시간(setup time)을 최소화하였다. 그리고, 맨하탄거리(Manhattan Distance)를 사용해서 위치 의존 질의에서 사용하는 데이타를 캐싱하고 질의를 처리하는 방법을 제안한다. 맨하탄 거리를 이용해서 캐싱하면 도로에 인접해서 위치한 데이타를 효과적으로 캐싱할 수 있다. 또한, 거리 계산 방법으로 맨하탄 거리를 사용하면 도심에서 실제 이동 거리와 비슷한 값을 알 수 있고, 직선 거리 계산식에 비해서 계산식도 간단하기 때문에 시스템 계산량도 줄일 수 있다. 기준으로 라이신 부산물은 어분 단백질을 40%까지 대체가 가능하였으며, 아울러 높은 라이신 부산물의 대체 수준에 있어서 사료효율과 단백질 전환효율을 고려한다면 아미노산 첨가(라이신과 아르지닌)와 중화 효과에 좋은 결과가 있을 것으로 사료된다.의한 적정 양성수용밀도는 각고 5~6cm 크기의 경우 10~15개체가 적합하였다. 수증별 성장은 15~20 m 수층에서 빨랐으며, 성장촉진과 폐사를 줄이기 위해서는 고수온이 지속되는 7~10월에는 20~30m수층으로 채롱을 내려 양성하고 그 외 시기에는 15 m층 내외가 좋은 것으로 나타났다. 상품으로 출하 가능한 크기 인 각고 10 cm이상, 전중량 140 g 내외로 성장시 키기까지는 채묘후 22개월이 소요되었고, 출하시기는 전중량 증가가 최대에 이르는 3월에서 4월 중순이 경제적일 것으로 판단된다.er 90 % of good relative dynamic modulus of elasticity due

  • PDF

Time-series Mapping and Uncertainty Modeling of Environmental Variables: A Case Study of PM10 Concentration Mapping (시계열 환경변수 분포도 작성 및 불확실성 모델링: 미세먼지(PM10) 농도 분포도 작성 사례연구)

  • Park, No-Wook
    • Journal of the Korean earth science society
    • /
    • v.32 no.3
    • /
    • pp.249-264
    • /
    • 2011
  • A multi-Gaussian kriging approach extended to space-time domain is presented for uncertainty modeling as well as time-series mapping of environmental variables. Within a multi-Gaussian framework, normal score transformed environmental variables are first decomposed into deterministic trend and stochastic residual components. After local temporal trend models are constructed, the parameters of the models are estimated and interpolated in space. Space-time correlation structures of stationary residual components are quantified using a product-sum space-time variogram model. The ccdf is modeled at all grid locations using this space-time variogram model and space-time kriging. Finally, e-type estimates and conditional variances are computed from the ccdf models for spatial mapping and uncertainty analysis, respectively. The proposed approach is illustrated through a case of time-series Particulate Matter 10 ($PM_{10}$) concentration mapping in Incheon Metropolitan city using monthly $PM_{10}$ concentrations at 13 stations for 3 years. It is shown that the proposed approach would generate reliable time-series $PM_{10}$ concentration maps with less mean bias and better prediction capability, compared to conventional spatial-only ordinary kriging. It is also demonstrated that the conditional variances and the probability exceeding a certain thresholding value would be useful information sources for interpretation.

Wild bootstrap Ljung-Box test for autocorrelation in vector autoregressive and error correction models (벡터자기회귀모형과 오차수정모형의 자기상관성을 위한 와일드 붓스트랩 Ljung-Box 검정)

  • Lee, Myeongwoo;Lee, Taewook
    • The Korean Journal of Applied Statistics
    • /
    • v.29 no.1
    • /
    • pp.61-73
    • /
    • 2016
  • We consider the wild bootstrap Ljung-Box (LB) test for autocorrelation in residuals of fitted multivariate time series models. The asymptotic chi-square distribution under the IID assumption is traditionally used for the LB test; however, size distortion tends to occur in the usage of the LB test, due to the conditional heteroskedasticity of financial time series. In order to overcome such defects, we propose the wild bootstrap LB test for autocorrelation in residuals of fitted vector autoregressive and error correction models. The simulation study and real data analysis are conducted for finite sample performance.

Evaluation of GPM satellite and S-band radar rain data for flood simulation using conditional merging method and KIMSTORM2 distributed model (조건부합성 기법과 KIMSTORM2 분포형 수문모형을 이용한 GPM 위성 강우자료 및 Radar 강우자료의 홍수모의 평가)

  • Kim, Se Hoon;Jung, Chung Gil;Jang, Won Jin;Kim, Seong Joon
    • Journal of Korea Water Resources Association
    • /
    • v.52 no.1
    • /
    • pp.21-33
    • /
    • 2019
  • This study performed to simulate the watershed storm runoff using data of S-band dual-polarization radar rain, GPM (Global Precipitation Mission) satellite rain, and observed rainfall at 21 ground stations operated by KMA (Korea Meteorological Administration) respectively. For the 3 water level gauge stations (Sancheong, Changchon, and Namgang) of NamgangDam watershed ($2,293km^2$), the KIMSTORM2 (KIneMatic wave STOrm Runoff Model2) was applied and calibrated with parameters of initial soil moisture contents, Manning's roughness of overland and stream to the event of typhoon CHABA (82 mm in watershed aveprage) in $5^{th}$ October 2016. The radar and GPM data was corrected with CM (Conditional Merging) method such as CM-corrected Radar and CM-corrected GPM. The CM has been used for accurate rainfall estimation in water resources and meteorological field and the method combined measured ground rainfall and spatial data such as radar and satellite images by the kriging interpolation technique. For the CM-corrected Radar and CM-corrected GPM data application, the determination coefficient ($R^2$) was 0.96 respectively. The Nash-Sutcliffe efficiency (NSE) was 0.96 and the Volume Conservation Index (VCI) was 1.03 respectively. The CM-corrected data of Radar and GPM showed good results for the CHABA peak runoff and runoff volume simulation and improved all of $R^2$, NSE, and VCI comparing with the original data application. Thus, we need to use and apply the radar and satellite data to monitor the flood within the watershed.