• Title/Summary/Keyword: 역확률 가중치

Search Result 13, Processing Time 0.031 seconds

A simulation study for various propensity score weighting methods in clinical problematic situations (임상에서 발생할 수 있는 문제 상황에서의 성향 점수 가중치 방법에 대한 비교 모의실험 연구)

  • Siseong Jeong;Eun Jeong Min
    • The Korean Journal of Applied Statistics
    • /
    • v.36 no.5
    • /
    • pp.381-397
    • /
    • 2023
  • The most representative design used in clinical trials is randomization, which is used to accurately estimate the treatment effect. However, comparison between the treatment group and the control group in an observational study without randomization is biased due to various unadjusted differences, such as characteristics between patients. Propensity score weighting is a widely used method to address these problems and to minimize bias by adjusting those confounding and assess treatment effects. Inverse probability weighting, the most popular method, assigns weights that are proportional to the inverse of the conditional probability of receiving a specific treatment assignment, given observed covariates. However, this method is often suffered by extreme propensity scores, resulting in biased estimates and excessive variance. Several alternative methods including trimming, overlap weights, and matching weights have been proposed to mitigate these issues. In this paper, we conduct a simulation study to compare performance of various propensity score weighting methods under diverse situation, such as limited overlap, misspecified propensity score, and treatment contrary to prediction. From the simulation results overlap weights and matching weights consistently outperform inverse probability weighting and trimming in terms of bias, root mean squared error and coverage probability.

Automatic Text Categorization by Term Weighting and Inverted Category Frequency (용어 가중치와 역범주 빈도에 의한 자동문서 범주화)

  • Lee, Kyung-Chan;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.14-17
    • /
    • 2003
  • 문서의 확률을 이용하여 자동으로 문서를 분류하는 문서 범주화 기법의 대표적인 방법이 나이브 베이지언 확률 모델이다. 이 방법의 기본 형식은 출현 용어의 확률 계산 방법이다. 하지만 실제 문서 범주화 과정에서 출현하지 않는 용어들도 성능에 많은 영향을 줄 수 있으며, 출현 용어들에 대한 빈도 이외의 역범주 빈도나 용어가중치를 적용하여 문서 범주화 시스템의 성능을 향상시킬 수 있다. 본 논문에서는 나이브 베이지언 확률 모델에 출현 용어와 출현하지 않는 용어들에 대한 smoothing 기법을 적용하여 실험하였다. 성능 평가를 위해 뉴스그룹 문서들을 이용하였으며, 역범주 빈도와 가중치를 적용했을 때 나이브 베이지언 확률 모델에 비해 약 7% 정도 성능 개선 효과가 있었다.

  • PDF

Overview of estimating the average treatment effect using dimension reduction methods (차원축소 방법을 이용한 평균처리효과 추정에 대한 개요)

  • Mijeong Kim
    • The Korean Journal of Applied Statistics
    • /
    • v.36 no.4
    • /
    • pp.323-335
    • /
    • 2023
  • In causal analysis of high dimensional data, it is important to reduce the dimension of covariates and transform them appropriately to control confounders that affect treatment and potential outcomes. The augmented inverse probability weighting (AIPW) method is mainly used for estimation of average treatment effect (ATE). AIPW estimator can be obtained by using estimated propensity score and outcome model. ATE estimator can be inconsistent or have large asymptotic variance when using estimated propensity score and outcome model obtained by parametric methods that includes all covariates, especially for high dimensional data. For this reason, an ATE estimation using an appropriate dimension reduction method and semiparametric model for high dimensional data is attracting attention. Semiparametric method or sparse sufficient dimensionality reduction method can be uesd for dimension reduction for the estimation of propensity score and outcome model. Recently, another method has been proposed that does not use propensity score and outcome regression. After reducing dimension of covariates, ATE estimation can be performed using matching. Among the studies on ATE estimation methods for high dimensional data, four recently proposed studies will be introduced, and how to interpret the estimated ATE will be discussed.

Effective Image Super-Resolution Algorithm Using Adaptive Weighted Interpolation and Discrete Wavelet Transform (적응적 가중치 보간법과 이산 웨이블릿 변환을 이용한 효율적인 초해상도 기법)

  • Lim, Jong Myeong;Yoo, Jisang
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.38A no.3
    • /
    • pp.240-248
    • /
    • 2013
  • In this paper, we propose a super-resolution algorithm using an adaptive weighted interpolation(AWI) and discrete wavelet transform(DWT). In general, super-resolution algorithms for single-image, probability based operations have been used for searching high-frequency components. Consequently, the complexity of the algorithm is increased and it causes the increase of processing time. In the proposed algorithm, we first find high-frequency sub-bands by using DWT. Then we apply an AWI to the obtained high-frequency sub-bands to make them have the same size as the input image. Now, the interpolated high-frequency sub-bands and input image are properly combined and perform the inverse DWT. For the experiments, we use the down-sampled version of the original image($512{\times}512$) as a test image($256{\times}256$). Through experiment, we confirm the improved efficiency of the proposed algorithm comparing with interpolation algorithms and also save the processing time comparing with the probability based algorithms even with the similar performance.

Association Between Cognitive Impairment and Oral Health Related Quality of Life: Using Propensity Score Approaches (인지기능과 구강건강관련 삶의 질의 연관성에 대한 연구: 성향점수 분석과 회귀모델을 중심으로)

  • Cha, Suna;Bae, Suyeong;Nam, Sanghun;Hong, Ickpyo
    • Therapeutic Science for Rehabilitation
    • /
    • v.12 no.3
    • /
    • pp.61-77
    • /
    • 2023
  • Objective : This study analyzed the correlation between cognitive function and oral health-related quality of life (OHQoL). Methods : Demographic and clinical characteristics were extracted and utilized for subjects aged 45 years or older who participated in the 8th Korean Longitudinal Study on Aging in 2020. The dependent variable was the Geriatric Oral Health Assessment Index, and the independent variable was the level of cognitive function classified by the Mini-Mental State Examination scores. The analysis method used inverse probability of treatment weighting (IPTW). Then, the association between cognitive function and OHQoL was analyzed by multiple regression analysis. Results : Among the participants, 4,367 (71.40%) had normal cognition, 1,155 (18.89%) had moderate cognitive impairment, and 594 (9.71%) had severe cognitive impairment. As a result of analysis by applying IPTW, there was a negative correlation between the cognitive function group and OHQoL (normal vs. moderate: β = -2.534, p < .0001; normal vs. severe: β = -2.452, p < .0001). Conclusion : After propensity score matching, mild cognitive impairment showed a more negative association than severe cognitive impairment. Therefore, patients with cognitive impairment require oral health management education to improve OHQoL regardless of the level of cognitive impairment.

Mixed distributions and Laten Process over Nonstationary Rainfall/Flood Frequency Estimates over South Korea: The Role of Large Scale Climate Pattern (혼합 분포와 은닉 과정 모의를 통한 비정상성 강우/빈도 빈도해석: 전지구 기상학적 변동성의 역할)

  • Kwon, Hyun-Han
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2018.05a
    • /
    • pp.8-8
    • /
    • 2018
  • 전통적인 빈도해석은 정상성 가정을 기초로 단일 확률분포를 강우 및 홍수량 자료에 적용하는 과정을 통해 확률수문량을 추정하는 것을 목적으로 하고 있다. 그러나 전지구적인 기상학적 변동성 및 기후변화로 기인하는 극치수문량의 발생 빈도 및 양적 크기의 변화는 확률통계학적 관점에서 서로 다른 분포특성을 가지게 된다. 대표적인 기상변동성인 엘니뇨가 발생하는 경우 지역에 따라 홍수 및 가뭄이 발생 발생하게 되며, 이러한 극치수문량은 일반적으로 나타나는 홍수 및 가뭄의 분포특성과는 상이한 경우가 많다. 즉, 2개 이상의 확률분포 특성이 혼재된 혼합분포의 특성을 가지는 경우가 나타내게 되며 이를 고려한 빈도해석 기법의 개발 및 적용이 필요하다. 혼합분포를 활용한 빈도해석에서 가장 중요한 사항 중에 하나는 개별 분포에 적용되는 가중치를 추정하는 것으로서 통계학적 관점에서 자료의 특성에 근거하여 내재되어 있는 은닉상태(latent process)를 추정하는 과정과 유사하다. 이와 더불어 앞서 언급된 기상학적 변동성을 빈도해석에 반영하기 위한 비정상성 해석기법의 개발 및 적용도 필요하다. 본 연구에서는 혼합분포를 활용한 비정상성빈도해석모형을 개발하는데 목적이 있으며 개별매개변수의 동적거동 뿐만 아니라 가중치에 대한 시간적인 종속성도 고려할 수 있는 모형으로 동적모형으로 다양한 실험적 해석이 가능하다. 본 연구에서는 개발된 모형을 기반으로 엘니뇨와 같은 기상변동성에 따른 강우 및 홍수빈도해석 측면에서 은닉상태에 변화, 이로 인한 확률분포의 특성 및 설계수문량의 동적변동성을 평가하고자 한다.

  • PDF

Estimation of Low-flow by Power Distribution (Power Distribution을 이용한 저수지 하천유량 추정)

  • Kim, Sang-Ug;Son, Min-Woo;Hong, Il-Pyo
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2006.05a
    • /
    • pp.697-700
    • /
    • 2006
  • 저수시 하천유량(Low Streamflow)의 추정은 하천의 수질관리, 용수공급계획, 댐 방류계획등의 수자원관리에 있어서 매우 중요한 부분이다. 이러한 중요성에 따라 Vogel과 Kroll (1989)은 저수시 하천유량을 추정하기 위한 여러 가지 확률분포함수를 제안하였다. 가장 흔히 제안되어지는 이변수 확률분포(Two-Parameter Distribution)로는 Lognormal 분포와 Weibull 분포가 있으며 이와 더불어 Three-Parameter Lognormal, Three-Parameter Weibull, Log Person Type Ⅲ 분포도 널리 사용되어진다. 그러나 이러한 여러 가지 확률 분포함수 중에서 가장 적절한 확률분포의 선택은 저수시 하천유량의 물리적인 측면과는 상관없이 주로 적합도(Gooness of Fit)에 기인된 통계치에 의해서만 결정되기도 하는데 이러한 경우 잘못된 가정을 받아들이는 확률이 높아짐에 따라 추정결과의 신뢰성(Reliability)을 감소시킬 수 있다. 이러한 문제점을 극복하기 위해서 Onoz와 Bayazit (2001)는 Recession Curve를 지수함수로 가정하고 최대 갈수 기간의 길이(Maximum Dry Period Length)의 확률에 대한 이론적인 결과치들을 사용하여 Weibull 분포의 특정한 경우에 해당되어지는 Power 분포를 유도하였으며 유도된 Power 분포의 매개변수를 추정하기 위하여 L-Moment 방법을 사용하였다. 또한 Onoz와 Bayazit (2001) 작은 유출량에서 확률분포와 잘 맞지 않는 경우 작은 유출량값에 작은 가중치를 부여하여 확률분포에 대한 영향을 줄이는 방법인 LL-Moment 방법을 제안하였다. 본 연구에서는 낙동강 유역의 1번부터 5번 소유역에 대해 SSARR 모형을 이용하여 모의한 유출량을 이용하여 Weibull 분포, L-Moment방법에 의해 추정된 매개변수를 사용한 Power 분포, LL-Moment 방법에 의해 추정된 매개변수를 사용한 Power 분포를 적용하였으며 이들 분포의 적합도를 PPCC Test를 사용하여 평가해봄으로써 낙동강 유역에서의 저수시의 유출량 추정에 대한 Power 분포의 적용성을 판단해 보았다.

  • PDF

A Text Mining-based Intrusion Log Recommendation in Digital Forensics (디지털 포렌식에서 텍스트 마이닝 기반 침입 흔적 로그 추천)

  • Ko, Sujeong
    • KIPS Transactions on Computer and Communication Systems
    • /
    • v.2 no.6
    • /
    • pp.279-290
    • /
    • 2013
  • In digital forensics log files have been stored as a form of large data for the purpose of tracing users' past behaviors. It is difficult for investigators to manually analysis the large log data without clues. In this paper, we propose a text mining technique for extracting intrusion logs from a large log set to recommend reliable evidences to investigators. In the training stage, the proposed method extracts intrusion association words from a training log set by using Apriori algorithm after preprocessing and the probability of intrusion for association words are computed by combining support and confidence. Robinson's method of computing confidences for filtering spam mails is applied to extracting intrusion logs in the proposed method. As the results, the association word knowledge base is constructed by including the weights of the probability of intrusion for association words to improve the accuracy. In the test stage, the probability of intrusion logs and the probability of normal logs in a test log set are computed by Fisher's inverse chi-square classification algorithm based on the association word knowledge base respectively and intrusion logs are extracted from combining the results. Then, the intrusion logs are recommended to investigators. The proposed method uses a training method of clearly analyzing the meaning of data from an unstructured large log data. As the results, it complements the problem of reduction in accuracy caused by data ambiguity. In addition, the proposed method recommends intrusion logs by using Fisher's inverse chi-square classification algorithm. So, it reduces the rate of false positive(FP) and decreases in laborious effort to extract evidences manually.

Probability-based IoT management model using blockchain to expand multilayered networks (블록체인을 이용하여 다층 네트워크를 확장한 확률 기반의 IoT 관리 모델)

  • Jeong, Yoon-Su
    • Journal of the Korea Convergence Society
    • /
    • v.11 no.4
    • /
    • pp.33-39
    • /
    • 2020
  • Interest in 5G communication security has been growing recently amid growing expectations for 5G technology with faster speed and stability than LTE. However, 5G has so far included disparate areas, so it has not yet fully supported the issues of security. This paper proposes a blockchain-based IoT management model in order to efficiently provide the authentication of users using IoT in 5G In order to efficiently fuse the authentication of IoT users with probabilistic theory and physical structure, the proposed model uses two random keys in reverse direction at different layers so that two-way authentication is achieved by the managers of layers and layers. The proposed model applied blockchain between grouped IoT devices by assigning weights to layer information of IoT information after certification of IoT users in 5G environment is stratified on a probabilistic basis. In particular, the proposed model has better functions than the existing blockchain because it divides the IoT network into layered, multi-layered networks.

소유역 및 미계측 유역의 설계홍수량 산정시 Thiessen망의 부적절한 이용에 따른 문제점 및 해결방안 연구

  • Lee, Hyunseung;Lee, Taesam
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2015.05a
    • /
    • pp.151-151
    • /
    • 2015
  • 최근 기후변화 및 토지 이용변화 때문에 홍수가 빈번하고 이로 인한 피해가 급증하고 있으며 4대강 사업이 이슈가 되면서 강우예측과 홍수량 산정에 대한 연구가 활발히 진행되고 있다. 하지만 여전히 홍수량 과다 과소 산정으로 인하여 지역적으로 문제점이 야기되고 피해가 발생하고 있다. 특히 Thiessen방법은 유역의 면적 강우량을 산정하기 위해 광범위하게 사용되고 있는데 중 소유역 또는 미계측 유역에 적절한 고려없이 무분별하게 사용하고 있어 문제가 발생되고 있는 실정이다. 또한 현재까지 큰 문제는 발생하지 않았지만 여전히 안전이나 위험에 노출된 상태이다. 따라서 Thiessen망 사용의 정밀한 분석이 무엇보다 필요한 실정이다. 따라서 본 연구를 통하여 소유역 및 미계측 유역을 대상으로 Thiessen망 이용시 관측소 선정에 따른 홍수량의 차이를 분석하고, 이에 따라 어떠한 문제가 발생할 수 있는지 분석하였다. 기존 소유역 및 미계측 유역 중 Thiessen방법을 적용하여 홍수량을 산정한 사례를 전반적으로 조사하였다. 이중에서 여러 지점중 Thiessen망 사용으로 유역이 분할되어 홍수량산정에 문제가 될 수 있는 관하천, 수외천, 주교천, 풍천을 연구 대상지점으로 선정하였다. 부적절한 Thiessen망 산정이 홍수량 산정에 미치는 영향을 평가하기 위하여 신뢰성있고 가장 실설계에 많이 사용되고 있는 다음의 방법으로 홍수량을 산정하였다. 먼저, 관측소 선정에 있어서 관측년도가 비교적 길고 유역과 가장 가까운 기상청 관할의 관측소를 선정하고 홍수량 산정요령에 따라 홍수량을 재 산정 하였다. 본 연구로부터 나온 결과에서, 산정된 홍수량은 기존의 Thiessen망을 통하여 산정된 홍수량과 차이를 보였고, 이는 Thiessen다각형 이론에 위배되는 관측소 선정이 원인으로 밝혀졌다. 따라서 본 연구에서는 관측년도가 길고 강우자료의 신뢰도가 높은 기상청 관할 관측소의 강우자료를 우선적으로 사용할 것을 제시하였다. 또한, 여러 관측소의 강우자료를 Thiessen망을 통하여 산정하는 부적절한 산정법을 신뢰성있는 단일지점의 강우량 산정법으로 적절한 홍수량이 산정할 것을 제시하였다.

  • PDF