• 제목/요약/키워드: 역확률가중치

검색결과 13건 처리시간 0.026초

임상에서 발생할 수 있는 문제 상황에서의 성향 점수 가중치 방법에 대한 비교 모의실험 연구 (A simulation study for various propensity score weighting methods in clinical problematic situations)

  • 정시성;민은정
    • 응용통계연구
    • /
    • 제36권5호
    • /
    • pp.381-397
    • /
    • 2023
  • 대부분의 임상시험에서 가장 대표적으로 사용되는 실험설계는 무작위화로, 치료 효과를 정확하게 추정하기 위해 이용된다. 그러나 무작위화가 이루어지지 않은 관찰연구의 경우 치료군과 대조군의 비교로 얻는 치료효과에는 환자 간의 특성 등 여러 조정되지 않은 차이로 인해 편향이 발생한다. 성향 점수 가중치는 이러한 문제점을 해결하기 위해 널리쓰이는 방법으로 치료 효과를 추정하는데에 있어 교란요인을 조정하여 편향을 최소화하도록 하는 방법이다. 성향 점수를 이용한 가중치 방법 중 가장 널리 알려진 역확률 가중치는 관찰된 공변량이 주어졌을 때 특정 치료에 할당될 조건부 확률의 역에 비례하는 가중치를 할당한다. 그러나 이 방법은 극단적인 성향 점수에 의해 종종 방해 받아 편향된 추정치와 과도한 분산을 초래한다는 점이 알려져있어 이러한 문제를 완화하기 위해 절사 역확률 가중치, 중복 가중치, 일치 가중치를 포함한 여러 가지 대안 방법이 제안되었다. 본 논문에서는 제한된 중복, 잘못 지정된 성향 점수 모델 및 예측과 반대되는 치료 등 다양한 문제상황에서 여러 성향 점수 가중치 방법의 성능을 비교하는 시뮬레이션 비교연구를 수행하였다. 비교연구의 결과 중복 가중치와 일치 가중치는 편향, 제곱근평균제곱오차 및 포함 확률 측면에서 역확률 가중치와 절사역확률 가중치에 비에 우월한 성능을 보임을 확인하였다.

용어 가중치와 역범주 빈도에 의한 자동문서 범주화 (Automatic Text Categorization by Term Weighting and Inverted Category Frequency)

  • 이경찬;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.14-17
    • /
    • 2003
  • 문서의 확률을 이용하여 자동으로 문서를 분류하는 문서 범주화 기법의 대표적인 방법이 나이브 베이지언 확률 모델이다. 이 방법의 기본 형식은 출현 용어의 확률 계산 방법이다. 하지만 실제 문서 범주화 과정에서 출현하지 않는 용어들도 성능에 많은 영향을 줄 수 있으며, 출현 용어들에 대한 빈도 이외의 역범주 빈도나 용어가중치를 적용하여 문서 범주화 시스템의 성능을 향상시킬 수 있다. 본 논문에서는 나이브 베이지언 확률 모델에 출현 용어와 출현하지 않는 용어들에 대한 smoothing 기법을 적용하여 실험하였다. 성능 평가를 위해 뉴스그룹 문서들을 이용하였으며, 역범주 빈도와 가중치를 적용했을 때 나이브 베이지언 확률 모델에 비해 약 7% 정도 성능 개선 효과가 있었다.

  • PDF

인지기능과 구강건강관련 삶의 질의 연관성에 대한 연구: 성향점수 분석과 회귀모델을 중심으로 (Association Between Cognitive Impairment and Oral Health Related Quality of Life: Using Propensity Score Approaches)

  • 차선아;배수영;남상훈;홍익표
    • 재활치료과학
    • /
    • 제12권3호
    • /
    • pp.61-77
    • /
    • 2023
  • 목적 : 본 연구는 노인들의 인지기능과 구강건강관련 삶의 질 사이의 연관성을 분석하기 위해 수행되었다. 연구방법 : 2020년에 수집된 제8차 고령화연구패널조사에 참여한 지역에 거주하는 45세 이상의 중고령자를 대상으로 인구통계학적 및 임상적 특성을 추출하여 활용하였다. 독립변수는 한국형 간이정신상태검사 점수를 기준으로 분류한 인지기능, 종속변수는 구강건강관련 삶의 질을 측정하기 위한 노인구강건강평가지수이다. 인지기능 그룹 간 공변량의 차이를 보정하기 위해 성향점수 활용법 중 역확률가중치를 적용 후 인지기능과 구강건강관련 삶의 질의 연관성을 분석하기 위해 역확률가중치 적용 전의 다중회귀분석과 적용 후의 다중회귀분석 결과에 차이가 있는지 결과를 비교하였다. 결과 : 연구 대상자는 총 6,116명으로 인지정상군 4,367명, 경도 인지손상군 1,155명, 중증 인지손상군 594명으로 구성되었다. 성향점수 역확률가중치 적용 결과로 표준화된 평균 차이(standardized mean difference)를 확인하여 0.2 이상인 변수를 다시 통제하고 분석한 다중회귀모델에서 인지기능 그룹과 구강건강관련 삶의 질 간의 부정적인 연관성이 있었다(정상 vs. 경도: β = -2.534, p < .0001; 정상 vs. 중증: β = -2.452, p < .0001). 결론 : 본 연구 결과에서 인지손상과 구강건강관련 삶의 질은 음의 연관성을 나타내었다. 성향점수 활용 후 중증 인지손상보다 경도 인지손상에서 더 부정적인 연관성을 나타낸 결과는 인지손상은 저하된 정도와 관계없이 구강건강관련 삶의 질에 부정적인 영향을 미치는 것을 의미한다. 따라서 인지기능의 감퇴가 나타난 모든 환자들은 구강관리의 중요성과 교육이 필요하다는 것을 시사한다.

적응적 가중치 보간법과 이산 웨이블릿 변환을 이용한 효율적인 초해상도 기법 (Effective Image Super-Resolution Algorithm Using Adaptive Weighted Interpolation and Discrete Wavelet Transform)

  • 임종명;유지상
    • 한국통신학회논문지
    • /
    • 제38A권3호
    • /
    • pp.240-248
    • /
    • 2013
  • 본 논문에서는 이산 웨이블릿 변환(Discrete Wavelet Transform: DWT)과 적응적 가중치 보간법을 이용한 효율적인 초해상도 기법을 제안한다. 기존의 단일 영상에 적용되는 초해상도 기법들의 경우, 영상에서의 고주파 대역을 찾기 위하여 확률 기반의 방법들을 많이 사용하였다. 따라서 연산의 복잡도가 증가하고 처리시간 증가라는 문제점을 발생시킨다. 제안된 기법에서는 고주파 대역을 찾기 위한 방법으로 DWT와 적응적 가중치 보간법을 이용한다. 먼저 주어진 영상에 대하여 DWT를 수행하고, 생성된 고주파 부대역(sub-band)들을 적응적 가중치 보간법을 이용하여 입력 받은 영상과 동일한 크기의 고주파 부대역을 생성한다. 이 부대역들과 입력 받은 영상을 조합하여 이산 웨이블릿 역변환(Inverse DWT : IDWT)을 수행함으로써 고해상도의 영상을 획득하게 된다. 실험을 위하여 원본 영상($512{\times}512$)을 다운 샘플링하여 실험 영상($256{\times}256$)을 획득한다. 실험을 통하여 제안된 기법이 기존의 보간법에 비해 향상된 효율을 보이며, 확률 기반의 기법들과 비슷한 성능을 갖지만 처리시간에서 많은 이득을 보이는 것을 확인할 수 있었다.

차원축소 방법을 이용한 평균처리효과 추정에 대한 개요 (Overview of estimating the average treatment effect using dimension reduction methods)

  • 김미정
    • 응용통계연구
    • /
    • 제36권4호
    • /
    • pp.323-335
    • /
    • 2023
  • 고차원 데이터의 인과 추론에서 고차원 공변량의 차원을 축소하고 적절히 변형하여 처리와 잠재 결과에 영향을 줄 수 있는 교란을 통제하는 것은 중요한 문제이다. 평균 처리 효과(average treatment effect; ATE) 추정에 있어서, 성향점수와 결과 모형 추정을 이용한 확장된 역확률 가중치 방법이 주로 사용된다. 고차원 데이터의 분석시 모든 공변량을 포함한 모수 모형을 이용하여 성향 점수와 결과 모형 추정을 할 경우, ATE 추정량이 일치성을 갖지 않거나 추정량의 분산이 큰 값을 가질 수 있다. 이런 이유로 고차원 데이터에 대한 적절한 차원 축소 방법과 준모수 모형을 이용한 ATE 방법이 주목 받고 있다. 이와 관련된 연구로는 차원 축소부분에 준모수 모형과 희소 충분 차원 축소 방법을 활용한 연구가 있다. 최근에는 성향점수와 결과 모형을 추정하지 않고, 차원 축소 후 매칭을 활용한 ATE 추정 방법도 제시되었다. 고차원 데이터의 ATE 추정 방법연구 중 최근에 제시된 네 가지 연구에 대해 소개하고, 추정치 해석시 유의할 점에 대하여 논하기로 한다.

혼합 분포와 은닉 과정 모의를 통한 비정상성 강우/빈도 빈도해석: 전지구 기상학적 변동성의 역할 (Mixed distributions and Laten Process over Nonstationary Rainfall/Flood Frequency Estimates over South Korea: The Role of Large Scale Climate Pattern)

  • 권현한
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2018년도 학술발표회
    • /
    • pp.8-8
    • /
    • 2018
  • 전통적인 빈도해석은 정상성 가정을 기초로 단일 확률분포를 강우 및 홍수량 자료에 적용하는 과정을 통해 확률수문량을 추정하는 것을 목적으로 하고 있다. 그러나 전지구적인 기상학적 변동성 및 기후변화로 기인하는 극치수문량의 발생 빈도 및 양적 크기의 변화는 확률통계학적 관점에서 서로 다른 분포특성을 가지게 된다. 대표적인 기상변동성인 엘니뇨가 발생하는 경우 지역에 따라 홍수 및 가뭄이 발생 발생하게 되며, 이러한 극치수문량은 일반적으로 나타나는 홍수 및 가뭄의 분포특성과는 상이한 경우가 많다. 즉, 2개 이상의 확률분포 특성이 혼재된 혼합분포의 특성을 가지는 경우가 나타내게 되며 이를 고려한 빈도해석 기법의 개발 및 적용이 필요하다. 혼합분포를 활용한 빈도해석에서 가장 중요한 사항 중에 하나는 개별 분포에 적용되는 가중치를 추정하는 것으로서 통계학적 관점에서 자료의 특성에 근거하여 내재되어 있는 은닉상태(latent process)를 추정하는 과정과 유사하다. 이와 더불어 앞서 언급된 기상학적 변동성을 빈도해석에 반영하기 위한 비정상성 해석기법의 개발 및 적용도 필요하다. 본 연구에서는 혼합분포를 활용한 비정상성빈도해석모형을 개발하는데 목적이 있으며 개별매개변수의 동적거동 뿐만 아니라 가중치에 대한 시간적인 종속성도 고려할 수 있는 모형으로 동적모형으로 다양한 실험적 해석이 가능하다. 본 연구에서는 개발된 모형을 기반으로 엘니뇨와 같은 기상변동성에 따른 강우 및 홍수빈도해석 측면에서 은닉상태에 변화, 이로 인한 확률분포의 특성 및 설계수문량의 동적변동성을 평가하고자 한다.

  • PDF

Power Distribution을 이용한 저수지 하천유량 추정 (Estimation of Low-flow by Power Distribution)

  • 김상욱;손민우;홍일표
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2006년도 학술발표회 논문집
    • /
    • pp.697-700
    • /
    • 2006
  • 저수시 하천유량(Low Streamflow)의 추정은 하천의 수질관리, 용수공급계획, 댐 방류계획등의 수자원관리에 있어서 매우 중요한 부분이다. 이러한 중요성에 따라 Vogel과 Kroll (1989)은 저수시 하천유량을 추정하기 위한 여러 가지 확률분포함수를 제안하였다. 가장 흔히 제안되어지는 이변수 확률분포(Two-Parameter Distribution)로는 Lognormal 분포와 Weibull 분포가 있으며 이와 더불어 Three-Parameter Lognormal, Three-Parameter Weibull, Log Person Type Ⅲ 분포도 널리 사용되어진다. 그러나 이러한 여러 가지 확률 분포함수 중에서 가장 적절한 확률분포의 선택은 저수시 하천유량의 물리적인 측면과는 상관없이 주로 적합도(Gooness of Fit)에 기인된 통계치에 의해서만 결정되기도 하는데 이러한 경우 잘못된 가정을 받아들이는 확률이 높아짐에 따라 추정결과의 신뢰성(Reliability)을 감소시킬 수 있다. 이러한 문제점을 극복하기 위해서 Onoz와 Bayazit (2001)는 Recession Curve를 지수함수로 가정하고 최대 갈수 기간의 길이(Maximum Dry Period Length)의 확률에 대한 이론적인 결과치들을 사용하여 Weibull 분포의 특정한 경우에 해당되어지는 Power 분포를 유도하였으며 유도된 Power 분포의 매개변수를 추정하기 위하여 L-Moment 방법을 사용하였다. 또한 Onoz와 Bayazit (2001) 작은 유출량에서 확률분포와 잘 맞지 않는 경우 작은 유출량값에 작은 가중치를 부여하여 확률분포에 대한 영향을 줄이는 방법인 LL-Moment 방법을 제안하였다. 본 연구에서는 낙동강 유역의 1번부터 5번 소유역에 대해 SSARR 모형을 이용하여 모의한 유출량을 이용하여 Weibull 분포, L-Moment방법에 의해 추정된 매개변수를 사용한 Power 분포, LL-Moment 방법에 의해 추정된 매개변수를 사용한 Power 분포를 적용하였으며 이들 분포의 적합도를 PPCC Test를 사용하여 평가해봄으로써 낙동강 유역에서의 저수시의 유출량 추정에 대한 Power 분포의 적용성을 판단해 보았다.

  • PDF

디지털 포렌식에서 텍스트 마이닝 기반 침입 흔적 로그 추천 (A Text Mining-based Intrusion Log Recommendation in Digital Forensics)

  • 고수정
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제2권6호
    • /
    • pp.279-290
    • /
    • 2013
  • 디지털 포렌식에서의 로그 데이터는 사용자의 과거 행적에 대한 추적을 목적으로 대용량의 형태로 저장된다는 특성을 가지고 있다. 이러한 대용량의 로그 데이터를 단서가 없이 수동으로 분석하는 절차는 조사관들에게는 어려운 일이다. 본 논문에서는 포렌식 분석을 하는 조사관들에게 믿을 만한 증거를 추천하기 위하여 대용량의 로그 집합으로부터 해킹 흔적을 추출하는 텍스트 마이닝 기술을 제안한다. 학습 단계에서는 훈련 로그 집합을 대상으로 전처리를 한 후, Apriori 알고리즘을 이용하여 침입 흔적 연관 단어를 추출하고, 신뢰도와 지지도를 병합하여 각 연관단어의 침입 흔적 확률을 계산한다. 또한, 침입 흔적 확률의 정확도를 높이기 위하여 스팸 메일의 여과에 사용된 Robinson의 신뢰도 계산 방법을 이용하여 확률에 가중치를 추가하며, 최종적으로 침입 흔적 연관 단어 지식 베이스를 구축한다. 테스트 단계에서는 연관 단어 지식 베이스를 기반으로 테스트 로그 집합에 대해 피셔(Fisher)의 역 카이제곱 분류 알고리즘을 적용하여 침입 흔적 로그일 확률과 정상 로그일 확률을 계산하고, 이를 병합하여 침입 흔적 로그를 추출한다. 추출된 로그를 조사관에게 침입 흔적이 있는 로그로서 추천한다. 제안한 방법은 비구조화된 대용량의 로그 데이터를 대상으로 데이터의 의미를 명확하게 분석할 수 있는 학습 방법을 사용함으로써 데이터의 모호성으로 인해 발생하는 정확도 저하 문제를 보완할 수 있으며, 피셔의 역 카이제곱 분류 알고리즘을 이용하여 추천함으로써 오분류율(false positive)을 감소시키고 수동으로 증거를 추출하는 번거로움을 줄일 수 있다는 장점을 갖는다.

블록체인을 이용하여 다층 네트워크를 확장한 확률 기반의 IoT 관리 모델 (Probability-based IoT management model using blockchain to expand multilayered networks)

  • 정윤수
    • 한국융합학회논문지
    • /
    • 제11권4호
    • /
    • pp.33-39
    • /
    • 2020
  • 최근 LTE보다 빠른 속도와 안정을 가진 5G 기술에 대한 기대감이 증가하고 있는 가운데 5G 통신 보안에 대한 관심이 증가하고 있다. 그러나, 5G는 현재까지 이질적인 영역이 서로 포함되어 있어서 보안 영역에 대한 문제들을 아직 완벽하게 지원하고 있지 않다. 본 논문은 5G 환경에서 IoT 장치의 인증을 블록체인에 적용한 확률 기반의 IoT 관리모델을 제안한다. 제안 모델은 IoT 장치의 인증을 확률적 이론과 물리적 구조를 효율적으로 융합하기 위해서 n 계층의 IoT 사용자를 n+1 계층과 n-1 계층의 관리자가 쌍방향 인증이 이루어지도록 2개의 랜덤키를 역으로 사용한다. 제안 모델은 5G 환경의 IoT 사용자에 대한 인증을 확률적 기반으로 IoT 정보를 계층화시킨 후 IoT 정보를 가중치에 적용하여 그룹핑된 IoT 정보를 블록체인으로 연결한다. 또한, 제안 모델은 5G 네트워크를 계층화된 다층 네트워크로 분할하기 때문에 기존 블록체인보다 향상된 기능을 가진다.

소유역 및 미계측 유역의 설계홍수량 산정시 Thiessen망의 부적절한 이용에 따른 문제점 및 해결방안 연구

  • 이현승;이태삼
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2015년도 학술발표회
    • /
    • pp.151-151
    • /
    • 2015
  • 최근 기후변화 및 토지 이용변화 때문에 홍수가 빈번하고 이로 인한 피해가 급증하고 있으며 4대강 사업이 이슈가 되면서 강우예측과 홍수량 산정에 대한 연구가 활발히 진행되고 있다. 하지만 여전히 홍수량 과다 과소 산정으로 인하여 지역적으로 문제점이 야기되고 피해가 발생하고 있다. 특히 Thiessen방법은 유역의 면적 강우량을 산정하기 위해 광범위하게 사용되고 있는데 중 소유역 또는 미계측 유역에 적절한 고려없이 무분별하게 사용하고 있어 문제가 발생되고 있는 실정이다. 또한 현재까지 큰 문제는 발생하지 않았지만 여전히 안전이나 위험에 노출된 상태이다. 따라서 Thiessen망 사용의 정밀한 분석이 무엇보다 필요한 실정이다. 따라서 본 연구를 통하여 소유역 및 미계측 유역을 대상으로 Thiessen망 이용시 관측소 선정에 따른 홍수량의 차이를 분석하고, 이에 따라 어떠한 문제가 발생할 수 있는지 분석하였다. 기존 소유역 및 미계측 유역 중 Thiessen방법을 적용하여 홍수량을 산정한 사례를 전반적으로 조사하였다. 이중에서 여러 지점중 Thiessen망 사용으로 유역이 분할되어 홍수량산정에 문제가 될 수 있는 관하천, 수외천, 주교천, 풍천을 연구 대상지점으로 선정하였다. 부적절한 Thiessen망 산정이 홍수량 산정에 미치는 영향을 평가하기 위하여 신뢰성있고 가장 실설계에 많이 사용되고 있는 다음의 방법으로 홍수량을 산정하였다. 먼저, 관측소 선정에 있어서 관측년도가 비교적 길고 유역과 가장 가까운 기상청 관할의 관측소를 선정하고 홍수량 산정요령에 따라 홍수량을 재 산정 하였다. 본 연구로부터 나온 결과에서, 산정된 홍수량은 기존의 Thiessen망을 통하여 산정된 홍수량과 차이를 보였고, 이는 Thiessen다각형 이론에 위배되는 관측소 선정이 원인으로 밝혀졌다. 따라서 본 연구에서는 관측년도가 길고 강우자료의 신뢰도가 높은 기상청 관할 관측소의 강우자료를 우선적으로 사용할 것을 제시하였다. 또한, 여러 관측소의 강우자료를 Thiessen망을 통하여 산정하는 부적절한 산정법을 신뢰성있는 단일지점의 강우량 산정법으로 적절한 홍수량이 산정할 것을 제시하였다.

  • PDF