• 제목/요약/키워드: Multinomial distribution

검색결과 80건 처리시간 0.033초

용어간 종속성을 이용한 문서 순위 매기기에 의한 확률적 정보 검색 (A probabilistic information retrieval model by document ranking using term dependencies)

  • 유현조;이정진
    • 응용통계연구
    • /
    • 제32권5호
    • /
    • pp.763-782
    • /
    • 2019
  • 텍스트 문서 집합에 대한 정보검색에서는 주어진 질의에 부합하는 각 문서의 적합도 확률을 계산하고 이 확률이 높은 것부터 낮은 순으로 문서 순위를 정하여 사용자에게 제공한다, 각 문서의 적합도 확률 계산에 많이 사용되는 모형은 단어들이 확률적으로 독립이라는 가정 하에 확률을 추정한다. 이 모형은 단어들의 결합 확률을 계산하는 것이 현실적으로 어렵다는 점에서 많이 이용되고 있지만 질의에 사용되는 단어들이 대개 서로 관련성을 가지고 있다는 사실을 고려하고 있지 않다. 본 논문에서는 단어 자질들의 의존 구조를 고려하여 문서의 적합도 확률을 계산하기 위하여 단어들의 결합 패턴의 확률을 다항분포 모형으로 가정하고, 최대 엔트로피 방법으로 확률을 추정하여 문서 순위를 매기는 정보검색 모형을 제안한다. 여러 가지 다항분포 상황에서 시뮬레이션 실험을 한 결과 변수들의 독립을 가정한 모형보다 더 우수한 추정 결과를 보여 준다. 실제 LETOR OHSUMED 데이터 이용한 문서 순위 매기기 실험의 결과도 더 나은 검색 결과를 보여 준다.

통행시간 신뢰도를 고려한 통행수단선택모형에 관한 연구 (Modal Choice with Travel Time Reliability)

  • Nam, Doo-Hee;Park, Dong-Joo
    • 대한교통학회지
    • /
    • 제22권6호
    • /
    • pp.7-16
    • /
    • 2004
  • 통행수단선택에 있어 여행자들은 여행수단의 통행시간 뿐만 아니라 해당 수단의 신뢰도를 함께 고려하게된다. 본 논문에서는 통행시간의 신뢰도는 삼각분포를 기반으로 하는 통행시간의 표준편차(Standard Deviation)와 최대지체시간(Maximum Delay)으로 정의하여 모형을 개발하였다. 모형의 개발을 위해 Multinomial Logit(MNL)과 Nested Logit 모형이 구축되어 상대적으로 우수한 MNL을 이용한 모형의 결과 통행수단의 신뢰도는 중요한 요소임을 보였다. 모형의 개발을 위해 통행시간의 표준편차와 최대지체시간의 변수를 사용하여 모형을 개발하였으며 최종적으로 최대지체시간이 보다 적절한 변수임을 보였다. 또한, 본 논문에서는 통행시간의 신뢰도가 확보되는 수상교통수단을 중심으로 서비스 수준의 향상에 관계되는 정책의 효과를 분석하기 위하여 개발된 모형의 민감도 분석이 이루어 졌으며, 이는 정책결정자와 교통계획가들로 하여금 대안선택의 분석에 유용한 도구로 쓰일 수 있다. 민감도 분석을 바탕으로 수상교통을 중심으로 통행시간의 신뢰도가 확보되는 수단의 서비스 향상을 위한 정책들을 제시하였다.

지역기후모형을 이용한 산림식생의 취약성 평가에 관한 연구 (A Study on the Vulnerability Assessment of Forest Vegetation using Regional Climate Model)

  • 김재욱;이동근
    • 한국환경복원기술학회지
    • /
    • 제9권5호
    • /
    • pp.32-40
    • /
    • 2006
  • This study's objects are to suggest effective forest community-level management measures by identifying the vulnerable forest vegetation communities types to climate change through a comparative analysis with present forest communities identified and delineated in the Actual Vegetation Map. The methods of this study are to classify the climatic life zones based on the correlative climate-vegetation relationship for each forest vegetation community, the Holdridge Bio-Climate Model was employed. This study confirms relationship between forest vegetation and environmental factors using Pearson's correlation coefficient analysis. Then, the future distribution of forest vegetation are predicted derived factors and present distribution of vegetation by utilizing the multinomial logit model. The vulnerability of forest to climate change was evaluated by identifying the forest community shifts slower than the average velocity of forest moving (VFM) for woody plants, which is assumed to be 0.25 kilometers per year. The major findings in this study are as follows : First, the result of correlative analysis shows that summer precipitation, mean temperature of the coldest month, elevation, soil organic matter contents, and soil acidity (pH) are highly influencing factors to the distribution of forest vegetation. Secondly, the result of the vulnerability assessment employing the assumed velocity of forest moving for woody plants (0.25kmjyear) shows that 54.82% of the forest turned out to be vulnerable to climate change. The sub-alpine vegetations in regions around Mount Jiri and Mount Seorak are predicted to shift the dominance toward Quercus mongolica and Pinus densiflora communities. In the identified vulnerable areas centering the southern and eastern coastal regions, about 8.27% of the Pinus densiflora communities is likely to shift to sub-tropical forest communities, and 3.38% of the Quercus mongolica communities is likely to shift toward Quercus acutissima communities. In the vulnerable areas scattered throughout the country, about 8.84% of the Quercus mongolica communities is likely to shift toward Pinus densiflora communities due to the effects of climate change. The study findings concluded that challenges associated with predicting the future climate using RCM and the assessment of the future vulnerabilities of forest vegetations to climate change are significant.

Test of Homogeneity Baseon Complex Survey Data : Discussion Based on Power of Test

  • Heo, Sun-Yeong;Yi, Su-Cheol
    • Journal of the Korean Data and Information Science Society
    • /
    • 제16권3호
    • /
    • pp.609-620
    • /
    • 2005
  • In the secondary data analysis for categorical data, situations often arise in which the estimated cell variances are available, but not the full matrix of variances. In this case researchers are often inclined to use Pearson-type test statistics for homogeneity. However, for a complex sample observed cell proportions are not distributed as multinomial and Pearson-type test statistic generally is not distributed asymptotically as chi-square distribution. This paper evaluates powers for Wald test and Pearson-type test and the first order corrected test of Pearson-type test for homogeneity. The resulting power curves indicate that as the misspecification effect increases, the amount of inflation of significance level and the loss of power Pearson-type test are getting more severe.

  • PDF

극한 파고 추정의 통계적 방법 (A Statistical Method of Estimation of Extreme Sea Level)

  • 권순홍;이태일;전영기
    • 한국해양공학회지
    • /
    • 제5권2호
    • /
    • pp.43-50
    • /
    • 1991
  • 본 연구에서는 극한 파고를 추정하는 방법을 제시하였다. Type III분포에 근거해서 4가지의 방법들에 의해 분포 함수의 파라미터들을 추정하였다. 실제 자료와 추정된 분포 함수 값의 차이를 다항식을 도입하여 함으로써 그 오차를 줄였다. 이 방법들의 타당성을 보이기 위해 실제 해상의 자료들을 이용하여 분포 함수를 구하고 조우 주기들에 해당하는 극한 파고를 계산하여 보았다.

  • PDF

A Bayesian Variable Selection Method for Binary Response Probit Regression

  • Kim, Hea-Jung
    • Journal of the Korean Statistical Society
    • /
    • 제28권2호
    • /
    • pp.167-182
    • /
    • 1999
  • This article is concerned with the selection of subsets of predictor variables to be included in building the binary response probit regression model. It is based on a Bayesian approach, intended to propose and develop a procedure that uses probabilistic considerations for selecting promising subsets. This procedure reformulates the probit regression setup in a hierarchical normal mixture model by introducing a set of hyperparameters that will be used to identify subset choices. The appropriate posterior probability of each subset of predictor variables is obtained through the Gibbs sampler, which samples indirectly from the multinomial posterior distribution on the set of possible subset choices. Thus, in this procedure, the most promising subset of predictors can be identified as the one with highest posterior probability. To highlight the merit of this procedure a couple of illustrative numerical examples are given.

  • PDF

불완전 디버깅 환경에서 Input Domain에 기초한 소프트웨어 신뢰성 성장 모델 (An Input Domain-Based Software Reliability Growth Model In Imperfect Debugging Environment)

  • Park, Joong-Yang;Kim, Young-Soon;Hwang, Yang-Sook
    • 정보처리학회논문지D
    • /
    • 제9D권4호
    • /
    • pp.659-666
    • /
    • 2002
  • Park, Seo and Kim은 소프트웨어의 시험단계와 유지보수단계에 모두 적용할 수 있는 입력 영역 기반 소프트웨어 신뢰성 성장 모델을 개발하였다. 이들의 모형은 완전디버깅의 가정 하에서 개발되어졌다. 입력 영역 기반 소프트웨어 신뢰성 성장 모델이 현실적이기 위해서는 이러한 가정은 개선되어야 한다. 본 논문에서는 불완전 디버깅 하에서 사용할 수 있는 입력 영역 기반 소프트웨어 신뢰성 성장 모델을 제안하고 그 통계적 특성을 조사한다.

지식행정 활동의 수요예측 모형을 위한 요구수준 진단 (A Study on the Needs Level for a Demand Estimation Model in Knowledge Administration Activities)

  • 김구
    • 지식경영연구
    • /
    • 제6권2호
    • /
    • pp.23-47
    • /
    • 2005
  • This study is performed the multinomial logistic regression with the officials needs level about a component of knowledge administration for drawing a demand estimation model in the knowledge administration activities. This study is not that an activity and domain of knowledge administration is to apply and to operate uniformly it in public sector, one is suggested an application with a demand diagnose of knowledge administration in order to saw a course of the knowledge administration programs to suit a function and role of public administration. A result of this study is that an activity and domain of the knowledge administration is different from a component of it namely, knowledge creating, knowledge organizing, knowledge sharing and distribution, knowledge utility, and knowledge store. And the officials individual characteristics, administration agency, a kind of business, and a function and role of work are different from demand of knowledge administration. Also, the practical use of KMS (knowledge management system) is not so high in public sector. Accordingly, the tools of knowledge administration will deliberate on a consolidation with the existing system in the device.

  • PDF

총선 출구조사에서 정당별 지역구 의석수 추정 (Estimating the Number of Seats in Local Constituencies of a Party Using Exit Polls in the General Election)

  • 김지현
    • 응용통계연구
    • /
    • 제26권1호
    • /
    • pp.59-70
    • /
    • 2013
  • 2012년 4월 11일 총선 당일 이루어진 출구조사에서 정당별 의석수를 구간으로 예측했음에도 불구하고 예측이 빗나갔다. 지상파 3사가 출구조사는 공동으로 실시하였지만 정당별 의석수 예측은 각자 하였다고 하는데 구체적 예측 방법은 공개하지 않았다. 이 논문에서 정당별 지역구 의석수를 구간으로 추정하는 방법을 제안하고 그 성능을 모의실험을 통해 알아보았다. 그리고 제19대 총선 출구조사의 실제자료에 적용해 보았다.

Analysis on Preceding Study of Consumer's Store-Choice Model: Focusing on Commercial Sphere Analysis Theories

  • Quan, Zhi-Xuan;Youn, Myoung-Kil
    • 산경연구논집
    • /
    • 제7권4호
    • /
    • pp.11-16
    • /
    • 2016
  • Purpose - There are numerous theories for retail trade area analysis which are designed to select candidate locations for new stores. In this study, comparative analysis on the characteristics from those of the theories are shown, and the explanation for the power in consumers' store-choice behaviors and their limitations are examined. Also, plans for improving commercial sphere analysis are explored. Research design, data, and methodology - This study is based on literature reviews with normative research methodology. Among many researches regarding the analysis on the location and commercial sphere for launching a new store, researches relying on statistics are excluded in this study since they belong to the marketing research area,. Results - In the Law of retail gravitation, Huff's model multinomial logit model and etc. are mutual complementary mathematical techniques for analyzing commercial spheres and each of them has its own characteristics. These theories rely on the same hypothesis in which consumers are all believed to be behaving rationally under a similar behavioral system. However, the trial in explaining or estimating behavior of choosing a store with only a select size of the population that is objectively estimated by some major properties has limits in its credibility. Conclusion - Research on consumer's spatial behaviors can be fully illustrative and explainable when it has both quantitative approaches such as 'law of retail gravitation', 'logit model' and etc., and qualitative approaches like consumer's 'cognitive structure', 'learning status', 'image formation', 'attitude' and etc.