• Title/Summary/Keyword: probability model for ranking

검색결과 18건 처리시간 0.026초

용어간 종속성을 이용한 문서 순위 매기기에 의한 확률적 정보 검색 (A probabilistic information retrieval model by document ranking using term dependencies)

  • 유현조;이정진
    • 응용통계연구
    • /
    • 제32권5호
    • /
    • pp.763-782
    • /
    • 2019
  • 텍스트 문서 집합에 대한 정보검색에서는 주어진 질의에 부합하는 각 문서의 적합도 확률을 계산하고 이 확률이 높은 것부터 낮은 순으로 문서 순위를 정하여 사용자에게 제공한다, 각 문서의 적합도 확률 계산에 많이 사용되는 모형은 단어들이 확률적으로 독립이라는 가정 하에 확률을 추정한다. 이 모형은 단어들의 결합 확률을 계산하는 것이 현실적으로 어렵다는 점에서 많이 이용되고 있지만 질의에 사용되는 단어들이 대개 서로 관련성을 가지고 있다는 사실을 고려하고 있지 않다. 본 논문에서는 단어 자질들의 의존 구조를 고려하여 문서의 적합도 확률을 계산하기 위하여 단어들의 결합 패턴의 확률을 다항분포 모형으로 가정하고, 최대 엔트로피 방법으로 확률을 추정하여 문서 순위를 매기는 정보검색 모형을 제안한다. 여러 가지 다항분포 상황에서 시뮬레이션 실험을 한 결과 변수들의 독립을 가정한 모형보다 더 우수한 추정 결과를 보여 준다. 실제 LETOR OHSUMED 데이터 이용한 문서 순위 매기기 실험의 결과도 더 나은 검색 결과를 보여 준다.

Revisiting the Bradley-Terry model and its application to information retrieval

  • Jeon, Jong-June;Kim, Yongdai
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권5호
    • /
    • pp.1089-1099
    • /
    • 2013
  • The Bradley-Terry model is widely used for analysis of pairwise preference data. We explain that the popularity of Bradley-Terry model is gained due to not only easy computation but also some nice asymptotic properties when the model is misspecified. For information retrieval required to analyze big ranking data, we propose to use a pseudo likelihood based on the Bradley-Terry model even when the true model is different from the Bradley-Terry model. We justify using the Bradley-Terry model by proving that the estimated ranking based on the proposed pseudo likelihood is consistent when the true model belongs to the class of Thurstone models, which is much bigger than the Bradley-Terry model.

도메인 조합 기반 단백질 상호작용 가능성 순위 부여 기법 (Protein Interaction Possibility Ranking Method based on Domain Combination)

  • 한동수;김홍숙;장우혁;이성독
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제11권5호
    • /
    • pp.427-435
    • /
    • 2005
  • 인터넷 상에 단백질 및 관련 데이터의 축적에 따라, 도메인에 기반하여 단백질의 상호작용을 계산적으로 예측하는 많은 기법들이 제안되었다. 그러나, 대부분의 기법들이 예측에서 낮은 정확도와 복수개의 단백질 쌍에 대한 상호작용 가능성들 간에 순위 정보를 제공하지 못하는 등의 한계로 인하여 실무 적용에 한계를 가지고 있다. 본 논문에서는 도메인 조합 기반 단백질 상호작용 예측 기법을 재평가하고 상호작용하는 것으로 예측되는 복수개의 단백질 쌍들에서 이들의 상호작용 가능성들 간에 순위를 부여하는 방법을 제시한다. 순위 부여 방법은 도메인 조합에 기반한 단백질 상호작용 예측 방법의 틀 내에서 확률 식을 고안하여 제시한다. 제시된 순위 부여 기법을 사용함으로써, 상호작용을 하는 것으로 예측된 단백질 쌍들간에 상호작용 가능성이 좀 더 높은 것을 구별해 낼 수 있다. 또한 순위 부여 기법의 검증 과정에서 학습에 사용된 단백질 집단의 PIP(Primary Interaction Probability)값과 일치된 PIP값을 가지는 단백질 쌍 그룹의 경우에는, 상호작용 확률과 예측 정확도 사이에 상관관계가 존재함을 확인할 수 있었다.

확률적인 중방향 설계시간 교통량 산정 모형에 관한 실험적 해석 (An Experimental Analysis of a Probabilistic DDHV Estimation Model)

  • 조준한;김성호;노정현
    • 대한교통학회지
    • /
    • 제27권2호
    • /
    • pp.23-34
    • /
    • 2009
  • 본 연구는 전통적인 중방향 설계시간 교통량의 문제점을 개선하기 위해 양방향 교통량이 아닌 중방향 교통량에 따른 링크통행시간의 확률분포개념을 도입하여 확률적인 중방향 설계시간 교통량(PDDHV) 산정 모형에 대한 실험적 해석을 수행하였다. PDDHV산정에 대한 실험적 결과를 토대로 적정 설계순위를 2차로/4차로에 대해 16개의 확률분포형을 대상으로 최우도법을 이용하여 매개변수를 추정하였으며, 적합도 검정은 Kolmogorov-Smirnov 검정을 적용하였다. 적정 설계순위 확률분포형은 2차로도로는 Beta General분포, 4차로도로는 Weibull분포가 가장 적합한 것으로 나타났다. 차로별 적정 확률분포형에 대해 누적분포함수의 역함수를 이용하여 설계서비스수준 D에 따른 적정 설계순위를 산정한 결과, 2차로는 190 순위, 4차로는 164 순위로 도출되었다. 또한, PDDHV 산정에서 새롭게 제시한 계수에 대한 적정값은 2차로 도로 경우 PK계수는 0.119(0.100${\sim}$0.139), PD계수는 0.568(0.545${\sim}$0.590)이며, 4차로도로 경우 PK계수는 0.106(0.097${\sim}$0.114), PD계수는 0.571(0.544${\sim}$0.598)로 도출되었다.

식중독 발생 위해인자로서 가정용 냉장고의 온도에 대한 확률분포 분석 (Statistical Probability Analysis of Storage Temperatures of Domestic Refrigerator as a Risk Factor of Foodborne Illness Outbreak)

  • 박경진
    • 한국식품과학회지
    • /
    • 제42권3호
    • /
    • pp.373-376
    • /
    • 2010
  • 본 연구는 국내에서의 가정내 냉장고 온도에 대한 조사를 수행하여, 현 시점에서의 냉장고에서의 식품보관 온도분포를 추정하였고, 이를 MRA(미생물 위해평가: Microbial risk assessment)의 입력변수로 활용할 수 있도록 적정 확률분포 모델을 제시하였다. 일반적으로 가정내 냉장고에서의 식품 보관온도는 식중독 발생 등에서 있어 중요한 위해인자로 작용하는 것으로 알려져 있다. 조사대상 가구는 총 139가구이었으며, 조사기간은 2009년 5월에서부터 9월까지 data logger를 이용하여 측정하였다. 조사된 냉장고 온도의 평균은 $3.53{\pm}2.96^{\circ}C$로, $5^{\circ}C$ 이상은 23.6%로 나타났다. 수집된 온도자료는 @RISK를 이용, 적합성 검정(GOF: K-S와 AD test)을 수행하여 적정 확률분포모델에 대해 추정하였고, 이중 LogLogistic(-10.407, 13.616, 8.6107)분포 모델이 가장 적절한 국내에서의 가정내 냉장고 식품보관 온도분포 모델로 나타났다. 이 확률분포 모델은 MRA적용에 있어 노출평가에서 입력변수로서 직접적 활용이 가능하다고 할 수 있겠다.

협력적 여과 시스템에서 귀납 추리를 이용한 순위 결정 (Ranking by Inductive Inference in Collaborative Filtering Systems)

  • 고수정
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권9호
    • /
    • pp.659-668
    • /
    • 2010
  • 협력적 여과 시스템은 새로운 사용자의 행위를 파악하고 사용자가 흥미로워할 아이템을 추천해주기 위해서 사용자들에 대한 새로운 정보를 필요로 한다. 이러한 정보를 획득하기 위하여 협력적 여과 시스템은 기존 데이터를 기반으로 학습을 하고, 그 결과에 따라 사용자에 대한 새로운 정보를 찾아낼 수 있다. 본 논문에서는 사용자에 대한 새로운 정보를 획득하기 위한 방법으로 귀납적 추리 방법을 제안하고, 추리된 사용자의 정보를 이용하여 아이템의 순위를 결정한다. 제안된 방법에서는 귀납적 기계 학습 방법인 NMF를 이용하여 사용자를 학습시켜서 모든 사용자들을 그룹으로 군집시키고, 각 그룹으로부터 카이제곱을 이용하여 그룹의 특징을 추출한다. 다음으로, 귀납 추리 방법의 하나인 베이지언 확률모델을 이용하여 새로운 사용자가 입력한 평가값과 각 그룹의 특징을 기반으로 사용자를 적합한 그룹으로 분류한다. 마지막으로, 사용자가 결측한 아이템을 대상으로 로치오(Rocchio) 알고리즘을 적용하여 아이템의 순위를 결정한다.

기술금융을 위한 부실 가능성 예측 최적 판별모형에 대한 연구 (A Study on the Optimal Discriminant Model Predicting the likelihood of Insolvency for Technology Financing)

  • 성웅현
    • 기술혁신학회지
    • /
    • 제10권2호
    • /
    • pp.183-205
    • /
    • 2007
  • 본 연구는 기술력평가에 근거해서 중소기업 부실예측 가능성을 사전에 예측할 수 있는 최적 판별 모형을 개발 제안하였다. 판별모형에 포함될 설명변수는 요인분석과 판별모형의 단계별 선택방법에 의하여 선정되었다. 분석결과 선형판별모형이 로지스틱판별모형보다 임계확률 관점에서 적절한 것으로 나타났다. 최적 선형판별모형의 분류 정분류율은 70.4%, 분류 예측력은 67.5%로 나타났다. 최적 선형판별모형의 활용도를 높이기 위해서 확실 범주와 유보범주를 구분할 수 있는 경계값을 설정하였다. 분석결과를 활용하면 기술금융 취급기관은 부실위험 평가와 더불어 기술금융 신청기업의 순위를 부여할 때 유용하게 사용할 수 있을 것으로 기대된다.

  • PDF

RCM 수립을 위해 발전설비의 고장확률을 고려한 확률론적 FMECA 평가 기법 (Application of FMECA with Stochastic Approach to Reliability-Centered Maintenance of Electric Power Plants in Korean Power Systems)

  • 주재명;이승혁;김진오;이효상
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2006년도 제37회 하계학술대회 논문집 A
    • /
    • pp.196-197
    • /
    • 2006
  • Preventive maintenance can avail the generation utilities to reduce cost and gain more profit in a competitive supply-side power market. So, it is necessary to perform reliability analysis on the systems in which reliability is essential. In this paper, RCM (Reliability -Centered Maintenance) analytical method is adopted using real historical failure data in Korean power plants. Therefore, the reliability -based Probability model for predicting the failures of components in the power plant is also established, and application to FMECA(Failure Mode Effects and Critical Analysis) consideration of failure probability, Based on the weighting ranking of generating equipments which status to be probability estimation by FMECA. The FMECA is an engineering analysis and a core activity performed by reliability engineers to review the effects of probable failure modes of generating equipments and assemblies of the power system on system performance. The results of this paper show that application of FMECA with stochastic approach to the preventive maintenance can efficiently avail decreasing the cost on maintenance and hence improve the total benefit.

  • PDF

순위형 로짓모형을 이용한 농업인의 혁신네트워크 연계 특성 (Interconnected Characteristics of Innovation Networks of Farmers Employing Ranked Logit Model)

  • 최상호;이성우;최영찬
    • 농촌계획
    • /
    • 제13권4호
    • /
    • pp.53-67
    • /
    • 2007
  • This study analyzed the probability that experiment stations, agricultural technology and extension centers, provincial agricultural research and extension services, central government organs, or civilian and other related organs will be the first choice of the compositional subjects of local innovation networks. While gender effect was statistically insignificant, educational level, income, main acquired information, sources of necessary information, and frequency of information acquisition sessions were significant, and the preference ranking model was highly relevant. According to the analysis, highly academic and business-related information was most likely to be acquired from the civilian sector; agricultural technology such as technology, crops/plants, storage, and circulation was most likely to be acquired from experiment stations and provincial agricultural research and extension services; and information on agricultural production was most likely to be acquired from agricultural technology centers.

상호영향계층분석기법(Cross-impact Hierarchy Process)를 이용한 항공 산업 발전전략 평가체계 개발 (An Evaluation Model of the Aviation Industry Development Strategies in Korea using Cross-impact Hierarchy Process)

  • 김선태;송기한
    • 한국항공운항학회지
    • /
    • 제19권4호
    • /
    • pp.74-82
    • /
    • 2011
  • In order to enhance the aviation industry in Korea, many strategies have been published by some researchers as well as the government. However, considering the constrained conditions in real, since the ranking of their importance has not determined yet, they are difficult to be implemented by decision makers. Therefore, in terms of their demand for deciding the significance of strategies, the evaluation model of this paper was developed. In this study, the Cross-impact Hierarchy Process(CHP), an linked model of both the Analytic Hierarchy Process(AHP) and Cross Impact Analysis(CIA), was selected as the best model. That is because the strategies are not independent from each other, and one strategy can affect the others depending on its realization, which can be considered in CHP. To achieve our objective, at first, the strategies were categorized and arranged according to the evaluation structure. Secondly, the parameters such as conditional probability and weights were estimated from the survey conducted by 16 experts in the aviation field. Lastly, the result of the assessment were discussed, and further studies were suggested.