• Title/Summary/Keyword: 사전분포

Search Result 554, Processing Time 0.029 seconds

Named Entity Recognition Using Bidirectional LSTM CRFs Based on the POS Tag Embedding and the Named Entity Distribution of Syllables (품사 임베딩과 음절 단위 개체명 분포 기반의 Bidirectional LSTM CRFs를 이용한 개체명 인식)

  • Yu, Hongyeon;Ko, Youngjoong
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.105-110
    • /
    • 2016
  • 개체명 인식이란 문서 내에서 인명, 기관명, 지명, 시간, 날짜 등 고유한 의미를 가지는 개체명을 추출하여 그 종류를 결정하는 것을 말한다. 최근 개체명 인식 연구에서는 bidirectional LSTM CRFs가 가장 우수한 성능을 보여주고 있다. 하지만 LSTM 기반의 딥 러닝 모델은 입력이 되는 단어 표상에 의존적이기 때문에 입력이 되는 단어 표상을 확장하는 방법에 대한 연구가 많이 진행되어지고 있다. 본 논문에서는 한국어 개체명 인식을 위하여 bidirectional LSTM CRFs모델을 사용하고, 그 입력으로 사용되는 단어 표상을 확장하기 위해 사전 학습된 단어 임베딩 벡터, 품사 임베딩 벡터, 그리고 음절 기반에서 확장된 단어 임베딩 벡터를 사용한다. 음절 기반에서 단어 기반 임베딩 벡터로 확장하기 위하여 bidirectional LSTM을 이용하고, 그 입력으로 학습 데이터에서 추출한 개체명 분포를 이용하였다. 그 결과 사전 학습된 단어 임베딩 벡터만 사용한 것보다 4.93%의 성능 향상을 보였다.

  • PDF

Beta Processes and Survival Analysis (베타과정과 베이지안 생존분석)

  • Kim, Yongdai;Chae, Minwoo
    • The Korean Journal of Applied Statistics
    • /
    • v.27 no.6
    • /
    • pp.891-907
    • /
    • 2014
  • This article is concerned with one of the most important prior distributions for Bayesian analysis of survival and event history data, called Beta processes, proposed in Hjort (1990). We review the current state of the art of beta processes and their application to survival analysis. Relevant methodological and practical areas of research that we touch on relate to constructions, posterior distributions, large-sample properties, Bayesian computations, and mixtures of Beta processes.

A Study on the Lifetime Prediction of Device by the Method of Bayesian Estimate (베이지안 추정법에 의한 소자의 수명 예측에 관한 연구)

  • 오종환;오영환
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.19 no.8
    • /
    • pp.1446-1452
    • /
    • 1994
  • In this paper, Weibull distribution is applied to the lifetme distribution of a device. The method of Bayesian estimate used to estimate requiring parameter in order to predict lifetime of device using accelerated lifetime test data, namely failure time of device. The method of Bayesian estimate needs prior information in order to estimate parameter. But this paper proposed the method of parameter estimate without prior information. As stress is temperature, Arrhenius model is applied and the method of linear estimate is applied to predict lifetime of device at the state of normal operation.

  • PDF

Named Entity Recognition Using Bidirectional LSTM CRFs Based on the POS Tag Embedding and the Named Entity Distribution of Syllables (품사 임베딩과 음절 단위 개체명 분포 기반의 Bidirectional LSTM CRFs를 이용한 개체명 인식)

  • Yu, Hongyeon;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.105-110
    • /
    • 2016
  • 개체명 인식이란 문서 내에서 인명, 기관명, 지명, 시간, 날짜 등 고유한 의미를 가지는 개체명을 추출하여 그 종류를 결정하는 것을 말한다. 최근 개체명 인식 연구에서는 bidirectional LSTM CRFs가 가장 우수한 성능을 보여주고 있다. 하지만 LSTM 기반의 딥 러닝 모델은 입력이 되는 단어 표상에 의존적이기 때문에 입력이 되는 단어 표상을 확장하는 방법에 대한 연구가 많이 진행되어지고 있다. 본 논문에서는 한국어 개체명 인식을 위하여 bidirectional LSTM CRFs모델을 사용하고, 그 입력으로 사용되는 단어 표상을 확장하기 위해 사전 학습된 단어 임베딩 벡터, 품사 임베딩 벡터, 그리고 음절 기반에서 확장된 단어 임베딩 벡터를 사용한다. 음절 기반에서 단어 기반 임베딩 벡터로 확장하기 위하여 bidirectional LSTM을 이용하고, 그 입력으로 학습 데이터에서 추출한 개체명 분포를 이용하였다. 그 결과 사전 학습된 단어 임베딩 벡터만 사용한 것보다 4.93%의 성능 향상을 보였다.

  • PDF

EmoNSMC: Constructing Korean Emotion Tagging Dataset Using Distant Supervision (EmoNSMC: Distant Supervision 을 이용한 한국어 감정 태깅 데이터셋 구축)

  • Lee, Young-Jun;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.519-521
    • /
    • 2019
  • 최근 소셜 메신저를 통해 많은 사람들이 의사소통을 주고받음에 따라, 텍스트에서 감정을 파악하는 것이 중요하다. 따라서, 감정이 태깅된 데이터가 필요하다. 하지만, 기존 연구는 감정이 태깅된 데이터의 양이 많지가 않다. 이는 텍스트에서 감정을 파악하는데 성능 저하를 야기할 수 있다. 이를 해결하기 위해, 본 논문에서는 단어 매칭 방법과 형태소 매칭 방법을 이용하여 많은 양의 한국어 감정 태깅 데이터셋인 EmoNSMC 를 구축하였다. 구축한 데이터셋은 네이버 영화 감상 리뷰 데이터 (NSMC)에 디스턴트 수퍼비전 방법 (distant supervision) 방법을 적용하여 weak labeling을 진행하였고, 이 과정에서 한국어 감정 어휘 사전 (KTEA) 을 이용하였다. 구축된 데이터셋의 감정 분포 결과, 형태소 매칭 방법을 통해 구축한 데이터셋이 좀 더 감정 분포가 균등한 것을 확인할 수 있었다. 해당 데이터셋은 공개되어 있다.

  • PDF

Continuous Sampling Plans with Prior Distribution (불량율(不良率)의 사전분포(事前分布)를 고려(考慮)한 연속생산형(連續生産型) 샘플링검사(檢査))

  • Yun, Wan-Cheol;Bae, Do-Seon
    • Journal of Korean Institute of Industrial Engineers
    • /
    • v.5 no.1
    • /
    • pp.53-57
    • /
    • 1979
  • The concept of AOQL in designing Dodge's continuous sampling plans is modified to include probabilistic consideration reflecting the prior knowledge about the process average fraction defectives, and a new design criterion called AOQL, which eliminates some of the drawbacks of the AOQL criterion is proposed. AOQL, approach provides more economical sampling plans in many cases, and can be used even when only limited amount of prior information is available.

  • PDF

Rectifying inspection for single sampling by attributes with lot size N and prior distribution of p (불량률의 사전분포와 로트크기를 고려한 계수규준형 샘플링 검사의 수정 검사방식)

  • 이도경;이근희
    • Journal of Korean Society of Industrial and Systems Engineering
    • /
    • v.12 no.20
    • /
    • pp.77-80
    • /
    • 1989
  • A rectifying sampling plan which assumes a prior distribution on the lot percent defective is considered. This sampling is developed for finite lot size N with matching OC curves and generated from an initial plan selected from single sampling by attributes.

  • PDF

확률화응답기법을 이용한 모비율의 추정시 층화표본의 최적할당에 관한 연구

  • 최경호;김연형
    • Communications for Statistical Applications and Methods
    • /
    • v.1 no.1
    • /
    • pp.157-164
    • /
    • 1994
  • 본 연구에서는 확률화응답기법을 이용하여 모집단내의 민감집단의 비율을 추정함에 있어 조사의 효율성을 높이기 위한 층화표본의 최적할당방법을 제안한다. 확률화응답기법은 Warner(1965)에 의하여 제안된 방법으로 민감한 사안에 대한 조사시 무응답이나 거짓응답으로 인한 비표본오차를 줄일수 있는 기법으로 간접질문에 의한 조사방법이다. 여기에서 최적할당이란 베이즈위험을 최소로 하는 할당법을 의미하며, 이 과정에서 민감집단의 모비율에 대한 사전분포로는 베타분포를 취하였다.

  • PDF

Bayesian estimation of the Korea professional baseball players' hitting ability based on the batting average (한국프로야구 선수들의 타율에 기반된 타격 능력의 베이지안 추정)

  • Cho, Yong Ju;Lee, Kwang Ho
    • Journal of the Korean Data and Information Science Society
    • /
    • v.26 no.1
    • /
    • pp.197-207
    • /
    • 2015
  • In baseball game, the hitting ability of batter is frequently assessed by a batting average, a run batted in, a home run, a run scored, an on-base percentage, etc. Recently, more comprehensive indicators such as OPS, ISO, SECA, TA, RC and XR are often used. But, these measures generally shows large deviations since they are calculated from the data for a certain period of time, and they are not an estimate of a population parameter, either. In this paper, we will presume the pure hitting ability of the korea professional baseball players as a parameter which is depend upon at bat. We will estimate the parameter by using the Bayesian method.

Robust Bayesian meta analysis (로버스트 베이지안 메타분석)

  • Choi, Seong-Mi;Kim, Dal-Ho;Shin, Im-Hee;Kim, Ho-Gak;Kim, Sang-Gyung
    • Journal of the Korean Data and Information Science Society
    • /
    • v.22 no.3
    • /
    • pp.459-466
    • /
    • 2011
  • This article addresses robust Bayesian modeling for meta analysis which derives general conclusion by combining independently performed individual studies. Specifically, we propose hierarchical Bayesian models with unknown variances for meta analysis under priors which are scale mixtures of normal, and thus have tail heavier than that of the normal. For the numerical analysis, we use the Gibbs sampler for calculating Bayesian estimators and illustrate the proposed methods using actual data.