• 제목/요약/키워드: 확률검색모형

검색결과 13건 처리시간 0.016초

다항시행접근 단순 베이지안 문서분류기의 개선 (Improving Multinomial Naive Bayes Text Classifier)

  • 김상범;임해창
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권3_4호
    • /
    • pp.259-267
    • /
    • 2003
  • 단순 베이지언 분류모형은 구현이 간단하고 효율적이기 때문에 실용적으로 사용하기에 적합하다. 그러나 이 분류모형은 많은 기계학습 도메인에서 우수한 성능을 보임에도 불구하고 문서분류에 적용되었을 경우에는 그 성능이 매우 낮은 것으로 알려져왔다. 본 논문에서는 단순 베이지언 분류모형중 가장 성능이 우수한 것으로 알려진 다항 시행접근 단순 베이지언 분류모형을 개선하는 세가지 방법을 제안한다. 첫 번째는 범주에 대한 단어의 확률추정방법을 문서모델에 기반하여 개선하는 것이고, 두 번째는 문서의 길이에 따라 범주와의 관련성이 선형적으로 증가하는 것을 억제하기 위해 길이에 대한 정규화를 수행하는 것이며, 마지막으로 범주판정에 중요한 역할을 하는 단어들의 영향력을 높여주기 위하여 상호정보가중 단순 베이지언 분류방법을 사용하는 것이다. 제안하는 방법들은 문서분류기의 성능 평가를 위한 벤치마크 문서집합인 Reuters21578과 20Newsgroup에서 기존의 방범에 비해 상당한 성능향상을 가져옴을 알 수 있었다.

공항접근시간에 따른 여객의 공항도착 행태분석 (Analyzing Passenger Arrival Behavior Based on the Spent Time for Airport Access)

  • 오성열;김원규;박용화
    • 대한교통학회지
    • /
    • 제21권4호
    • /
    • pp.17-27
    • /
    • 2003
  • 공항여객 처리시설의 혼잡해소에 관한 연구는 주로 공항접근교통시스템의 확충이나 터미널의 확장 등 물리적인 방법에 집중되어 왔다. 물리적인 확장은 막대한 투자비용이 뒤따라야 하는 문제가 있기 때문에 공항운영과 같은 소프트웨어 측면에 대한 접근방식을 적극 도입하여 투자비용을 줄이고 효율적인 공항운영을 꾀하는 것이 필요하다. 본 연구는 공항운영의 효율성 증진을 위한 대안 중 하나로서 여객들이 공항에 도착하는 행태가 어떻게 나타나는 지를 분석하여. 향후 여객터미널 운영에 적용할 수 있는 유용한 정보를 제공하는데 그 목적이 있다. 서로 다른 접근소요 시간을 가진 여객들이 항공기 출발예정시간(STD:scheduled time of departure) 이전에 도착하는 확률함수를 도출하고, 이를 이용하여 STD 이전시간 임의구간에서 여객이 도착하는 확률을 구할 수 있는 모형을 개발코자 하였다. 또한 이 모형을 공항 여객터미널에 적용하여 운영시간대별 도착 여객수를 산출하는 과정을 제시하고자 하였다. 본 연구에서 분석된 공항접근시간에 따른 STD 이전시간대별 공항도착 확률모형은 공항운영자 및 항공사가 공항의 체크인 카운터 운영시간 및 수량 결정, 수하물 처리시스템, 검색보안서비스 등의 운영시점을 결정하는 도구로 이용될 수 있다. 이와 같이 분석된 결과를 토대로 공항운영 상 비효율성을 제거하고 보다 합리적인 인력 투입이나 시설 운영이 가능하게 되는 것이다.

한글 말뭉치를 이용한 한글 표절 탐색 모델 개발 (Developing of Text Plagiarism Detection Model using Korean Corpus Data)

  • 류창건;김형준;조환규
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권2호
    • /
    • pp.231-235
    • /
    • 2008
  • 최근 들어 각종 창작물에 대한 표절 사건이 빈번하게 발생하고 있다. 특히 문서들 간의 표절은 현재 많은 이슈가 되고 있다. 영어에 관한 표절연구는 서양에서 오래전부터 이뤄져 왔지만 한글은 구조적인 어려움으로 인해 아직 많은 연구가 이뤄지지 않고 있다. 한글은 영어와 구조적인 특징이 많이 다르기 때문에 영어기반의 탐색 기법을 한글 문서에 적용하기는 어렵다. 본 논문에서는 한글의 특성에 맞는 새로운 표절 탐색 기법을 소개하고 한글 말뭉치를 이용하여 그 성능을 실험해본다. 제안된 기법은 "k-mer"와 "지역정렬" 방법을 기반으로, 문서들 간의 표절구간을 매우 빠르고 정확하게 찾아낸다. 또한 우리는 천만어절 이상의 크기를 가진 한글 말뭉치를 이용하여 표절이 일어나지 않은 일반적인 문서에서 우연히 나타나게 될 유사 확률에 관한 모형을 만들었다. 시스템을 이용하여 성능을 측정해 본 결과, 표절 문서를 매우 정확하게 찾는 것을 알 수 있었다.