Search | Korea Science

Lee, Yong-Gu
- Journal of the Korean BIBLIA Society for library and Information Science
- /
- v.22 no.2
- /
- pp.5-25
- /
- 2011
This study aims to identify the most effective statistical feature selecting method and context window size for word sense disambiguation using supervised methods. In this study, features were selected by four different methods: information gain, document frequency, chi-square, and relevancy. The result of weight comparison showed that identifying the most appropriate features could improve word sense disambiguation performance. Information gain was the highest. SVM classifier was not affected by feature selection and showed better performance in a larger feature set and context size. Naive Bayes classifier was the best performance on 10 percent of feature set size. kNN classifier on under 10 percent of feature set size. When feature selection methods are applied to word sense disambiguation, combinations of a small set of features and larger context window size, or a large set of features and small context windows size can make best performance improvements.
https://doi.org/10.14699/kbiblia.2011.22.2.005 인용 PDF KSCI

Kim, Jin-Hyung;Hwang, Myung-Gwon;Jeong, Do-Heon;Cho, Min-Hee;Jung, Han-Min
- Proceedings of the Korean Information Science Society Conference
- /
- 2012.06c
- /
- pp.89-91
- /
- 2012
유망 주체의 선정은 기업협력 및 경쟁 관계에 있어 매우 중요하며 연구, 정부정책 및 기업전략의 수립에 있어 반드시 필요한 일이나 엄청나게 많은 정보의 양으로 인하여 많은 노력과 시간이 소요된다. 따라서 본 논문에서는 객관적으로 문헌 빅데이터를 분석하고 이를 통해 유망 주체를 선정해 내기 위한 통계적 문헌 분석 기반의 유망주체 선정 모델을 제안한다. 유망주체 선정을 위해서는 다양한 자질값들을 분석하여 기술 및 주체에 대한 통합 자질값을 구하고 이를 유망주체 선정에 활용한다. 또한 유망주체 선정에 세가지 기준(주체의 비전, 실행력, 활동력)을 통계적으로 분석하여 최종적으로 유망주체를 선정한다.

Lee, Chang-Beom;Kim, Ji-Soo;Kim, Soo-Hyung;Park, Hyuk-Ro
- Annual Conference on Human and Language Technology
- /
- 2004.10d
- /
- pp.214-219
- /
- 2004
전자 메일은 매우 많은 사람들이 사용하는 편리하고 효율적인 통신 수단이다. 그러나 전자메일 주소를 쉽게 획득할 수 있다면 점을 악용하기 때문에 사용자가 원하지 않는 메일 즉 스팸 메일에 대한 문제가 심각해지고 있다. 이러한 스팸 메일을 자동으로 분류해주는 스팸 필터는 주로 영어를 대상으로 하고 있으며, 규칙 기반 필터링보다는 통계적 학습을 통한 필터링 방법을 주로 사용하고 있다. 본 논문에서는 베이즈 정리를 기반으로 하는 3가지 분류 알고리즘을 한글 전자메일을 대상으로 하여 스팸 메일 특히 음란성 메일을 분류하는데 있어 그 성능을 평가하고자 한다. 실험 결과, 단어의 스팸일 확률만을 이용하는 방법이 나이브 베이즈 알고리즘이나 m-estimate를 이용하는 방법보다는 성능이 우수함을 알 수 있었다 특히, 단어의 스팸일 확률만을 이용하는 방법은 false positive rate를 0%로 유지하면서도 다른 방법들보다는 필터링을 잘 해내고 있음을 확인할 수 있었다. 그리고, 자질 선정에서는 명사나 명사/형용사를 사용할 경우에 그 에러율이 가장 적었다.
PDF