DOI QR코드

DOI QR Code

Semantic Clustering Model for Analytical Classification of Documents in Cloud Environment

클라우드 환경에서 문서의 유형 분류를 위한 시맨틱 클러스터링 모델

  • 김영수 (배재대학교 사이버보안학과) ;
  • 이병엽 (배재대학교 사이버보안학과)
  • Received : 2017.08.04
  • Accepted : 2017.09.11
  • Published : 2017.11.28

Abstract

Recently semantic web document is produced and added in repository in a cloud computing environment and requires an intelligent semantic agent for analytical classification of documents and information retrieval. The traditional methods of information retrieval uses keyword for query and delivers a document list returned by the search. Users carry a heavy workload for examination of contents because a former method of the information retrieval don't provide a lot of semantic similarity information. To solve these problems, we suggest a key word frequency and concept matching based semantic clustering model using hadoop and NoSQL to improve classification accuracy of the similarity. Implementation of our suggested technique in a cloud computing environment offers the ability to classify and discover similar document with improved accuracy of the classification. This suggested model is expected to be use in the semantic web retrieval system construction that can make it more flexible in retrieving proper document.

최근 시맨틱 웹 문서는 클라우드 기반으로 생성 및 유통되고 문서유형 분류에 따른 쉽고 신속한 정보 검색을 위해 지능형 시맨틱 에이전트를 요구하고 있다. 기존의 웹 문서의 검색은 키워드를 이용하여 해당하는 질의어가 포함된 문서 목록을 결과로 가져오며 사용자의 요구시에 내용을 제시하는 것이 일반적인 형태이다. 이는 웹 문서의 유사도와 시맨틱 관련성을 고려하지 않음으로써 사용자가 내용 검색과 분석에 많은 시간과 노력을 요구한다. 이의 해결을 위해서 빅 데이터 요소 기술인 하둡과 NoSQL을 활용하여 시맨틱 웹 문서에 포함된 키워드 빈도에 기반한 웹 문서의 유형 분류와 유사도를 제시하는 시맨틱 클러스터링 모델을 제안한다. 제안 모델은 실시간 데이터 처리가 요청되는 이종 모델을 가진 공공 데이터와 웹 데이터를 취합하여 일반 사용자가 쉽게 질의할 수 있는 대용량 지식 기반 시스템을 구축하는데 응용 모델로 활용될 수 있다.

Keywords

References

  1. 김영수, 문형진, 조혜선, 김병익, 이진해, 이진우, 이병엽, "계층적침해자원기반의 침해사고 구성 및 유형 분석," 한국콘텐츠학회논문지, 제16권, 제11호, pp.139-153, 2016. https://doi.org/10.5392/JKCA.2016.16.11.139
  2. 김영수, "보안 인텔리전트 유형 분류를 위한 다중 프로파일링 앙상블 모델," 한국콘텐츠학회논문지, Vol.17, No.3, pp.231-237, 2017. https://doi.org/10.5392/JKCA.2017.17.03.231
  3. 이태휘, 임동혁, "맵리듀스에서의 구조적 RDF 데이터 변경 탐지 기법," 정보처리학회논문지, Vol.3, No.8, pp.293-298, 2014, https://doi.org/10.3745/KTSDE.2014.3.8.293
  4. 심준, 이홍철, "검색 키워드 확장을 이용한 온톨로지 자동 생성 시스템 개발," 한국산학기술학회논문지, Vol.10, No.6, pp.1220-1228, 2009. https://doi.org/10.5762/KAIS.2009.10.6.1220
  5. 배우정, 이현영, 박인철, 이용석, "개념 그래프의 트리 표현," 한국정보과학회 학술발표논문집, Vol.25(1B), pp.393-395, 1998.
  6. 안윤선, 김윤희, "군집분석을 이용한 하이브리드 클라우드 컴퓨팅 환경에서의 시맨틱 클라우드 자원 추천 서비스 기법," 정보처리학회논문지, Vol.,4 No.9, pp.283-288, 2015. https://doi.org/10.3745/KTCCS.2015.4.9.283
  7. P. Mell and T. Grance, "The NIST definition of cloud computing," National Institute of Standards and Tchnology, Vol.53, No.6, p.50, 2009.
  8. C. N. Hoefer and G. Karagiannis, Taxonomy of cloud computing services. In: GLOBECOM Workshops (GC Wkshps), 2010 IEEE. pp.1345-1350, IEEE 2010.
  9. P. Bhaskar, J. Admela, K. Dimitrios, and G. Yves, "Architectural Requirements for Cloud Computing Systems:An Enterprise Cloud Approach," J. Grid Computing, Vol.9, No.1, pp.3-26, 2011. https://doi.org/10.1007/s10723-010-9171-y
  10. Wei-Tek Tsai, Xin Sun, and Janaka Balasooriya, "Service-Oriented Cloud Computing Architecture," 2010 Seventh International Conference on Information Technology, 2010.
  11. H. Rijgersberg, M. Wigham, and J. T. Top, "How semantics can improve engineering processes: A case of unitsof measure and quantities," Advanced Engineering Informatics, Vol.25, No.2, pp.276-287, 2011. https://doi.org/10.1016/j.aei.2010.07.008
  12. P. Shvaiko and J. Euzenat, Ontology Matching: State art and Future Challenges, pp.1-15, IEEE 2013.
  13. K. Saruladha, G. Aghila, and B. A. Sathiya, "Comparative Analysis of Ontology and Schema Matching Systems," International Journal of Computer Application, Vol.34, No.8, pp.14-21, 2011.
  14. A. Ismail and M. Joy, Semantic searches for extracting similarities in a content management system. Proceedings the IEEE International Conference on Semantic Technology and Information Retrieval, Putrajaya, pp.113-118, June 28-29, 2011,
  15. N. Leavitt, Will NoSQL databases live up to their promises. computer, Vol.43, pp.12-14, 2010.
  16. R. P. Padliy, M. R. Patra, and S. C. Satapthy, RDBMS to NoSQL: Reviewing some next-generation non-relational databse's. Int J. Adv. Eng. Sci Techno1, Vol.11, pp.15-30, 2011.
  17. David Sanchez, Montserrat Batet, David Isern, and Aida Valls, "Ontology-based semantic similarity: A new feature-based approach," Journal of Expert systems with applications, Elseveir, No.39, pp.7718-7728, 2012.
  18. J. H. Hwang and K. H. Ryu, "A weighted common structure based clustering technique for XML documents," Elsevier Publication, 2010.
  19. B. Drakshayani and E V Prasad, "Text Document Clustering based on Semantics," International Journal of Computer Applications, pp.0975-8887, Vol.45, No.4, May 2012.
  20. R. Priyadarshini and Latha Tamilselvan, "Document clustering based on keyword frequency and concept matching technique in Hadoop," International Journal of Scientific & Engineering Research, Vol.5, Issue 5, May, 2014.
  21. R. Priyadarshini, Latha Tamilselvan, "Document Based Semantic CMS in Cloud," Information Technology Journal, Vol.13, pp.217-230, February 07, 2014. https://doi.org/10.3923/itj.2014.217.230