Efficient Management of Statistical Information of Keywords on E-Catalogs

전자 카탈로그에 대한 효율적인 색인어 통계 정보 관리 방법

  • 이동주 (서울대학교 전기.컴퓨터공학부) ;
  • 황인범 (서울대학교 전기.컴퓨터공학부) ;
  • 이상구 (서울대학교 전기.컴퓨터공학부)
  • Published : 2009.11.30

Abstract

E-Catalogs which describe products or services are one of the most important data for the electronic commerce. E-Catalogs are created, updated, and removed in order to keep up-to-date information in e-Catalog database. However, when the number of catalogs increases, information integrity is violated by the several reasons like catalog duplication and abnormal classification. Catalog search, duplication checking, and automatic classification are important functions to utilize e-Catalogs and keep the integrity of e-Catalog database. To implement these functions, probabilistic models that use statistics of index words extracted from e-Catalogs had been suggested and the feasibility of the methods had been shown in several papers. However, even though these functions are used together in the e-Catalog management system, there has not been enough consideration about how to share common data used for each function and how to effectively manage statistics of index words. In this paper, we suggest a method to implement these three functions by using simple SQL supported by relational database management system. In addition, we use materialized views to reduce the load for implementing an application that manages statistics of index words. This brings the efficiency of managing statistics of index words by putting database management systems optimize statistics updating. We showed that our method is feasible to implement three functions and effective to manage statistics of index words with empirical evaluation.

전자 카탈로그는 상품이나 서비스 정보를 저장하고 있는 전자 문서로, 전자 상거래에서 가장 중요한 자료 중 하나이다. 전자 카탈로그는 지속적으로 추가, 수정 혹은 삭제되면서 최신의 상태로 유지되게 되는데, 전자 카탈로그의 양이 많아지면서 중복이 발생하고, 부적합한 분류에 할당되는 등, 품질 유지 문제가 발생한다. 검색, 중복확인, 자동분류는 카탈로그 품질 관리를 위해 중요한 기능들인데, 이 기능을 구현하기 위해서 카탈로그에서 추출된 색인어들의 통계 정보를 활용한 확률 모델들이 제시되었다. 그러나 이들은 서로 독립적으로 다루어 졌기에, 카탈로그 관리 시스템이라 는 하나의 시스템에서 구현될 수 있음에도 불구하고, 각 모델들이 공유하는 데이터와 이를 관리하기 위한 데이터 관리 기법에 관한 연구는 미흡하였다. 따라서 본 논문에서는 세 기능을 위한 확률모델을 정리하고, 이를 관계형 데이터베이스 상에서 구현하고, 통계 정보를 효율적으로 관리하는 방법을 제시한다. 특히, 실체화 뷰를 이용하여 불필요한 응용의 개발 비용과 데이터 무결성 저해요인을 제거하였다. 다량의 실제 전자 카탈로그 데이터베이스에 대한 실험을 통해 관계형 데이터 베이스를 이용한 구현이 속도와 정확성에 있어 실용성이 있음을 보였고, 응용을 통한 통계 정보갱신 방법과의 비교를 통해 실체화 뷰를 활용한 통계 정보 관리 기법의 효용성을 보였다.

Keywords

References

  1. Dongkyu Kim, Sang-goo Lee, "Catalog Management in e-Commerce Systems," In Procd. CST 2003, 2003.
  2. Dongkyu Kim, Sang-goo Lee, Jonghoon Chun, Juhnyoung Lee, "A Semantic Classification Model for E-Catalogs," In Procd. CEC 2004, 2004, pp. 85-92.
  3. Dongkyu Kim, Sang-goo Lee, Jonghoon Chun, Zoonky Lee, Heungsun Park, "A Practical Ontology for Product Information Management," In Procd. of iiWAS 2005, 2005, pp. 217-222.
  4. Dongkyu Kim, Sang-goo Lee, Junho Shim, Jonghoon Chun, Zoonky Lee, Heungsun Park, "Practical Ontology Systems for Enterprise Application," ASIAN 2005, 2005, pp. 79-89.
  5. Hesham Saadawi, "Universal e-catalog pattern," In Procd. 2006 Conference on Pattern Languages of Programs, pp. 1-8, ACM Press, New York, 2006.
  6. Jae-won Lee, Taehee Lee, Sang-keun Lee, Ok-ran Jeong, Sang-goo Lee, "Massive Catalog Index based Search for e-Catalog Matching," In Procd. CEC/ EEE 2007, 2007, pp. 341-348.
  7. Kiryoong Kim, Dongkyu Kim, Jeuk Kim, Sang-uk Park, Ig-hoon Lee, Sang-goo Lee, "An Experimental Evaluation of Dynamic Electronic Catalog Models in Relational Database Systems," Infomation Resources Management Association International Conference 2002, 2002, pp. 323-325.
  8. Martin Hepp, "ProdLight:A Lightweight Ontology for Product Description Based on Datatype Properties," LNCS Vol. 4439, Springer, 2007, pp. 260-272.
  9. Martin Hepp, "GoodRelations:An Ontology for Describing Products and Services Offers on the Web," LNCS, Vol. 5268, Springer, 2008, pp. 332-347.
  10. Ricardo Baeza-Yates, Berthier Ribeiro- Neto, "Modern Information Retrieval," ACM Press, New York, 1999, pp. 56-60.
  11. Sparck Jones, Karen, "A statistical interpretation of term specificity and its application in retrieval," Journal of Documentation, Vol. 28, No 1, MCB UP Ltd, 1972, pp. 11-21. https://doi.org/10.1108/eb026526
  12. Taehee Lee, Jonghoon Chun, Junho Shim, "Sang-goo Lee, An Ontology-Based Product Recommender System for B2B Marketplaces," International Journal of Electronic Commerce, Vol. 11, No. 2, 2006, pp. 125-155. https://doi.org/10.2753/JEC1086-4415110206
  13. Y. Ding, M. Korotkiy, B. Omelayenko, V. Kartseva, V. Zykov, M. Klein, E. Schulten, D. Fensel, "GoldenBullet:Automated Classification of Product Data in E-commerce," BIS 2002, 2002.
  14. Young-gon Kim, Taehee Lee, Jonghoon Chun, Sang-goo Lee, "Modified Naive Bayes Classifier for E-Catalog Classification," LNCS Vol. 4055, 2006, pp. 246-257.
  15. Young-gon Kim, Taehee Lee, Sang-goo Lee, Jong-Heung Park, "Exploiting Attribute-Wise Distribution of Keywords and Category Dependent Attributes for E-Catalog Classification," LNCS, Vol. 5226, 2008, pp. 985-992.
  16. eCl@ss:eCl@ss White Paper, V0.6, 2001, (Accessed on, Sept. 2009) http://www.eclass.de.
  17. KOCIS (Korea Ontology-based e-Catalog Information System) (Accessed on, April 2009), http://www.g2b.go.kr:8100.
  18. $Oracle{\circledR}$ Database SQL Reference 10g Release 1 (10.1) Part Number B10759-01.
  19. UNSPSC:Why Coding and Classifying Products is Critical to Success in Electronic Commerce, Using the UNSP SC, White Paper, Granada Research, 2001.