Design and Implementation of Dictionary-based Column Name Standardization System

사전기반 항목명 표준화 시스템 설계 및 구현

  • 신수미 (한국과학기술정보연구원 개방형데이터융합연구단) ;
  • 문영수 (한국과학기술정보연구원 개방형데이터융합연구단)
  • Published : 2021.07.14

Abstract

최근 빅데이터에 대한 관심이 높아지면서 분석을 위해 필요한 데이셋의 표준화에 대한 중요성이 강조되고 있다. 데이터 표준화를 위해서는 업무 처리에 필요한 모든 데이터의 명명 규칙을 규정하고 그 기준에 따라 표준 명칭을 부여하여야 한다. 본 연구에서는 사전을 기반으로 하는 항목명 표준화 시스템을 제안하였다. 제안한 시스템은 공개된 표준단어사전을 활용하여 유의어를 포함한 참조 사전을 구축하고 이를 기반으로 표준사전을 구축하여 표준 항목명을 제공한다. 기 구축된 데이터셋의 항목명을 입력하거나 사용자가 원하는 새로운 항목명을 입력하면 항목명 표준화 시스템은 표준화된 한글 항목명과 영문 항목명, 그리고 테이블 설계에 사용하는 영문 약어명을 출력한다. 본 연구에서 제안한 시스템을 테이블 설계에 활용하거나 기 구축된 데이터셋을 표준화하는데 적용하면 일관된 데이터 해석이나 관리가 가능할 것으로 기대된다.

Keywords

Acknowledgement

이 논문은 2019년 정부(과학기술정보통신부)의 재원으로 국가과학기술연구회 개방형데이터솔루션(DDS) 융합연구사업(1711101951)의 지원을 받아 수행된 연구임.