• 제목/요약/키워드: 도멘

검색결과 3건 처리시간 0.018초

해외동향

  • 한국전기산업진흥회
    • NEWSLETTER 전기공업
    • /
    • 98-11호통권204호
    • /
    • pp.12-33
    • /
    • 1998
  • PDF

공공데이터의 도메인 자동 판별 정확도 향상을 위한 정규표현식 및 접미사 적용 방법 (Application Method of Regular Expressions and Suffixes to improve the Accuracy of Automatic Domain Identification of Public Data)

  • 김석균;이관우
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권4호
    • /
    • pp.81-86
    • /
    • 2022
  • 본 연구에서 csv포맷으로 구조화된 파일 데이터의 컬럼의 도메인을 자동 판별하는 방법을 제안한다. 데이터와 데이터 간 융합을 통해 새로운 데이터를 생성할 수 있고, 이들 새로운 데이터가 중요한 자원이 되기 위해서는 조인 되는 컬럼의 일관성이 유지되어야 한다. 데이터 품질을 측정하기 위한 방법 중의 하나가 도메인 기반 품질 진단 방법이다. 도멘인이란 각 컬럼의 성격을 규정하는 가장 광범위한 지표이므로 이를 자동으로 판별하는 방법이 필요하다. 기존의 연구에서는 관계형 데이터베이스의 도메인 자동 판별이 주로 연구 되었지만 본 연구는 파일데이터의 특성을 이용하여 도메인을 자동화 할 수 있는 모델을 개발하였다. 파일데이터의 도메인 판별을 특화하기 위하여 정규표현식을 이용하여 데이터를 단순화 하고 이를 패턴화 하였고, 컬럼명에 해당하는 데이터 헤더의 내용을 분석하여 사용된 접미사를 분석하여 파생변수로 사용하였다. 정규표현식과 접미사의 파생변수를 추가하였을 때 기존 방법인 87%의 정확도 보다 큰 95%의 정확도로 도메인을 자동 판별하는 결과를 도출하였다. 본 연구는 공공데이터 품질진단에 자동화 방법론을 제시하여 품질 측정 기간 및 인원을 줄일 수 있을 것으로 기대된다.