• Title/Summary/Keyword: 오류데이터

Search Result 1,770, Processing Time 0.05 seconds

공공데이터 품질환경 내 데이터 오류의 발생원인별 보안기술 대응방안에 관한 연구

  • LEE, Won Jae;Kim, Huy Kang
    • Review of KIISC
    • /
    • v.30 no.4
    • /
    • pp.77-89
    • /
    • 2020
  • 이 연구는 우리나라 정부의 공공데이터 공개 제도에 따른 공공데이터 품질관리체계를 이해하고, 공공기관이 신뢰성 있는 데이터를 위해 품질 점검을 시행하면서도 효과적인 관리를 하기 위한 방안에 관한 것이다. 공공데이터법과 공공데이터 품질관리체계를 이해하고, 저품질 공공데이터의 오류와 발생원인에 대해 알아본다. 오류 데이터 분석을 통한 보안위협에 따른 위험 분류를 통해 효과적인 대응방안을 도출하는 것을 목표로 한다. 이를 위해 공공데이터를 데이터 품질 점검하여 도메인별 오류데이터를 살펴보고, 오류데이터 발생원인에 대한 분석을 통해 보안위협과 공공데이터를 사용하는 사용자 측면과 기관 측면의 보안 문제를 분류하였다. 분류된 오류 발생원인별 보안문제를 기준으로 데이터 품질관리를 통한 개선방향을 제시하고, 품질관리 오류 개선방향별 데이터보안 정책별 보안기술을 비교 정리하여, 데이터 보안기술을 통한 품질관리 오류 개선 연계 대응방안을 제안하였다.

A Study on Error Data Types in the KERIS Union Catalog - Focused on Dissertation Bibliographic Database - (종합목록 데이터의 오류 유형에 관한 연구 - KERIS종합목록의 학위논문 서지데이터를 중심으로 -)

  • Cho, Sun-Yeong
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.36 no.4
    • /
    • pp.5-19
    • /
    • 2002
  • The KERIS Union Catalog is the largest bibliographic database in Korea. It has over 5.7 million bibliographic records and at present 330 university libraries are participating in shared cataloging services. The database, however, includes various errors and a large number of duplicate data because separate databases from many university libraries were merged without proper quality control in a short period. This study intends to find error data types by analyzing dissertation bibliographic data. The results show that error data are mainly caused by input errors, and the mistakes in using MARC formats and cataloging rules.

The Taxonomy of Dirty Data for MPEG-2 TS (MPEG-2 표준을 위한 오류 데이터 분류)

  • 곽태희;최병주
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04a
    • /
    • pp.691-693
    • /
    • 2001
  • DASE(Digital TV Application Software Environment)는 데이터 방송을 위한 국제 표준으로 MPEG-2 TS(Moving Picture Experts Group-2 Transport Stream) 형식의 데이터를 처리한다. 소스코드 대신 입력 데이터 명세 정보만을 공개하는 특성상 DASE 시스템의 오류를 테스트하기 위해서는 테스트 데이터에 오류를 삽입하는 방법이 적합하고 이를 위해 MPEG-2 표준을 위한 오류 항목을 개발이 요구된다. 본 논문에서는 관계형 데이터 베이스를 위한 데이터 분류인 Kim’s et al 분류를 근거로 하여 MPEG-2 표준을 위한 오류 항목을 개발하였다. 이는 DASE 시스템의 오류 삽입 테스트 기법에 유용하게 사용될 수 있을 것이다.

  • PDF

Korean Spell Correction based on Denoising Transformer (Denoising Transformer기반 한국어 맞춤법 교정기)

  • Park, Chanjun;Jeong, Sol;Yang, Kisu;Lee, Sumi;Joe, Jaechoon;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.368-372
    • /
    • 2019
  • 맞춤법 교정이란 주어진 문장에서 나타나는 철자 및 맞춤법 오류들을 올바르게 교정하는 것을 뜻하며 맞춤법 교정 시스템이란 컴퓨터가 이를 자동으로 수행하는 것을 의미한다. 본 논문에서는 맞춤법 교정을 기계번역의 관점으로 바라보고 문제를 해결하였다. 소스문장에 맞춤법 오류문장, 타겟 문장에 올바른 문장을 넣어 학습시키는 방법을 제안한다. 본 논문에서는 단일 말뭉치로 한국어 맞춤법 병렬 말뭉치를 구성하는 방법을 제안하며 G2P(Grapheme to Phoneme)를 이용한 오류 데이터 생성, 자모 단위 철자 오류데이터 생성, 통번역 데이터 기반 오류 데이터 생성 크게 3가지 방법론을 이용하여 맞춤법 오류데이터를 생성하는 방법론을 제안한다. 실험결과 GLEU 점수 65.98의 성능을 보였으며 44.68, 39.55의 성능을 보인 상용화 시스템보다 우수한 성능을 보였다.

  • PDF

Developing the SOA-based Dirty Data Cleansing Service (SOA에서의 오류 데이터 정제를 위한 서비스 개발)

  • Ji, Eun-Mi;Choi, Byoung-Ju;Lee, Jung-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.649-652
    • /
    • 2007
  • 최근 e-Business 어플리케이션을 통합하기 위한 개념으로 서비스 지향구조 (Service Oriented Architecture)에 기본 원리를 둔 분산 소프트웨어 통합 기술이 널리 확산되고 있다. 따라서 각 서비스간의 데이터 정제기법을 통한 신뢰성 있는 데이터 교환은 필수적 요소로 자리 잡고 있다. 본 논문에서는 시스템에 상호작용 시 교환되는 데이터의 오류를 탐지하고 정제하기 위한 서비스로 사용자의 데이터 제약조건을 결합 시키는 변환 과정, 오류를 탐지하는 탐지과정, 탐지된 오류를 정제하고, 정보를 보여주는 정제과정으로 이루어진 오류 데이터 정제 서비스(DDCS; Dirty Data Cleansing Service)를 구현하고, 이를 이용하여 SOA기반 ESB상에서 통합된 시스템들 간에 상호 작용하는 오류 데이터 정제를 보장하는 서비스를 개발한다.

A Korean POS Tagging System with Handling Corpus Errors (말뭉치 오류를 고려한 HMM 한국어 품사 태깅 시스템)

  • Seol, Yong-Soo;Kim, Dong-Joo;Kim, Kyu-Sang;Kim, Han-Woo
    • KSCI Review
    • /
    • v.15 no.1
    • /
    • pp.117-124
    • /
    • 2007
  • 통계 기반 접근 방법을 이용한 품사태깅에서 태깅 정확도는 훈련 데이터의 양에 좌우될 뿐 아니라, 말뭉치가 충분할지라도 수작업으로 구축한 말뭉치의 경우 항상 오류의 가능성을 내포하고 있으며 언어의 특성상 통계적으로 신뢰할만한 데이터의 수집에도 어려움이 따른다. 훈련 데이터로 사용되는 말뭉치는 많은 사람들이 수작업으로 구축하므로 작업자 중 일부가 언어에 대한 지식이 부족하다거나 주관적인 판단에 의한 태깅 실수를 포함할 수도 있기 때문에 단순한 저빈도와 관련된 잡음 외의 오류들이 포함될 수 있는데 이러한 오류들은 재추정이나 평탄화 기법으로 해결될 수 있는 문제가 아니다. 본 논문에서는 HMM(Hidden Markov Model)을 이용한 한국어 품사 태깅에서 재추정 후 여전히 존재하는 말뭉치의 잡음에 인한 태깅 오류 해결을 위해 비터비 알고리즘적용 단계에서 데이터 부족과 말뭉치의 오류로 인해 문제가 되는 부분을 찾아내고 규칙을 통해 수정을 하여 태깅 결과를 개선하는 방안을 제안한다. 실험결과는 오류가 존재하는 말뭉치를 사용하여 구현된 HMM과 비터비 알고리즘을 적용한 태깅 정확도에 비해 오류를 수정하는 과정을 거친 후 정확도가 향상됨을 보여준다.

  • PDF

Critical Error Span Detection Model of Korean Machine Translation (한국어 기계 번역에서의 품질 검증을 위한 치명적인 오류 범위 탐지 모델)

  • Dahyun Jung;Seungyoon Lee;Sugyeong Eo;Chanjun Park;Jaewook Lee;Kinam Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.80-85
    • /
    • 2023
  • 기계 번역에서 품질 검증은 정답 문장 없이 기계 번역 시스템에서 생성된 번역의 품질을 자동으로 추정하는 것을 목표로 한다. 일반적으로 이 작업은 상용화된 기계 번역 시스템에서 후처리 모듈 역할을 하여 사용자에게 잠재적인 번역 오류를 경고한다. 품질 검증의 하위 작업인 치명적인 오류 탐지는 번역의 오류 중에서도 정치, 경제, 사회적으로 문제를 일으킬 수 있을 만큼 심각한 오류를 찾는 것을 목표로 한다. 본 논문은 치명적인 오류의 유무를 분류하는 것을 넘어 문장에서 치명적인 오류가 존재하는 부분을 제시하기 위한 새로운 데이터셋과 모델을 제안한다. 이 데이터셋은 거대 언어 모델을 활용하는 구축 방식을 채택하여 오류의 구체적인 범위를 표시한다. 또한, 우리는 우리의 데이터를 효과적으로 활용할 수 있는 다중 작업 학습 모델을 제시하여 오류 범위 탐지에서 뛰어난 성능을 입증한다. 추가적으로 언어 모델을 활용하여 번역 오류를 삽입하는 데이터 증강 방법을 통해 보다 향상된 성능을 제시한다. 우리의 연구는 기계 번역의 품질을 향상시키고 치명적인 오류를 줄이는 실질적인 해결책을 제공할 것이다.

  • PDF

STEP 모델의 검증 시스템

  • Choi, Young
    • Proceedings of the CALSEC Conference
    • /
    • 2000.08a
    • /
    • pp.127-136
    • /
    • 2000
  • ■ STEP 데이터 활용의 필요성 ■ STEP 데이터 오류에 의한 연계 프로세스의 단절 ■ 데이터 오류의 종류 및 검증 ■ 오류 발견 후 수정(Healing)에 대한 연구를 계획 중

  • PDF

An Error Control for Media Multi-channel Running on Home Network Environment (홈 네트워크 환경에서 미디어 다중채널을 위한 오류 제어)

  • Ko Eung-Nam
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.05a
    • /
    • pp.161-164
    • /
    • 2006
  • 미디어 데이터는 별도의 채널을 할당하여 채널 별로 단일 미디어 정보를 순서대로 전송 함으로서 동일 미디어 데이터는 순서가 변할 우려는 없다. 그러나 이러한 다채널 방식에서는 미디어간 동기화 문제를 유발 시키는데 수신 측에서는 새로 발생된 데이터의 시작 시점을 서로 맞춤으로서 미디어간 동기화를 실현하였다. 새로운 미디어의 시작 시 항상 제어 데이터를 먼저 전송하여 새로운 미디어 데이터의 생성을 모든 참여자 프로세스에 알린다. 제안하는 오류 제어는 홈 네트워크 환경에서 멀티미디어 응용 개발 프레임워크에서 오류 발생시 오류를 하나의 미디어로 취급하며 멀티미디어 응용 개발 프레임워크에서 다채널 방식을 사용한다.

  • PDF

Automatic Error Detection of Morpho-syntactic Errors of English Writing Using Association Rule Analysis Algorithm (연관 규칙 분석 알고리즘을 활용한 영작문 형태.통사 오류 자동 발견)

  • Kim, Dong-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.3-8
    • /
    • 2010
  • 본 연구에서는 일련의 연구에서 수집된 영작문 오류 유형의 정제된 자료를 토대로 연관 규칙을 생성하고, 학습을 통해서 효용성이 검증된 연관 규칙을 활용해서 영작문 데이터의 형태 통사 오류를 자동으로 탐지한다. 영작문 데이터에서 형태 통사 오류를 찾아내는 작업은 많은 시간과 자원이 소요되는 작업이므로 자동화가 필수적이다. 기존의 연구들이 통계적 모델을 활용한 어휘적 오류에 치중하거나 언어 이론적 틀에 근거한 통사 처리에 집중하는 반면에, 본 연구는 데이터 마이닝을 통해서 정제된 데이터에서 연관 규칙을 생성하고 이를 검증한 후 형태 통사 오류를 감지한다. 이전 연구들에서는 이론적 틀에 맞추어진 규칙 생성이나 언어 모델 생성을 위한 대량의 코퍼스 데이터와 같은 다량의 지식 베이스 생성이 필수적인데, 본 연구는 적은 양의 정제된 데이터를 활용한다. 영작문 오류 유형의 형태 통사 연관 규칙을 생성하기 위해서 Apriori 알고리즘을 활용하였다. 알고리즘을 통해서 생성된 연관 규칙 중 잘못된 규칙이 생성될 가능성이 있으므로, 상관성 검정, 코사인 유사도와 같은 규칙 효용성의 통계적 검증을 활용해서 타당한 규칙만을 학습하였다. 이를 통해서 축적된 연관 규칙들을 영작문 오류를 자동으로 탐지하는 실험에 활용하였다.

  • PDF