• 제목/요약/키워드: 데이터 검색 오류

검색결과 65건 처리시간 0.03초

음절 Bi-gram정보를 이용한 한국어 OCR 후처리용 자동 띄어쓰기 (Automatic Word-Spacing of Syllable Bi-gram Information for Korean OCR Postprocessing)

  • 전남열;박혁로
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.95-100
    • /
    • 2000
  • 문자 인식기를 가지고 스캔된 원문 이미지를 인식한 결과로 형태소 분석과 어절 분석을 통해 대용량의 문서 정보를 데이터베이스에 구축하고 전문 검색(full text retrieval)이 가능하도록 한다. 그러나, 입력문자가 오인식된 경우나 띄어쓰기가 잘못된 데이터는 형태소 분석이나 어절 분석에 그대로 사용할 수가 없다. 한글 문자 인식의 경우 문자 단위의 인식률은 약 90.5% 정도나 문자 인식 오류와 띄어쓰기 오류 등을 고려한 어절 단위의 인식률은 현저하게 떨어진다. 이를 위해 한극어의 음절 특성을 고려해서 사전을 기반하지 않고 학습이 잘된 말뭉치(corpus)와 음절 단위의 bi-gram 정보를 이용한 자동 띄어쓰기를 하여 실험한 결과 학습 코퍼스의 크기와 띄어쓰기 오류 위치 정보에 따라 다르지만 약 86.2%의 띄어쓰기 정확도를 보였다. 이 결과를 가지고 형태소 분서고가 언어 평가 등을 이용한 문자 인식 후처리 과정을 거치면 문자 인식 시스템의 인식률 향상에 크게 영향을 미칠 것이다.

  • PDF

음절 Bi-gram정보를 이용한 한국어 OCR 후처리용 자동 띄어쓰기 (Automatic Word-Spacing of Syllable Bi-gram Information for Korean OCR Postprocessing)

  • 전남열;박혁로
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.95-100
    • /
    • 2000
  • 문자 인식기를 가지고 스캔된 원문 이미지를 인식한 결과로 형태소 분석과 어절 분석을 통해 대용량의 문서 정보를 데이터베이스에 구축하고 전문 검색(full text retrieval)이 가능하도록 한다. 그러나, 입력문자가 오인식된 경우나 띄어쓰기가 잘못된 데이터는 형태소 분석이나 어절 분석에 그대로 사용할 수가 없다. 한글 문자 인식의 경우 문자 단위의 인식률은 약 90.5% 정도나 문자 인식 오류와 띄어쓰기 오류 등을 고려한 어절 단위의 인식률은 현저하게 떨어진다. 이를 위해 한국어의 음절 특성을 고려해서 사전을 기반하지 않고 학습이 잘된 말뭉치(corpus)와 음절 단위의 bigram 정보를 이용한 자동 띄어쓰기를 하여 실험한 결과 학습 코퍼스의 크기와 띄어쓰기 오류 위치 정보에 따라 다르지만 약 86.2%의 띄어쓰기 정확도를 보였다. 이 결과를 가지고 형태소 분석과 언어 평가 등을 이용한 문자 인식 후처리 과정을 거치면 문자 인식 시스템의 인식률 향상에 크게 영향을 미칠 것이다.

  • PDF

XML 편집도구를 이용한 향상된 RDFa 태깅 기법 (Enhanced RDFa Tagging Method using XML Editing Tool)

  • 최영호;차승준;이규철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.155-158
    • /
    • 2010
  • 시맨틱 웹 기술을 활용한 OpenAPI 의미 기반 검색 시스템에서 설명정보페이지에 의미정보를 가진 메타데이터를 첨가하기 위해 RDFa 기술을 이용한 태깅을 하였다. 하지만 태깅 시 사람이 수작업을 통해 입력하기 때문에 시간소모가 크고 오류 위험이 높다는 제약사항이 있다. 이러한 제약사항을 해결하기 위해 본 논문에서는 XML/XHTML 편집도구를 이용한 향상된 RDFa 태깅을 제안한다. 이는 속도향상과 오류 감소의 방법으로 XML/XHTML 편집도구에서 제공하는 자동완성 기능을 제안하고 있다. 그리고 자동완성 기능을 사용하기 위해 DTD를 수정하여 적용하였고 수정된 방법을 테스트한 결과 기존의 수동 태깅 기법보다 걸리는 시간이 단축됐고, 오류를 줄일 수 있음이 확인되었다. 결과를 얻을 수 있었다.

강화학습에 기초한 지능형 웹 검색의 과잉적합 감소방안 (Overfitting Reduction of Intelligence Web Search based on Enforcement Learning)

  • 한송이;정용규
    • 한국인터넷방송통신학회논문지
    • /
    • 제9권3호
    • /
    • pp.25-30
    • /
    • 2009
  • 강화학습을 통한 지능형시스템은 게임, 웹 검색 등 많은 분야에서 연구되고 있다. 좋은 훈련 모델은 훈련데이터에도 적합해야 하며 이전에 접해 보지 못한 레코드들도 정확하게 분류되어야 한다. 훈련 데이터에 잘 맞는 모델은 과인적합 되어서 좋지 못한 일반화의 오류를 가질 수 있다. 어떤 분야에서도 이런 과잉적합은 피할 수 없는 문제이며 과잉적합을 방지하는 연구는 필요하다. 본 논문에서는 과잉적합을 감소시키기 위한 방법으로 자연계의 모델인 엔트로피와 돌연변이를 웹 검색에 적용하여 제시한다. 학습과정은 엔트로피의 변화량으로 설명될 수 있고, 자연계의 적자로 생존할 수 있는 돌연변이 현상은 데이터마이닝에서 엔트로피의 인위적 발생으로 설명될 수 있다. 즉, 최대 엔트로피를 주기적으로 발생시키는 방안을 본 논문에서 제시한다. 훈련데이터의 최대 엔트로피 모델은 지능형 웹 검색의 주기적 일반화 강화과정이라고 볼 수 있다.

  • PDF

PDF417 이차원 바코드 디코딩 알고리즘의 구현 (Implementation of PDF417 2-dimensional Barcode Decoder)

  • 정정구;한희일
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.289-292
    • /
    • 2001
  • 종래에 사용되어 왔던 1차원 바코드가 정보를 포함하고 있는 데이터베이스에 접근하는 데이터 키 역할을 주로 해온 것에 비해, 2차원 바코드는 다량의 데이터를 포함할 수 있고 고밀도의 데이터 표현이 가능하여, 호스트 컴퓨터의 데이터 베이스에 온라인 연결할 필요없이 확인하고자 하는 사람이나 대상물에 대한 정보를 얻을 수 있다. 본 논문에서는 가장 널리 사용되는 2차원 바코드 체계인 PDF417 을 중심으로 디지털 카메라를 통하여 입력한 영상을 이진화하여 시작 심볼 또는 정지 심볼을 검색함으로써 2차원 바코드 영역을 추출한 다음, 추출된 영역으로부터 바코드의 행과 열의 수, 오류수정 정도 등의 헤더정보를 검출하고 이를 바탕으로 코드워드를 추출하는 알고리즘을 제안한다. 얻어진 코드워드는 데이터를 효율적으로 저장하기위해 정보가 숫자인지, ASCII코드인지 혹은 바이트 정보인지에 따라 다른 방식으로 인코딩 되어 있는데, 그에 따른 디코딩 알고리즘을 제안한다.

  • PDF

구조적 학술용어사전 "STNet"의 추론규칙 생성에 의한 의미 검색에 관한 연구 (A Study on the Semantic Search using Inference Rules of the Structured Terminology Glossary "STNet")

  • 고영만;송민선;이승준;김비연;민혜령
    • 한국문헌정보학회지
    • /
    • 제49권3호
    • /
    • pp.81-107
    • /
    • 2015
  • 본 연구의 목적은 이미 구축되어 있는 RDB 형식의 학술용어사전에 온톨로지 구조와 추론 규칙을 형성시킨 후 이를 의미 검색에 적용하는 상향(Bottom-up) 방식의 방법론을 제안하고 검증하는 것이다. 이를 위해 구조적 학술용어사전 "STNet"을 테스트베드로 삼아 Protege를 이용해 온톨로지 구조를 생성하고, 온톨로지 구조의 오류를 검증하였으며, STNet에 입력된 실제 데이터로 실험을 위한 테스트 데이터를 구축하였다. 그리고 추론 제한 규칙과 검증에 필요한 시나리오를 설정한 후, TBox 검증과 SPARQL 질의에 의한 결과 값을 평가하였다. TBox 검증 결과 본 연구에서 생성한 추론규칙이 모두 참으로 나타났으며, SPARQL 질의를 통한 결과값의 평가 결과 기존의 키워드 검색 수행에서는 파악하기 힘든 복잡한 검색 시나리오에 대해, 의미적으로 연관되는 용어를 효율적으로 조합해 검색 결과로 보여주는 것으로 나타났다.

검색어 빈도 데이터를 반영한 코로나 19 확진자수 예측 딥러닝 모델 (Predicting the Number of Confirmed COVID-19 Cases Using Deep Learning Models with Search Term Frequency Data)

  • 정성욱
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권9호
    • /
    • pp.387-398
    • /
    • 2023
  • 코로나 19 유행은 인류 생활 방식과 패턴에 큰 영향을 주었다. 코로나 19는 침 방울(비말)은 물론 공기를 통해서도 감염되기 때문에 가능한 대면 접촉을 피하고 많은 사람이 가까이 모이는 장소는 피할 것을 권고하고 있다. 코로나 19 환자와 접촉했거나 코로나 19 환자가 발생한 장소에 있었던 사람이 코로나 19에 감염되었을 것을 염려한다면 구글에서 코로나 19 증상을 찾아볼 것이라고 충분히 예상해 볼 수 있다. 본 연구에서는 과거 독감 감시와 관리에 중요 역할을 했었던 구글 트렌드(Google Trends)를 다시 소환하고 코로나 19 확진자수 데이터와 결합하여 미래의 코로나 19 확진자수를 예측할 수 있을지 딥러닝 모델(DNN & LSTM)을 사용한 탐색적 데이터 분석을 실시하였다. 특히 이 연구에 사용된 검색어 빈도 데이터는 공개적으로 사용할 수 있으며 사생활 침해의 우려도 없다. 심층 신경망 모델(DNN model)이 적용되었을 때 한국에서 가장 많은 인구가 사는 서울(960만 명)과 두 번째로 인구가 많은 부산(340만 명)에서는 검색어 빈도 데이터를 포함하여 예측했을 때 더 낮은 오류율을 기록했다. 이와 같은 분석 결과는 검색어 빈도 데이터가 일정 규모 이상의 인구수를 가진 도시에서 중요한 역할을 할 수 있다는 것을 보여주는 것이다. 우리는 이와 같은 예측이 더 강력한 예방 조치의 실행이나 해제 같은 정책을 결정하는데 근거 자료로 충분히 사용될 수 있을 것으로 믿는다.

음성인식 후처리에서 음소 유사율을 이용한 오류보정에 관한 연구 (A Study on Error Correction Using Phoneme Similarity in Post-Processing of Speech Recognition)

  • 한동조;최기호
    • 한국ITS학회 논문지
    • /
    • 제6권3호
    • /
    • pp.77-86
    • /
    • 2007
  • 최근 텔레매틱스 단말기 등과 같이 음성인식을 인터페이스로 하는 음성기반 검색시스템들이 많이 개발되고 있다. 그러나 음성인식에는 여전히 많은 오류가 존재하며, 이에 오류보정에 대한 여러 가지 연구가 진행되고 있다. 본 논문에서는 한국어의 음소가 갖는 특징을 기반으로 음성인식 후처리에서의 오류보정을 제안하였다. 이를 위해 한국어 음소의 특징을 고려한 음소 유사율을 사용하였다. 음소 유사율은 훈련데이터를 모노폰으로 훈련시켜 한국어 음소 각각에 대하여 MFCC와 LPC 특징추출방법을 사용하여 특징추출을 수행하고, 바타차랴 거리 측정법을 사용하여 각 음소 사이의 유사율을 구하였다. 음소 유사율과 신뢰도를 이용하여 오류보정률을 구하였으며, 이를 사용하여 음성인식 과정에서 오류로 판명된 어절에 대하여 오류보정을 수행하고, 음절 복원과 형태소 분석을 재수행하는 과정을 거쳤다. 실험 결과 MFCC와 LPC 각각 7.5%와 5.3%의 인식 향상률을 보였다.

  • PDF

웹기반 시뮬레이션 수행 데이터 검색 API 설계 (Design of Retrieval API to Analyze Web based Simulation Execution Data)

  • 정영진;서정현;유정록;진두석;이준형;이종숙;조금원
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 춘계학술대회
    • /
    • pp.708-710
    • /
    • 2013
  • 네트워크 및 인터넷 서비스의 발달로 초고속 컴퓨팅 자원을 쉽게 활용하여 실세계의 여러 물리적 현상을 분석할 수 있는 웹기반 시뮬레이션 서비스가 활발히 사용되고 있다. 보다 편리한 시뮬레이션 서비스를 제공하기 위하여 수행 데이터 분석을 통해 서비스를 개선할 수 있다. 특히 분석하는 전문가에 따라 필요한 정보가 다르기 때문에 편리한 데이터 검색을 위해 API를 설계한다. 이 논문에서는 열유체 및 화학분야에 사용된 웹 기반 시뮬레이션 수행 데이터를 사용자가 쉽게 분석할 수 있는 검색 API를 설계한다. 설계된 검색 API는 사용자, 시뮬레이션 프로그램, 사이버랩(cyberlab) 정보를 중심으로 사용자, 사용기간, 소속에 따른 시뮬레이션 수행 내역을 손쉽게 검색하는 기능을 제공한다. 그리고 이 API를 활용하여 웹 시뮬레이션 통계 서비스, 시뮬레이션 수행 경향 분석, 자주 발생하는 오류 파악, 등 사용자가 시뮬레이션을 수행하기에 유용한 정보를 제공할 수 있다.

  • PDF

데이타 품질 측정 도구 (A Data Quality Measuring Tool)

  • 양자영;최병주
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제9권3호
    • /
    • pp.278-288
    • /
    • 2003
  • 소프트웨어 제품을 실행시키기 위해 요구되는 데이타의 품질은 소프트웨어 품질에 영향을 미치고 있다 특히 대용량의 데이타로부터 의미 있는 지식을 추출하는 지식공학 시스템에서 원시 데이터의 품질을 보장하는 일은 매우 중요하다. 본 논문에서는 데이타의 측정 도구인 DAQUM도구를 설계 구현하였다. 본 논문에서는 DAQUM도구의 설계 및 구현에 관한 주요내용을 기술하고, 사례연구를 통하여 DAQUM도구가 오류데이타를 검색하여 데이타 사용자 관점에서 데이타의 품질을 정량적으로 측정 가능하도록 함을 나타낸다. DAQUM도구는 데이타의 품질 측정 및 품질 제어를 가능하게 함으로써 데이타를 주로 처리하는 소프트웨어 제품의 품질 향상에 기여할 수 있다.