• 제목/요약/키워드: digital text data

검색결과 330건 처리시간 0.023초

문서 이미지 데이터 활용을 위한 지능형 OCR 기술 개발 (Development of Intelligent OCR Technology to Utilize Document Image Data)

  • 김상준;유동희;황소영;김민호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.212-215
    • /
    • 2022
  • 오늘날 소위 디지털 전환시대를 맞아, 많은 부분에서 빅데이터의 구축과 활용에 대한 필요성이 높아졌다. 오늘날에 많은 데이터가 디지털기기, 미디어 친화적으로 생산 및 보관되는 것과 달리, 과거 오랜 기간 데이터의 생산 및 보관은 활자 인쇄도서가 주를 이루었다. 따라서 오랜 기간 축적되어온 방대한 활자 인쇄도서를 빅데이터로써 활용하기 위한 광학 문자 판독(OCR: Optical Character Recognition) 기술의 필요성 역시 빅데이터의 필요성에 맞추어 함께 요구되었다. 본 연구에서는 도서 스캔 이미지의 정보를 각 문서 객체별로 세분화하여 그 구조와 내용을 디지털화하는 시스템을 제안한다. 제안 시스템은 크게 1) 문서객체(표, 수식, 그림, 본문)의 영역정보를 인식. 2)인식된 객체의 영역정보를 각각 표 처리, 수식 처리, 텍스트 처리 모듈로 OCR. 3) OCR로 처리된 문서 정보를 JSON형식으로 종합하여 반환하는 세 단계로 구성된다. 본 연구에서 제안하는 모델은 이러한 단계를 수행함에 있어 오픈소스로 공개된 프로젝트를 활용하되, 본 시스템의 목표에 맞추어 추가적인 학습과 개량을 거쳤다. 본 연구에서 제안한 지능형 OCR 시스템은 문서 이미지 내 4종(표, 수식, 이미지, 텍스트)의 객체인식과 처리에 있어 상용 소프트웨어 수준의 성능을 확인할 수 있었다.

  • PDF

연관법령 검색을 위한 워드 임베딩 기반 Law2Vec 모형 연구 (A Study on the Law2Vec Model for Searching Related Law)

  • 김나리;김형중
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권7호
    • /
    • pp.1419-1425
    • /
    • 2017
  • 법률 지식 검색의 궁극적 목적은 법령과 판례를 근거로 최적의 법례정보 획득이라고 할 수 있다. 최근, 대규모 자료에서 효율적으로 검색하여야 하는목적을 달성하기 위하여텍스트 마이닝 연구가 활발히 이루어지고 있다. 대표적인 방법으로 Neural Net 기반 학습방법인 워드 임베딩 알고리즘을 들 수 있다. 본 논문에서는 한국 법령정보를 워드임베딩에 적용하여 연관정보 검색방법을 연구하였다. 우선 판례의 참조법령을 순서대로 추출하여 모형의 입력정보로 활용하였다. 추출한 참조법령들은 중심법령을 기준으로 주변 법령을 학습하고 임베딩하는 Law2Vec 모형을 작성하였다. 이 모형으로 법령에 대하여 학습을 수행하고 법령 간의 관계를 추론하였다. 본 연구의 모형을 평가하기 위하여 연관법령으로 도출된 결과가 키워드와 밀접한 관련이 있는지 정밀도와 재현율을 계산하여 검증하였다. 실험결과, 본 연구의 제안방식이기존의 키워드 검색방법보다 연관된 법령을추론하는데유용함을 알 수 있었다.

대선후보의 SNS 평판이 선거결과에 미치는 영향 분석 - 19대 대선을 중심으로 - (Analysis of the Influence of Presidential Candidate's SNS Reputation on Election Result: focusing on 19th Presidential Election)

  • 이예나;최은정;김명주
    • 디지털융복합연구
    • /
    • 제16권2호
    • /
    • pp.195-201
    • /
    • 2018
  • 최근 스마트폰과 PC 이용이 대중화됨 따라 웹상에 데이터가 기하급수적으로 축적되고 있다. 특히 SNS를 통해서 자유로운 의사소통은 물론 간편한 정보공유가 가능하여 다양한 의견들이 대량 데이터 형태로 축적된다. 이러한 데이터들을 분석하여 특정 주제에 대한 여론을 예견하는 빅데이터 기반의 여론분석기술이 주목받고 있다. 본 논문에서는 SNS 상에 표현된 사용자들의 의견을 수집하고 분석하여 대한민국 19대 대통령 후보자들에 대한 유권자들의 숨어있는 표심을 분석해 보았다. 이를 위해 19대 대선 후보에 관한 SNS상의 정보를 수집한 후 텍스트 마이닝 기법과 오피니언 마이닝 기법을 적용하여 언급 빈도수와 관련 키워드를 통한 평판 분석을 실시하였다. 본 논문에서 제시한 SNS를 통한 19대 대선후보의 평판분석 결과가 기존의 여론조사결과에 비하여 더 정확하게 예측했음을 확인할 수 있다.

LSTM과 증시 뉴스를 활용한 텍스트 마이닝 기법 기반 주가 예측시스템 연구 (A study on stock price prediction system based on text mining method using LSTM and stock market news)

  • 홍성혁
    • 디지털융복합연구
    • /
    • 제18권7호
    • /
    • pp.223-228
    • /
    • 2020
  • 주가는 사람들의 심리를 반영하고 있으며, 주식시장 전체에 영향을 미치는 요인으로는 경제성장률, 경제지료, 이자율, 무역수지, 환율, 통화량 등이 있다. 국내 주식시장은 전날 미국 및 주변 국가들의 주가지수에 영향을 많이 받고 있으며 대표적인 주가지수가 다우지수, 나스닥, S&P500이다. 최근 주가뉴스를 이용한 주가분석 연구가 활발히 진행되고 있으며, 인공지능 기반한 분석을 통하여 과거 시계열 데이터를 기반으로 미래를 예측하는 연구가 진행 중에 있다. 하지만, 주식시장은 예측시스템에 의해서 단기간 적중이 되더라도, 시장은 더 이상의 단기 전략대로 움직여지지 않고, 새롭게 변할 수밖에 없다. 따라서, 본 모델을 삼성전자 주식데이터와 뉴스 정보를 텍스트 마이닝으로 모니터링하여 분석한 결과를 나타내어 예측이 가능한 모델을 제시하였으며, 향후 종목별 예측을 통하여 실제 예측이 정확한지 확인하여 발전시켜 나갈 예정임.

북한이탈주민 창업에 관한 뉴스 데이터 토픽 모델링 분석: 2013~2021년까지 정부 정책 비교를 중심으로 (News data LDA on North Korean defector entrepreneurship: Focusing on the comparison of government policies from 2013 to 2021)

  • 문준환
    • 디지털융복합연구
    • /
    • 제20권3호
    • /
    • pp.145-155
    • /
    • 2022
  • 코로나19의 장기화로 인해 북한이탈주민이 경제적으로 어려움을 겪고 있는 문제를 해결하고자 창업에 관한 관심이 고조되고 있다. 이에, 본 연구는 정권의 기조에 따른 창업지원 정책을 살펴보기 위해 최근 정권과 직전 정권기간을 연구대상으로, 북한이탈주민 창업에 대한 뉴스 데이터 텍스트마이닝을 통해 주요 토픽을 발굴하고자 하였다. 추가로 창업경험이 있는 북한이탈주민과의 인터뷰를 통해 성공적인 창업을 위한 주요요인을 도출하였다. 분석결과 북한이탈주민의 창업과 관련된 정책은 여성 및 청년을 대상으로 집중하고, 전문화된 창업교육과 금융 및 자금지원을 적극적으로 확대하는 것이 필요하며, 실질적이고 지속적인 창업 교육 프로그램이 필요하다는 것을 확인하였다.

디지털 방송용 한글 허프만 부호 설계 및 PSIP 구조 (Huffman Code Design and PSIP Structure of Hangul Data for Digital Broadcasting)

  • 황재정;진경식;한학수;최준영;이진환
    • 방송공학회논문지
    • /
    • 제6권1호
    • /
    • pp.98-107
    • /
    • 2001
  • 본 논문은 한글 텍스트 데이터에 대한 부호화 효율을 극대화시키는 관점에서 예외 부호화를 통해 최적의 허프만 부호를 얻는 다. 한글 코드는 표준 완성형과 유니 코드를 대상으로 하였으며 같은 허프만 부호를 부여하였다. 현재 우리나라의 디지털 TV는 한글 문자를 압축하지 않고 전송하는 형태이며. 본격적인 데이터 방송이 시작되면 한글 데이터가 차지하는 전송량으로 인한 심자 한 문제가 야기된다. 본 논문에서는 데이터 방송에서 문제가 되는 전송량을 줄이기 위해 한글 진용 퇴적의 허프만 부호를 생성한 다. 미국의 ATSC 표준을 바탕으로 한 디지털 TV 국내 표준에 적용하기 위해 프로그램 및 시스템 프로토콜(PSIP) 구조를 제안한 다. 결과로서. 발생확률 0.0043 이하의 확률을 갖는 문자를 예외 부호화하여 최대 47%의 압축율을 얻는 기법을 제안하였다.

  • PDF

삼각 부등식을 이용한 온라인 VQ 코드북 생성 방법 (Online VQ Codebook Generation using a Triangle Inequality)

  • 이현진
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권3호
    • /
    • pp.373-379
    • /
    • 2015
  • 본 논문에서는 실시간으로, 문서, 웹 페이지, 블로그, tweet 등 텍스트 정보와 센서, 머신데이터등 IoT의 데이터가 생성되는 상황에서 새로 추가되는 데이터들을 기존에 만들어진 VQ 코드북에 추가시키면서, 기존 VQ 코드북 모델을 실시간으로 갱신하기 위한 온라인 VQ 코드북 생성 방법을 제안한다. 기존에 일괄 작업으로 만들어진 VQ 코드북의 성능을 저하시키지 않으면서, 새로 추가된 데이터를 활용하여 VQ 코드북을 점진적으로 수정하는 방식으로 삼각 부등식을 활용하여 높은 정확도와 속도를 보일 수 있었다. 테스트 데이터에 적용한 결과 일괄 작업과 유사한 성능을 보이면서, 다른 온라인 K-Means 보다 빠른 속도를 보였다.

텍스트분할에 의한 색인방법 연구 (A Study on Indexing Method using Text Partition)

  • 강무영;이상구
    • 정보관리학회지
    • /
    • 제16권4호
    • /
    • pp.75-94
    • /
    • 1999
  • 색인은 데이터베이스에 저장된 문서를 효과적으로 검색하기 위한 정보검색시스템의 필수 기능이다. 컴퓨터의 발달로 전자정보가 점점 많아짐에 따라 데이터베이스에 저장해야할 문서가 대량화되고 있고, 이러한 대용량 문서를 색인하기 위해서는 많은 시스템 자원과 처리 시간을 필요로 한다. 따라서 본 논문에서는 대용량 문서를 적은 자원으로 짧은 시간에 색인할 수 있는 개선된 텍스트분할에 의한 색인기법을 제안한다. 제안한 색인기법은 실제 검색시스템에 적용하고, 실험을 통해 우수성을 증명한다.

  • PDF

2D 바코드와 TTS를 활용한 정보접근 임베디드 시스템 구현 (Implementation of information access embedded system using two-dimensional bar code and TTS)

  • 이재균;김시우;이채욱;이동인
    • 대한임베디드공학회논문지
    • /
    • 제1권2호
    • /
    • pp.31-36
    • /
    • 2006
  • As two dimensional bar code can collect data and information quickly, it is used and recognized as a useful tool for the many industrial application field. But the information capacity of two dimensional bar code is still limited. Recently, the two dimensional AD bar code (analog-digital code) that can increase its application range and overcome capacity limitation is developed. In this paper, we implement an effective system which can transform text information into voice using two dimensional AD bar code and TTS(Text To Speech). It can be transmitted to blind people by capturing the AD bar code on the papers or the books.

  • PDF

Text-driven Speech Animation with Emotion Control

  • Chae, Wonseok;Kim, Yejin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권8호
    • /
    • pp.3473-3487
    • /
    • 2020
  • In this paper, we present a new approach to creating speech animation with emotional expressions using a small set of example models. To generate realistic facial animation, two example models called key visemes and expressions are used for lip-synchronization and facial expressions, respectively. The key visemes represent lip shapes of phonemes such as vowels and consonants while the key expressions represent basic emotions of a face. Our approach utilizes a text-to-speech (TTS) system to create a phonetic transcript for the speech animation. Based on a phonetic transcript, a sequence of speech animation is synthesized by interpolating the corresponding sequence of key visemes. Using an input parameter vector, the key expressions are blended by a method of scattered data interpolation. During the synthesizing process, an importance-based scheme is introduced to combine both lip-synchronization and facial expressions into one animation sequence in real time (over 120Hz). The proposed approach can be applied to diverse types of digital content and applications that use facial animation with high accuracy (over 90%) in speech recognition.