• 제목/요약/키워드: Intelligent document processing

검색결과 44건 처리시간 0.023초

웹 에이전트 사용자 특성모델 구축을 위한 비감독 문서 분류 (Unsupervised Document Clustering for Constructing User Profile of Web Agent)

  • 오재준;박영택
    • 지능정보연구
    • /
    • 제4권2호
    • /
    • pp.61-83
    • /
    • 1998
  • 본 연구는 웹 에이전트에 있어서 가장 핵심적인 부분이라 할 수 있는 사용자 특성모델 구축방법을 개선하는데 목적을 두고 있다. 사용자 특성모델을 귀납적 기계학습 방식으로 자동 추출하기 위해서는 사용자가 관심을 가지는 분야별로 문서를 자동 분류하는 작업이 매우 중요하다 지금까지의 방식은 사람이 관심여부에 따라 문서를 수동적으로 분류해 왔으나, 문서의 양이 기하급수적으로 증가할 경우 처리할 수 있는 문서의 양에는 한계가 있을 수밖에 없다. 또한 수작업 문서분류 방식을 웹 에이전트에 그대로 적용하였을 경우 사용자가 일일이 문서를 분류해야한다는 번거로움으로 인해 웹 에이전트의 효용성이 반감될 것이다. 따라서 본 연구에서는 비감독 문서분류 알고리즘과 그것을 바탕으로 얻어진 문서분류정보를 후처리(Post-Processing)함으로써 보다 간결하고 정확한 문서분류 결과를 얻을 수 있는 구체적인 방법을 제공하고자 한다.

  • PDF

교육용 도서 영상을 위한 효과적인 객체 자동 분류 기술 (Efficient Object Classification Scheme for Scanned Educational Book Image)

  • 최영주;김지해;이영운;이종혁;홍광수;김병규
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권7호
    • /
    • pp.1323-1331
    • /
    • 2017
  • 오늘날 저작권 관련 산업이 사회, 경제적으로 큰 영향을 미치는 대규모 산업으로 성장하였음에도 불구하고 저작물에 대한 소유권 및 저작권에 대한 문제가 끊임없이 발생하고 있으며 특히 이미지 저작권과 관련된 연구는 거의 진행되지 않는 상태이다. 본 연구에서는 기존의 문서 영상처리 기술과 딥 러닝 기술을 융합하여 교육용 도서 영상에서의 객체 자동 추출 및 분류 기술 시스템을 제안한다. 제안된 기술은 먼저 잡음을 제거한 후, 시각적 주의(visual attention) 기반 영역 추출 과정을 수행한다. 추출된 영역을 기반으로 블록화 작업을 수행하고, 각 블록을 그림인지 아니면 문자 영역인지를 분류한다. 마지막으로 추출된 그림 영역 주위를 검색하여 캡션 영역을 추출한다. 본 연구에서 진행한 성능 평가 결과, 그림 영역은 최대 97% 정확도를 보이며, 그림 및 캡션 영역 추출에 있어서는 평균 83%의 정확도를 보여 준다.

지화 인식을 위한 동영상 처리에 관한 연구 (The Study on Dynamic Images Processing for Finger Languages)

  • 강민지;최은숙;손영선
    • 한국지능시스템학회논문지
    • /
    • 제14권2호
    • /
    • pp.184-189
    • /
    • 2004
  • 본 논문에서는 흑백 CCD 카메라를 이용하여 청각 장애인의 의사전달 수단인 지화 동작을 동영상으로 입력받아 인식하여, 편집 가능한 텍스트 문서로 변환하는 시스템을 구현하였다. 일련의 입력 영상들 중에서 흐린 영상과 선명한 영상의 구분은 영상의 잔상을 이용하였고, 촬영된 연속 영상들의 배열로부터 문자 자소를 구하고, 오토마타를 적용하여 완성된 문자를 문서 편집기에 출력시켰다. 획득된 선명한 영상 데이터 중 변화가 심한 손목 부분을 제거한 후, 최대 원형 이동법을 이용하여 손의 무게 중심점을 구하고, 원형 패턴 벡터 알고리즘을 적용하여 지화 해석에 필요한 손을 인식하였다. 손 중심으로부터 거리 스펙트럼을 이용하여 지화 인식에 사용되는 손 모양의 특징 벡터를 추출하고, 퍼지 추론을 적용하여 표준 패턴과 입력 패턴의 특징벡터를 비교, 지화 동작을 인식하였다.

정보시스템에서 퍼지용어의 확장된 AHP를 사용한 레벨화와 유사성 측정 (A Leveling and Similarity Measure using Extended AHP of Fuzzy Term in Information System)

  • 류경현;정환묵
    • 한국지능시스템학회논문지
    • /
    • 제19권2호
    • /
    • pp.212-217
    • /
    • 2009
  • 특정 분야의 용어를 표현하는 전문용어 사이의 계층관계를 학습하는 방법은 규칙기반학습방법, 통계기반학습방법 등이 있다. 본 논문에서는 문서에서 추출된 퍼지용어 정보를 바탕으로 한 온톨로지 구조를 카테고리화하여 퍼지용어의 전문성을 이용하여 주어진 퍼지용어의 상위어 후보를 레벨화한 후 퍼지용어 의미유사도를 계산하여 선택된 후보들 중에서 최적의 상위어후보를 결정한다. 즉, 퍼지용어의 전문성을 레벨화하기 위한 확장된 AHP방법은 퍼지용어사이의 비교를 통해 가중치나 상대적 중요성을 결정한 후 퍼지집합의 Min연산자와 다이스계수, Min+다이스계수방법들을 비교한다. 이 방법들은 퍼지용어 의미유사도에 따라 문서들이 가지는 의미론적 내용과 관계의 식별을 바탕으로 보다 더 정확하게 문서를 분류할 수 있고 자연어처리 등 많은 분야에 활용될 수 있을 것이다.

비즈니스 문서의 생산성 향상을 위한 RPA(Robotics Process Automation)적용방안에 대한 연구 (A Study On The Application of RPA(Robotics Process Automation) For Productivity Of Business Documents)

  • 현영근;이주연
    • 디지털융복합연구
    • /
    • 제17권9호
    • /
    • pp.199-212
    • /
    • 2019
  • 디지털화(Digitalization)가 우리의 비즈니스 환경에 다양한 변화와 혁신을 일으키고 있다. 제조업에서는 오래전부터 자동화를 위해 로봇을 활용하여 처리속도 및 품질에 혁신을 이루었다. RPA는 이러한 제조현장의 혁신을 사무공간으로 가져온 것이라고 할 수 있다. 본 연구의 목적은 사무공간에서 단순 반복적으로 이루어지는 업무에 대해 생산성을 향상시키는 것을 그 목적으로 한다. 이러한 생산성 향상과 관련하여, 비즈니스 자동화(Business Automation)에 대한 개념을 살펴본 후, 비즈니스 문서 작업과 관련하여 자동화의 가능성을 확인하기 위해 5가지 업무영역을 대상으로 애자일 방법론을 활용하여 시뮬레이션을 수행하였다. 결론적으로, 품질점검 관련 97.3%, 편집 디자인 관련 31.7%의 생산성 향상이 가능함을 확인하였으며, 실제 업무에 적용하기 위한 방향성에 대해서도 살펴보았다. 향후 연구에서는 이러한 결과를 바탕으로 IPA(Intelligent Process Automation)의 적용방안에 대해 진행하고자 한다.

지능형 네트워크 로봇을 위한 서비스 지향적인 로봇 클라이언트 미들웨어 설계와 구현 (A Design and Implementation of A Robot Client Middleware for Network-based Intelligent Robot based on Service-Oriented)

  • 곽동규;최재영
    • 정보처리학회논문지A
    • /
    • 제19A권1호
    • /
    • pp.1-8
    • /
    • 2012
  • 지능형 네트워크 로봇은 다양한 환경에서 네트워크 시스템과 연계하여 인간과 상호작용을 하며, 상황에 따라 주어진 역할을 수행한다. 유비쿼터스 환경에서 동작하는 네트워크 기반의 URC 로봇은 분산 컴퓨팅 환경에서 클라이언트 로봇의 기능을 서버로 분산시킴으로써 클라이언트 로봇을 경량화하는 장점을 갖는다. URC 로봇 환경 중에서 SOMAR는 서버-클라이언트 환경에서 서비스 지향기법으로 로봇 소프트웨어를 개발하기 위해 제안되었다. 본 논문에서는 URC 로봇 환경에서 사용 가능한 SOMAR 로봇 클라이언트를 소개하고 그 구현을 보인다. SOMAR 로봇 클라이언트는 디바이스 서비스 계층과 로봇 서비스 계층을 갖는다. 이 중 디바이스 서비스는 디바이스를 제어하는 서비스이고, 로봇 서비스는 다수의 디바이스 서비스를 결합하여 생성된 로봇이 제공하는 서비스를 추상화시킨 것이다. 또한 본 논문에서는 디바이스와 로봇 서비스의 결합 관계를 표현하기 위해 RSEL (Robot Service Executing Language)을 이용하였다. 서비스 결합을 기술한 RSEL 문서는 변환기를 통해 클라이언트 시스템 언어로 변환하고 컴파일링하여 로봇 클라이언트 시스템에 업로드한다. SOMAR 클라이언트 시스템은 호스트/타겟 구조를 갖는 내장형 시스템에 적용하기가 용이하며, RSEL 처리 엔진에 대한 부담을 줄여서 로봇 클라이언트를 경량화시켰다.

확장형 규칙 표식 언어(eXtensible Rule Markup Language) : 설계 원리 및 응용 (eXtensible Rule Markup Language (XRML): Design Principles and Application)

  • 이재규;손미애;강주영
    • 지능정보연구
    • /
    • 제8권1호
    • /
    • pp.141-157
    • /
    • 2002
  • XML(eXtensible Markup Language, XML)은 인터넷에서의 자료 교환을 위해 고안된 언어이다. 본 논문에서는 XML의 개념을 발전시킨 확장형 규칙 표식 언어(eXtensible Rule Markup Language, XRML)를 제안하고 있다. XRML은 웹 페이지에 내재된 암묵적 규칙의 식별, 구조적인 규칙으로의 변환, 사람과 소프트웨어 에이전트간의 지식 공유를 가능하게 하며, 이를 통해 지식기반시스템(Knowledge Based System)과 지식관리시스템(Knowledge Management System)의 통합을 실현할 수 있는 새로운 언어가 될 것이다. 본고에서는 XRML이 이상과 같은 능력을 갖기 위해 반드시 갖춰야 할 6가지 설계 기준과, 이들 기준을 반영한 XRML 구성 요소로서 RIML(Rule Identification Markup Language), RSML(Rule Structure Markup Language)과 RTML(Rule Triggering Markup Language)을 설계하였으며, 개별 요소들의 기능 및 특성과 함께 태그와 DTD(Document Type Definition)도 식별하였다. 나아가 전술한 구조를 기반으로 하여 XRML을 워크플로우 시스템상의 폼처리에 적용한 Form/XRML이라는 프로토타입 시스템을 설계하고 구현하였다. 본 프로토타입의 개발을 통해, 지식기반시스템의 지식을 활용하는 RTML이 폼을 비롯한 다양한 응용시스템에 내재될 수 있으며, 웹 페이지의 암묵적 규칙과 지식기반시스템의 규칙이 일관성 있게 유지될 수 있음을 보여 주었다. 요컨대 본 연구는 XRML이 지능형 웹으로 발전하기 위한 새로운 도구이며, KBS와 KMS의 통합을 위한 중요한 도구임을 입증하였다는 점에서 큰 의의를 갖는다고 하겠다.

  • PDF

문서 데이터 정보화를 위한 지능형 문서처리 플랫폼에 관한 연구 (A Study on the Intelligent Document Processing Platform for Document Data Informatization)

  • 허희도;강동구;김영수; 전삼현
    • 한국인터넷방송통신학회논문지
    • /
    • 제24권1호
    • /
    • pp.89-95
    • /
    • 2024
  • 요즘 기업의 경쟁력은 조직이 축적한 조직의 지식들을 모든 조직원들이 잘 공유하고 활용하는 능력에 달려있다. 이것을 증명이라도 하듯이 지금 세상은 LLM(거대언어모델)의 기반의 생성형 AI 기술을 이용한 쳇GPT서비스에 대해 집중하고 있다. 하지만, 쳇GPT 서비스를 업무에 적용하기에는 아직 환각성 문제가 많아 어려운 상태이다. 이 문제를 해결하기 위해 sLLM(경량거대언어모델) 기술이 대안으로 제시되고 있다. sLLM을 구성하기 위해서는 기업데이터가 필수적으로 필요하다. 기업데이터는 조직의 ERP Data와 조직이 보존하고 있는 기업의 오피스 문서 지식 데이터이다. ERP Data는 sLLM과 직접 연결하여 활용할 수 있으나 오피스 문서는 파일 형태로 저장되어 있어서 데이터 형태로 변환하여야 sLLM과 연결하여 활용할 수 있다. 뿐만 아니라 파일 형태로 저장되어져 있는 오피스 문서들을 조직을 지식 정보로 활용하기에는 기술적 제약 사항이 너무 많다. 본 연구는 오피스 문서를 파일 형태가 아닌 DB 형태로 저장하는 방법을 제시함으로서 기업이 기 축적 된 오피스 문서를 조직의 지식 시스템으로 잘 활용할 수 있게 하고, 기업의 sLLM에 오피스 문서를 데이터 형태로 제공하여 AI 기술과 접목하여 기업 경쟁력을 향상 시키는데 기여하고자 한다.

전역 토픽의 지역 매핑을 통한 효율적 토픽 모델링 방안 (Efficient Topic Modeling by Mapping Global and Local Topics)

  • 최호창;김남규
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.69-94
    • /
    • 2017
  • 최근 빅데이터 분석 수요의 지속적 증가와 함께 관련 기법 및 도구의 비약적 발전이 이루어지고 있으며, 이에 따라 빅데이터 분석은 소수 전문가에 의한 독점이 아닌 개별 사용자의 자가 수행 형태로 변모하고 있다. 또한 전통적 방법으로는 분석이 어려웠던 비정형 데이터의 활용 방안에 대한 관심이 증가하고 있으며, 대표적으로 방대한 양의 텍스트에서 주제를 도출해내는 토픽 모델링(Topic Modeling)에 대한 연구가 활발히 진행되고 있다. 전통적인 토픽 모델링은 전체 문서에 걸친 주요 용어의 분포에 기반을 두고 수행되기 때문에, 각 문서의 토픽 식별에는 전체 문서에 대한 일괄 분석이 필요하다. 이로 인해 대용량 문서의 토픽 모델링에는 오랜 시간이 소요되며, 이 문제는 특히 분석 대상 문서가 복수의 시스템 또는 지역에 분산 저장되어 있는 경우 더욱 크게 작용한다. 따라서 이를 극복하기 위해 대량의 문서를 하위 군집으로 분할하고, 각 군집별 분석을 통해 토픽을 도출하는 방법을 생각할 수 있다. 하지만 이 경우 각 군집에서 도출한 지역 토픽은 전체 문서로부터 도출한 전역 토픽과 상이하게 나타나므로, 각 문서와 전역 토픽의 대응 관계를 식별할 수 없다. 따라서 본 연구에서는 전체 문서를 하위 군집으로 분할하고, 각 하위 군집에서 대표 문서를 추출하여 축소된 전역 문서 집합을 구성하고, 대표 문서를 매개로 하위 군집에서 도출한 지역 토픽으로부터 전역 토픽의 성분을 도출하는 방안을 제시한다. 또한 뉴스 기사 24,000건에 대한 실험을 통해 제안 방법론의 실무 적용 가능성을 평가하였으며, 이와 함께 제안 방법론에 따른 분할 정복(Divide and Conquer) 방식과 전체 문서에 대한 일괄 수행 방식의 토픽 분석 결과를 비교하였다.

지식베이스 구축을 위한 한국어 위키피디아의 학습 기반 지식추출 방법론 및 플랫폼 연구 (Knowledge Extraction Methodology and Framework from Wikipedia Articles for Construction of Knowledge-Base)

  • 김재헌;이명진
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.43-61
    • /
    • 2019
  • 최근 4차 산업혁명과 함께 인공지능 기술에 대한 연구가 활발히 진행되고 있으며, 이전의 그 어느 때보다도 기술의 발전이 빠르게 진행되고 있는 추세이다. 이러한 인공지능 환경에서 양질의 지식베이스는 인공지능 기술의 향상 및 사용자 경험을 높이기 위한 기반 기술로써 중요한 역할을 하고 있다. 특히 최근에는 인공지능 스피커를 통한 질의응답과 같은 서비스의 기반 지식으로 활용되고 있다. 하지만 지식베이스를 구축하는 것은 사람의 많은 노력을 요하며, 이로 인해 지식을 구축하는데 많은 시간과 비용이 소모된다. 이러한 문제를 해결하기 위해 본 연구에서는 기계학습을 이용하여 지식베이스의 구조에 따라 학습을 수행하고, 이를 통해 자연어 문서로부터 지식을 추출하여 지식화하는 방법에 대해 제안하고자 한다. 이러한 방법의 적절성을 보이기 위해 DBpedia 온톨로지의 구조를 기반으로 학습을 수행하여 지식을 구축할 것이다. 즉, DBpedia의 온톨로지 구조에 따라 위키피디아 문서에 기술되어 있는 인포박스를 이용하여 학습을 수행하고 이를 바탕으로 자연어 텍스트로부터 지식을 추출하여 온톨로지화하기 위한 방법론을 제안하고자 한다. 학습을 바탕으로 지식을 추출하기 위한 과정은 문서 분류, 적합 문장 분류, 그리고 지식 추출 및 지식베이스 변환의 과정으로 이루어진다. 이와 같은 방법론에 따라 실제 지식 추출을 위한 플랫폼을 구축하였으며, 실험을 통해 본 연구에서 제안하고자 하는 방법론이 지식을 확장하는데 있어 유용하게 활용될 수 있음을 증명하였다. 이러한 방법을 통해 구축된 지식은 향후 지식베이스를 기반으로 한 인공지능을 위해 활용될 수 있을 것으로 판단된다.