• Title/Summary/Keyword: 자동정보 추출

Search Result 1,996, Processing Time 0.035 seconds

Automatic sentence segmentation of subtitles generated by STT (STT로 생성된 자막의 자동 문장 분할)

  • Kim, Ki-Hyun;Kim, Hong-Ki;Oh, Byoung-Doo;Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.559-560
    • /
    • 2018
  • 순환 신경망(RNN) 기반의 Long Short-Term Memory(LSTM)는 자연어처리 분야에서 우수한 성능을 보이는 모델이다. 음성을 문자로 변환해주는 Speech to Text (STT)를 이용해 자막을 생성하고, 생성된 자막을 다른 언어로 동시에 번역을 해주는 서비스가 활발히 진행되고 있다. STT를 사용하여 자막을 추출하는 경우에는 마침표가 없이 전부 연결된 문장이 생성되기 때문에 정확한 번역이 불가능하다. 본 논문에서는 영어자막의 자동 번역 시, 정확도를 높이기 위해 텍스트를 문장으로 분할하여 마침표를 생성해주는 방법을 제안한다. 이 때, LSTM을 이용하여 데이터를 학습시킨 후 테스트한 결과 62.3%의 정확도로 마침표의 위치를 예측했다.

  • PDF

Metric Reconstruction for Augmented Reality (증강현실을 위한 매트릭 복원)

  • Yu, Jeong-Jae;Kim, Hye-Mi;Park, Chang-Jun;Kim, Hong-Seok;Lee, In-Ho
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02a
    • /
    • pp.649-652
    • /
    • 2007
  • 이 논문에서는 영화, CF 같은 영상물 제작 시 CG/실사 합성을 위해 배경기하정보를 추출하는 알고리즘을 제안한다. Metric Reconstruction 은 카메라 자동 보정을 통해 이루어지며 이는 오랫동안 연구되어 온 분야이다. 접근방법은 영상의 특징점 추적 정보와 카메라 내부변수 가정으로부터 유도되는 자기 보정 방식과 공간상에서 미리 기하 정보를 알고 있는 보정틀을 사용하는 방식으로 크게 분류될 수 있다. CG/실사 합성의 작업 효율성을 위해서는 배경 영상에 보정틀이 보이지 않는 것이 좋은데 자연 특징점(Natural Feature)에만 의존하는 자기 보정 방식의 경우 2K 급 영상에서 CG 객체를 합성했을 때 떨림이 느껴지지 않을 만큼 정확한 결과를 얻기 힘들다. 이 논문에서는 Polleyfeys[2]가 제안하였던 영상 시퀀스를 입력으로 하는 자기 보정 시스템을 바탕으로 마야 작업 환경에서의 핀홀 카메라 모델에 맞도록 카메라 내부변수의 비선형 최적화를 수행하는 방법과 사용자 개입을 통한 카메라 변수 정확도 향상방법을 제안한다.

  • PDF

The development of a document retrieval system using thesaurus and signature file (시소러스 및 요약화일을 이용한 문서 검색시스템)

  • Jeong, Sang-Cheol;Shin, Dong-Wook
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.400-408
    • /
    • 1994
  • 본 논문에서는 요약화일을 이용하여 복합명사를 효율적으로 처리하며 시소러스를 이용하여 검색하는 한글문서 검색시스템을 제안한다. 본 한글문서 검색 시스템은 한글문서를 대상으로 색인하는 자동색인기와 사용자의 질의를 받아 관련된 문서를 검색하는 검색기로 구성된다. 자동색인기는 우선 한글문서를 대상으로 최장일치 방법으로 명사들을 출출한 후 복합명사의 패턴을 분석하여 복합명사의 가능성이 높은 것들을 복합명사화한다. 두번째로 이들 복합명사들을 1+2SP 방식으로 코딩한 후 요약화일 방법을 이용하여 요약화일을 작성한다. 검색기는 사용자 질의어를 받아 명사들을 추출한 후 시소러스를 이용하여 질의어를 확장한다. 다음 확장된 질의어를 1+2SP 방식으로 코딩한 후 관련된 문서를 검색한다. 본 논문에서는 한국통신에서 만든 코퍼스를 이용하여 제안된 방법의 성능을 평가하였는데 복합명사 처리 및 시소러스 이용방식이 효율적임이 입증되었다. 또한 KAIST에서 개발한 문서검색 시스템보다 동일한 코퍼스로 실험하였을 경우 재현률 및 정확률이 $7{\sim}8%$ 정도 앞서 기존의 시스템보다도 성능이 우수하다는 것이 밝혀졌다.

  • PDF

Unsupervised Document Clustering for Constructing User Profile of Web Agent (웹 에이전트 사용자 특성모델 구축을 위한 비감독 문서 분류)

  • 오재준;박영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.105-107
    • /
    • 1998
  • 본 연구는 웹 에이전트에 있어서 가장 핵심적인 부분이라 할 수 있는 사용자 특성모델 구축방법을 개선하는데 목적을 두고 있다. 사용자 특성모델을 귀납적 기계학습 방식으로 자동 추출하기 위해서는, 사용자가 관심을 가지는 분야별로 문서를 자동 분류하는 작업이 매우 중요하다. 지금까지의 방식은 사람이 관심부여에 따라 문서를 수동적으로 분류해 왔으나, 문서의 양이 기하급수적으로 증가할 경우 처리할 수 있는 문서의 양에는 한계가 있을 수밖에 없다. 또한 수작업 문서 분류 방식을 웹 에이전트에 그대로 적용하였을 경우 사용자가 일일이 문서를 분류해야한다는 번거로움으로 인해 웹 에이전트의 효용성이 반감될 것이다. 따라서 본 연구에서는 비감독 문서 분류 알고리즘과 그것을 바탕으로 얻어진 문서 분류 정보를 후처리 (Post-Processing)함으로써 보다 간결하고 정확한 문서 분류 결과를 얻을 수 있는 구체적인 방법을 제공하고자 한다.

  • PDF

Design and Implementation of XForms-Generator based on DTD (DTD 기반의 XForms 자동 생성기 설계 및 구현)

  • Kim, Tae-Hun;Lee, Eun-Jung
    • Annual Conference of KIPS
    • /
    • 2005.05a
    • /
    • pp.639-642
    • /
    • 2005
  • XForms는 XML데이터를 사용하고 내용과 표현을 분리시킨 형태의 Form으로 기존의 HTML이 가지는 특징 외에 쉬운 데이터 처리, 모듈의 재사용성, 다른 장비로의 이식성, 데이터 접근성 등 몇 가지 추가적인 특징을 가진다. 본 논문에서는 XML 데이터의 구조를 나타내는 DTD(Document Type Definition)를 입력받아 XForms를 자동으로 생성해 주는 XForms-Generator의 설계와 구현을 소개한다. 이 시스템은 DTD정보를 분석하여 반복부를 추출하고, 반복부의 처리를 중심으로 XForms코드를 생성한다. 생성된 XForms의 실행 환경은 Orbeon사의 Presentation Server를 이용한다. 개발된 시스템은 XML 데이터를 이용하는 온라인 Form을 개발할 때 시간 및 비용을 줄이는데 도움을 줄 수 있을 것으로 기대된다.

  • PDF

Automatic Generic Summarization Based on Non-negative Semantic Variable Matrix (비음수 의미 가변 행렬을 기반으로 한 자동 포괄적 문서 요약)

  • Park Sun;Lee Ju-Hong;Ahn Chan-Min;Park Tae-Su;Kim Deok-Hwan
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06a
    • /
    • pp.391-393
    • /
    • 2006
  • 인터넷의 급속한 확산과 대량 정보의 이동은 문서의 요약을 더욱 필요로 하고 있다. 본 논문은 비음수 행렬 인수분해로(NMF, non-negative matrix factorization) 얻어진 비음수 의미 가변 행렬(NSVM, non-negative semantic variable matrix)을 이용하여 자동으로 포괄적 문서요약 하는 새로운 방범을 제안하였다. 제안된 방법은 인간의 인식 과정과 유사한 비음수 제약을 사용한다. 이 결과 잠재의미색인에 비해 더욱 의미 있는 문장을 선택하여 문서를 요약할 수 있다. 또한, 비지도 학습에 의한 문서요약으로 사전 전문가에 의한 학습문장이 필요 없으며, 적은 계산비용을 통하여 쉽게 문장을 추출할 수 있는 장점을 갖는다.

  • PDF

An Automatic Generation Method of Test Cases from the Deployment Descriptor for Testing EJB Components (EJB 컴포넌트 테스트를 위한 Deployment Descriptor 기반의 테스트케이스 자동 생성 방법)

  • Kuk Seung-hak;Kim Hyeon Soo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.511-513
    • /
    • 2005
  • 최근 산업계에서는 급변하는 사용자의 요구사항을 반영하면서, 경쟁력 있고, 경제적인 소프트웨어를 개발하기 위해서 EJB 컴포넌트 개발 방법을 채택하고 있다. 그러나 EJB 컴포넌트를 테스트하는 것이 기존의 자바 클래스의 테스트보다 더 많은 노력이 필요하고, 어려운 작업이기 때문에 많은 경우에 EJB 컴포넌트에 대한 테스트가 수행되지 않는다. 이에 본 논문에서 EJB 컴포넌트의 테스트 케이스 생성을 자동화 할 수 있는 방법을 제안한다. 이는 EJB 컴포넌트 개발 시 만들어지는 Deployment Descriptor로부터 컴포넌트에 대한 정보를 추출해내고, 이를 기반으로 테스트 케이스를 자동으로 생성하는 방법이다.

  • PDF

An Automatic Classification of Discourse Relations in the Arguing Structure of Korean Texts (한국어 텍스트의 논증 구조 내 담화 관계의 자동 분류 연구)

  • Lee, Sana;Shin, Hyopil
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.59-64
    • /
    • 2015
  • 최근 온라인 텍스트 자료를 이용하여 대중의 의견을 분석하는 작업이 활발히 이루어지고 있다. 이러한 작업에는 주관적 방향성을 갖는 텍스트의 논증 구조와 중요 내용을 파악하는 과정이 필요하며, 자료의 양과 다양성이 급격히 증가하면서 그 과정의 자동화가 불가피해지고 있다. 본 연구에서는 정책에 대한 찬반 의견으로 구성된 한국어 텍스트 자료를 직접 구축하고, 글을 구성하는 기본 단위들 사이의 담화 관계를 정의하였다. 각 단위들 사이의 관계는 기계학습과 규칙 기반 방식을 이용하여 예측되고, 그 결과는 합성되어 하나의 글에 대응되는 트리 구조를 이룬다. 또한 텍스트의 구조상에서 주제문을 직접적으로 뒷받침하는 문장 혹은 절을 추출하여 글의 중요 내용을 얻고자 하였다.

  • PDF

Unsupervised Document Clustering for Constructing User Profile of Web Agent (웹 에이전트 사용자 특성모델 구축을 위한 비감독 문서 분류)

  • 오재준;박영택
    • Journal of Intelligence and Information Systems
    • /
    • v.4 no.2
    • /
    • pp.61-83
    • /
    • 1998
  • 본 연구는 웹 에이전트에 있어서 가장 핵심적인 부분이라 할 수 있는 사용자 특성모델 구축방법을 개선하는데 목적을 두고 있다. 사용자 특성모델을 귀납적 기계학습 방식으로 자동 추출하기 위해서는 사용자가 관심을 가지는 분야별로 문서를 자동 분류하는 작업이 매우 중요하다 지금까지의 방식은 사람이 관심여부에 따라 문서를 수동적으로 분류해 왔으나, 문서의 양이 기하급수적으로 증가할 경우 처리할 수 있는 문서의 양에는 한계가 있을 수밖에 없다. 또한 수작업 문서분류 방식을 웹 에이전트에 그대로 적용하였을 경우 사용자가 일일이 문서를 분류해야한다는 번거로움으로 인해 웹 에이전트의 효용성이 반감될 것이다. 따라서 본 연구에서는 비감독 문서분류 알고리즘과 그것을 바탕으로 얻어진 문서분류정보를 후처리(Post-Processing)함으로써 보다 간결하고 정확한 문서분류 결과를 얻을 수 있는 구체적인 방법을 제공하고자 한다.

  • PDF

Implementation of E-Mail Filtering Agent by Using Document Type Information (한국어 문서의 유형 정보를 이용한 EMFA의 구현)

  • Jang Jeong-Hyo;Lee Sang-Yeol;Lee Sang-Kon;Cho Hyun-Joon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.28-30
    • /
    • 2006
  • 전자메일은 일상의 연락수단 일 뿐만 아니라 여러 목적의 업무처리에 있어서도 매우 중요한 통신수단이지만 사용자는 전자메일을 처리하는데 상당히 많은 시간이 걸리고 있다. 본 논문은 메일 서버에 도착한 메일의 중요도를 자동적으로 판정하여 빠른 업무 처리에 도움을 주는 메일 클라이언트를 개발하였다. 본 프로그램은 수신된 메일 문서에서 송신처, 제목, 문서 유형 시간제한 어구의 출현 유무 등의 여러 가지 속성값을 추출하여 이를 조합하여 저장한 후, 새로운 전자메일이 도착하였을 때 이미 파악된 사용자의 유형을 파악한 구조화된 지식을 이용하여 전자메일을 자동으로 필터링하는 새로운 개념의 메일 클라이언트를 구현하였다.

  • PDF