• Title/Summary/Keyword: 자동정보 추출

Search Result 1,996, Processing Time 0.028 seconds

A Design of Important Sentence Extraction Method for Automatic Text Summarization System (자동 문서요약을 위한 중요문 추출 방법 설계)

  • Shin, Sung-Hyuk;Kim, Tae-Wan
    • Annual Conference of KIPS
    • /
    • 2001.10a
    • /
    • pp.543-546
    • /
    • 2001
  • 본 논문에서는 빠른 속도로 증가하고 있는 인터넷상의 정보와 서비스를 검색함에 있어서 기본적인 내용은 유지하면서 정보의 과부하(information overload)문제를 해결하기 위한 문서요약의 방법으로 통계적 접근 방법에서 Kupiec의 요약문이 가지는 특성을 이용하여 문서의 방법을 설계하였다. 요약문의 각 문장에 대하여 중요도에 따라 가중치를 부여 한 후, 주어진 임계값에 따라 가중치가 낮은 문장들을 제외한다. 제외 후 가중치 점수를 부여해서 요약문 문장의 개수를 조절하면서 중요문을 추출할 수 있다.

  • PDF

Web Document Classifier based on Interesting Field for Personalized Learning Service (개인화된 학습서비스를 위한 관심분야에 따른 웹 문서 분류기)

  • Kim, Jun-Il;Lee, Young-Seok;Cho, Jung-Won;Choi, Byung-Uk
    • 한국정보교육학회:학술대회논문집
    • /
    • 2005.08a
    • /
    • pp.304-313
    • /
    • 2005
  • RSS와 같은 신디케이션 기술은 사용자가 스스로 웹사이트에 접근하지 않아도, 새롭게 업데이트 되는 정보가 있을 때마다 RSS Aggregator를 통해 사용자에게 알려줌으로써 편리성을 가져다준다. 이러한 기술을 이용한다면 학습자들은 새로운 웹 문서가 게시될 때마다 해당 사이트를 방문할 필요 없이, 자동으로 신규 정보만 얻어오는 학습 자료의 습득 도구로서 활용이 가능하다. 하지만, 정의가 새롭게 추가되는 여부만을 판단하는 기존의 RSS Aggregator의 경우에 등록된 채널수가 늘어갈수록 사용자는 자신이 원하는 정보를 찾기 위해, 정보를 분류하고 검색하는 작업에 많은 노력을 기울여야한다. 본 논문에서는 이러한 문제점을 해결하고 사용자에게 의다 효율적인 정보 전달을 위해, 사용자 스스로 관심분야를 생성하여, 사용자에게 전달되는 신규자료는 각 분야에 자동적으로 분류되며, 사용자가 지정해 놓은 조건에 적합하도록 콘텐츠를 제공 받을 수 있는 시스템을 설계하였다. 신규자료를 분야에 자동적으로 분류하기 위해 초기 분류된 문서로부터 분야별 색인어 추출 방안을 제안하고자 한다.

  • PDF

Development and Automatic Extraction of Subcategorization Dictionary (하위범주화 사전의 구축 및 자동 확장)

  • 이수선;박현재;우요섭
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.179-181
    • /
    • 2000
  • 한국어의 통사적, 의미적 중의성 해결을 위해 하위범주화 사전을 구축하였다. 용언에 따라 제한될 수 있는 문형 패턴과 의미역(semantic roles) 정보의 표준을 정하여 이를 부가하였고 구축한 하위범주화 사전이 명사에 대한 의미를 갖고 있는 계층 시소러스 의미사전과 연동하도록 용언과 명사와의 의미적 연어 관계에 따라 의미마커를 부여했다. 논문에서 구현된 하위범주화 사전이 구문과 어휘의 중의성을 어느 정도 해소하는지 확인하기 위해 반자동적으로 의미 태깅(Sense Tagging)된 말뭉치와 구문분석된 말뭉치를 통해 검증 작업을 수행했다. 이 과정에서 자동으로 하위범주 패턴에 대한 빈도 정보나, 연어정보, 각 의미역과 용언의 통계적 공기 정보 등을 추출하여 하위범주화사전에 추가시켰다. 또한 여기서 얻은 정보를 기준으로 하위범주화 사전을 자동으로 확장하는 알고리즘을 적용하여 확장시켰다.

  • PDF

Design and Implementation of Brain MR Image Processing Tool (뇌 MR 영상처리기의 설계 및 구현)

  • 조경은;송미영;조형제
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2001.11a
    • /
    • pp.159-164
    • /
    • 2001
  • 본 연구에서 설계하고 구현한 뇌 MR영상 처리기에서는 뇌 MR 영상에서 진단에 필요한 정보들을 자동 추출한다. 의료영상 처리 시에는 수집된 의료영상의 특징을 분석하고 특징들을 분류해야 하며 이를 위해서는 효율적인 특징 추출 알고리즘들 필요하다. 뇌 MR 영상 처리기는 영상의 잡음제거나 영상 강화를 위한 전처리기, 영상의 특징을 추출하기 위한 영역분할기와 전역, 지역 특징 추출기로 구성된다. 뇌 MR 영상 특징 추출을 위한 효율적인 의료영상 처리기의 개발 내용을 기술한다.

  • PDF

A Normalization Method of Distorted Korean SMS Sentences for Spam Message Filtering (스팸 문자 필터링을 위한 변형된 한글 SMS 문장의 정규화 기법)

  • Kang, Seung-Shik
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.3 no.7
    • /
    • pp.271-276
    • /
    • 2014
  • Short message service(SMS) in a mobile communication environment is a very convenient method. However, it caused a serious side effect of generating spam messages for advertisement. Those who send spam messages distort or deform SMS sentences to avoid the messages being filtered by automatic filtering system. In order to increase the performance of spam filtering system, we need to recover the distorted sentences into normal sentences. This paper proposes a method of normalizing the various types of distorted sentence and extracting keywords through automatic word spacing and compound noun decomposition.

Automatic Error Correction System for Erroneous SMS Strings (SMS 변형된 문자열의 자동 오류 교정 시스템)

  • Kang, Seung-Shik;Chang, Du-Seong
    • Journal of KIISE:Software and Applications
    • /
    • v.35 no.6
    • /
    • pp.386-391
    • /
    • 2008
  • Some spoken word errors that violate grammatical or writing rules occurs frequently in communication environments like mobile phone and messenger. These unexpected errors cause a problem in a language processing system for many applications like speech recognition, text-to-speech translation, and so on. In this paper, we proposed and implemented an automatic correction system of ill-formed words and word spacing errors in SMS sentences that has been the major errors of poor accuracy. We experimented three methods of constructing the word correction dictionary and evaluated the results of those methods. They are (1) manual construction of error words from the vocabulary list of ill-formed communication languages, (2) automatic construction of error dictionary from the manually constructed corpus, and (3) context-dependent method of automatic construction of error dictionary.

Automatic Container Placard Recognition System (컨테이너 플래카드 자동 인식 시스템)

  • Heo, Gyeongyong;Lee, Imgeun
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.23 no.6
    • /
    • pp.659-665
    • /
    • 2019
  • Various placards are attached to the surface of a container depending on the risk of the cargo loaded. Containers with dangerous goods should be managed separately from ordinary containers. Therefore, as part of the port automation system, there is a demand for automatic recognition of placards. In this paper, proposed is a system that automatically extracts the placard area based on the shape features of the placard and recognizes the contents in it. Various distortions can be caused by the surface curvature of the container, therefore, attention should be paid to the area extraction and recognition process. The proposed system can automatically extract the region of interest and recognize the placard using the feature that the placard is diamond shaped and the class number is written just above the lower vertex. When the proposed system is applied to real images, the placard can be recognized without error, and the used techniques can be applied to various image analysis systems.

Automatic Extraction of Stomach from Abdominal CT Image and Volumetry (복부 CT 영상에서 위의 자동적인 추출 및 체적 계산)

  • Park, Seung-Ran;Park, Jong-Won;No, Seung-Mu
    • Journal of KIISE:Software and Applications
    • /
    • v.28 no.2
    • /
    • pp.124-131
    • /
    • 2001
  • 복부 CT 영상에서 위의 자동적인 추출에 대하여 연구하였다. 복부 CT 영상에서 여러 장기가 비슷한 명암 값을 나타내며 분포 해 있다. 본 논문에서는 복부 CT 영상의 여러 장기 가운데 위를 자동적으로 추출하는 알고리즘을 개발하였다. 위는 움직이는 장기이며, 음식물로 채워진 부분과 공기로 채원진 부분으로 나뉘어져 있다. 이를 바탕으로 히스토그램 분석을 통한 명암 값 정보와 위치 정보를 이용하여 위를 탐색하고, 주변 다른 장기를 제거하는 다듬기 과정으로 완전한 위 추출 알고리즘을 완성하였다. 또한 돼지 실험에서 추출된 위의 체적을 비교하여, 개발된 알고리즘의 정확성을 검증한 결과 약 95%의 정확도를 보였다.

  • PDF

Methodology and Implementation of Detecting Tool for New Words Occurring in Korean Document (신조어 자동 추출 방법론과 신어 조사 도구의 개발)

  • Lee, Samuel Sangkon
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.271-276
    • /
    • 2009
  • 신조어 조사용 프로그램은 웹에 실시간으로 등록되는 언론 기사를 수집하는 웹 에이전트를 개발하여 텍스트를 추출하고, 간단한 어휘 분석을 통하여 국어사전에 등록된 표제어와 이미 연구자가 발견한 기존의 신조어를 제외하고, 현대의 사회상을 잘 표현하는 새로 생성된 신조어를 추출하는 작업을 하는 도구이다. 인터넷의 언론 사이트에서 규칙적인 URL 패턴을 발견하고 뉴스 기사를 수집한다. HTML 소스 분석을 통하여 언론 기사만을 추출하여 국어 전공자가 신어를 찾아내는 작업을 도와주는 조사 도구를 설계하고 구현하였다.

  • PDF

Summary Generation of a Document with Out-of-vocabulary Words (어휘 사전에 없는 단어를 포함한 문서의 요약문 생성 방법)

  • Lee, Tae-seok;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.530-531
    • /
    • 2018
  • 문서 자동 요약은 주요 단어 또는 문장을 추출하거나 문장을 생성하는 방식으로 요약한다. 최근 연구에서는 대량의 문서를 딥러닝하여 요약문 자체를 생성하는 방식으로 발전하고 있다. 추출 요약이나 생성 요약 모두 핵심 단어를 인식하는 것이 매우 중요하다. 학습할 때 각 단어가 문장에서 출현한 패턴으로부터 의미를 인식하고 단어를 선별하여 요약한다. 결국 기계학습에서는 학습 문서에 출현한 어휘만으로 요약을 한다. 따라서 학습 문서에 출현하지 않았던 어휘가 포함된 새로운 문서의 요약에서 기존 모델이 잘 작동하기 어려운 문제가 있다. 본 논문에서는 학습단계에서 출현하지 않은 단어까지도 중요성을 인식하고 요약문을 생성할 수 있는 신경망 모델을 제안하였다.

  • PDF