• Title/Summary/Keyword: 자동정보 추출

Search Result 1,996, Processing Time 0.037 seconds

Eojeol-Block Bidirectional Algorithm for Automatic Word Spacing of Hangul Sentences (한글 문장의 자동 띄어쓰기를 위한 어절 블록 양방향 알고리즘)

  • Kang, Seung-Shik
    • Journal of KIISE:Software and Applications
    • /
    • v.27 no.4
    • /
    • pp.441-447
    • /
    • 2000
  • Automatic word spacing is needed to solve the automatic indexing problem of the non-spaced documents and the space-insertion problem of the character recognition system at the end of a line. We propose a word spacing algorithm that automatically finds out word spacing positions. It is based on the recognition of Eojeol components by using the sentence partition and bidirectional longest-match algorithm. The sentence partition utilizes an extraction of Eojeol-block where the Eojeol boundary is relatively clear, and a Korean morphological analyzer is applied bidirectionally to the recognition of Eojeol components. We tested the algorithm on two sentence groups of about 4,500 Eojeols. The space-level recall ratio was 97.3% and the Eojeol-level recall ratio was 93.2%.

  • PDF

Problems of Indexing Module in IR Systems and Lexicons of Complex Items and Syntactic Structures (검색 엔진의 ‘색인 모듈’의 문제와 합성어 사전 및 구문 정보 사전의 필요성)

  • 남지순;최기선
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1997.08a
    • /
    • pp.5-15
    • /
    • 1997
  • 기존의 대부분의 정보 검색 시스템은 문서에 대한 ‘자동 색인 단계’를 거쳐 질의자의 요구에 적합한 문서들을 추출하도록 되어 있다. 이 과정에서 얼마나 적합한 문서를 빠짐없이 검색하였는가 하는 문제가, 검색 시스템의 효율성들 판단하는 데 가장 중요한 열쇠가 된다. 이 글에서는 ‘명사’ 중심의 키워드 추출이 안고 있는 몇 가지 문제점들에 관해서 논의하였다. 즉, 합성어 키워드 구축의 필요성, 동사 구문 정보에 대한 필요성, 부사구 표현에 대한 기술 필요성, 그리고 발화 상황이 고려되어야 하는 점등이 검토되었고, 이에 관한 해결책으로, 어휘정보 및 어절 정보, 나아가 구문 정보들을 담고 있는, 보다 체계적인 한국어 사전 시스템이 구축되어야 함을 강조하였다.

  • PDF

The Design and Implementation of an Information Retrieval System Using Lexico-Semantic Pattern and Ontology (어휘 의미 패턴(Lexico-Semantic Pattern)과 온톨로지를 이용한 정보검색기의 설계 및 구현)

  • Kim, Byoung-Woo;Ko, Young-Joong
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02a
    • /
    • pp.957-962
    • /
    • 2007
  • 본 논문에서 제안하는 정보 검색기는 일반적인 불리언(Boolean) 질의를 통해서 정보를 검색하는 것이 아니라, 문장으로 입력된 질의형태의 패턴을 분석하여 그에 맞는 정보를 직접 제공하는 것에 목적을 둔다. 이를 위해 어휘 의미 패턴(Lexical Semantic Pattern)과 온톨로지(Ontology) 기술이 정보검색기 개발에 적용되었다. 제안된 시스템에서는 다양한 형태로 표현된 문장 질의를 어휘 의미 패턴을 사용해서 문장의 질의 패턴을 추출하고 사용자 질의를 하나의 온톨로지(Ontology) 추론 질의와 매칭함으로써 질의에 대한 정확한 해답을 추출할 수 있다. 또한, 자연어 문장 입력에 대한 검색 질의 생성기를 구축하고 온톨로지로 표현된 지식을 사용하여 정보검색기 질의를 자동으로 확장함으로써 더욱 정확한 정보 검색 결과를 만들어 낼 수 있다.

  • PDF

Automatic Extraction of Pulmonary Vessels to Detect the Pulmonary Nodule and Embolism in CT Image (CT 영상내의 폐 결절과 색전 검출을 위한 폐혈관 자동 추출)

  • Park, Chan;Yu, Hong-Yeon;Hong, Sung-Hoon;Kim, Soo-Hyung;Lee, Guee Sang
    • Annual Conference of KIPS
    • /
    • 2004.05a
    • /
    • pp.699-702
    • /
    • 2004
  • 단층촬영에 의해 획득된 흉부영상의 폐 영역은 기관지, 폐동맥, 폐정맥으로 구성된 복잡한 형태를 가지고 있다. 또한 이들 조직과 폐 영역 내에 존재하는 악성 종양과 같은 질병들 사이의 공간정보의 유사성으로 인해 방사선 전문의조차도 질병을 간단히 구분 해내는데 많은 어려움이 따른다. 따라서 본 논문에서는 이러한 유사한 공간정보를 갖는 폐 영역을 수리형태학 필터인 모폴로지(morphology)와 국부적인 워터쉐드(watershed) 알고리즘을 이용하여 분할하고, 분할된 폐 영역으로부터 색전 또는 종양 등의 결절(nodule)의 정보를 가지고 있는 혈관들을 추출하는 효과적인 알고리즘을 제안한다.

  • PDF

Automatic Detection and Extraction of Transliterated Foreign Words Using Hidden Markov Model (은닉 마르코프 모델을 이용한 음차표기된 외래어의 자동인식 및 추출 기법)

  • 오종훈;최기선
    • Korean Journal of Cognitive Science
    • /
    • v.12 no.3
    • /
    • pp.19-28
    • /
    • 2001
  • In this paper, we describe an algorithm for transliterated foreign word extraction in Korean language. In the proposed method we reformulate the transliterated foreign word extraction problem as a syllable-tagging problem such that each syllable is tagged with a transliterated foreign syllable tag or a pure Korean syllable tag. Syllable sequences of Korean strings ale modeled by Hidden Markov Model whose state represents a character with binary marking to indicate whether the character forms a Korean word or not. The proposed method extracts a transliterated foreign word with high recall rate and precision rate. Moreover, our method shows good performance even with small-sized training corpora.

  • PDF

Application of Satellite Data to Marine Traffic Control (인공위성 데이터를 이용한 해상교통 관리 방법)

  • 양찬수;이한진;김선영
    • Proceedings of the Korean Association of Geographic Inforamtion Studies Conference
    • /
    • 2003.04a
    • /
    • pp.556-561
    • /
    • 2003
  • 선박에 의한 해난사고의 대부분을 차지하고 있는 충돌과 좌초를 예방하고 안전항행환경을 확보하기 위해서는 선박들의 교통량 정보 및 위치정보, 해상환경정보를 얻지 않으면 안 된다. 본 연구에서는 인공위성데이터를 통해 얻어진 선박정보를 추출하는 방법에 대해서 조사하고, 다시 얻어진 선박정보를 이용해서 장래위치에 있어서의 해상교통환경 시뮬레이션을 했다. 즉, 장래 해상교통상황을 정량화 된 값으로 표현하여 자동차용 교통신호와 비슷한 선박들의 교통제어신호를 제공함으로써 해상교통안전을 확보할 수 있는 시스템의 기초적 연구결과를 제시했다.

  • PDF

A Translation System from General Text to XML Document (일반 텍스트 문서의 XML 문서 변환시스템)

  • 이현실;최유순;한성국
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2001.08a
    • /
    • pp.61-66
    • /
    • 2001
  • 21세기 지식기반사회를 맞이하여 도서관은 정보를 지식화하고, 지식화된 정보를 자동으로 추출하여 제공할 수 있는 사용자 편의를 지향한 정보서비스를 필요로 하고 있다. 정보의 지식 처리를 위해서는 문서가 다양한 의미를 표현할 할 수 있는 XML 문서의 형태로 되어야 한다. 본 연구는 문서의 효율적인 교환과 제공을 위하여 XML 문서의 데이터 모델링 개념을 활용하여, 일반 텍스트 문서를 XML 문서로 변환하는 시스템을 구현하였다.

  • PDF

Automated Recognition of Printed Music using Fuzzy ART Algorithm and Performance (퍼지 ART 알고리즘을 이용한 인쇄 악보의 자동 인식과 연주)

  • Kim, Mi-Jeong;Kim, Kwang-Baek;Park, Choong-Shik
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2008.10a
    • /
    • pp.410-414
    • /
    • 2008
  • 음악 연구에 따른 컴퓨터의 역할이 점차 중요한 비중을 차지함에 따라 보다 효과적인 악보 인식 방법이 요구된다. 기존의 악보 인식 방법에서는 특정 수정 프로그램에서 만든 악보만 그 프로그램에서 재수정과 재생이 가능하다는 단점이 있다. 본 논문에서는 이러한 단점을 보완하기 위하여 이미 작성 되어있는 악보들을 자동으로 인식하고 재생을 할 수 있는 방법을 제안한다. 제안된 악보 인식 방법은 수평 히스토그램을 이용하여 악보 이미지의 오선을 제거한 후, Grassfire 알고리즘을 적용하여 잡음을 제거하고 악보 구성 기호들을 추출한다. 추출된 악보 구성 기호들은 악보 구성 기호의 특징을 이용하여 음표와 쉼표, 그 외의 기호들로 분리한다. 분리된 음표 기호들은 박자마다 다른 음표 형태의 특징을 이용하여 다시 세밀하게 분리하고 쉼표와 그 외의 기호들은 퍼지 ART 알고리즘을 적용하여 인식한다. 인식된 악보 구성 기호들을 이용하여 각각 정보를 저장하고 향후에 악보 구성 기호에 해당하는 음의 재생을 용이하게 한다. 제안된 악보 인식 방법의 성능을 평가하기 위해 50장의 악보 영상을 대상으로 실험한 결과, 본 논문에서 제시한 악보 영상의 인식 방법이 실험을 통해서 효율적인 것을 확인하였다.

  • PDF

Verb Clustering for Defining Relations between Ontology Classes of Technical Terms Using EM Algorithm (EM 알고리즘을 이용한 전문용어 온톨로지 클래스간 관계 정의를 위한 동사 클러스터링)

  • Jin, Meixun;Nam, Sang-Hyob;Lee, Yong-Hoon;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.233-240
    • /
    • 2007
  • 온톨로지 구축에서 클래스간 관계 설정은 중요한 부분이다. 본 논문에서는 클래스간 상 하위 관계 외의 관계 설정을 위한 클래스간 관계 자동 정의를 목적으로 의존구문분석의 (주어, 용언) (목적어, 용언) 쌍들을 추출하고, 이렇게 추출된 데이터를 이용하여 용언들을 클러스터링 하는 방법을 제안한다. 도메인 전문 코퍼스 데이터 희귀성 문제를 해결하고자, 웹검색을 결합한 방식을 선택하여 도메인 온톨로지 구축 클래스간 관계 자동 설정에 대한 방법론을 제시한다.

  • PDF

An Automatic Construction of ISA relations of Wordnet Using Wiki Definitions (Wiki정의로부터 ISA를 추출할 수 있는 언어적 규칙)

  • Yeong-suk Han;Chang-guen Oh
    • Annual Conference of KIPS
    • /
    • 2008.11a
    • /
    • pp.52-55
    • /
    • 2008
  • The paper aims at showing the subsumption relations of the Wordnet can be captured automatically from a dynamic encyclopedia such as Wikipedia with a meaningful precision. The idea behind the proposal is that a knowledge base in the form of Wordnet can be dynamically obtained and maintained accordingly to the online dictionaries so that the scalability of knowledge base construction may be achieved to some degree. To show the plausibility of dynamic ISA construction, we have tested how well the ISA relations among the 100 technology terms selected from the Wordnet can be saved from the ISA construction by the wiki definitions of the selected terms. As a result the wiki definition led to the ISA relations of the Wordnet with the precision of 80%.