• Title/Summary/Keyword: 자동 색인 기법

Search Result 86, Processing Time 0.024 seconds

Practical Development and Application of a Korean Morphological Analyzer for Automatic Indexing (자동 색인을 위한 한국어 형태소 분석기의 실제적인 구현 및 적용)

  • Choi, Sung-Pil;Seo, Jerry;Chae, Young-Suk
    • The KIPS Transactions:PartB
    • /
    • v.9B no.5
    • /
    • pp.689-700
    • /
    • 2002
  • In this paper, we developed Korean Morphological Analyzer for an automatic indexing that is essential for Information Retrieval. Since it is important to index large-scaled document set efficiently, we concentrated on maximizing the speed of word analysis, modularization and structuralization of the system without new concepts or ideas. In this respect, our system is characterized in terms of software engineering aspect to be used in real world rather than theoretical issues. First, a dictionary of words was structured. Then modules that analyze substantive words and inflected words were introduced. Furthermore numeral analyzer was developed. And we introduced an unknown word analyzer using the patterns of morpheme. This whole system was integrated into K-2000, an information retrieval system.

Automatic Generation of the Local Level Knowledge Structure of a Single Document Using Clustering Methods (클러스터링 기법을 이용한 개별문서의 지식구조 자동 생성에 관한 연구)

  • Han, Seung-Hee;Chung, Young-Mee
    • Journal of the Korean Society for information Management
    • /
    • v.21 no.3
    • /
    • pp.251-267
    • /
    • 2004
  • The purpose of this study is to generate the local level knowledge structure of a single document, similar to end-of-the-book indexes and table of contents of printed material through the use of term clustering and cluster representative term selection. Furthermore, it aims to analyze the functionalities of the knowledge structure. and to confirm the applicability of these methods in user-friend1y information services. The results of the term clustering experiment showed that the performance of the Ward's method was superior to that of the fuzzy K -means clustering method. In the cluster representative term selection experiment, using the highest passage frequency term as the representative yielded the best performance. Finally, the result of user task-based functionality tests illustrate that the automatically generated knowledge structure in this study functions similarly to the local level knowledge structure presented In printed material.

Color Correction for Comparison of Images with Different Color Illuminations (서로 다른 유색 조명 영상간 색 비교를 위한 색 보정 기법)

  • Choi, Yoo-Joo;Lee, So-Young;Cho, We-Duke
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.179-182
    • /
    • 2009
  • 서로 다른 색상의 조명환경에서 촬영된 영상으로부터 동일 객체를 자동으로 검출하기 위하여 객체의 색상 비교가 요구된다. 본 논문에서는 서로 다른 조명 영상들에서 비교 대상 객체들의 색상을 비교 분석하기 위하여, 조명 차이 요소를 제거하고, 입력영상을 목표 조명영상으로 변환하기 위한 색 보정 기법을 제안한다. 제안 색상 보정 기법은 촬영전에 색상 팔렛트를 이용하여 조명색상 정보를 분석하여 각 조명간 RGB 색상 요소별 차이를 전처리 단계에서 계산한다. 각 조명환경에서 촬영한 영상에 대해, 미리 계산된 조명간 차이값을 입력되는 각 영상화소값에 반영함으로써 영상의 색상을 보정한다. 실험에서, 서로 다른 색상의 조명 조건에서 촬영된 두 영상에 대하여 하나의 영상을 기준 영상으로 선정하고, 다른 하나의 영상에 제안 보정처리를 수행한다. 보정 전후 영상과 기준 영상과의 가시적인 비교 방법과 히스토그램 비교에 의하여 제안 보정 기법의 성능을 평가한다.

The Modeling Scheme of Tag Objects for processing Spatio-Temporal Queries (시공간 질의 처리를 위한 태그 객체의 모델링 기법)

  • Kim, Dong-Hyun;Ban, Chae-Hoon
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 2004.12a
    • /
    • pp.14-19
    • /
    • 2004
  • RFID는 라디오 주파수 기반의 자동 인식 데이터 수집 장치로서 유비쿼터스 컴퓨팅 기반 기술의 핵심 분야이다. RFID 태그(전자태그)가 부착된 개체의 위치를 저장할 수 있기 때문에 시간에 따라 위치가 변하는 이동체와 유사하다. 그러나 태그 객체는 판독기(reader)의 위치로 인식되며 일정 수 이상의 객체들이 같은 시간에 함께 이동하는 특징을 가지기 때문에 기존의 이동체 모델링 방법을 사용하여 전자 태그 객체를 표현하면 색인의 성능이 저하되는 문제가 발생한다. 이 논문에서는 시공간 질의를 처리하는 색인의 성능을 개선하기 위하여 태그 객체의 특징을 반영한 모델링 기법을 제안한다. 제안한 모델링 기법에서 간격 데이터 개념을 기반으로 시간과 공간 도메인 외에 식별자 도메인을 추가하여 태그 객체를 표현한다. 그리고 세 가지 도메인을 이용하여 태그 객체에 대한 색인을 구성한다.

  • PDF

Design of Automatic Indexing System Using Korean Morpheme Network (문법형태소 네트워크를 이용한 자동색인 시스템의 설계)

  • Ahn, Sung-Hyun;Chang, Jae-Woo
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.13-17
    • /
    • 1995
  • 본 논문은 한국어 특성을 적용하여 키워드를 자동으로 추출하는 기법을 제시한다. 기존에 제안된 명사 추출 시스템인 문법형태소 네트워크를 확장하여 단일 명사 뿐만 아니라 복합 명사를 색인어로 추출한다. 복합 명사는 단일 명사에 비해 보다 한정적 개념을 가지므로, 색인어로 추출될 때 문헌의 식별력을 높일 수 있다. 복합 명사를 구성하는 각각의 단일 명사를 인식함으로써 복합 명사를 분해하고, 간단한 구단위 구문분석을 수행하는 명사 결합 규칙에 따라 단일 명사들을 복합 명사로 합성하는 방법을 제시한다. 마지막으로 이와 같이 추출된 복합 명사에, 복합 명사를 구성하는 단일 명사간의 연관성을 고려하여 보다 정확한 가중치를 부여할 수 있는 새로운 가중치 부여 방안을 제시한다.

  • PDF

Spliting polios of interval R-Trees for tracking RFID tag objects (전자태그 객체의 추적을 위한 간격 R-트리의 분할 정책)

  • Lee, Se-Ho;Ahn, Sung-Woo;Hong, Bong-Hee;Ban, Chae-Hoon;Lim, Duk-Sung
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.40-42
    • /
    • 2005
  • RFID(Radio Frequency Identification)는 자동 인식 데이터 수집 장치의 한 분야로써 GPS장치를 장착한 차량과 같이, RFID 태그(전자태그)를 상품에 부착하여 인식, 추적할 수 있다. 이러한 전자태그 객체는 시간에 따라 경로 정보가 누적되는 이동체와 유사한 특성을 가진다. 그러나 기존의 이동체 색인과 달리 태그 객체의 위치는 판독기의 위치로 인식되며 위치보고가 판독기의 인식영역 안에서만 이루어지므로 보고 주기를 예측할 수 없다. 기존의 이동체 색인에서 전자태그의 특성을 표현하기 힘들기 때문에 전자태그의 특성을 고려란 색인이 필요하게 되었다. 최근 전자태그의 특성을 고려한 색인인 TPIR-Tree(Time parameterized Interval R-Tree)가 발표되었다. 그러나 이 색인은 기존 공간 색인에서의 균등분할 기법을 사용하여 위치보고가 시간의 순서를 가지는 전자태그의 특성을 고려하지 못하여 과거노드의 저장효율이 좋지 못하다. 이 논문에서는 TPIR-Tree의 저장효율 및 검색 성능 향상을 위해서 시간의 순서에 따라 위치를 보고하는 전자태그 객체의 특성을 고려하여 분할축 선정 기법 및 시간축 분할시 비균등 분할정책을 제안한다.

  • PDF

A Study of Automatic Indexing Technique based on Logical Structure of SGML Hangul Document (SGML 한글문서의 논리적 구조에 근거한 색인기법에 관한 연구)

  • 유석종
    • Journal of the Korean Society for information Management
    • /
    • v.12 no.2
    • /
    • pp.85-101
    • /
    • 1995
  • Conventional indexing sytstems support only full-text indexing method for electronic documents and do not use logical structure of documents in retrieval. Most electronic documents are in different formats depending on various systems. Also, they only indicate physical style of the document without considering any logical structure. Thus, in the effort to standardize the exchange of documents. IS0 developed SGML(Stadard Generalized Markup Language) which contains information about logical structure of the documents. In this paper, to resolve the disadvantages of full-text indexing method and to use standard document format. indexing system for SGML document is designed and implemented. In this system, user can assign indexing domain on elements, thus the logical structure of document is reflected in retrieving information. Various retrieval methods can be implemented by using the structural information of the document. In addition, automatic indexing for SGML Hangul document is supported in this system

  • PDF

The Experimental Study on the Relationship between Hierarchical Agglomerative Clustering and Compound Nouns Indexing (계층적 결합형 문서 클러스터링 시스템과 복합명사 색인방법과의 연관관계 연구)

  • Cho Hyun-Yang;Choi Sung-Pil
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.38 no.4
    • /
    • pp.179-192
    • /
    • 2004
  • In this paper, we present that the result of document clustering can change dramatically with respect to the different ways of indexing compound nouns. First of all, the automatic indexing engine specialized for Korean words analysis, which also serves as the backbone engine for automatic document clustering system, is introduced. Then, the details of hierarchical agglomerative clustering(HAC) method, one of the widely used clustering methodologies in these days, was illustrated. As the result of observing the experiments, carried out in the final part of this paper, it comes to the conclusion that the various modes of indexing compound nouns have an effect on the outcome of HAC.

Development of an Automatic Hypertext Indexer for Dynamic Information Storage (동적 정보 저장을 위한 자동 하이퍼텍스트 색인 기법의 개발)

  • Yi, Dong-Ae;Jang, Duk-Sung
    • The Transactions of the Korea Information Processing Society
    • /
    • v.4 no.9
    • /
    • pp.2333-2341
    • /
    • 1997
  • The hyperlinks to related nodes should be changed when we insert, or modify an information in a hypertext database. We can find more informations by means of hyperlinks that are based upon hypertext indexes. Therefore, the management of the hypertext indexes is an important component for dynamic information storage. In this paper, we suggest a method to manage the hypertext indexes and to determine hyperlinks automatically by using a dynamic indexer. We also construct index, stopword, and postposition dictionaries, an inverted index file, and a thesaurus to help the dynamic indexer.

  • PDF

An Automated Industry and Occupation Coding System using Deep Learning (딥러닝 기법을 활용한 산업/직업 자동코딩 시스템)

  • Lim, Jungwoo;Moon, Hyeonseok;Lee, Chanhee;Woo, Chankyun;Lim, Heuiseok
    • Journal of the Korea Convergence Society
    • /
    • v.12 no.4
    • /
    • pp.23-30
    • /
    • 2021
  • An Automated Industry and Occupation Coding System assigns statistical classification code to the enormous amount of natural language data collected from people who write about their industry and occupation. Unlike previous studies that applied information retrieval, we propose a system that does not need an index database and gives proper code regardless of the level of classification. Also, we show our model, which utilized KoBERT that achieves high performance in natural language downstream tasks with deep learning, outperforms baseline. Our method achieves 95.65%, 91.51%, and 97.66% in Occupation/Industry Code Classification of Population and Housing Census, and Industry Code Classification of Census on Basic Characteristics of Establishments. Moreover, we also demonstrate future improvements through error analysis in the respect of data and modeling.