• 제목/요약/키워드: 자동 색인 기법

검색결과 86건 처리시간 0.018초

학문의 주제별 특성에 따른 자동 색인 기법의 비교 연구 - 약학분야와 도서관. 정보학 분야를 중심으로 - (A Comparative Study of Automaic Indexing Techniques in Pharmacology and Libray & Infomation Science)

  • 조수련;사공철
    • 정보관리학회지
    • /
    • 제5권2호
    • /
    • pp.99-126
    • /
    • 1988
  • 본 연구는 서로 다른 주제를 갖는 장서내의 통계적 용어 특성에 따라 적합한 자동 색인 기법을 제시하는데 그 목적이 있으며 약학분야와 도서과.정보학분야를 대상으로 하여 두개의 자동 색인 기법을 비교. 평가하였다. 사용된 자동 색인 기법은 역문헌 빈도 가중 기 법과 문헌 분리가 가중 기법이며 총 장서 빈도와 문헌 빈도로 정의되는 용어 특성과 자동 색인 기법으로 할당된 가중치들 간의 관계를 분석하였다.

  • PDF

서적에서의 자동색인 (Automatic Production of Book Indices)

  • 조성래;황도삼;최기선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.169-171
    • /
    • 1999
  • 현재의 자동색인 시스템들은 주로 정보검색을 하기 위한 목적으로 개발되고 있으며 단일 서적(저술 분야)색인에 관한 연구는 아직 미진한 상태이다. 또한 워드프로세서의 발달로 인해 단일서적에서 다양한 문서 특징이 나타나게 되었다. 본 논문에서는 관련 서적들의 색인어를 이용한 유사도 기반의 방법과 단일 서적의 문서 특징을 이용한 자동색인 기법을 제안한다. 제안한 기법의 평가를 위해 이미 출판된 서적을 대상으로 한 자동색인 시스템을 개발하고 자동추출 색인어와 수작업 색인어를 비교하였다. 관련 서적내의 색인어와 새로운 대상 문서간의 유사도 비교를 통해 색인어를 추출함으로써 통계적 빈도에 의존하는 색인 기법에서 발생하는 색인어 오추출과 과다한 추출을 줄일 수 있었다.

  • PDF

지능형 정보검색을 위한 자동색인 기법 (Automatic Indexing Techniques for Intelligent Information Retrieval)

  • 강승식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.163-168
    • /
    • 1999
  • 한국어 자동색인은 정보자료의 유형 및 특성에 따라 그 성능에 차이가 있으며, 검색 결과에 많은 영향을 미치기도 한다. 따라서 지능형 정보검색을 위해서는 정보자료의 유형과 특성에 따라 색인 기법의 전문화 및 다양성이 요구되고 있다. 정보검색 시스템이 사용자의 요구사항에 적합한 정보자료를 제공할 수 있도록 자동색인의 관점에서 검색 성능을 향상시키기 방법으로 문서 유형에 따른 차별화된 색인 기법, 불용어 처리 기법, 색인어 관리 기법, 색인어의 유형 정보와 위치 정보를 활용하는 방법 등을 제안한다.

  • PDF

자연어 처리, 통계적 기법, 적합성 검증을 이용한 자동색인 시스템에 관한 연구 (A Study on Automatic Indexing System Using natural language Processing, Statistical Technique, Relevance Verification)

  • 유춘식;우선미;유철중;이종득;권오봉;김용성
    • 한국정보처리학회논문지
    • /
    • 제5권6호
    • /
    • pp.1552-1562
    • /
    • 1998
  • 형태소 분석(Morphological Analysis)과 같은 언어학적 처리에 의존하는 기존의 한국어 문헌에 대한 자동색인 기법들은 품사의 애매모호함이나 복합명사의 처리 등으로 부담(overhead)이 크다. 또한 불용어 처리에 사용되는 불용어 리스트가 대상 문헌의 주제 분야별로 따로 구축되어야 하며 그 크기가 방대하다는 문제점이 있다. 이러한 문제점들을 해결하기 위해, 본 논문에서는 각 문헌의 텍스트에 대해 복합명사 처리나 애매모호함에 대한 엄격한 분석을 수행하지 않는 간단한 형태의 형태소 분석을 수행하여 단순명사들을 추출한다. 그런 후 이들 단순명사들을 이용하여 유한 오토마타(Finite Automata)를 구성하고, 구성된 유한 오토마타와 각 명사의 단어빈도(Term Frequency)에 의해 각 색인어 후보들의 중요도를 계산하는 자동색인 기법을 제안한다. 그 결과 품사의 애매모호함에 대한 처리나 복합명사의 처리에따른 부담을 줄일 수 있었으며, 선정된 색인어들과 수작업으로 선정한 색인어들의 비교 실험에 의해 제안한 자동색인 기법의 성능을 검증하였다.

  • PDF

구문 . 통계적 기법을 이용한 한국어 자동색인에 관한 연구 (An experiment in automatic indexing with korean texts : a comparison of syntactico-statistical and manual methods)

  • 서은경
    • 정보관리학회지
    • /
    • 제10권1호
    • /
    • pp.97-124
    • /
    • 1993
  • 본 논문은 자연어 형태의 한국어 텍스트 부터 주제를 대표할 수 있는 색인어를 자동으로 추출하는 실험적인 구문 . 통계적 자동색인 시스템을 구현하였다. 구문 . 통계적 자동색인 시스템은 형태소 분석과 단어 가증 기법을 이용하여 단일어와 명사구를 동시에 선택하는 자동색인 시스템을 말한다. 시스템의 성능을 측정하기 위하여, 300개의 우리말 학술 및 학위논문 초록에서 선택된 단일 . 복합어 색인어를 수작업 색인과 비교하였다. 이와 같은 실험 결과를 가지고 아직 미흡한 연구상태인 우리말 자동색인 개발에 있어서 필요한 기초자료를 제시하였다.

  • PDF

지도적 잠재의미색인(LSI)기법을 이용한 의견 문서 자동 분류에 관한 실험적 연구 (An Experimental Study on Opinion Classification Using Supervised Latent Semantic Indexing(LSI))

  • 이지혜;정영미
    • 정보관리학회지
    • /
    • 제26권3호
    • /
    • pp.451-462
    • /
    • 2009
  • 본 연구에서는 의견이나 감정을 담고 있는 의견 문서들의 자동 분류 성능을 향상시키기 위하여 개념색인의 하나인 잠재의미색인 기법을 사용한 분류 실험을 수행하였다. 실험을 위해 수집한 1,000개의 의견 문서는 500개씩의 긍정 문서와 부정 문서를 포함한다. 의견 문서 텍스트의 형태소 분석을 통해 명사 형태의 내용어 집합과 용언, 부사, 어기로 구성되는 의견어 집합을 생성하였다. 각기 다른 자질 집합들을 대상으로 의견 문서를 분류한 결과 용어색인에서는 의견어 집합, 잠재의미색인에서는 내용어와 의견어를 통합한 집합, 지도적 잠재의미색인에서는 내용어 집합이 가장 좋은 성능을 보였다. 전체적으로 의견 문서의 자동 분류에서 용어색인 보다는 잠재의미색인 기법의 분류 성능이 더 좋았으며, 특히 지도적 잠재의미색인 기법을 사용할 경우 최고의 분류 성능을 보였다.

DCT계수와 움직임 정보를 이용한 MPEG 비디오 색인 (Indexing using DCT Coefficients and Motion Information in MPEG Video)

  • 박한엽;최연성
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 1998년도 추계종합학술대회
    • /
    • pp.198-201
    • /
    • 1998
  • 디지털 비디오를 자동 색인하고 검색하기 위한 기법은 여러 가지가 제안되어 있으나 대부분 압축되지 않은 비디오를 대상으로 하거나, 아니면 일단 디코딩한 후 색인한다. 본 논문에서는 압축 영역에서 직접 색인할 수 있는 기법을 제안한다.

  • PDF

잠재 의미 색인 기법을 이용한 국제 특허 분류 (International Patent Classificaton Using Latent Semantic Indexing)

  • 진훈태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1294-1297
    • /
    • 2013
  • 본 논문은 기계학습을 통하여 특허문서를 국제 특허 분류(IPC) 기준에 따라 자동으로 분류하는 시스템에 관한 연구로 잠재 의미 색인 기법을 이용하여 분류의 성능을 높일 수 있는 방법을 제안하기 위한 연구이다. 종래 특허문서에 관한 IPC 자동 분류에 관한 연구가 단어 매칭 방식의 색인 기법에 의존해서 이루어진바가 있으나, 현대 기술용어의 발생 속도와 다양성 등을 고려할 때 특허문서들 간의 관련성을 분석하는데 있어서는 단어 자체의 빈도 보다는 용어의 개념에 의한 접근이 보다 효과적일 것이라 판단하여 잠재 의미 색인(LSI) 기법에 의한 분류에 관한 연구를 하게 된 것이다. 실험은 단어 매칭 방식의 색인 기법의 대표적인 자질선택 방법인 정보획득량(IG)과 카이제곱 통계량(CHI)을 이용했을 때의 성능과 잠재 의미 색인 방법을 이용했을 때의 성능을 SVM, kNN 및 Naive Bayes 분류기를 사용하여 분석하고, 그중 가장 성능이 우수하게 나오는 SVM을 사용하여 잠재 의미 색인에서 명사가 해당 용어의 개념적 의미 구조를 구축하는데 기여하는 정도가 어느 정도인지 평가함과 아울러, LSI 기법 이용시 최적의 성능을 나타내는 특이값의 범위를 실험을 통해 비교 분석 하였다. 분석결과 LSI 기법이 단어 매칭 기법(IG, CHI)에 비해 우수한 성능을 보였으며, SVM, Naive Bayes 분류기는 단어 매칭 기법에서는 비슷한 수준을 보였으나, LSI 기법에서는 SVM의 성능이 월등이 우수한 것으로 나왔다. 또한, SVM은 LSI 기법에서 약 3%의 성능 향상을 보였지만 Naive Bayes는 오히려 20%의 성능 저하를 보였다. LSI 기법에서 명사가 잠재적 의미 구조에 미치는 영향은 모든 단어들을 내용어로 한 경우 보다 약 10% 더 향상된 결과를 보여주었고, 특이값의 범위에 따른 성능 분석에 있어서는 30% 수준에 Rank 되는 범위에서 가장 높은 성능의 결과가 나왔다.

언어학적 분석기법에 의한 신문기사 자동색인시스팀 설계에 관한 연구 (A Study of automatic indexing based on the linguistic analysis for newspaper articles)

  • 서경주;사공철
    • 정보관리학회지
    • /
    • 제8권1호
    • /
    • pp.78-99
    • /
    • 1991
  • 본 연구는 전자신문인 한경 KETEL의 기사 전문을 대상으로 키워드를 자동 추출하는 자동색인 시스팀을 구축한 것으로서 한글의 형태적 특성을 이용한 언어학적 분석기법을 적용해서 키워드 화일을 생성하는 법을 제시하였으며, 불용어리스트 조사표 용언인식표의 작성법을 상세히 기술했다. 본 연구에서 얻어진 결론은 다음과 같다. 첫째, 형태소 분석을 통한 자동색인 기법으로 만족할 만한 키워드를 추출할 수 있었다. 둘째, 아직까지는 컴퓨터에 의한 한글의 구문분석과 의미분석이 완전하지 못하므로 자동색인으로 추출된 색인어를 색인자가 조절함으로써 색인의 성능을 향상시킬 수 있었다. 셋째, 이 시스팀에서 만들어진 약 20,000어 정도의 키워드 화일은 향후 디소러스 작성에 기본 자료로 사용할 수 있다. 넷째, 본 시스팀에서는 역순사전을 활용해 조사표와 용언인식표 작성법을 제시하였는데, 이는 여러 자동색인 시스팀 설계에 적용될 수 있을 것이다.

  • PDF

통계적기법에 의한 한글자동색인의 연구 (A Study on Automatic Indexing of Korean Texts based on Statistical Criteria)

  • 우동진
    • 정보관리학회지
    • /
    • 제4권1호
    • /
    • pp.47-86
    • /
    • 1987
  • 본 연구는 한글자동색인에 관한 연구로 한국전자통신연구소의 DOCUMENT Data Base로부터 299개 문헌의 제목과 초록을 무작위로 추출하여 단어분리를 시도하고, 분리된 단어군, 인식어를 제외한 단어군, 인식어와 불용어를 제외한 단어군, 그리고 인식어와 불용어를 제외하고 복합어를 구성하여 포함한 단어군 등 4개의 시험군을 설정한 후, 파오의 전환점 산출기과 스파크죤스의 역문헌 가중기법, 살톤의 문헌분리 가중기법을 적용하여 색인어를 선정하고 이를 비교 평가하여 한글문헌의 자동색인 방안을 모색하였다.

  • PDF