• 제목/요약/키워드: 한글 문헌

검색결과 99건 처리시간 0.022초

자동색인을 위한 학습기반 주요 단어(핵심어) 추출에 관한 연구 (Learning-based Automatic Keyphrase Indexing from Korean Scientific LIS Articles)

  • 김혜진;정유경
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2017년도 제24회 학술대회 논문집
    • /
    • pp.15-18
    • /
    • 2017
  • 학술 데이터베이스를 통해 방대한 양의 텍스트 데이터에 대한 접근이 가능해지면서, 많은 데이터로부터 중요한 정보를 자동으로 추출하는 것에 대한 필요성 또한 증가하였다. 특히, 텍스트 데이터로부터 중요한 단어나 단어구를 선별하여 자동으로 추출하는 기법은 자료의 효과적인 관리와 정보검색 등 다양한 응용분야에 적용될 수 있는 핵심적인 기술임에도, 한글 텍스트를 대상으로 한 연구는 많이 이루어지지 않고 있다. 기존의 한글 텍스트를 대상으로 한 핵심어 또는 핵심어구 추출 연구들은 단어의 빈도나 동시출현 빈도, 이를 변형한 단어 가중치 등에 근거하여 핵심어(구)를 식별하는 수준에 그쳐있다. 이에 본 연구는 한글 학술논문의 초록으로부터 추출한 다양한 자질 요소들을 학습하여 핵심어(구)를 추출하는 모델을 제안하였고 그 성능을 평가하였다.

  • PDF

PDF를 활용한 고문헌의 원문디지털화 방안에 대한 고찰 (Study on Methods of Digitalization of Older Books Using PDF)

  • 리상용
    • 한국문헌정보학회지
    • /
    • 제34권1호
    • /
    • pp.133-153
    • /
    • 2000
  • 본 논문은 1999년 4월에 출시된 Acrobat 4.0에서 지원하는 PDF(Portable Document Format)를 이용해서 고문헌의 원문을 디지털화하여, 웹상에서 이용자가 고문헌의 원문을 손쉽게 검색할 수 있도록 하기 위한 방안에 대해 연구한 것이다. 이전의 Acrobat 3.0판은 한글 지원에 문제가 많았으나, 이번에 개정된 4.0판에서는 다국어폰트의 지원으로 한글, 중국어, 일본어 등의 PDF변환이 가능해졌다. 따라서 <한글97>(속칭<아래아 한글>)로 구축된 고문헌의 원문파일을 PDF로 변환은 물론 편집도 가능하게 되었다. PDF파일의 뷰어인 Acrobat Reader는 웹상에서 무상으로 다운로드 받을 수 있으므로, 이 PDF를 이용하여 고문헌의 원문을 디지털화 한다면, 향후 개선되어야 할 문제가 있긴 하지만, 이용자가 인터넷상에서 손쉽게 고문헌의 원문을 검색할 수 있게 될 것이다.

  • PDF

Bidirectional GRU-GRU CRF 기반 참고문헌 메타데이터 인식 (Bidirectional GRU-GRU CRF based Citation Metadata Recognition)

  • 김선우;지선영;설재욱;정희석;최성필
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.461-464
    • /
    • 2018
  • 최근 학술문헌이 급격하게 증가함에 따라, 학술문헌간의 연결성 및 메타데이터 추출 등의 핵심 자원으로서 활용할 수 있는 참고문헌에 대한 활용 연구가 진행되고 있다. 본 연구에서는 국내 학술지의 참고문헌이 가진 각 메타데이터를 자동적으로 인식하여 추출할 수 있는 참고문헌 메타데이터 인식에 대하여, 연속적 레이블링 방법론을 기반으로 접근한다. 심층학습 기술 중 연속적 레이블링에 우수한 성능을 보이고 있는 Bidirectional GRU-GRU CRF 모델을 기반으로 참고문헌 메타데이터 인식에 적용하였으며, 2010년 이후의 10종의 학술지내의 144,786건의 논문을 활용하여 추출한 169,668건의 참고문헌을 가공하여 실험하였다. 실험 결과, 실험집합에 대하여 F1 점수 97.21%의 우수한 성능을 보였다.

  • PDF

국내 인터넷 탐색엔진에 대한 이용자 중심의 평가에 관한 연구 - 한글알타비스타와 네이버를 중심으로 - (A User-centered Evaluation of Korean Alta Viasta and Naver)

  • 오삼균;박희진
    • 한국문헌정보학회지
    • /
    • 제34권2호
    • /
    • pp.117-133
    • /
    • 2000
  • 본 연구는 이용자 중심의 탐색엔진 평가방법을 바탕으로, 국내 인터넷 탐색엔진 한글알타비스타와 네이버를 검색효율성, 검색결과의 정확률, 검색결과의 갱신성, 이용자의 만족도로 비교, 평가하고자 한다. 이용자가 자신의 검색질의를 가지고 직접 검색을 하고 그 결과에 대해 평가하게 한 연구의 결과, 한글알타비스타와 네이버의 검색효율성, 갱신성, 이용자의 만족도에 대하여 차이가 있었던 반면에, 검색결과의 정확률에는 현저한 차이가 없었다. 이 연구를 통해 이용자 중심의 탐색엔진 평가방법을 제시하고 국내 탐색엔진의 기능의 향상과 이용자에게 적합한 국내 웹 탐색엔진을 개발하는데 기여하고자 한다.

  • PDF

계층적 결합형 문서 클러스터링 시스템과 복합명사 색인방법과의 연관관계 연구 (The Experimental Study on the Relationship between Hierarchical Agglomerative Clustering and Compound Nouns Indexing)

  • 조현양;최성필
    • 한국문헌정보학회지
    • /
    • 제38권4호
    • /
    • pp.179-192
    • /
    • 2004
  • 본 논문에서는 복합명사에 대한 색인 방법을 다각적으로 적용하여 계층적 결합 문서 클러스터링 시스템의 결과를 분석한다. 우선 한글 색인 엔진과 HAC(Hierarchical Agglomerative Clustering) 엔진에 대해서 설명하고 한글 색인 엔진에서 제공되는 3가지 복합명사 분석 모드에 대해서 기술한다. 또한 구현된 클러스터링 엔진의 특징과 속도 향상을 위한 기법 등을 예시한다. 실험에서는 3가지 복합명사 색인 방법을 기준으로 문서 클러스터링을 수행하고, 실험 결과에 대한 분석에서 복합명사에 대한 색인 방법이 문서 클러스터링의 결과에 직접적인 영향을 준다는 것을 보여준다.

한글문헌의 자동색인에 관한 실험적 연구 (An Experimental Study on Automatic Indexing for Hangeul Text)

  • 안현수
    • 정보관리학회지
    • /
    • 제3권2호
    • /
    • pp.109-128
    • /
    • 1986
  • 각종 정보 생산량이 날로 증가하고 이를 정보에 대한 이용자 등의 요구 또한 매우 다양해졌기 때문에 수작업 색인에 비해 더욱 신속하고 효율적인 자동 색인의 필요성이 대두 되었다. 본 논문은 한글 문헌에서 체언이 주요어가 될 수 있으며, 체언 다음에는 조사가 온다는 가정하에, 실험 데이터로 선정된 국내 전산화 분야 논문의 표제와 초록에서 형태소 분석 과정을 통하여 색인어들을 추출하였다.

  • PDF

한글 시소러스에서 저자와 저작에 대한 관계 설정과 동형 이의어의 기술 (A Study on the Description of Relationships and Homographs in Terms of Creator and Work in the Korean Thesaurus)

  • 한상길;최석두
    • 한국문헌정보학회지
    • /
    • 제45권4호
    • /
    • pp.139-155
    • /
    • 2011
  • 개인 저자 집합과 저작 집합 간의 관계를 기술할 때 두 집합 내에서 동형 이의어(즉, 동명이인과 동일 저작명)를 구별하지 못하면 두 집합 간에 전단사(全單射) 관계가 형성되지 않으므로 정확한 정보 검색을 위한 정보로는 사용하기가 어렵다. 실제로 저자명과 저작명을 다루는 도서관 시스템, 문헌, 포털사이트 등에서 동형 이의어를 명확하게 구별하고 있지 않아 색인과 검색 시 다의성에 의한 혼란과 불편을 초래하고 있다. 이에 대한 필요성은 일찍이 전거 데이터의 구축 시 대두된 문제였으나 우리나라에서는 일부 기관이 개별적으로 구축하였을 뿐 국가 차원의 전거 데이터가 없어서 이들의 동형 이의어를 구별하기 위한 기준이 없다. 이에 본 연구자는 개체명 인식을 위한 작업의 일환으로 주제어뿐만 아니라 고유 명사류도 포함되는 한글 통합 시소러스 구축 작업에서 얻은 결과를 바탕으로 저자와 저작의 용어 관계 설정 방법과 두 집합 내에서 그리고 두 집합이 기타 용어와의 관계에서 발생하는 동형 이의어의 기술 방법을 대중 문화 예술 분야를 중심으로 제시하였다.

국내(國內) 문헌정보(文獻情報) 검색(檢索)을 위한 키워드 자동추출(自動抽出) 시스템 개발(開發) (Automatic Keyword Extraction System for Korean Documents Information Retrieval)

  • 예용희
    • 정보관리연구
    • /
    • 제23권1호
    • /
    • pp.39-62
    • /
    • 1992
  • 본(本) 연구(硏究)는 실제의 데이터 분석(分析)을 통하여 60여개의 조사(助詞)와 출현빈도는 높지만 검색(檢率)에 불필요한 320여개의 불용어(不用語)를 선정하여 좌우절단을 적용한 네 가지 유형으로 분류하고 조사(助詞)와 불용어 테이블을 구성하는 방법(方法)을 제시한다. 한글문헌에서 단어(單語)가 추출되면 조사의 효율적인 절단이 이러우지고, 한자어(漢字語)일 경우 한글로 변환되며, 2단계로 불용어제거(不用語除去) 과정을 거쳐 키워드를 선정하는 시스템을 개발한다. 여기서 추출된 키워드는 정보전문가(情報專門家)에 의해 추출된 색인어(索引語)와는 92.2%의 일치율을 보였다. 그리고 $4{\sim}6$글자로 구성된 복합어(複合語)의 경우 본(本) 연구(硏究)에서 제시한 분리방법에 의해 약 2배의 새로운 단어(單語)를 추가할 수 있었으며 그 중 58.8%가 키워드로 적합했다.

  • PDF

한글문자의 컴퓨터 처리: II. 터미날 설계와 역사 (Korean Character processing: Part II. Terminal Design and History)

  • 정원량
    • 대한전자공학회논문지
    • /
    • 제16권4호
    • /
    • pp.1-12
    • /
    • 1979
  • 이 논문은 "한글문자의 컴퓨터 처리 : 1. 이론 "의 후편으로서 동일 subject의 실질적, 역사적 측면을 취급한다. 논문의 전반부에서는 다음 문제들을 논한다. : 한글 입출력 터미날의 기능적 설계, 모아쓰기 algorithm과 dot matrix fonts 에 의존한 한글 character generator, 입력 keyboard, 구성(keyset 와 key-stroke수 사이의 관계), binary code 의 설계를 위해 고려되어야 할 조건 등이다. 후반부는 개인적 관점에서 본 한글문자의 컴퓨터 처리의 역사론에 할당되었다. 기록화된 업적들을 주요 내용에 따라 네그룹으로 분류하였고, 시대순으로 나열될 참고문헌들의 비판적 개론을 위해 문제점들을 하나씩 거론하였다. 입력 (문자의 컴퓨터인식)과 출력 (모아쓰기의 처리)의 문제들을 분별하여 토론하였다.

  • PDF