• 제목/요약/키워드: Applying to Libraries

검색결과 126건 처리시간 0.019초

내용기반의 인쇄체 영문 문서 영상 검색을 위한 특징 기반 단어 검색 (A Feature -Based Word Spotting for Content-Based Retrieval of Machine-Printed English Document Images)

  • 정규식;권희웅
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권10호
    • /
    • pp.1204-1218
    • /
    • 1999
  • 문서영상 검색을 위한 디지털도서관의 대부분은 논문제목과/또는 논문요약으로부터 만들어진 색인에 근거한 제한적인 검색기능을 제공하고 있다. 본 논문에서는 영문 문서영상전체에 대한 검색을 위한 단어 영상 형태 특징기반의 단어검색시스템을 제안한다. 본 논문에서는 검색의 효율성과 정확도를 높이기 위해 1) 기존의 단어검색시스템에서 사용된 특징들을 조합하여 사용하며, 2) 특징의 개수 및 위치뿐만 아니라 특징들의 순서를 포함하여 매칭하는 방법을 사용하며, 3) 특징비교에 의해 검색결과를 얻은 후에 여과목적으로 문자인식을 부분적으로 적용하는 2단계의 검색방법을 사용한다. 제안된 시스템의 동작은 다음과 같다. 문서 영상이 주어지면, 문서 영상 구조가 분석되고 단어 영역들의 조합으로 분할된다. 단어 영상의 특징들이 추출되어 저장된다. 사용자의 텍스트 질의가 주어지면 이에 대응되는 단어 영상이 만들어지며 이로부터 영상특징이 추출된다. 이 참조 특징과 저장된 특징들과 비교하여 유사한 단어를 검색하게 된다. 제안된 시스템은 IBM-PC를 이용한 웹 환경에서 구축되었으며, 영문 문서영상을 이용하여 실험이 수행되었다. 실험결과는 본 논문에서 제안하는 방법들의 유효성을 보여주고 있다. Abstract Most existing digital libraries for document image retrieval provide a limited retrieval service due to their indexing from document titles and/or the content of document abstracts. This paper proposes a word spotting system for full English document image retrieval based on word image shape features. In order to improve not only the efficiency but also the precision of a retrieval system, we develop the system by 1) using a combination of the holistic features which have been used in the existing word spotting systems, 2) performing image matching by comparing the order of features in a word in addition to the number of features and their positions, and 3) adopting 2 stage retrieval strategies by obtaining retrieval results by image feature matching and applying OCR(Optical Charater Recognition) partly to the results for filtering purpose. The proposed system operates as follows: given a document image, its structure is analyzed and is segmented into a set of word regions. Then, word shape features are extracted and stored. Given a user's query with text, features are extracted after its corresponding word image is generated. This reference model is compared with the stored features to find out similar words. The proposed system is implemented with IBM-PC in a web environment and its experiments are performed with English document images. Experimental results show the effectiveness of the proposed methods.

디지털 도서관에서 전자상거래 트랜잭션을 위한 메타데이타 관리 기법 (Metadata Management for E-Commerce Transactions in Digital Library)

  • 최일환;박석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권1호
    • /
    • pp.34-43
    • /
    • 2002
  • Dublin Core같은 기존의 정적인 메타데이타 집합은 서지 정보 중심의 정적인 데이터 요소를 가지므로 새로운 환경에 적용하기 위해서는 다양한 메타데이타를 위한 메타데이타 간의 통합, 웹 환경에서의 메타데이타의 표준화 문제 및 확장성 문제들이 고려되어야 한다. 특히, 디지털 라이브러리에서 전자상거래의 개념을 포함하며 서로간의 상호운영성을 위해 이벤트중심의 메타데이타 기록 방식이 등장함에 따라 기존 관리법으로는 갱신 연산간의 차별화가 이루어지지 않아 부적절한 갱신 연산 지연이 발생하므로 이에 대한 고려 역시 필요하다. 본 논문에서는 우선 디지털 라이브러리 환경에서 완화된 트랜잭션 일관성의 적용여부를 보이며, 새로운 방식의 메타데이타 요소를 사용자 질의 트랜잭션의 판독연산에 관련있는 정적 메타데이타 요소와 전자상거래 트랜잭션의 갱신연산과 관련있는 동적 메타데이타 요소로 구분한다. 구분된 메타데이타 요소에 따라, 관련 트랜잭션들을 재분류함으로써 전자상거래 요소와 동적 갱신(전자상거래) 트랜잭선을 고려한 새로운 메타데이타 관리기법을 제안한다. 최소의 유지비용으로 갱신을 고려하는 2버전과 동적 갱신 연산 충돌의 최소화를 위한 ARU(Appended Refresh Unit)를 사용함으로써 기록연산 간의 충돌을 최소화해 빠른 응답시간과 높은 최근성 비율을 보이게 된다. 성능분석을 통해, 새로운 메타데이타 환경하에서 제안한 알고리즘이 기존의 알고리즘에 비해 좋은 성능을 가짐을 보인다.

국채보상운동 디지털 아카이브의 개인/단체명 관리를 위한 메타데이터 설계에 관한 연구 (A Study on Metadata Design for Managing Person and Organization Names in the National Debt Redemption Movement Digital Archive)

  • 한상은;도슬기
    • 정보관리학회지
    • /
    • 제41권1호
    • /
    • pp.509-536
    • /
    • 2024
  • 본 연구의 목적은 소규모의 디지털 아카이브인 국채보상운동 디지털 아카이브의 개인과 단체 전거데이터를 관리하기 위한 메타데이터 AP를 개발하는 것이다. 도서관과 기록관의 개인/단체 메타데이터 표준, 구축 사례 및 지침을 분석하여 설계 원칙과 핵심적인 메타데이터 요소를 도출하였으며, 국채보상운동 개인/단체명 시소러스 데이터, 위키데이터 연계 메타데이터 모델과 매핑하여 최종적으로 식별영역 10개 요소, 내용영역 14개 요소, 관계영역 8개 요소, 통제영역 4개 요소를 도출하였다. 소규모의 기관에서도 적용할 수 있도록 단순 구조 스키마를 적용하였고, 상호운용성을 위해 DublinCore, SKOS 스킴을 참고하여 스키마를 제안하였고 실제 데이터를 토대로 적용가능성을 확인하였다. 본 연구의 결과는 데이터 관리의 중요성은 알지만, 실제적인 적용이 어려운 기관에서 전거데이터 관리체계를 마련하고자 할 때, 기초자료로 활용할 수 있을 것이다.

연관성분석 기반 도서추천서비스의 이용자 만족에 관한 내러티브 연구 (A Narrative Study on User Satisfaction of Book Recommendation Service based on Association Analysis)

  • 김성훈;노윤주;김미령
    • 한국도서관정보학회지
    • /
    • 제52권3호
    • /
    • pp.287-311
    • /
    • 2021
  • 지식정보화 사회에서 자신에게 적합한 도서를 찾는 일은 정보 이용자들에게 쉽지 않은 일이다. 도서관이 전통적인 서비스에서 벗어나 이용자 맞춤의 추천 서비스를 제공할 필요성이 높아지고 있으나, 현재까지 이용자 만족에 대한 질적인 연구는 거의 없는 상황이다. 본 연구는 연관성 분석 알고리즘인 Apriori를 적용하여 이용자 맞춤 도서추천을 시행하고, 피험자와의 면담을 통해 만족의 요인을 심층분석 하였다. 실험데이터는 서울시 S 전문도서관의 2009년부터 2019년까지 10년간의 대출데이터 중 이용빈도가 높은 100명의 대출 데이터였고, 실험 대상은 심도있는 인터뷰 가능자였다. 연관성 분석 후 도서추천서비스 대상자의 면담자료를 분석하여 도출한 개념과 범주는 각각 개념 58개, 하위 범주 6개, 상위범주 2개였다. 상위 범주는 '독서'와 '도서 추천 서비스'로, '독서'범주에서 독서 동기에 관한 개념이 17개, 선호 도서에 관한 개념이 8개, 기대 효과에 대한 개념이 12개였다. 또 '독서추천 서비스' 범주에서 '반영 희망 요소' 10개, '반영 방법' 4개, '만족 요인' 9개로 나타났다.

IB 확장 에세이 맥락에서의 정보활용교육 - I-LEARN 모형 적용을 중심으로 - (Information Literacy Instructions in the Context of IB Extended Essay: Focusing on the application of I-LEARN Model)

  • 정진수
    • 한국문헌정보학회지
    • /
    • 제56권1호
    • /
    • pp.201-220
    • /
    • 2022
  • 본 연구는 학습을 위한 정보활용교육이 공식 교육과정 맥락에서 안정적으로 이루어지기를 기대하며 공식적인 IB 디플로마 핵심 프로그램(DP Core)의 하나인 확장 에세이 맥락에서 체계적으로 진행할 수 있는 정보활용교육의 이론적 틀을 분석 및 제안하였다. 국제 인증 교육 프로그램인 IB 프로그램은 최근 국내 일부 교육청에서 도입하였으며 고등학생 연령군 대상의 IB 디플로마 프로그램 중에는 확장 에세이가 필수 이수 프로그램이다. 본 연구의 분석 결과, 다음의 사항이 제안되었다. 첫째, 학생들의 깊이 있는 학습과 교육적 비계를 위해 모형 적용이 강조되었다. 둘째, 사서교사는 학습 과정의 전문가, 정보활용교육을 실시하는 교사, 지도교사와 협력하는 교수협력자로서 역할을 충실히 담당해야 한다. 셋째, 정보활용교육의 틀로서 정보활용 기반의 학습을 제안한 I-LEARN 모형이 분석되었고 적절하다고 제안되었다. 넷째, I-LEARN 평가 루브릭은 확장 에세이의 평가 목표인 지식, 이해, 적용, 분석, 종합, 평가와 부합하도록 설계되어 있어 확장 에세이를 위한 정보활용의 과정과 성과를 위한 평가도구로 활용되기 적절하다고 분석되었다. 향후, 본 연구가 탐구학습을 기반으로 하는 확장에세이 또는 소논문 작성에 있어 사서교사의 전문성이 적용되고, 사서교사의 교육적 역할과 정보활용교육이 강화될 수 있기를 기대한다.

키워드 자동 생성에 대한 새로운 접근법: 역 벡터공간모델을 이용한 키워드 할당 방법 (A New Approach to Automatic Keyword Generation Using Inverse Vector Space Model)

  • 조원진;노상규;윤지영;박진수
    • Asia pacific journal of information systems
    • /
    • 제21권1호
    • /
    • pp.103-122
    • /
    • 2011
  • Recently, numerous documents have been made available electronically. Internet search engines and digital libraries commonly return query results containing hundreds or even thousands of documents. In this situation, it is virtually impossible for users to examine complete documents to determine whether they might be useful for them. For this reason, some on-line documents are accompanied by a list of keywords specified by the authors in an effort to guide the users by facilitating the filtering process. In this way, a set of keywords is often considered a condensed version of the whole document and therefore plays an important role for document retrieval, Web page retrieval, document clustering, summarization, text mining, and so on. Since many academic journals ask the authors to provide a list of five or six keywords on the first page of an article, keywords are most familiar in the context of journal articles. However, many other types of documents could not benefit from the use of keywords, including Web pages, email messages, news reports, magazine articles, and business papers. Although the potential benefit is large, the implementation itself is the obstacle; manually assigning keywords to all documents is a daunting task, or even impractical in that it is extremely tedious and time-consuming requiring a certain level of domain knowledge. Therefore, it is highly desirable to automate the keyword generation process. There are mainly two approaches to achieving this aim: keyword assignment approach and keyword extraction approach. Both approaches use machine learning methods and require, for training purposes, a set of documents with keywords already attached. In the former approach, there is a given set of vocabulary, and the aim is to match them to the texts. In other words, the keywords assignment approach seeks to select the words from a controlled vocabulary that best describes a document. Although this approach is domain dependent and is not easy to transfer and expand, it can generate implicit keywords that do not appear in a document. On the other hand, in the latter approach, the aim is to extract keywords with respect to their relevance in the text without prior vocabulary. In this approach, automatic keyword generation is treated as a classification task, and keywords are commonly extracted based on supervised learning techniques. Thus, keyword extraction algorithms classify candidate keywords in a document into positive or negative examples. Several systems such as Extractor and Kea were developed using keyword extraction approach. Most indicative words in a document are selected as keywords for that document and as a result, keywords extraction is limited to terms that appear in the document. Therefore, keywords extraction cannot generate implicit keywords that are not included in a document. According to the experiment results of Turney, about 64% to 90% of keywords assigned by the authors can be found in the full text of an article. Inversely, it also means that 10% to 36% of the keywords assigned by the authors do not appear in the article, which cannot be generated through keyword extraction algorithms. Our preliminary experiment result also shows that 37% of keywords assigned by the authors are not included in the full text. This is the reason why we have decided to adopt the keyword assignment approach. In this paper, we propose a new approach for automatic keyword assignment namely IVSM(Inverse Vector Space Model). The model is based on a vector space model. which is a conventional information retrieval model that represents documents and queries by vectors in a multidimensional space. IVSM generates an appropriate keyword set for a specific document by measuring the distance between the document and the keyword sets. The keyword assignment process of IVSM is as follows: (1) calculating the vector length of each keyword set based on each keyword weight; (2) preprocessing and parsing a target document that does not have keywords; (3) calculating the vector length of the target document based on the term frequency; (4) measuring the cosine similarity between each keyword set and the target document; and (5) generating keywords that have high similarity scores. Two keyword generation systems were implemented applying IVSM: IVSM system for Web-based community service and stand-alone IVSM system. Firstly, the IVSM system is implemented in a community service for sharing knowledge and opinions on current trends such as fashion, movies, social problems, and health information. The stand-alone IVSM system is dedicated to generating keywords for academic papers, and, indeed, it has been tested through a number of academic papers including those published by the Korean Association of Shipping and Logistics, the Korea Research Academy of Distribution Information, the Korea Logistics Society, the Korea Logistics Research Association, and the Korea Port Economic Association. We measured the performance of IVSM by the number of matches between the IVSM-generated keywords and the author-assigned keywords. According to our experiment, the precisions of IVSM applied to Web-based community service and academic journals were 0.75 and 0.71, respectively. The performance of both systems is much better than that of baseline systems that generate keywords based on simple probability. Also, IVSM shows comparable performance to Extractor that is a representative system of keyword extraction approach developed by Turney. As electronic documents increase, we expect that IVSM proposed in this paper can be applied to many electronic documents in Web-based community and digital library.