• 제목/요약/키워드: 인터넷 색인작성

검색결과 11건 처리시간 0.025초

웹 색인작성에 관한 연구 (A Study on Web Indexing)

  • 윤구호
    • 한국도서관정보학회지
    • /
    • 제33권2호
    • /
    • pp.235-258
    • /
    • 2002
  • 최초의 웹 페이지가 인터넷 상에 올려진 1991년 이래, 인터넷 상의 무수한 웹 사이트 정보검색은 전통적 색인작성 방법과는 상이한 새로운 방법을 개발하고 있다. 본고는 새롭게 발전하는 웹 색인작성에 관한 기초연구로서, 그의 기초가 되는 삽입색인을 살펴보고, 웹 사이트의 정보제공을 위해 필수적인 메타 태그와 웹 색인을 위한 그들의 작성방법을 검토하고, 웹 색인작성에 관한 주요사항을 비교적 상세하게 연구검토하였다.

  • PDF

XML 기반의 고문헌 검색 시스템 설계 (The Design for Ancient Literature Retrival System Using XML)

  • 이근우;이근무
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2001년도 춘계학술발표논문집
    • /
    • pp.390-394
    • /
    • 2001
  • 논문에서는 최근 인터넷 상에서 표준 공통 포맷으로 대두되는 XML을 이용하여 웹 기반의 역사자료의 데이터베이스 검색 시스템을 설계 및 구현하였다. 원격 교육 시스템의 참조문헌 지원 시스템을 설계하였다. 컴퓨터 상에서 고문헌 자료 주로 한자를 입력하고 검색할 수 있는 환경이 점차 나아지고 있다고는 하지만, 여전히 원전사료의 한자를 일반적인 환경에서 자유롭게 구현하는 일은 결코 용이하지 않다. 종래의 연구자들은 텍스트 별로 수작업으로 작성한 색인류를 이용하여 연구를 해왔다. 그러나 이러한 색인 이용방법에는 문제가 있다. 색인어로 삼고자 하는 단어를 텍스트에서 추출하는 과정에서 누락되는 경우가 있기 때문이다. 전산화된 데이터는 이른바 '발견적 이용'이라는 관점에서 활용될 수 있다.

  • PDF

XML 데이터베이스를 위한 다차원 중포 엘리먼트 색인구조의 운용과 할당 (Operations And Assignments Of Multidimensional Nested Element Indexs For XML Databases)

  • 이정아;이종학
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.401-404
    • /
    • 2006
  • 최근 XML 데이터베이스는 웹의 발전과 더불어 광범위한 인터넷의 자원 공유에 크게 기여하고 있다. XML로 작성된 문서를 저장하고 검색하기 위해 XML 문서의 저장, 질의언어, 질의처리 등에 대한 분야가 활발히 연구되고 있다. 특히 그 중 질의처리의 처리비용을 줄이기 위한 데이터 질의 최적화 기법에 관한 연구가 중요한 과제이다. 증포된 엘리먼트에 대한 기존의 색인기법들은 일차원 색인구조를 이용함으로써 XML Schema가 가지는 타입상속 개념을 고려한 XML 질의들에 대한 처리를 효율적으로 지원하지 못하는 문제점을 가지고 있다. 따라서 본 논문에서는 XML Schema가 가지는 타입상속 개념을 고려한 XML 질의들에 대한 처리를 효율적으로 지원할 수 있는 다차원 증포 엘리먼트 색인구조와 다차원 경로 엘리먼트 색인구조의 운용법을 제시한다. 또한 효과적인 질의 처리를 하기 위한 XML 데이터베이스 색인구조의 유지비용을 줄이기 위하여 저장 공간 및 갱신 유지 비용을 최소화할 수 있는 효과적인 색인할당 방법을 제시한다.

  • PDF

역 색인을 이용한 경로 질의 기반 대용량 XML문서 검색 (Retrieval of Large scaled XML Documents based on Path Query using Inverted indexes)

  • 문경원;황병연
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.35-38
    • /
    • 2005
  • 1998년 XML 문서 표준이 제안된 이래, 다양한 응용 분야에서 XML은 데이터를 표현하는 표준으로 자리잡아 가고 있다. 특히, 인터넷상의 많은 데이터들이 XML 형태로 작성되고 변환됨에 따라 다량의 XML 데이터가 생성되고 있다. 따라서 현재 XML 문서의 저장 및 질의 처리 기법의 연구가 활발하게 진행되고 있다. 하지만 기존의 연구는 대용량 XML 문서를 다루기에는 미흡한 점이 있다. 본 논문에서는 인터넷상의 널리 퍼져있는 방대하고, 다양한 구조의 XML문서들을 대상으로 패스 기반 질의를 빠르게 처리할 수 있는 검색 기법을 제안한다. 제안된 기법은 인터넷상에 산재해 있는 여러 XML 문서를 관계형 데이터베이스에 효율적으로 저장하고 질의를 통해 인터넷상 XML 문서의 엘리먼트를 빠르게 검색하는데 주안점을 둔다. 먼저, XML 문서를 관계형 데이터베이스에 효율적으로 저장하는 계층형 XML 저장 기법을 제안하고, 정보 검색 시스템에서 많이 사용하는 역 인덱스를 사용하여 저장된 XML 문서에 대한 검색 성능을 향상시킨다.

  • PDF

유사 어절 트리를 이용한 표절 문서의 Clustering 방법 (Clustering Method Of Plagiarism Document To Use Similarity Syntagma Tree)

  • 천승환;김미영;이귀상
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.2269-2272
    • /
    • 2002
  • 인터넷과 컴퓨터를 이용한 학생들의 과제물을 평가하는데 있어 표절의 용이성으로 인해 정확히 판별하는 것은 매우 어렵고 번거로운 일이다. 특히 동일한 주제에 대해서 작성되는 경우가 많으므로 독자적으로 작성된 문서와 표절되어진 문서를 판별하기가 쉽지 않다. 이것은 클러스터링 하고자 하는 문서들에서 주요 단어들 즉, 색인어들의 출현 빈도를 추출한 뒤 이를 이용하여 가장 적합한 Clustering을 찾는 기존의 정보 검색 방법들과는 전혀 다른 문제이다. 본 논문에서는 과제물의 평가에 지침을 제공할 수 있도록 유사 어절 트리를 이용한 표절 유사도에 따른 Cluster들을 생성하는 방법에 대해 제안한다.

  • PDF

인터넷 학술정보자원의 디렉토리 서비스 설계에 있어서 DDC 분류체계의 활용에 관한 연구 (A study on the use of DDC scheme in directory search engine for research information resources on internet)

  • 최재황
    • 정보관리학회지
    • /
    • 제15권2호
    • /
    • pp.47-68
    • /
    • 1998
  • 인터넷이 제공하는 학술정보자원은 풍부하지만 그 중에서 이용자들이 자신에게 필요한, 좋은 정보를 찾기는 쉽지 않다. 체계적으로 정리되어 있지 않기 때문이다. 본 연구에서는 도서관에서 오랫동안 이용해온 분류체계인 DDC(Dewey Decimal Classification)을 이용하여 학술분야 인터넷정보자원을 검색할 주제별 디렉토리 검색엔진을 설계하였다. 이 검색엔진을 설계함에 있어서 대개념에서 소개념으로 특정주제를 세분해가는 DDC의 '체계적 배열'에 따라 분류코드를 설계하였고, DDC의 '상관색인'을 이용하여 자동 문서분류사전을 작성하였다.

  • PDF

단어 유사도를 기반으로 한 맛집 블로그 포스트 클러스터링 시스템 (Clustering System of Restaurant Review in Blog based on Word Similarity)

  • 조경은;우균
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.993-996
    • /
    • 2015
  • 인터넷 블로그를 이용한 맛집 마케팅은 외식 산업에서 상당한 영향력을 발휘하고 있다. 사람들은 블로그를 이용해 많은 맛집 리뷰를 작성 및 검색하고 있다. 그런데 사람들이 맛집 리뷰를 검색하면, 검색 엔진에서는 검색어에 대한 정확도 및 시간순으로 검색 결과를 정렬해 주기 때문에 같은 식당에 대한 포스트들이 분산되어 검색된다. 따라서 사람들은 수많은 맛집 리뷰가 섞여있는 검색 결과를 보고 그중 한 식당을 선택하는 것에 어려움을 느낄 수 있다. 이때, 같은 식당에 대한 리뷰를 모아서 보여준다면 어떤 식당에 대한 리뷰가 존재하는지 일목요연하게 볼 수 있으며, 한 식당에 대한 다양한 의견을 참고하여 가고자 하는 식당을 선택하는데 도움이 된다. 따라서 본 논문에서는 블로그의 맛집 포스트를 클러스터링 하는 시스템을 제안하였다. 시스템을 통해 생성된 클러스터의 평가 결과, 정확률, 난수 색인, 순수도는 90% 이상의 높은 값을 보였다.

정보이용능력 교육 프로그램의 비교 연구 (A Comparative Study on the Information Literacy Programs)

  • 강혜영
    • 한국문헌정보학회지
    • /
    • 제36권1호
    • /
    • pp.297-320
    • /
    • 2002
  • 효과적인 정보이용능력프로그램을 만드는 데 필요한 이론적 토대를 살펴보기 위하여 ACRL 기준을 포함한 10개 기술모델의 비교결과, (1) 정보요구의 확인은 정보요구 설명, 질문법, 비판적 사고와 정보공학으로 설명하고 (2) 다수는 정보원 이해를 별도로 다루고 있고, 특별히 매스미디어를 소개하고, (3) 정보접근 전략과 기술은 모두 포함하고 , OPAC과 색인 초록이, 온라인 정보검색을 강조하고, (4) 정보 탐색과 기술은 필수적인 요소이며, 인쇄 및 전자 매체, 인터넷 정보원과 시청각정보원의 탐색을 강조 (5) 정보평가 및 종합의 요소는 모두에 포함되나, 정보과정과 결과에 대한 평가를 독립적으로 취급한 것도 있다. (6) 포함된 정보이용은 주로 논문작성법, 인용, 구두발표의 이용이고, 기준에서는 경제적, 법률적, 사회적 현안과 연관된 정보이용문제를 강조하였다.

의미커널과 한글 워드넷에 기반한 지능형 채점 시스템 (An Intelligent Marking System based on Semantic Kernel and Korean WordNet)

  • 조우진;오정석;이재영;김유섭
    • 정보처리학회논문지A
    • /
    • 제12A권6호
    • /
    • pp.539-546
    • /
    • 2005
  • 최근 인터넷 사용자가 급증하면서 원격교육의 발전과 함께 평가에서도 원격을 이용한 방법이 많이 사용되고 있다. 하지만 현재까지는 자연언어처리의 어려움으로 객관식이나 단답식 평가가 주류를 이루고 있다. 본 논문에서는 서술형 주관식 문제의 빠르고 공정한 지능형 채점을 위하여, 다양한 언어 지식을 활용하였다. 이를 위하여, 가공되지 않은 말뭉치에서 의미커널을 구축하고, 수험자가 작성한 답안과 이미 구축된 정답을 벡터로 구성하여 이 답안간의 유사도를 의미커널을 통해 계산하여 정답여부를 자동으로 판단하도록 하였다. 의미커널을 구축하기 위하여 벡터 공간 모델에 기반한 은닉 의미 분석을 이용하였으며, 또한 한글 워드넷을 이용하여 답안의 정보부족 문제를 줄여보고자 하였다. 실험을 위하여 3000 문항의 주관식 문제를 구축하였으며, 의미커널의 구축을 위하여 38,727개의 신문기사를 모아 말뭉치로 구성하고 75,175개의 색인어를 추출하였다. 의미커널에 기반한 자동 채점 시스템으로 실제 수험자에 의하여 작성된 답안을 채점한 결과, 출제자가 실제로 채점한 결과를 기준으로 하여 최고 0.894의 상관관계를 얻을 수 있었다

지질용어 시소러스 시스템의 설계 및 구축 (Design and Implementation of Thesaurus System for Geological Terms)

  • 황재홍;지광훈;한종규;연영광;류근호
    • 한국지리정보학회지
    • /
    • 제10권2호
    • /
    • pp.23-35
    • /
    • 2007
  • 최근 정보 검색 분야에서 시맨틱 웹 기술에 따른 인터넷 용어사전과 더불어 시소러스의 필요성이 더욱 중요시되고 있다. 시소러스는 분류와 사전의 결합으로 상위 및 하위개념 사이의 전후관계를 명확히 하기 위해서 공식적으로 조직, 통제된 색인어의 어휘로 인간의 학습, 탐구활동 등 제반 지식활동의 대상이 되는 개념(용어)간의 관계를 표현한 지식구조의 토픽 맵이다. 하지만 시소러스가 용어의 통제 및 표준화와 더불어 정보를 능률적으로 처리하고 검색하는데 필수적인 수단으로 평가되고 있음에도 불구하고 아직까지 지질분야에서 우리말 시소러스가 없는 실정이다. 시소러스를 구축하기 위해서는 표준화되고 잘 정의된 지침이 필요하다. 이러한 표준화된 지침은 보다 효율적인 정보 관리를 가능하게 할 것이며, 정보 이용자 또한 보다 정확한 정보를 쉽고 편리하게 이용할 수 있게 될 것이다. 본 연구는 지질정보 중 가장 기본이 되는 용어 시소러스 시스템 구축 연구이다. 이를 위해서 첫째, 국내외 지질용어 표준화 동향을 살펴보았다. 둘째, 15개 분야에 대한 지질학적 주제를 정하고 각 주제에 대한 분류체계(안)를 마련하였다. 셋째, 지질용어 시소러스 분류체계를 바탕으로 지질용어 시소러스 명세서를 작성하였다. 마지막으로 이 명세서를 이용하여 인터넷기반 지질용어 시소러스 시스템을 설계하고 구축하였다.

  • PDF