• 제목/요약/키워드: Document Retrieval

검색결과 448건 처리시간 0.031초

Okapi BM25 단어 가중치법 적용을 통한 문서 범주화의 성능 향상 (A Research on Enhancement of Text Categorization Performance by using Okapi BM25 Word Weight Method)

  • 이용훈;이상범
    • 한국산학기술학회논문지
    • /
    • 제11권12호
    • /
    • pp.5089-5096
    • /
    • 2010
  • 문서 범주화는 정보검색 시스템의 중요한 기능중의 하나로 문서들을 어떤 기준에 의해 그룹화를 하는 것을 말한다. 범주화의 일반적인 방법은 대상 문서에서 중요한 단어들을 추출하고 가중치를 부여한 후에 분류 알고리즘에 따라 문서를 분류한다. 따라서 성능과 정확성은 분류 알고리즘에 의해 결정됨으로 알고리즘의 효율성이 중요하다. 본 논문에서는 단어 가중치 계산 방법을 개선하여 문서분류 성능을 향상시키는 것을 소개하였다. Okapi BM25 단어 가중치법은 일반적인 정보검색분야에서 사용되어 검색 결과에 좋은 결과를 보여주고 있다. 이를 적용하여 문서 범주화에서도 좋은 성능을 보이는지를 실험하였다. 비교한 단어 가중치법에는 가장 일반적인 TF-IDF법와 문서분류에 최적화된 가중치법 TF-ICF법, 그리고 문서요약에서 많이 사용되는 TF-ISF법을 이용하여 4가지 가중치법에 따라 결과를 측정하였다. 실험에 사용한 문서로는 Reuter-21578 문서를 사용하였으며 분류기 알고리즘으로는 Support Vector Machine(SVM)와 K-Nearest Neighbor(KNN)알고리즘을 사용하여 실험하였다. 사용된 가중치법 중 Okapi BM25 법이 가장 좋은 성능을 보였다.

WWW상에서의 온라인 정보통신표준 개발 시스템 설계 및 구현 (Design and Implementation of On-line Standards Development System on the World Wide Web)

  • 구경철;김형준;박기식;송기평;조인준;정회경
    • 한국정보통신학회논문지
    • /
    • 제2권4호
    • /
    • pp.559-573
    • /
    • 1998
  • 정보통신 표준화 기구들은 최근 동 분야가 국가 및 시장 경쟁력제고에 있어 전략적 수단으로 부상됨에 따라 더 많은 새롭고 복잡한 표준들을 보다 짧은 시간 내에 개발해야 한다는 문제에 직면하고 있으며, 이러한 문제 의 해결을 위해 이들은 표준개발절차의 많은 부분들을 전자화 시킨 소위 전자적 표준개발시스템 혹은 전자적 문서처리시스템의 구현을 꾀하고 있다. 본 논문에서는 이러한 정보통신분야의 환경변화에 효율적으로 대처하기 위해 국내 표준화 환경 및 표준화 순기(표준(안)연구개발표준(안)제안의견수렴표준화위원회 승인표준(안)확정)에 따른 Workflow기반 표준(안) 개발 환경을 WWW상에서 설계 구현한 표준정보유통망(SICN : Standards Information Cooperation Network) 시스템을 소개한다 구현된 온라인 표준개발 시스템은 기존의 인터라넷(Intranet)기반의 시스템과는 달리 개념적으로 인터넷의 제3물결이라 할 수 있는 엑스트라넷(Extranet) 개념의 Workflow 기반 시스템이라 할 수 있으며, 이는 향후 '가 상 표준 개발망(VSDN : Virtual Standards Development Network)'으로 확장 구현될 예정이다.

  • PDF

사용자 프로파일 기반 개인 웹 에이전트 (User Profile based Personalized Web Agent)

  • 소영준;박영택
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권3호
    • /
    • pp.248-256
    • /
    • 2000
  • 본 논문은 웹을 이용해 정보를 검색하는 사용자의 관심도를 사용자 프로파일로 구축하여 구체적이고 정확한 사용자 관심 정보를 제공하는 개인 웹 에이전트를 구축하는데 목적을 두고 있다. 사용자에게 웹 검색 행위를 감시하는 모니터 에이전트에 자신의 관심도를 직접 기술하여 관심문서 정보를 구축하고 이에 대한 정확도를 향상시키기 위한 여러 키워드 추출작업을 수행한다. 추출된 키워드는 학습서버의 작업에 의해 사용자별 프로파일을 생성하여 이를 사용자가 확인 및 편집할 수 있게 하였다. 본 논문에서 구현하고자 하는 웹 에이전트의 사용자 프로파일 구축작업에는 사용자 관심 문서 정보의 정확한 키워드추출작업과 학습 작업이 매우 중요하다. 이에 본 논문에서는 키워드 추출에 적용되는 여러 가중치 설정작업에 대하여 중점적으로 다루며 적용된 귀납적 기계학습에 대하여 알아본다. 이로써 구축된 사용자 프로파일은 관심 문서를 검색하는데 적절한 정보를 제시한다. 이에 따라 사용자 프로파일을 본 웹 에이전트에서 구현한 사용자 적응형 웹 검색 에이전트와 사용자 적응형 푸쉬 에이전트에 적용하여 사용자에게 적합한 서비스를 제공한다.

  • PDF

모바일기기 PDA를 이용한 E-Learning Contents에 대한 XML기반 검색 시스템 (XML-based Retrieval System for E-Learning Contents using mobile device PDA)

  • 박용빈;양해술
    • 한국산학기술학회논문지
    • /
    • 제10권4호
    • /
    • pp.818-823
    • /
    • 2009
  • 웹은 다양한 정보의 제공 면에서 크게 기여하고 있다. 특히 인적자원 개발과 교육을 목적으로 하는 매체로서 웹의 역할은 중요하다. 더욱이 웹을 통한 E-Learning은 각 기업체와 교육기관에 중요한 역할을 감당하게 되었다. 또한 웹에서의 수많은 교육 컨텐츠를 관리하고 검색하기 위해서는 무엇보다도 다양하고 빠른 검색이 요구되어진다. 그러나 현재 웹에서 대부분을 차지하고 있는 정보는 HTML 구성되어 많은 제한을 가지고 있다. 이에 대한 해결방안으로 웹문서의 표준으로 XML을 구성하고 그에 대한 다양한 검색 기능들이 다양하게 확장 연구되어지고 있다. 더욱이 AJAX는 오래된 어떤 기술과 새로운 기술 양면성을 가지고 있다. 그것은 이미 존재하는 기술과 전에는 전혀 고려하지 않았던 기술들을 결합하였기에 새로운 기술이라고 본다. 한편 AJAX는 Web 2.0을 보완하며 많은 웹기술들이 결합된 기술로 본다. 본 논문에서는 E-Learning에서의 XML과 AJAX에 의한 non-XML의 다양한 컨텐츠를 모바일기기인 PDA를 이용하여 검색할 수 있는 검색 시스템을 제안한다.

음렬 탐색을 위한 주제소절 자동분류에 관한 연구 (A Study on the Musical Theme Clustering for Searching Note Sequences)

  • 심지영;김태수
    • 정보관리학회지
    • /
    • 제19권3호
    • /
    • pp.5-30
    • /
    • 2002
  • 본 연구는 음악의 내용에 해당하는 음렬 패턴을 대상으로 분류자질을 선정하고 이를 기준으로 음렬간 유사도를 측정한 후 음렬간 군집을 형성하였다. 이는 내용기반음악검색 시스템에서 유사한 음렬을 검색 결과로 제시함으로써 이용자 탐색을 용이하게 하기 위함이다. 실험문헌집단으로는 $\ulcorner$A Dictionary of Musical Themes$\lrcorner$에 수록된 주제소절의 kern 형식 파일을 사용하였으며, 음렬 처리도구로는 Humdrum Toolkit version 1.0을 사용하였다. 음렬의 분절 여부와 시작 위치에 따른 네 가지 형태의 유사도 행렬을 대상으로 계층적 클러스터링 기법을 사용하여 유사한 음렬간 군집을 형성하였다. 이들 결과에 대한 평가는 외적 기준이 되는 수작업 분류표가 있는 경우 WACS 척도를 사용하였고, 음렬 내 임의의 위치에서부터 시작한 음렬을 대상으로 한 경우, 클러스터링 결과로부터 얻어낸 군집 내 공통 자질 패턴 분포를 통해 내적 기준을 마련하여 평가하였다. 평가 결과에 의하면 음렬의 시작 위치와 무관하게 분절한 자질을 사용하여 클러스터링한 결과가 그렇지 않은 것에 비해 뚜렷한 차이를 보이며 높게 나타났다.

RDBMS를 이용하여 XML 문서 관리를 위한 경로 저장과 숫자 매칭 기법 (A Path Storing and Number Matching Method for Management of XML Documents using RDBMS)

  • 봉하익;황병연
    • 한국멀티미디어학회논문지
    • /
    • 제10권7호
    • /
    • pp.807-816
    • /
    • 2007
  • 1996년 W3C에서 XML을 제안한 이래, 다량의 XML(eXtensible Markup Language) 문서들이 인터넷에 확산되고 있다. 이런 이유로, XML과 관련된 연구의 필요성이 증가하고 있는 실정이다. 특히, XML 문서들을 저장, 검색, 그리고 관리하기 위한 XML 관리 시스템에 대한 연구가 활발히 진행되고 있다. 이런 연구들 중에서 XRel은 XML 문서 관리를 위한 대표적인 연구로써 인정되고 있으며, 비교 대상의 연구로서 사용되고 있다. 본 논문에서는 관계형 데이터베이스 시스템을 기반으로 한 XML문서에 대한 관리 기법을 제시한다. 이는 XRel처럼 모든 가능 경로를 저장하는 것이 아니라, 노드의 텍스트 값이나 속성 값이 존재하는 경로만을 저장하는 방식이다. 또, 노드 표현에 따라 고유 노드명 식별자(Node Expression Identifier)를 부여함으로써 부여된 노드 식별자를 매칭하는 숫자 매칭(Number Matching)기법을 제안한다. 마지막으로 제안 방식의 효율성을 입증하기 위해, 기존 방법과 XPath 질의에 대한 처리 성능을 비교함으로써 제안한 방법의 효율성을 제시한다.

  • PDF

사회망 기반 순환 탐지 기법을 이용한 저자명 명확화 기법 (Name Disambiguation using Cycle Detection Algorithm Based on Social Networks)

  • 신동욱;김태환;정하나;최중민
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권4호
    • /
    • pp.306-319
    • /
    • 2009
  • 이름은 사람을 구별하기 위한 특징이지만 여러 사람이 하나의 이름을 공유하는 경우와 한 사람이 여러 이름을 사용하는 경우 때문에 이름만으로는 사람을 명확히 구별할 수 없다. 이러한 문제는 정보 검색 분야에서 문서 검색이나 웹 검색, 데이터베이스 통합 등에 영향을 미친다. 특히 서지 정보에는 저자들 중 동명이인이 존재하거나 한 저자가 축약된 이름 혹은 잘못된 철자를 사용하기도 하기 때문에 에러정보가 많이 포함되어 있다. 이러한 문제를 해결하기 위해 데이터베이스에 입력된 자료 중 이름에 대한 정보를 명확하게 해야 한다. 본 논문에서는 저자간의 관계로부터 구축된 사회망을 이용해 이름의 모호성을 해결하는 방법을 제안하고 컴퓨터 과학 서지정보를 제공하는 DBLP(Digital Bibliography & Library Project) 데이터를 기반한 실험을 통해 제안한 시스템의 성능의 효율성을 평가하였다.

온라인 이용자 피드백을 사용한 정보필터링 시스템의 수정질의 최적화에 관한 연구 (A Study on Query Refinement by Online Relevance Feedback in an Information Filtering System)

  • 최광;정영미
    • 정보관리학회지
    • /
    • 제20권4호통권50호
    • /
    • pp.23-48
    • /
    • 2003
  • 이 연구의 목적은 대량의 최신정보를 제공하는 정보필터링 시스템에서 이용자 피드백에 의해 수정질의를 자동생성하여 재검색을 수행함으로써 검색 성능을 최적화할 수 있는 방안을 찾는 데 있다. 이용자가 입력한 초기질의를 사용하여 정보필터링 시스템이 검색한 문헌에 대해 이용자가 적합성 여부를 온라인으로 입력하도록 하고, 이 피드백 결과를 토대로 '중복제거법'과 ‘저빈도제거법' 두 가지 방법에 의해각각 17개의 수정질의를 생성하여 재검색한 결과를 초기 검색결과와 비교 분석하였다. 수정질의는 각각의 방법마다 17개 패턴의 불논리 질의형태를 미리 만든 다음 초기질의에 디스크립터와 분류기호를 결합하여 생성하였으며, 재검색 결과에 대한 적합성 평가를 통해 최적의 수정질의식을 도출하였다.

XMDR을 이용한 지능형 검색 온톨로지 서버 구축 (A Construction of an Ontology Server based Intelligent Retrieval using XMDR)

  • 황치곤;정계동
    • 한국통신학회논문지
    • /
    • 제30권8B호
    • /
    • pp.549-561
    • /
    • 2005
  • 인터넷 기술과 통신망 기술이 발전됨에 따라 전자상거래는 복잡하고 다양해지고 있다. 본 논문에서는 이기종 데이터베이스 시스템들 간의 메타데이터 및 데이터 교환을 위해 W3C에서 제안한 XML Schema를 사용하고, XML Schema는 관계형 데이터베이스 시스템의 메타데이터 및 데이터를 계층적 구조인 XML 문서형식으로 나타낼 수 있고, 다양한 원시 데이터 형식을 지원하여 관계형 데이터베이스 시스템이 제공하는 데이터형식을 충분히 반영할 수 있는 구조를 사용한다. 그리고 기존 전자상거래에서는 이질적인 플랫폼을 사용함으로 인해 발생하는 시스템간의 상호 호환 및 운영의 어려움이 있다. 이러한 문제를 해결하기 위해 상품 분류와 속성표현의 표준과 관계성을 정의한 표준 온톨로지와 상품들에 대한 전자상거래 사이트의 정보를 제공하는 로케이션 온톨로지를 구축한다. 이 온톨로지 정보를 검색시스템에 적용하여 고객의 선택에 필요한 정보를 제공함으로서 효율적인 검색을 수행한다. 이러한 온톨로지와 상품 분류 카테고리 정보를 결합하여 XMDR이라 하고, 이 XMDR을 상품 검색 시스템에 도입하여 효율적인 검색을 수행하기 위한 은톨로지 서버 구축에 관한 방법을 제안한다.

과학 기술 문헌 분석을 위한 기계학습 기반 범용 전문용어 인식 시스템 (Terminology Recognition System based on Machine Learning for Scientific Document Analysis)

  • 최윤수;송사광;전홍우;정창후;최성필
    • 정보처리학회논문지D
    • /
    • 제18D권5호
    • /
    • pp.329-338
    • /
    • 2011
  • 문헌에서의 전문용어 인식 연구는 정보검색, 정보추출, 시맨틱 웹, 질의응답 분야 등의 연구를 위한 선행 연구로서, 지금까지 대부분 특정 분야, 특히 생의학 분야에서 집중되어 연구되어 왔다. 그러나 기존 연구들이 특정 도메인 또는 문헌 내부 통계 정보를 활용함으로써 범용적인 전문용어 인식에 한계점을 보여 왔기 때문에, 본 연구에서는 웹 검색 결과와 사전, 후보용어의 문형 특징 등을 활용하는 기계 학습 기반 범용 전문용어 인식 방법을 제안하였다. 제안한 방법을 문헌의 지역 통계 정보를 사용하는 방법(C-value)과 비교 실험하여 80.8%의 F-값으로 6.5%의 성능향상을 보였다. 다양한 응집도 자질들을 접목한 두 번째 실험에서는 Normalized Google Distance 방법과 접목한 방식이 F-값 81.8%의 성능으로 최고의 성능을 나타냈다. 기계 학습 방법으로는 로지스틱 회귀분석, C4.5, SVMs 등을 적용하였는데, 일반적으로 이진 분류에 좋은 성능을 보이는 SVMs과 로지스틱 회귀분석 방법보다 결정 트리 방식의 C4.5가 전반적으로 좋은 성능을 보였다.