• Title/Summary/Keyword: 분류검색

Search Result 1,717, Processing Time 0.027 seconds

Improving Dense Retrieval Performance by Extracting Hard Negative and Mitigating False Negative Problem (검색 모델 성능 향상을 위한 Hard Negative 추출 및 False Negative 문제 완화 방법)

  • Seong-Heum Park;Hongjin Kim;Jin-Xia Huang;Oh-Woog Kwon;Harksoo Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.366-371
    • /
    • 2023
  • 신경망 기반의 검색 모델이 활발히 연구됨에 따라 효과적인 대조학습을 위한 다양한 네거티브 샘플링 방법이 제안되고 있다. 대표적으로, ANN전략은 하드 네거티브 샘플링 방법으로 질문에 대해 검색된 후보 문서들 중에서 정답 문서를 제외한 상위 후보 문서를 네거티브로 사용하여 검색 모델의 성능을 효과적으로 개선시킨다. 하지만 질문에 부착된 정답 문서를 통해 후보 문서를 네거티브로 구분하기 때문에 실제로 정답을 유추할 수 있는 후보 문서임에도 불구하고 네거티브로 분류되어 대조학습을 진행할 수 있다는 문제점이 있다. 이러한 가짜 네거티브 문제(False Negative Problem)는 학습과정에서 검색 모델을 혼란스럽게 하며 성능을 감소시킨다. 본 논문에서는 False Negative Problem를 분석하고 이를 완화시키기 위해 가짜 네거티브 분류기(False Negative Classifier)를 소개한다. 실험은 오픈 도메인 질의 응답 데이터셋인 Natural Question에서 진행되었으며 실제 False Negative를 확인하고 이를 판별하여 기존 성능보다 더 높은 성능을 얻을 수 있음을 보여준다.

  • PDF

맞춤구성을 위한 템플릿과 Option 기반의 추론

  • 이현정;이재규
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2002.05a
    • /
    • pp.181-190
    • /
    • 2002
  • 전자 카탈로그 상에서의 상품 검색은 카탈로그에 명시되어 있는 상품을 찾는 표준상품검색과 소비자가 원하는 상품을 맞춤 하는 맞춤상품검색으로 분류할 수 있다. 현재의 대부분의 상품 검색은 표준상품검색에 의존하고 있다. 특히 기업간 구성요소기반(Component-based) 상품의 경우 표준상품검색만으로는 구매자의 다양한 요구에 응하기가 어렵다. 따라서 웹 상의 전자 카탈로그에서의 동적인 맞춤검색에 대한 요구가 증가하고 있다. 본 연구에서는 구성기반 상품에 대해서 표준상품검색만으로는 구매자가 원하는 상품의 검색가능성(Feasibility)과 검색된 대안들이 조정(Adjust) 프로세스 과정을 거쳐 최적해 도달 가능성(Admissibility)이 보장되지 않음을 보이고, 이에 대한 효과적인 방법론으로 검색가능성과 최적해 도달 가능성을 지원하는Template-based Reasoning 방법론을 제안 한다. Template-based Reasoning은 구매자의 요구사항에 따른 대안탐색 부분과 선택된 대안에 대한 조정과정의 두 단계로 이루어진다. 구매자의 주요 선호도(MUST Preference)에 근거하여 대안들을 탐색하고, 탐색 된 대안들 간의 우선순위를 결정한다. 조정 단계에서는 옵션(Options)의 확장을 통해 구매자의 맞춤사양에 따른 상품을 제안하고, 제약 및 규칙기반 추론(Constraint and Rule Satisfaction Approach)을 이용하여 옵션(Options)들 간의 제약조건에 따른 호환성(Compatibility)을 조사하고, 적정가격의 상품을 제안한다. 본 방법론은 Template을 사용하여 기본적으로 구매자가 원하는 상품을 검색하기 위한 검색노력을 줄이고, 검색된 대안들로부터 구매자와 시스템이 웹상에서 서로 상호작용(interactivity) 하여 해를 찾고, 제약조건과 규칙들에 의해 적합한 해를 찾아가는 방법을 제시한다. 본 논문은 구성기반 예로서 컴퓨터 부품조립을 사용해서 Template-based reasoning 예를 보인다 본 방법론은 검색노력을 줄이고, 검색에 있어 Feasibility와 Admissibility를 보장한다.

  • PDF

Comparative Analysis of Classification Schemes for Internet Resources (인터넷 정보자원의 조직을 위한 분류체계에 관한 비교분석)

  • 최희윤
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1998.08a
    • /
    • pp.177-182
    • /
    • 1998
  • 인터넷 정보자원의 폭발적인 증가에 따라 이를 효율적으로 조직화하고 체계화하는 시스템의 중요성이 증가하고 있다. 이에 따라 주제접근을 용이하게 하고 검색 효율성을 높이는 도구로서 분류체계에 대한 관심이 커지고 있다. 본고에서는 인터넷 서비스의 분류체계 응용사례중 주제별 디렉토리의 인터넷 기반 분류체계와 기존 문헌 분류체계를 비교 분석함으로써 인터넷 환경에 적합한 분류체계의 구성방안을 제시하였다.

  • PDF

전시 동물(2)-동물과 식물의 분류

  • Hwang, Bo-Jong
    • Feed Journal
    • /
    • v.5 no.5 s.45
    • /
    • pp.104-111
    • /
    • 2007
  • 지금까지 동물의 이름이 나올 때마다, 그 분류학상의 이름을 쓰기위해 다양한 검색을 시도했으나, 그러한 이름이 반드시 일치하지는 않았다. 다음호에 예정되어 있는 전시 동물에서는 우에노(상야) 동물원에서만 420종의 동물이 있으므로, 동물 분류에 관해서 좀 더 관심을 가져볼 필요가 있다. 또, 사료 원료가 되는 식물에 대해서도, 그 분류에 대해 기술 하고자 한다. 이러한 과정에서 우리가 알 수 있는 것은 현재, 동식물의 분류법은 확립된 것이 아니고, 계속 변화하고 있다는 것이다. 2005년 2월 12일 아사히(조일) 신문에, DNA로 조사한 백합과의 분류가 종래의 계통수와 크게 달라, 가까운 장래 교과서나 그림도감도 대폭적인 재검토가 강요받게 될 것 같다고 보도되었다. 그러한 이유로 지금까지, 그리고 앞으로도, 주로 학명만을 필요에 따라서 표기하기로 했으며, 그 이유를 기술 하고자 한다.

  • PDF

A Research on Enhancement of Text Categorization Performance by using Okapi BM25 Word Weight Method (Okapi BM25 단어 가중치법 적용을 통한 문서 범주화의 성능 향상)

  • Lee, Yong-Hun;Lee, Sang-Bum
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.11 no.12
    • /
    • pp.5089-5096
    • /
    • 2010
  • Text categorization is one of important features in information searching system which classifies documents according to some criteria. The general method of categorization performs the classification of the target documents by eliciting important index words and providing the weight on them. Therefore, the effectiveness of algorithm is so important since performance and correctness of text categorization totally depends on such algorithm. In this paper, an enhanced method for text categorization by improving word weighting technique is introduced. A method called Okapi BM25 has been proved its effectiveness from some information retrieval engines. We applied Okapi BM25 and showed its good performance in the categorization. Various other words weights methods are compared: TF-IDF, TF-ICF and TF-ISF. The target documents used for this experiment is Reuter-21578, and SVM and KNN algorithms are used. Finally, modified Okapi BM25 shows the most excellent performance.

A comparative study of classification schedules for the international trade (국제통상분야 분류표의 비교 분석)

  • 정연경
    • Journal of the Korean Society for information Management
    • /
    • v.15 no.1
    • /
    • pp.83-108
    • /
    • 1998
  • Recently, information on international trade goes on increasing in quantity because of the globalism and many related areas of the field. Most of libraries and informatin centers in Korea are using Dewey Decimal Classification(DDC), Library of congress Classification(LCC), and Korean Decimal Classification(KDC) to classify library materials on the subject. The application of three classification shcemes, DDC, LCC, and KDC were queried to determine the classification of materials on international trade. And analyses of the parts of international trade in three classification shemes were done in order to identify what major changes have made with the development of the field. There was subject scatter in DDC and LCC; there was an overlap among the classes of the three systems; and there was little change between present editions and the previous editions. The revision for international trade field of the KDC, the 4t edtition was suggested to help cover some deficiencies of the classification scheme. Inorder to develop a better KDC, the 5th edition, continuous revisions based upon the opinions of subject specialists and catalogers in the field are highly recommended.

  • PDF

Implementation of an Internet Homepage Retrieval System and Improvement of Retrieval Efficiency (인터넷 홈페이지 검색시스템 구현과 검색효율 향상)

  • Park, Hyun-Joo;Choi, Jae-Duck;Kang, Sang-Bae;Park, Seung;Park, Yong-Uk;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.227-232
    • /
    • 1997
  • 이 논문은 인터넷 홈페이지를 검색하는 정보검색시스템인 미리내 시스템을 제시한다. 웹 문서의 특성을 고려하여 로봇의 기능을 확장하고, 색인, 등록, 수정, 삭제, 분류의 자동화를 구현하여 관리효율을 높인다. 자동화에 따른 문제점과 해결방법을 제시하고, 불리언질의검색 외에 자연언어질의 검색에서 질의어 확장의 방법으로 웹페이지 링크속성검색, Relevance feedback을 통한 검색효율을 높인다.

  • PDF

Natural language based Information Retrieval System considering the focus of the question (의문의 초점을 고려한 자연어 기반의 정보검색 시스템)

  • Park, Hong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.37-43
    • /
    • 1997
  • 본 논문에서는 기존의 키워드 검색 시스템의 불편함과 비효율성을 지적하고 이를 극복하기 위해 한국어 의문문 자체를 질의어로 채택하여 정보를 검색하는 자연어 기반의 정보검색 시스템을 제안하였다. 본 시스템은 주격 주제어와 서술격 주제어는 물론 의문의 초점과 초점 관련 어구에 대해서도 질의어 분석단계에서 분석하여 검색자의 요구에 부응하는 응답문 검색이 가능하도록 설계하였다. 본 논문에서는 의문문 질의 시스템에 적합하도록 의문사를 5형태로 분류하고 실제 한국어 문장에서 이들 각각에 대한 처리를 규칙화시켜 질의어의 체계적인 분석을 시도하였다. 한편, 후보 문장 검색을 위한 색인어로 사용되는 주격 주제어와 서술격 주제어를 정해진 규칙을 통해 추출함으로써 체계적이고 정확도 높은 질의어 분석이 이루어지도록 했다. 뿐만 아니라 의문의 초점과 초점 관련 어구또한 정해진 규칙을 통해 분석 추출함으로써 응답문 검색의 정확성을 높였다.

  • PDF

Event Semantic Photo Retrieval Management System based on MPEG-7 (MPEG-7 기반의 이벤트 의미 포토 검색 관리 시스템)

  • Ahn, Byeong-Tae;Chung, Bhum-Suk;Lee, Chong-Ha
    • The Journal of the Korea Contents Association
    • /
    • v.7 no.1
    • /
    • pp.1-9
    • /
    • 2007
  • Semantic photo retrieval has been an important role in reducing the semantic gap between the simple visual features and the abundant semantics delivered by a photo. Effective photo retrieval using semantics is one of the major challenges in photo retrieval. And we propose a new event semantic photo retrieval method by using photo annotation user interface. In this paper, A photo album management system that facilitates photo management and semantic retrieval, which fully relies on the MPEG-7 standard as an information base and a native XML database, has been designed and implemented.

지도도서관을 위한 GIS자료의 공간검색과 자료전송에 관하여

  • Kim, Chang-Je;Chang, Eun-Mi
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 1999.06a
    • /
    • pp.203-214
    • /
    • 1999
  • 위성영상의 종류가 많아지고 다양한 종류의 수치지도가 생성되고 관리되기 위해서는 지도도서관이 필요할 것이며, 이는 클리어링하우스와는 달리 전통적인 종이지도까지 포함이 되어야한다. 상품화된 GIS 툴에서 제공하는 공간검색의 기능을 개발하여 지도도서관에 활용을 한다면, 지명검색보다 다양한 형태의 자료를 검색하여 비교할 수 있으므로, 데이터베이스에 각 자료의 좌상단, 우하단 좌표가 입력 관리되고, 서버에 모든 자료가 존재한다는 가정하에 사각검색과 원 검색의 원리를 경우에 따라 분류하고 SQL문으로 만드는 원리를 정리하였다. 공간검색을 통한 GIS자료의 다운로드와 생성된 자료의 업로드 기능을 클라이언트/서버환경에서 JDBC를 활용하여 구현하였다. 국가기관이나 학교에서 지도전문 도서관이 전무한 실정이지만, 앞으로의 가능성을 전제로 하여 고지도로부터 관광지도, 수치지도, 위성영상을 활용한 주제도에 대한 관리방법으로 제안한다.

  • PDF