• 제목/요약/키워드: document retrieval

검색결과 447건 처리시간 0.019초

BERT Sparse: BERT를 활용한 키워드 기반 실시간 문서 검색 (BERT Sparse: Keyword-based Document Retrieval using BERT in Real time)

  • 김영민;임승영;유인국;박소윤
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 2020
  • 문서 검색은 오래 연구되어 온 자연어 처리의 중요한 분야 중 하나이다. 기존의 키워드 기반 검색 알고리즘 중 하나인 BM25는 성능에 명확한 한계가 있고, 딥러닝을 활용한 의미 기반 검색 알고리즘의 경우 문서가 압축되어 벡터로 변환되는 과정에서 정보의 손실이 생기는 문제가 있다. 이에 우리는 BERT Sparse라는 새로운 문서 검색 모델을 제안한다. BERT Sparse는 쿼리에 포함된 키워드를 활용하여 문서를 매칭하지만, 문서를 인코딩할 때는 BERT를 활용하여 쿼리의 문맥과 의미까지 반영할 수 있도록 고안하여, 기존 키워드 기반 검색 알고리즘의 한계를 극복하고자 하였다. BERT Sparse의 검색 속도는 BM25와 같은 키워드 기반 모델과 유사하여 실시간 서비스가 가능한 수준이며, 성능은 Recall@5 기준 93.87%로, BM25 알고리즘 검색 성능 대비 19% 뛰어나다. 최종적으로 BERT Sparse를 MRC 모델과 결합하여 open domain QA환경에서도 F1 score 81.87%를 얻었다.

  • PDF

XQL-SQL 질의 변환을 통한 XQL 질의 처리 시스템의 설계 및 구현 (Design and Implementation of XQL Query Processing System Using XQL-SQL Query Translation)

  • 김천식;김경원;이지훈;장복선;손기락
    • 정보처리학회논문지D
    • /
    • 제9D권5호
    • /
    • pp.789-800
    • /
    • 2002
  • XML이 웹 문서의 표준이며, 문서교환용 언어로서 사용되고있다. 상업용 데이터는 대부분 관계형 데이터베이스에 저장되어 있고 이들 문서를 교환용 문서로 만들어서 문서교환에 이용하거나 관계형 데이터베이스에 저장된 XML데이터에 XQL로 질의하여 질의결과를 효율적으로 획득하는 것은 매우 중요하다. 따라서, 향후 많은 XML데이터의 보관 및 관리 그리고 XML데이터를 위한 질의어 처리는 필수적이다. 지금까지, XML데이터의 저장 및 검색과 관련한 연구 및 제품개발이 여러 업체에 의해 있어왔고, 지금도 연구 및 개발이 진행되고 있다. 하지만, 효율적인 XML데이터의 저장 및 검색을 위한 시스템은 아직까지 많지 않다. 따라서 본 논문에서는 효율적인 경로 질의를 위한 DFS-Numbering 방식을 사용하며, 효율적인 데이터 저장을 위해서 XML 데이터 저장을 위한 스키마를 설계하였다. 또한, 전통적인 관계형 데이터베이스 엔진을 이용한 효율적인 XQL 질의수행 방법을 설계 및 구현하였다. 즉, 사용자가 시스템에 XQL로 질의를 하면 XQL 처리기에 의해서 XQL이 SQL로 변환되고, SQL로 관계형 데이터베이스에 질의를 수행하면, 결과로 레코드를 반환한다. 이때 XML 생성기에 의해서 사용자에게 n문서를 반환한다.

CT 전문방사선사 교육을 위한 웹기반 문항관리 시스템의 설계 및 구현 (Design and Implementation of Web-based Problem Management System for CT Radiological Technologist Education)

  • 신용원;구봉오;심춘보
    • 한국콘텐츠학회논문지
    • /
    • 제5권1호
    • /
    • pp.27-35
    • /
    • 2005
  • 최근 의료 및 보건 분야의 정보화가 급격히 진행됨에도 불구하고 보건 분야 중의 전문방사선사와 관련된 의료 및 교육 컨텐츠 개발에 해당하는 시험문제 개발이나 관리가 여전히 수작업이나 문서편집기를 이용한 오프라인 방식에 머무르고 있다. 따라서 본 연구에서는 CT 방사선사 전문자격증 취득 및 보수교육의 효율성을 향상시키기 위해 다양한 종류의 문항들을 시간과 공간의 제약 없이 언제 어디서든지 효율적으로 문항을 출제하고 관리할 수 있는 웹기반 문항 관리 시스템을 설계 및 구현한다. 제안하는 시스템은 관리자 모듈과 사용자 모듈로 구성되어 있으며, 관리자 모듈 내에서는 관련 있는 문항들을 그룹핑할 수 있는 분류관리와 문항출제 및 사용자관리, 난이도조절등과 같은 기능이 있으며, 사용자 모듈에서는 시험응시, 문항검색, 개인성적 조회, 해설듣기 등과 같은 기능을 포함하고 있다. 아울러 구현된 문항관리시스템은 CT전문방사선사 자격시험을 준비하는 방사선사들에게 정보교류, 의료컨텐츠 제공 및 학습능력 배양시킬 뿐만 아니라, 테스트 후 성적결과의 분석 및 문제해설까지 제공하는 활용가치가 높은 시스템으로 기대된다.

  • PDF

온톨로지기반 추론을 이용한 시맨틱 검색 시스템 (Semantic Search System using Ontology-based Inference)

  • 하상범;박영택
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권3호
    • /
    • pp.202-214
    • /
    • 2005
  • 시맨틱 웹은 단순한 문서들의 링크가 아닌 문서들의 의미와 관계를 표현하는 웹으로 소프트웨어 에이전트가 이해할 수 있도록 구성되어 있다 본 논문에서 제안하는 검색방식은 온톨로지기반의 추론을 통한 시맨틱 검색방법으로 다음과 같은 특징을 갖는다. 첫째, 검색키워드와 문서의 키워드가 다르더라도 의미적으로 같으면 온톨로지의 추론을 통해 검색이 가능하게 한다. 둘째, 규칙기반의 변환기가 서로 다른 온톨로지의 컨셉을 정확한 매치(exact match)가 아니어도 유사한 컨셉으로 추론할 수 있게 한다. 셋째, 온톨로지가 검색 키워드의 의미를 뚜렷하게 정의할 수 있으므로 단순한 키워드 매칭과 빈도만으로 검색하는 것 보다 정확한 검색이 가능하도록 한다. 넷째, 최적화된 질의문 자동 생성이 도메인 온톨로지를 통해 가능하므로 자연어와 유사한 검색영역과 정확성을 갖게 한다. 다섯째, 에이전트가 단순히 키워드가 포함된 문서만을 찾는 것이 아니라 온톨로지에 표현되어 있는 정보를 토대로 사용자가 원하는 정보와 지식을 자동적으로 찾게 한다. 이러한 방식은 데이타베이스의 질의문을 사용하거나 일반적인 키워드기반의 정보검색 기법을 사용하여 자료를 검색하는 기존의 검색 시스템보다 정화한 검색을 가능하게 한다. 본 논문에서는 온톨로지를 기반으로 추론을 적용한 시맨틱 검색시스템에 대하여 문서검색에 초점을 맞추어 연구 결과를 제안한다.

3D 애니메이션 제작 관리를 위한 제작관리도구(Tool)의 효율성 및 한계 - 샷건(Shotgun)과 Ftrack(에프트랙)을 중심으로 (A Study on the Efficiency & Limitation of 3D Animation Production Management Using Production Management Tool - Focusing on Shotgun Software & Ftrack)

  • 이꽃송이
    • 만화애니메이션 연구
    • /
    • 통권49호
    • /
    • pp.1-23
    • /
    • 2017
  • 현재 애니메이션 산업의 주축이 되고 있는 3D 애니메이션은 그 기술이 발달하면서 더욱 복잡한 파이프라인과 글로벌 파트너쉽의 제작 트랜드로 인해 전문적인 제작 관리 도구의 필요성이 제기되어 왔다. 현존하는 제작 관리 도구 중 샷건(Shotgun)과 Ftrack(에프트랙)은 3D 애니메이션 제작에 가장 적합한 서비스를 제공하고 있으며, 전통적인 서류 중심의 제작 관리와 샷건이나 에프트랙을 활용한 제작 관리를 비교하였을 때 효율적인 면을 확인하였다. 샷건 등 제작관리도구를 통한 제작 관리의 장점은 인터넷이 연결된 곳이라면 시공간의 제약을 받지 않고 제작 구성원들이 직접 참여하는 의사소통이 가능하여 정보가 실시간으로 공유된다는 점, 의사소통 과정에서 이루어진 논의들과 제작 과정의 히스토리가 체계적으로 축적되어 이후 추적이 용이하다는 점, 제작 관리팀의 정보 취합 및 분석 업무에도 효율적으로 기여한다는 점 등이다. 하지만 이들 도구가 자료검색에 있어 메타데이터 방식을 사용하고 있어 데이터 구축에 노력이 많이 들며 정확성에 있어서의 한계를 가진다는 점, 또한 이들 관리도구 도입을 위한 전문 기술인력 확보가 선행되어야 한다는 점 등은 한국 스튜디오들이 관리도구를 도입하는 데에 부담을 가질 수밖에 없는 현실이다. 이에 대한 대안으로 이들 관리도구의 콘텐츠 기반 검색 방식의 도입과, 툴셋 제공보다 조금 더 확장된 기술 업무에 대한 서비스를 제안하는 바이다.

대용량 자원 기반 과학기술 핵심개체 탐지를 위한 정보추출기술 통합에 관한 연구 (A Study on the Integration of Information Extraction Technology for Detecting Scientific Core Entities based on Large Resources)

  • 최윤수;정창후;최성필;류범종;김재훈
    • 정보관리연구
    • /
    • 제40권4호
    • /
    • pp.1-22
    • /
    • 2009
  • 대용량 문서에서 정보를 추출하는 작업은 정보검색 분야 뿐 아니라 질의응답과 요약분야에서 매우 유용하다. 정보추출은 비정형 데이터로부터 정형화된 정보를 자동으로 추출하는 작업으로써, 개체명 인식, 전문용어 인식, 대용어 참조해소, 관계 추출 작업 등으로 구성된다. 이들 각각의 기술들은 지금까지 독립적으로 연구되어왔기 때문에, 구조적으로 상이한 입출력 방식을 가지며, 하부모듈인 언어처리 엔진들은 특성에 따라 개발 환경이 매우 다양하여 통합 활용이 어렵다. 과학기술문헌의 경우 개체명과 전문용어가 혼재되어 있는 형태로 구성된 문서가 많으므로, 기존의 연구결과를 이용하여 접근한다면 결과물 통합과정의 불편함과 처리속도에 많은 제약이 따른다. 본 연구에서는 생의학 분야 과학기술 문헌을 분석하여 전문용어 및 개체명 등을 통합 추출할 수 있는 기반 프레임워크를 개발한다. 이를 위하여, 문장자동분리, 품사태깅, 기저구인식 등과 같은 기반 언어 분석 모듈은 물론 이를 활용한 개체명 인식기, 전문용어 인식기를 개발하고 이들을 하나의 플랫폼으로 통합한 과학기술 핵심개체 인식 체계를 제안한다. 전체 플랫폼의 성능을 체계적으로 평가하기 위해서, KEEC 2009를 비롯한 다양한 말뭉치를 기반으로 세부 요수 모듈에 대한 성능 평가를 수행하였으며, 비교적 높은 수준의 성능을 확보하였다. 본 논문에서 개발된 핵심개체자동인식 플랫폼은 정보검색, 질의응답, 문서색인, 사전구축 등 다양한 정보서비스 분야에 활용될 수 있다.

LLM 애플리케이션 아키텍처를 활용한 생성형 AI 서비스 구현: RAG모델과 LangChain 프레임워크 기반 (Generative AI service implementation using LLM application architecture: based on RAG model and LangChain framework)

  • 정천수
    • 지능정보연구
    • /
    • 제29권4호
    • /
    • pp.129-164
    • /
    • 2023
  • 최근 생성형 AI 기술의 발전으로 인해 대형 언어 모델(Large Language Model, LLM)의 활용 및 도입이 확대되고 있는 상황에서 기존 연구들은 기업내부 데이터의 활용에 대한 실제 적용사례나 구현방법을 찾아보기 힘들다. 이에 따라 본 연구에서는 가장 많이 이용되고 있는 LangChain 프레임워크를 이용한 LLM 애플리케이션 아키텍처를 활용하여 생성형 AI 서비스를 구현하는 방법을 제시한다. 이를 위해 LLM의 활용을 중심으로, 정보 부족 문제를 극복하는 다양한 방법을 검토하고 구체적인 해결책을 제시하였다. 이를 위해 파인튜닝이나 직접 문서 정보를 활용하는 방법을 분석하며, 이러한 문제를 해결하기 위한 RAG 모델을 활용한 정보 저장 및 검색 방법에 대해 주요단계에 대해 자세하게 살펴본다. 특히, RAG 모델을 활용하여 정보를 벡터저장소에 저장하고 검색하기 위한 방법으로 유사문맥 추천 및 QA시스템을 활용하였다. 또한 구체적인 작동 방식과 주요한 구현 단계 및 사례를 구현소스 및 사용자 인터페이스까지 제시하여 생성형 AI 기술에 대한 이해를 높였다. 이를 통해 LLM을 활용한 기업내 서비스 구현에 적극적으로 활용할 수 있도록 하는데 의미와 가치가 있다.

다중 기계학습 방법을 이용한 한국어 커뮤니티 기반 질의-응답 시스템 (A Korean Community-based Question Answering System Using Multiple Machine Learning Methods)

  • 권순재;김주애;강상우;서정연
    • 정보과학회 논문지
    • /
    • 제43권10호
    • /
    • pp.1085-1093
    • /
    • 2016
  • 커뮤니티 기반 질의 응답 시스템은 사용자 질의에 대한 정답을 인터넷 커뮤니티에 사용자들이 게시했던 문서 중에서 선택하여 제공하는 시스템이다. 기존 방법들은 질의 분석의 성능 향상을 위하여 목적 영역에 적합한 규칙을 구축하거나 일부 처리 과정에 기계 학습을 적용하였다. 하지만 기존 방법들은 적용 영역을 확장하거나 수정하는 경우 많은 비용이 소요되며 경우에 따라서는 시스템이 특정 영역에 과적합되는 경우가 발생한다. 본 논문에서는 커뮤니티 기반 질의-응답 시스템의 효과적인 처리를 위해서 시스템의 각 과정에 적합한 기계 학습 방법을 적용하여 전체 과정을 자동화하는 다중 기계학습 방법을 제안한다. 제안 시스템은 사용자 질의를 분석하는 부분과 정답 문서를 선택하는 부분으로 나눌 수 있다. 질의 분석 과정은 질의의 초점 구문을 분석하는 질의 핵심부 추출기와 질의의 주제를 분류하는 질의 유형 분류기로 구성하였으며, 전자는 조건부 무작위장을 사용하고 후자는 지지 벡터 기계를 사용한다. 정답 문서 선택에서는 유사도 측정에서 사용하는 가중치를 인공 신경망으로 학습한다. 또한 인터넷에 커뮤니티에 게시된 데이터는 형태소 분석 결과를 신뢰할 수 없는 경우가 많이 발생한다. 따라서 음절 자질을 사용하여 질의를 분석 단계에서 형태소 분석의 영향을 최소화하는 방법을 제안한다. 제안하는 시스템은 Mean Average Precision 기준으로 0.765, R-Precision 기준으로 0.872의 성능을 보여 기존 시스템보다 성능이 우수하다.

웹 통합문서의 효율적 생성과 검색을 위한 자동링크지원 시스템의 설계 및 구축 (Design and Implementation of Automatic Linking Support System for Efficient Generating and Retrieving Integrated Documents Based on Web)

  • 이원중;정은재;주수종;이승용
    • 정보처리학회논문지A
    • /
    • 제10A권2호
    • /
    • pp.93-100
    • /
    • 2003
  • 분산 컴퓨팅과 웹 서비스 기술의 발달과 함께, 급증하는 인터넷 사용자는 웹 기반의 맞춤형 정보를 편리하게 작성하고 제공받을 수 있는 서비스들을 요구하고 있다. 이를 위해, 본 논문에서는 맞춤형 정보로서 웹 기반의 통합문서를 생성하고, 사용자 요구에 따라 다양한 검색을 지원할 수 있는 자동링크지원 시스템(ALSS : Automatic Linking Support System)을 구축하고자 한다. 본 시스템의 구성은 클라이언트/서버 환경을 기반으로, 서버는 어휘분석, 질의처리 및 통합문서생성 기능들을 제공하는 자동링크엔진과 사전, 이미지 컨텐츠 및 URLs로 이루어진 데이터베이스를 지원하도록 구축하였다. 클라이언트 측은 서버 측의 자동링크엔진과 데이터베이스를 접근하여 웹 기반의 통합문서를 생성하는 웹 에디터와 검색 서비스를 지원하는 웹 도우미로 구축하였다. 웹 에디터나 웹 도우미 프로그램은 클라이언트 측에 별도의 설치 없이 서버로부터 다운로딩하여 실행할 수 있으며, 서버의 실행기능들의 일부를 글라이언트 측에 분산시키므로써 서버의 부하를 감소시켰다. 본 시스템의 구현으로서, 사용자 인터페이스는 JDK 1.3 기반의 SWING을 이용하고, 클라이언트와 서버간의 연동을 위한 자바 RMI 기법을 적용하였으며, SQL Server 7.0을 사용하여 데이터베이스를 구축하였다. 마지막으로 웹 에디터와 웹 도우미에 의해 자동링크엔진과 데이터베이스를 접근하는 과정과 그들의 실행결과를 보였다.

Okapi BM25 단어 가중치법 적용을 통한 문서 범주화의 성능 향상 (A Research on Enhancement of Text Categorization Performance by using Okapi BM25 Word Weight Method)

  • 이용훈;이상범
    • 한국산학기술학회논문지
    • /
    • 제11권12호
    • /
    • pp.5089-5096
    • /
    • 2010
  • 문서 범주화는 정보검색 시스템의 중요한 기능중의 하나로 문서들을 어떤 기준에 의해 그룹화를 하는 것을 말한다. 범주화의 일반적인 방법은 대상 문서에서 중요한 단어들을 추출하고 가중치를 부여한 후에 분류 알고리즘에 따라 문서를 분류한다. 따라서 성능과 정확성은 분류 알고리즘에 의해 결정됨으로 알고리즘의 효율성이 중요하다. 본 논문에서는 단어 가중치 계산 방법을 개선하여 문서분류 성능을 향상시키는 것을 소개하였다. Okapi BM25 단어 가중치법은 일반적인 정보검색분야에서 사용되어 검색 결과에 좋은 결과를 보여주고 있다. 이를 적용하여 문서 범주화에서도 좋은 성능을 보이는지를 실험하였다. 비교한 단어 가중치법에는 가장 일반적인 TF-IDF법와 문서분류에 최적화된 가중치법 TF-ICF법, 그리고 문서요약에서 많이 사용되는 TF-ISF법을 이용하여 4가지 가중치법에 따라 결과를 측정하였다. 실험에 사용한 문서로는 Reuter-21578 문서를 사용하였으며 분류기 알고리즘으로는 Support Vector Machine(SVM)와 K-Nearest Neighbor(KNN)알고리즘을 사용하여 실험하였다. 사용된 가중치법 중 Okapi BM25 법이 가장 좋은 성능을 보였다.