• Title/Summary/Keyword: 키워드 질의

Search Result 278, Processing Time 0.03 seconds

콘텐트 노드의 유사성 제어를 통한 그래프 구조 데이터 검색의 다양성 향상 (Improving Diversity of Keyword Search on Graph-structured Data by Controlling Similarity of Content Nodes)

  • 박창섭
    • 한국콘텐츠학회논문지
    • /
    • 제20권3호
    • /
    • pp.18-30
    • /
    • 2020
  • 최근 소셜 네트워크, 시맨틱 웹 등 여러 분야에서 그래프 구조 데이터가 널리 사용됨에 따라 대량의 그래프 데이터에 대한 효과적이고 효율적인 검색 방법의 필요성이 커지고 있다. 기존 키워드 기반 검색 방법들은 대부분 주어진 질의에 대한 연관도만을 고려하여 결과를 구한다. 그러나 이런 방법은 질의 연관도는 높지만 콘텐트 노드들을 공유하는 유사한 결과들이 함께 선택될 가능성이 높다. 이런 문제점을 개선하기 위해 본 논문에서는 키워드 질의에 대한 답 트리에 포함된 콘텐트 노드들의 유사성을 제어하여 콘텐트 노드가 다양한 답 트리들을 구하는 top-k 검색 방법을 제안한다. 다양한 답 트리 집합의 기준을 정의하고, 다양한 top-k 결과 집합을 구하기 위한 두 가지 방법으로 점진적 나열 알고리즘과 A 탐색 기법을 이용한 휴리스틱 탐색 알고리즘을 설계한다. 또 휴리스틱 탐색의 성능을 높이기 위한 개선 방법을 제시한다. 실 데이터를 이용한 성능 실험 결과를 통해, 본 논문에서 제안한 휴리스틱 탐색 방법이 질의 연관성뿐만 아니라 콘텐트 노드들의 상이도가 높은 다양한 답 트리들을 효율적으로 구할 수 있음을 보인다.

챗봇 프레임워크 성능 향상을 위한 점진적 학습 기법 (Incremental Learning for Performance Enhancement of Chatbot Framework)

  • 박상현;박진욱;조수헌;현제혁;황진성
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제59차 동계학술대회논문집 27권1호
    • /
    • pp.283-284
    • /
    • 2019
  • 규칙 기반의 챗봇(Chatbot)은 개발자가 미리 지정한 키워드와 패턴을 통해 사용자의 의도(Intent)를 파악하기 때문에, 챗봇을 응용한 어플리케이션에서는 제한적인 활용도를 보인다. 본 논문에서는 위 문제를 해결하기 위해, 프레임워크 기반의 한글 자연어 처리 챗봇 성능 향상을 위한 점진 학습(Incremental Learning)을 제안한다. DialogFlow는 규칙 기반의 챗봇 프레임워크로서, 사용자 질의 패턴에 대한 사전 학습이 치명적이다. 제안하는 점진 학습 기법은 사용자 질의가 미리 학습되어 있지 않은 경우에도, 유사도 기반으로 질의의 의도를 결정할 수 있다. 이때 entity 조합과 기존에 학습된 질의들과의 유사도를 통해 의도를 결정하여, 프레임워크를 점진적으로 학습한다. 이를 적용하여 연세대학교 정보들을 제공하는 챗봇을 개발하고, 실험을 통해 제안된 점진 학습 기법은 기존 시스템보다 다양한 종류의 질의 처리가 가능하고, 더욱 빠른 응답 속도를 나타내는 것을 확인하였다. 또한 사용자가 증가함에 따라 점진 학습을 통해 성능이 더욱 증가하는 자가 학습 모형으로서의 우수함을 확인하였다.

  • PDF

P2P 환경에서 확률적 잠재 의미 분석에 기반한 정보 검색 (Information Retrieval based on Probabilistic Latent Semantic Analysis within P2P Environments)

  • 구태완;김유섭;이광모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.515-518
    • /
    • 2004
  • 전통적인 Peer-to-Peer 모델에서 정보검색 문제를 해결하기 위한 방법으로는 질의 및 키워드를 각 Peer에 전송하여 해당 질의 및 키워드와 문서들을 비교하는 방법이 대부분이었다. 본 논문에서는 이러한 방법을 확장하여 문서에 대한 의미론적 분석을 통해 검색의 정확성을 향상시키고자 한다. 이를 위해 본 논문에서는 확률적 의미분석 기법을 이용하여 각 Peer에 존재하는 정보에 대한 색인을 작성 한 후, 이것을 Peer-to-Peer 환경에 적용하기 위한 분산 색인 분배 알고리즘을 제안한다.

  • PDF

시맨틱 검색에서 키워드 질의 변환을 위한 탐색 공간 축소 모델 (Search Space Reduction Model for Keyword Query Transformation on Semantic Search)

  • 염정남;조준면;유정주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1390-1393
    • /
    • 2013
  • 인터페이스가 제한된 단말에서 정보 검색 서비스를 제공하는 경우, 검색 재현율보다는 정확도가 중요하다. 데이터를 쉽게 구조화할 수 있고 검색 정확도가 중요한 한정된 도메인에서는 시맨틱 검색 기술을 통해 강력한 정보 검색 서비스를 제공할 수 있지만, 사용자 키워드 질의를 시스템 질의로 변환하는 과정에서 다양한 해석들이 존재할 수 있기에 개선의 여지도 많다. 본 논문에서는 해석 정확도와 확장성을 동시에 향상시키기 위한 새로운 모델을 제안한다. 제안 모델은 공간의 구조와 요소들의 해석을 제한함으로써 중간 탐색 공간의 크기를 점진적으로 줄이면서 사용자의 검색 의도는 가능한 보존할 수 있다. 실제 데이터로 이루어진 대용량 지식을 이용해 다른 최신 기술과 비교하여 실험적 평가를 제시하였다.

REALM을 이용한 한국어 오픈도메인 질의 응답 (REALM for Open-domain Question Answering of Korean)

  • 강동찬;나승훈;최윤수;이혜우;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.192-196
    • /
    • 2020
  • 최근 딥러닝 기술의 발전에 힘입어 오픈 도메인 QA 시스템의 발전은 가속화되고 있다. 특히 IR 시스템(Information Retrieval)과 추출 기반의 기계 독해 모델을 결합한 접근 방식(IRQA)의 경우, 문서와 질문 각각을 연속 벡터로 인코딩하는 IR 시스템(Dense Retrieval)의 연구가 진행되면서 검색 성능이 전통적인 키워드 기반 IR 시스템에 비해 큰 폭으로 상승하였고, 이를 기반으로 오픈 도메인 질의응답의 성능 또한 개선 되었다. 본 논문에서는 경량화 된 BERT 모델을 기반으로 하여 Dense Retrieval 모델 ORQA와 REALM을 사전 학습하고, 한국어 오픈 도메인 QA에서 QA 성능과 검색 성능을 도출한다. 실험 결과, 키워드 기반 IR 시스템 BM25를 기반으로 했던 이전 IRQA 실험결과와 비교하여 더 적은 문서로 더 나은 QA 성능을 보였으며, 검색 결과의 경우, BM25의 성능을 뛰어넘는 결과를 보였다.

  • PDF

확률적 정보 검색 모델에서의 유사 적합성 피드백 실험 (Experiments on Pseudo Relevance Feedback in Probabilistic Information Retrieval Model)

  • 조봉현;이창기;안주희;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.183-190
    • /
    • 2001
  • 본 논문은 확률기반 자연어 검색 시스템 POSNIR/E를 이용한 여러 가지 유사 적합성 피드백 방법들이 검색 시스템의 성능 향상에 기여할 수 있는 정도를 보여주고, 확률 기반 정보 검색 시스템에 적합한 유사 적합성 피드백 수행 방법을 제시한다. POSNIR/E는 한국어 자연어 검색 시스템, POSNIR를 기반으로 만들어진 영어 자연어 검색 시스템이다. 이 시스템은 성능 향상을 위한 질의 확장의 방법으로 검색 단계에서 유사 적합성 피드백을 사용한다. 검색 단계에서 영어 태거에 의해 태깅된 사용자 질의로부터 질의어를 추출하고 초기 검색을 수행한다. 유사 적합성 피드백을 위하여 초기 검색 결과 중 상위 5개의 문서에 나타나는 키워드를 중요도에 따라 내림차순 정렬하여 상위 10개의 키워드를 초기 질의어에 확장한다. 이렇게 확장된 질의어로 최종 검색을 수행한다. TREC 평가용 테스트 컬렉션 WT10g와 TREC-9의 질의 적합문서 집합을 이용하여 여러 가지 TSV 함수를 사용하여 검색 성능을 평가 하였다. 실험 결과 유사 적합성 피드백을 사용할 경우 TSV 함수에 확률 모델의 CF 요소 뿐만 아니라 TF 요소 등을 적용 시킬 경우 성능 향상에 기여할 수 있음을 알 수 있었다. 또한 색인어와 검색어로 단일어 뿐만 아니라 복합어도 사용할 경우 성능이 향상됨을 알 수 있다.

  • PDF

KNetIRS : 키워드망을 이용한 정보검색 시스템 (KNetIRS : Information Retrieval System using Keyword Network)

  • 우선미;유춘식;이종득;김용성
    • 한국정보처리학회논문지
    • /
    • 제4권9호
    • /
    • pp.2185-2196
    • /
    • 1997
  • 기존의 정보검색 시스템들은 질의가 정확하지 않더라도 원하는 정보를 검색할 수 있도록 하기 위해 시소리스 (thesaurus)를 사용했다. 그러나 시소러스를 구축하고 유지하는데 드는 비용이 매우 높고 검색에 있어서도 완전하다고 볼 수 없다. 그래서 본 논문에서는 이러한 문제점들을 해결하기 위하여 키워드망을 이용한 정보검색 시스템인 KNetIRS를 설계 및 구현한다. 키워드망은 문서로부터 직접 추출한 키워드들로 구성된다. KNetIRS는 역파일 (Iinverted file)의 개념에 기반을 둔 키워드망을 이용하여 데이터베이스에서 적합한 문서만을 탐색한다. 그리고 KNetIRS는 역파일 (Iinverted file)의 개념에 기반을 둔 키워드망을 이용하여 데이터베이스에서 적합한 문서만을 탐색한다. 그리고 KNetIRS는 키워드망 브라우저(Keyword Network Browser)를 사용하여 질의를 확장하고, 분할 연산(spilt function)을 정의하여 "정보 검색", "정보", 그리고 "검색"과 같은 복합어에 관한 처리를 한다.

  • PDF

혼합형 질의 방법에 의한 온톨로지 기반 유물 검색 시스템 (Ontology based Retrieval System for Cultural Assets Using Hybrid Text-Sketch Queries)

  • 천현재;백승재;이홍철
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권5호
    • /
    • pp.17-26
    • /
    • 2005
  • 최근 각종 정보가 증가함에 따라 효율적인 관리를 위해 정보 검색에 관한 연구가 더욱 활기를 띠고 있다. 현재 웹 환경에서 운영되고 있는 국내 유물 검색시스템의 경우 대부분이 키워드 기반의 텍스트 검색 방식을 채택하고 있다. 이러한 텍스트 검색 방식은 그 유물에 대한 정확한 이름이나 키워드를 질의자 (user)가 미리 알고 있어야 한다. 하지만 검색대상에 관한 정보가 부족하여 키워드가 모호하거나 단순히 형상에 관한 기억만 있을 경우에는 검색이 쉽지 않았다. 이 논문에서는 기존 유물 검색 시스템의 문제점을 해결하기 위해 온톨로지 기반의 택스트 질의와 사용자 스케치 이미지 질의를 사용하는 자바 기반의 혼합형 유물 검색시스템을 제안한다. 이 시스템은 국내 유물들을 대상으로 사용자가 기억하고 있는 유물에 관한 정보의 형태(택스트, 형상 등)에 따라 다양한 질의방법을 제공하며, 검색결과 내에서 온톨로지 의미관계를 이용한 추가검색이 가능하다.

  • PDF

자연어처리를 통한 온라인 학습 플랫폼 사용자 질의 답변 및 Word cloud를 활용한 키워드 시각화 (Answering User Queries on Online Learning Platforms through Natural Language Processing and Keyword Visualization Using Word Cloud)

  • 유경록;정영섭
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.351-354
    • /
    • 2024
  • 최근 온라인 학습의 비중이 증가함에 따라 온라인 학습 서비스의 일부인 온라인 상담 부분도 비례하여 증가하고 있으며, 많은 상담량으로 인해 상담 서비스의 품질이 저하되고 답변의 속도, 효율성도 감소하는 문제가 발생한다. 국내 교육기관에서는 서비스 개선과 사용자 맞춤형서비스를 제공하기 위해 다양한 연구를 진행하고 있으며 민원을 처리하는 챗봇 등 자동 답변 서비스 도입을 추진하고 있다. 챗봇 및 자동 답변 서비스는 서비스 제공자 입장에서 저예산으로 단순한 질문에 대하여 신속하고 효율적인 서비스를 제공할 수 있으며 서비스 이용자는 즉각적인 답변과 유사한 답변 예시를 확인함으로 질문을 빠르게 해결할 수 있는 장점이 있다. 국가 공공기관에서 제공하는 학습 서비스는 단순하고 반복적인 문의가 많고 정형적인 질의응답이 주로 등록이 되고 있다. 자동 답변 서비스는 이런 문제점을 해결할 수 있는 대안이 된다. 서비스 이용자가 등록한 문의를 기반으로 학습한 답변 서비스는 담당자의 반복된 업무처리 경감과 사용자의 답변감소, 일관된 답변처리로 서비스 품질개선에 큰 영향을 줄 수 있다. 본 연구에서는 사용자의 질문에 효율적인 답변 및 민원 처리 서비스를 제공할 수 있는 방법을 제시하며, 관리자의 업무능력 향상과 효율성을 위해 기간별 키워드 빈도수를 계산하여 Word cloud를 생성하여 제공함으로써 사용자들에게 일정 기간 내 빈도수가 높은 키워드 관련 공지 및 안내를 할 수 있도록 한다.

  • PDF

키워드 네트워크 분석을 이용한 공공데이터 수요 예측 (Forecasting Open Government Data Demand Using Keyword Network Analysis)

  • 이재원
    • 정보화정책
    • /
    • 제27권4호
    • /
    • pp.24-46
    • /
    • 2020
  • 본 연구는 키워드 네트워크 분석을 이용하여 공공데이터 수요(즉, 공공데이터 제공신청, 검색 질의 등)를 적시에 예측하는 방법을 제안한다. 분석 결과에 따르면, 수요가 높은 토픽에 속하는 공공데이터는 대부분 국내 공공데이터 포털(data.go.kr)에서 제공되고 있지만, 토픽 연관 분석을 통해 예측된 이용자의 실제 요구와 관련된 공공데이터는 거의 제공되지 않고 있다. 공공데이터를 제공(또는 선정)할 때, 이용자의 공공데이터 제공신청과의 관련성보다 공공데이터 토픽과의 관련성이 우선시되기 때문이다. 제안된 키워드 네트워크 분석 프레임워크는 실제 공공데이터 제공신청을 바탕으로 이용자들의 수요를 빠르고 쉽게 예측할 수 있으므로, 향후 공공기관(중앙부처·지방자치단체·산하기관)의 공공데이터 정책 수립에 이바지할 수 있을 것으로 기대된다.