• 제목/요약/키워드: 검색 증강

검색결과 75건 처리시간 0.025초

In-Context 검색 증강형 한국어 언어 모델 (In-Context Retrieval-Augmented Korean Language Model)

  • 이성민;이정;서대룡;전동현;강인호;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.443-447
    • /
    • 2023
  • 검색 증강형 언어 모델은 입력과 연관된 문서들을 검색하고 텍스트 생성 과정에 통합하여 언어 모델의 생성 능력을 강화한다. 본 논문에서는 사전 학습된 대규모 언어 모델의 추가적인 학습 없이 In-Context 검색 증강으로 한국어 언어 모델의 생성 능력을 강화하고 기존 언어 모델 대비 성능이 증가함을 보인다. 특히 다양한 크기의 사전 학습된 언어 모델을 활용하여 검색 증강 결과를 보여 모든 규모의 사전 학습 모델에서 Perplexity가 크게 개선된 결과를 확인하였다. 또한 오픈 도메인 질의응답(Open-Domain Question Answering) 과업에서도 EM-19, F1-27.8 향상된 결과를 보여 In-Context 검색 증강형 언어 모델의 성능을 입증한다.

  • PDF

규칙기반 데이터 증강기법을 활용한 한국어 증상발화 데이터 구축 (Construction of Korean symptom articulation data using rule-based data augmentation technique)

  • 전성원;이동준;이동호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.360-362
    • /
    • 2023
  • 건강정보 검색 요구가 증가하면서 다양한 건강정보 검색 서비스가 제공되고 있다. 하지만 최근의 건강정보 검색 서비스는 정형화 된 전문적인 의료정보와 그 해석을 제공하기 때문에 사용자는 이러한 정보를 스스로 이해하여 원하는 건강정보를 검색해야 한다. 사용자의 검색 피로를 줄이고 원하는 정보를 정확하게 얻을 수 있는 건강정보 검색 시스템 개발을 위하여 사용자의 비의료적 표현인 한국어 증상발화 데이터 구축이 선행되어야 한다. 이러한 데이터 구축은 많은 시간과 비용이 필요하기 때문에 이를 줄이기 위한 규칙기반 데이터 증강기법을 제시하고, 이를 활용하여 한국어 증상발화 데이터를 증강하였다. 증강된 데이터의 유효성을 보이기 위하여 KoBERT 기반의 증상분류 실험을 진행하였으며, 증강된 데이터가 그 전의 데이터보다 F1 스코어가 더 높음을 확인할 수 있었다.

DART: 검색 모델 기술을 사용한 데이터 증강 방법론 연구 (DART: Data Augmentation using Retrieval Technique)

  • 이승준;서재형;이정섭;강명훈;문현석;박찬준;정다현;이재욱;박기남;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.313-319
    • /
    • 2022
  • 최근 BERT와 같은 트랜스포머 (Transformer) 기반의 모델이 natural language understanding (NLU)와 같은 여러 자연어 처리 태스크에서 좋은 성능을 보인다. 이러한 모델은 여전히 대용량의 학습을 요구한다. 일반적으로, 데이터 증강 기법은 low-resource 환경을 개선하는 데 도움을 준다. 최근 생성 모델을 활용해 합성 데이터를 생성해 데이터를 증강하는 시도가 이루어졌다. 이러한 방법은 원본 문장과 의미론적 유사성을 훼손하지 않으면서 어휘와 구조적 다양성을 높이는 것을 목표로 한다. 본 논문은 task-oriented 한 어휘와 구조를 고려한 데이터 증강 방법을 제안한다. 이를 위해 검색 모델과 사전 학습된 생성 모델을 활용한다. 검색 모델을 사용해 학습 데이터셋의 입력 문장과 유사한 문장 쌍을 검색 (retrieval) 한다. 검색된 유사한 문장 쌍을 사용하여 생성 모델을 학습해 합성 데이터를 생성한다. 본 논문의 방법론은 low-resource 환경에서 베이스라인 성능을 최대 4% 이상 향상할 수 있었으며, 기존의 데이터 증강 방법론보다 높은 성능 향상을 보인다.

  • PDF

검색 증강 LLM을 통한 한국어 질의응답 (Korean QA with Retrieval Augmented LLM)

  • 서민택;나승훈;임준호;김태형;류휘정;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.690-693
    • /
    • 2023
  • 언어 모델의 파라미터 수의 지속적인 증가로 100B 단위의 거대 언어모델 LLM(Large Language Model)을 구성 할 정도로 언어 모델의 크기는 증가 해 왔다. 이런 모델의 크기와 함께 성장한 다양한 Task의 작업 성능의 향상과 함께, 발전에는 환각(Hallucination) 및 윤리적 문제도 함께 떠오르고 있다. 이러한 문제 중 특히 환각 문제는 모델이 존재하지도 않는 정보를 실제 정보마냥 생성한다. 이러한 잘못된 정보 생성은 훌륭한 성능의 LLM에 신뢰성 문제를 야기한다. 환각 문제는 정보 검색을 통하여 입력 혹은 내부 표상을 증강하면 증상이 완화 되고 추가적으로 성능이 향상된다. 본 논문에서는 한국어 질의 응답에서 검색 증강을 통하여 모델의 개선점을 확인한다.

  • PDF

가상·증강현실을 활용한 에듀테크 동향 분석 (Analysis of Edu-Tech Trends Using Virtual and Augmented Reality)

  • 황의철
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제63차 동계학술대회논문집 29권1호
    • /
    • pp.115-116
    • /
    • 2021
  • 5세대(5G) 이동통신망의 보급과 코로나19 여파로 비대면 시대가 열리면서 가상 증강현실(VR·AR)을 기반으로 한 '실감(XR·Extended Reality)경제가 본격화 되었다. 가상증강현실의 적용분야로는 게임·영화 등 엔터테인먼트, 제조업, 쇼핑 및 전자상거래, 병원·의료기기, 고객서비스, 지식서비스교육 분야 등이 있다. 본 논문은 VR·AR&교육콘텐츠를 키워드로 최근 3년(2018.1.1.~2020.12.31.)간 중앙지, 경제지 등 54개 언론사 기사를 빅카인즈와 데이터랩을 이용하여 관계도 분석, 월간 키워드 트렌드, 연관어 분석을 하였다. 'VR, AR, 에듀테크'를 키워드로 뉴스 검색결과 63,959건 중 '에듀테크' 검색결과 2018년 632건, 2019년 1043건, 2020년 2389건으로 해마다 급 상승하였다. '(AR+VR)AND 교육콘텐츠'에 대한 검색 결과 연관성(키워드 빈도수)이 높은 키워드로는 증강현실(120), 가상현실(116), 인공지능(114), 에듀테크(100), 코로나19(66), 실감형(65), 아이들(61), VR·AR(56), ICT(35), 빅데이터(25) 순으로 가상·증강현실 기술 발전, 코로나19의 장기화, 교육의 효율성으로 에듀테크 분야의 활용도가 급격히 증가함을 확인할 수 있었다.

  • PDF

스마트폰을 이용한 증강현실 기반 교량 정보 시스템 데이터베이스 설계 (Database Architecture of Augmented Reality Based Bridge Information System using Smartphone)

  • 배성한;이기열;이화민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.810-813
    • /
    • 2012
  • 증강현실은 가상세계와 현실세계를 혼합한 기술로, 현재 여러 분야에서 증강현실을 접목한 다양한 연구가 이루어지고 있다. 건설 산업은 복잡한 설계와 시설물을 기반으로 모든 업무가 행해지는 특징으로 인해 증강현실의 활용 가능성이 높은 분야로 주목되고 있다. 스마트폰을 이용하여 교량의 정보를 제공하는 증강현실 기반 교량 정보 시스템(InfoBridge)은 사용자들에게 많은 정보를 제공하기 위해서 최적화된 데이터베이스 모델링이 필요하다. 많은 사용자들이 원하는 정보를 찾을 때 정보의 누락이 없어야 하고 빠른 검색을 통해서 정보를 제공 받아야 한다. 또한 관리자는 사용자가 원하는 정보를 정확하게 제공하기 위해서 데이터베이스의 최신화가 필수이다. 이에 본 논문에서는 증강현실 기반 교량 정보 시스템의 데이터베이스 설계를 제안한다. 우리나라에 있는 많은 교량들의 내/외적인 정보를 데이터베이스에 담기 위해서는 적절한 설계가 필요하며 이러한 설계를 통해서 정보의 빠른 검색, 데이터베이스의 효과적인 유지보수를 제공한다.

R-tree에서 GeoSpatial AR 응용을 위한 공간필터링 기법 (Spatial Filtering Techniques for Geospatial AR Applications in R-tree)

  • 박장유;이성호;남광우
    • Spatial Information Research
    • /
    • 제19권1호
    • /
    • pp.117-126
    • /
    • 2011
  • 최근 스마트폰 기반의 공간정보를 서비스하는 증강현실 응용들이 보편화되고 있다. 이러한 공간정보 증강현실 응용들은 현재 위치를 기반으로 공간정보를 검색하게 되며, 이 때 카메라 뷰 앵글에 보이는 공간정보가 일차적인 중요성을 갖는다. R-tree 등 현재까지 공간 데이터베이스 분야에서 제안된 공간색인들 대부분은 최소경계사각형을 이용한 검색 알고리즘을 수행한다. 이는 전통적인 지리정보시스템, 위치기반서비스들에서는 유용하지만 증강현실 응용에서 사용되는 뷰 앵글 기반의 공간질의 특성을 반영하진 못한다. 즉, 증강현실 응용에서의 공간질의는 비 단말 노드의 최소 경계 사각형과 질의 영역사이의 데드 스페이스 영역이 발생할 가능성이 높다. 제안된 알고리즘은 삼각형 노드 필터링 기법을 사용함으로서 이러한 데드 스페이스를 검색에서 배제한 공간 검색을 수행함으로써 검색의 효율성을 높였다. 이 논문에서는 제안된 알고리즘을 PostgreSQL/PostGIS 상에서 구현하였으며, 실제 POI 데이터베이스를 이용하여 실험하였다. 실험결과 제안된 알고리즘을 사용한 공간 감액이 최소 경계 사각형을 사용하는 검색 알고리즘보다 뚜렷한 성능 향상이 있었음을 확인할 수 있었다.

모바일 AR에서 효율적인 연속 공간 질의를 위한 프리패칭 기법 (Prefetching Techniques for Efficient Continuous Spatial Queries on Mobile AR)

  • 정용희;조현구;양평우;송충원;이연식;남광우
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.171-173
    • /
    • 2012
  • 최근에 스마트폰 기반의 다양한 증강현실 서비스들이 제공되고 있다. 이러한 증강현실 서비스들은 공간질의를 하고 검색되어진 데이터를 실제 영상화면에 표현해주는 것을 말한다. 본 논문은 증강현실 서비스에서 많이 이용되는 공간 검색 성능을 향상 시키기 위하여 기존의 속도기반 프리패칭 기법에 사용자의 시점을 이용한 영역 검색 방법을 혼합하여 효율적이고 의미 있는 검색을 가능하게 하였다.

증강된 질문을 이용한 RoBERTa 기반 Dense Passage Retrieval (Dense Retrieval using Pretrained RoBERTa with Augmented Query)

  • 박준범;홍범석;최원석;한영섭;전병기;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.141-145
    • /
    • 2022
  • 다중 문서 기반 대화 시스템에서 응답 시스템은 올바른 답변을 생성하기 위해서 여러 개의 문서 중 질문과 가장 관련 있는 문서를 검색하는 것부터 시작해야 한다. DialDoc 2022 Shared Task[1]를 비롯한 최근의 연구들은 대화 시스템의 문서 검색 과정을 위해 Dense Passage Retrieval(DPR)[2] 모델을 사용하고 있으며 검색기의 성능 개선을 위해 Re-ranking과 Hard negative sampling 같은 방법들이 연구되고 있다. 본 논문에서는 문서에 기반하는 대화 데이터의 양이 적거나 제한될 경우, 주어진 데이터를 효율적으로 활용해 보고자 검색기를 생성 모델을 이용하여 문서의 엔티티를 기반으로 질문을 생성하고 기존 데이터에 증강하는 방법을 제시했으며 실험의 결과로 MRR metric의 경우 0.96 ~ 1.56의 성능 향상을, R@1 metric의 경우 1.2 ~ 1.57의 성능 향상을 확인하였다.

  • PDF

AR 응용을 위한 효율적인 공간 질의 처리를 지원하는 공간색인 (A Spatial Index Technique supporting Efficient Spatial Query Processing for AR Applications)

  • 박장유;양평우;남광우
    • 한국GIS학회:학술대회논문집
    • /
    • 한국GIS학회 2010년도 춘계학술대회
    • /
    • pp.50-52
    • /
    • 2010
  • 전통적인 공간 정보 기술인 GIS는 최근 첨단 정보통신 기술들과의 융 복합을 통해 유비쿼터스 환경을 구축하기 위해 진화하고 있다. 한편, 증강현실 기술은 (Augmented Reality) 가상의 그래픽 환경을 실제 환경에 합성하여 사용자가 실제와 가상을 동시에 인식하게 하는 기술이다. 최근 휴대기기의 발달로 전통적인 사용자 위치 기반 서비스에 증강현실을 접목하여 다양한 정보를 실제 환경에 더해 보여주는 기술들이 증가 하고 있다. 전통적인 GIS에서의 공간 질의는 최소 정계 사각형을 사용하지만 증강현실이 적용되는 공간 질의는 삼각형의 형태를 가진다. 본 논문에서는 이러한 증강현실 응용을 위한 공간 질의 검색 알고리즘을 제안한다. 제안하는 알고리즘은 데드 스페이스 발생으로 인한 노드의 추가 검색 시간을 감소시킴으로서 기존의 R-tree 기반의 공간 색인들의 성능 향상을 꾀한다. 마지막으로 PostGIS를 이용한 실험을 통해 성능을 입증하였다.

  • PDF