Abstract
대규모 언어 모델(LLM)은 많은 영역에서 우수한 성능을 발휘한다. 하지만 오래된 지식, 환각, 불투명한 추론 프로세스 등의 문제가 존재한다. 이러한 문제의 해결책으로 외부 데이터베이스의 지식을 통합하는 Retrieval-Augmented Generation(RAG)시스템이 떠오르고 있다. 그러나 RAG 시스템을 구현하기 위한 파이프라인의 구성은 복잡하며 각 시나리오에 대한 실험과 평가는 시간이 걸리고 번거롭다. 이 논문에서는 일련의 실험과 평가를 한 번에 실험하고 각 단계별 평가 점수를 측정할 수 있는 AutoRAG라는 프레임워크를 사용하여 금융 문서에 가장 최적화된 RAG 파이프라인을 탐색하여, Naive RAG와 Advanced RAG 시스템을 비교하였다. 두 경우 모두 F1점수, NDCG점수, mAP점수를 사용하여 평가하였다. 최종 성능지표의 결과로 Advanced RAG 시스템이 F1, NDCG, mAP에서 각각 0.062, 0.168, 0.106 만큼 우수한 것으로 나타났다.