• 제목/요약/키워드: 오픈지식

검색결과 132건 처리시간 0.024초

OK-KGD:오픈 도메인 한국어 지식 기반 대화 데이터셋 구축 (OK-KGD:Open-domain Korean Knowledge Grounded Dialogue Dataset)

  • 문선아;김산;장진예;정민영;신사임
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.342-345
    • /
    • 2023
  • 최근 자연어처리 연구 중 오픈 도메인 지식 기반 대화는 많은 관심을 받고 있다. 연구를 위해서는 오픈 도메인 환경을 갖추고 적절한 지식을 사용한 대화 데이터셋이 필요하다. 지금까지 오픈 도메인 환경을 갖춘 한국어 지식 기반 대화 데이터셋은 존재하지 않아 한국어가 아닌 데이터셋을 한국어로 기계번역하여 연구에 사용하였다. 이를 사용할 경우 두 가지 단점이 존재한다. 먼저 사용된 지식이 한국 문화에 익숙하지 않아 한국인이 쉽게 알 수 없는 대화 내용이 담겨있다. 그리고 번역체가 남아있어 대화가 자연스럽지 않다. 그래서 본 논문에서는 자연스러운 대화체와 대화 내용을 담기 위해 새로운 오픈 도메인 한국어 지식 기반 대화 데이터셋을 구축하였다. 오픈 도메인 환경 구축을 위해 위키백과와 나무위키의 지식을 사용하였고 사용자와 시스템의 발화로 이루어진 1,773개의 대화 세트를 구축하였다. 시스템 발화는 크게 지식을 사용한 발화, 사용자 질문에 대한 답을 주지 못한 발화, 그리고 지식이 포함되지 않은 발화 3가지로 구성된다. 이렇게 구축한 데이터셋을 통해 KE-T5와 Long-KE-T5를 사용하여 간단한 실험을 진행하였다.

  • PDF

태깅 지원 시스템 : Hi-Tagger (A Tagging Support System : Hi-Tagger)

  • 이인근;정재은;황도삼;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.91-94
    • /
    • 2012
  • 컴퓨터가 인간의 자연언어를 처리하고 이해하도록 하기 위한 많은 연구가 진행되어 왔다. 그러나 컴퓨터에 의해 자동으로 구축한 정보의 신뢰성 문제로 인해 그 효용성이 낮다. 따라서 최근에는 웹 2.0 환경에서의 집단지성을 통한 오픈지식의 구축과 지식 간의 링크 정보의 활용이 주목을 받고 있다. 그러나 양질의 지식을 구축하기 위해서는 인간의 개입이 불가피하며 대부분의 오픈지식도 사용자들의 노력에 의존하여 구축되고 있다. 따라서 본 논문에서는 자연언어로 작성된 문장의 용어에 대한 태깅 작업을 지원하는 태깅지원 시스템을 개발한다. 개발한 시스템에서는 사용자가 문장을 작성하는 과정에서 자동으로 태깅 가능한 용어를 추천하고, 시스템이 추천한 용어에 대해 사용자는 태그셋(tagset) 에 등록된 태그 및 링크로 태깅을 수행한다. 이 시스템을 이용하여 경제, 과학, 문학, 철학의 4개 분야에 대해 5인의 실험자가 한글문서의 태깅 실험을 수행함으로써 개발한 시스템의 효용성을 확인한다.

  • PDF

BM25 기반 고난도 부정 지식 검색을 통한 오픈 도메인 지식 기반 한국어 대화의 지식 검색 모듈 성능 향상 (Improvement of Knowledge Retriever Performance of Open-domain Knowledge-Grounded Korean Dialogue through BM25-based Hard Negative Knowledge Retrieval)

  • 문선아;김산;신사임
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.125-130
    • /
    • 2022
  • 최근 자연어처리 연구로 지식 기반 대화에서 대화 내용에 자유로운 주제와 다양한 지식을 포함하는 연구가 활발히 이루어지고 있다. 지식 기반 대화는 대화 내용이 주어질 때 특정 지식 정보를 포함하여 이어질 응답을 생성한다. 이때 대화에 필요한 지식이 검색 가능하여 선택에 제약이 없는 오픈 도메인(Open-domain) 지식 기반 대화가 가능하도록 한다. 오픈 도메인 지식 기반 대화의 성능 향상을 위해서는 대화에 이어지는 자연스러운 답변을 연속적으로 생성하는 응답 생성 모델의 성능 뿐만 아니라, 내용에 어울리는 응답이 생성될 수 있도록 적합한 지식을 선택하는 지식 검색 모델의 성능 향상도 매우 중요하다. 본 논문에서는 오픈 도메인 지식 기반 한국어 대화에서 지식 검색 성능을 높이기 위해 밀집 벡터 기반 검색 방식과 주제어(Keyword) 기반의 검색 방식을 함께 사용하는 것을 제안하였다. 먼저 밀집 벡터 기반의 검색 모델을 학습하고 학습된 모델로부터 고난도 부정(Hard negative) 지식 후보를 생성하고 주제어 기반 검색 방식으로 고난도 부정 지식 후보를 생성하여 각각 밀집 벡터 기반의 검색 모델을 학습하였다. 성능을 측정하기 위해 전체 지식 중에서 하나의 지식을 검색했을 때 정답 지식인 경우를 계산하였고 고난도 부정 지식 후보로 학습한 주제어 기반 검색 모델의 성능이 6.175%로 가장 높은 것을 확인하였다.

  • PDF

멀티-세션 오픈 도메인 지식기반 대화 수집 툴 (Multi-Session Open Domain Knowledge-based dialog collection Tool)

  • 김태용;김산;신사임
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.491-496
    • /
    • 2022
  • 최근 멀티-세션 데이터로 장기간 페르소나와 대화 일관성을 유지하며 인터넷에서 대화와 관련된 지식을 활용하는 대화모델 연구가 활발히 진행되고 있다. 하지만 이를 위한 한국어 멀티-세션 오픈 도메인 지식 기반 대화 데이터는 공개되지 않아 한국어 대화모델 연구에 어려움이 있다. 따라서 본 논문에서는 한국어 멀티-세션 오픈 도메인 지식 기반 데이터의 필요성을 시사하고, 데이터 수집을 위한 툴을 제안한다. 제안하는 수집 툴은 양질의 데이터 수집을 위해 작업자들이 사용하기 편하도록 UI/UX를 구성하였으며, 대화 생성 시 텍스트뿐만 아니라 정보가 밀집된 테이블도 대화에 활용할 지식으로 참조할 수 있도록 구현하였다. 제안하는 수집 툴은 웹 랜덤채팅 시스템에 기반을 두어 작업자가 여러 다른 작업자와 같은 확률로 매칭되게 구현되었으며, 일정 확률로 기존 대화로부터 대화를 시작하도록 함으로써 멀티-세션 대화 수집이 가능하도록 하였다.

  • PDF

오픈액세스기반 지식정보저장소 구축에 관한 연구 (A study on the Implementation of Institutional Repository based on Open Access)

  • 황혜경;최선희;김혜선
    • 한국비블리아학회지
    • /
    • 제15권1호
    • /
    • pp.91-116
    • /
    • 2004
  • 본 연구는 국내 도서관에서의 오픈액세스 지식정보저장소 구축을 위한 기초연구를 목적으로 수행되었다. 기관에서 구축한 지식정보저장소는 개별기관 소속 교수나 연구자에 의해 생산된 지식정보자원을 오픈액세스 패러다임에 기초하여 수집, 관리, 배포, 보존하기 위한 새로운 개념이다. 이에 지식정보저장소의 필요성, 역할, 구성요소, 구축 장애요인 등을 고찰한 후 SHERPA, Dspace, eDoc Server, dCollection 등 국내외의 대표적인 사례를 살펴보았다. 또한 지식정보저장소 구축 모형 및 이를 성공적으로 구현하기 위한 고려사항을 참여집단별로 제안하였다.

  • PDF

지식베이스상 뉴로 심볼릭 관계 모델을 이용한 오픈 도메인 질의응답 (Neuro-symbolic relational models on knowledge base for open-domain question answering)

  • 이영훈;나승훈;최윤수;이혜우;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.433-436
    • /
    • 2020
  • 오픈 도메인 질의응답은 주로 관련된 문서를 검색하고 문서 집합에서 정답을 찾는 방식으로 문제를 해결하는 검색 기반 질의응답 방법을 사용한다. 이러한 검색 기반 질의응답은 정답이 검색된 문서 집합에 존재하지 않는 경우 정답을 찾을 수 없다는 한계가 존재하게 된다. 본 연구에서는 NIL-Aware 방법을 이용하여 Unanswerable한 질문인 경우 문서 자원이 아닌 지식 베이스 자원을 활용하는 뉴로-심볼릭 지식 베이스 질의응답과의 결합 모델을 제안하고 한국어 질의응답 데이터에 적용함으로 제안하는 결합 방법의 유의미성을 확인한다.

  • PDF

오픈소스 개발 커뮤니티 참여자들의 지속적 지식기여 의도에 관한 연구 (A Study on Sustaining Knowledge Contribution Intention of Participants in the Open Source Software Development Communities)

  • 주진오;황경태
    • 경영정보학연구
    • /
    • 제18권3호
    • /
    • pp.111-135
    • /
    • 2016
  • 오픈소스 소프트웨어는 그 자체의 혁신성으로 인해 차별화되며, 혁신성의 원천은 기술적인 문제를 공유하여 함께 해결하는 것에서 비롯된다. 본 연구에서는 오픈소스 개발자들의 자발적 참여와 협력이 지속적인 참여에 미치는 영향을 분석하였고, 이러한 상관관계를 조직시민행동이론과 사회적 자본이론을 결합하여 살펴보았다. 본 연구는 Bolino et al.(2002)의 조직시민행동과 사회적 자본의 연관성 연구, Wasko and Faraj(2005)의 사회적 자본과 지식기여의 연관성 연구를 토대로 연구모형 및 연구가설을 설정하였다. 오픈소스 개발자 152명을 대상으로 설문을 실시하고, 구조방정식을 통하여 가설을 검증하였다. 분석 결과, 조직시민행동의 충성, 사회적 참여, 변화주도적 참여가 사회적 자본을 축적하는 것으로 나타났고, 사회적 자본의 상호호혜성과 공유 비전은 지속적 지식기여 의도를 강화하는 것으로 나타났다. 그러나 사회적 참여와 공유 비전, 응집성과 지속적 지식기여 의도 간의 관계는 유의하지 않은 것으로 나타났다.

RAG를 이용한 한국어 오픈 도메인 질의 응답 (Rertieval-Augmented Generation for Korean Open-domain Question Answering)

  • 강대욱;나승훈;김태형;류휘정;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.105-108
    • /
    • 2022
  • 오픈 도메인 질의 응답은 사전학습 언어모델의 파라미터에 저장되는 정보만을 사용하여 답하는 질의 응답 방식과 달리 대량의 문서 등에서 질의에 대한 정답을 찾는 문제이다. 최근 등장한 Dense Retrieval은 BERT 등의 모델을 사용해 질의와 문서들의 벡터 연산으로 질의와 문서간의 유사도를 판별하여 문서를 검색한다. 이러한 Dense Retrieval을 활용하는 방안 중 RAG는 Dense Retrieval을 이용한 외부 지식과 인코더-디코더 모델에 내재된 지식을 결합하여 성능을 향상시킨다. 본 논문에서는 RAG를 한국어 오픈 도메인 질의 응답 데이터에 적용하여 베이스라인에 비해 일부 향상된 성능을 보임을 확인하였다.

  • PDF

한국기록관리학회지의 오픈액세스 출판 전환 과정 기록 (A Recording of the Transition Process to the Open Access Publishing in JKSARM)

  • 정경희
    • 한국기록관리학회지
    • /
    • 제20권4호
    • /
    • pp.205-227
    • /
    • 2020
  • 이 논문은 한국기록관리학회지를 오픈액세스 학술지로 전환하는 과정을 기록한 것이다. 이 과정을 이해하기 위하여 상용DB업체와 학회, 공공DB운영기관 사이에서 벌어진 저작권을 중심으로 한 갈등과 업체와 도서관 사이의 학술DB 가격에 대한 갈등문제를 설명하였다. 또한 최근 국내의 문헌정보학 분야와 인문사회분야 학회들의 오픈액세스 선언의 의미를 설명하였다. 한국기록관리학회지를 오픈액세스로 전환하는 과정에서 부딪힌 출판비 문제, 논문 유통의 문제, 학술지 출판과 관련한 제도의 변경 등 학술지 출판사로서 실무적인 사안들을 처리한 방법과 과정을 기록하고 문제점들도 드러내고자 했다. 또한 이 논문은 기록관리학회지의 오픈액세스 전환을 학술논문의 지식커먼즈를 실현하려는 과정으로 설명하였다.