• Title/Summary/Keyword: 자연어 질의

Search Result 186, Processing Time 0.022 seconds

멀티미디어 데이터 검색 기법

  • 김경창
    • Communications of the Korean Institute of Information Scientists and Engineers
    • /
    • v.10 no.5
    • /
    • pp.32-41
    • /
    • 1992
  • 멀티미디어 데이터베이스에서는 영상(image), 음향(sound) 등과 같은 멀티미디어 데이터의 복잡한 구조로 인해 데이터 조작이 기존의 데이터베이스에서 처럼 단순하지 않다. 데이터베이스로부터 멀티미디어 데이터를 검색하는 데 있어서 중요한 것은 사용자의 질의와 멀티미디어 데이터의 내용(content)를 매칭하는 것이다. 일반적인 해결책은 키워드를 사용하거나 멀티미디어 데이터의 내용과 사용자 질의를 묘사하고 있는 텍스트 묘사(text description)를 사용하는 것이다. 이 때의 주된 문제점은 사용자나, 다른 시점의 같은 사용자가 동일한 개체(entity)를 다르게 서술하여 멀티미디어 데이터 내용의 묘사 (description) 와 사용자 질의의 묘사가 정확하게 매치되지 못한 데 있다. 그러므로 멀티미디어 데이터를 검색하는 동안에, 저장된 멀티미디어 데이터와 사용자 질의의 묘사들간에 근사(approximate) 매치가 통상 요구된다. 본 논문에서는 객체지향 및 자연어 인식 기법을 통하여 근사매치에 지능적(intelligent) 으로 접근하는 방법을 제안한다.

  • PDF

Semantic Search based on Metadata (메타데이터 기반 시맨틱 검색)

  • Choi, Jung-Hwa;Park, Young-Tack
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.694-696
    • /
    • 2005
  • 본 논문은 `시맨틱 검색`을 위해서 시맨틱 웹 기술을 사용하여 사용자가 원하는 콘텐츠 제공을 위한 시맨틱 검색 방법을 제안한다. 본 연구는 현재 웹의 단점인 사람 위주의 웹 구성, 단순 텍스트 매칭 기반의 검색, 사람의 필터링이 필요한 대량의 결과, 특정 지식 검색이 불가능한 구조의 웹을 시맨틱 검색이 가능하도록 하기 위해서 다음과 같은 단계로 연구한다. 첫째, 도메인에 따른 정확한 정보의 제공을 위해서 OWL 온톨로지를 이용하여 컨텍스트 모델링한다. 둘째, 도메인 관련 웹 문서를 수집하고 도메인 온톨로지를 기반으로 키워드의 의미를 분석하고 주석 처리(annotation)한다. 셋째, 사용자의 자연어 질의에 의미있는 컨텍스트를 추가하여 질의를 확장한다. 넷째, 확장된 질의를 규칙기반 추론엔진을 이용하여 결과를 추론한다. 마지막으로, 사용자 프로파일 분석을 이용하여 선호하는 문서를 우선으로 추천하는 방법을 연구한다. 따라서 본 연구는 질의어에 해당하는 결과문서가 존재하지 않더라도 사용자가 선호하는 문서의 추론이 가능하고, 특정 도메인의 전문가 지식을 추가한 메타 데이터 추론을 통해서 검색 패러다임을 변화시킨다.

  • PDF

Extraction of Query Information and Generation of Identifier for Effective Component Classification and Retrieval (효율적인 컴포넌트 분류와 검색을 위한 질의정보 추출 및 식별자 생성)

  • Park, Jea-Youn;Song, Young-Jae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05c
    • /
    • pp.1753-1756
    • /
    • 2003
  • 소프트웨어 생산성과 품질을 개선하기 위한 방안으로 컴포넌트 기반의 소프트웨어 개발이 전개되고 있다. 소프트웨어 컴포넌트 라이브러리를 재사용하기 위해서는 재사용 가능한 컴포넌트를 효율적으로 수집하여 분류, 저장, 검색하여야한다. 기존의 요구사항 정형화 기법들은 요구사항들 간의 의미적 관계를 표현하는 데 초점을 맞추고 있어 컴포넌트 검색에는 적합하지 않으므로 본 연구에서는 개발하려는 유즈케이스 다이어그램을 구문분석을 거쳐 명세하여 질의 정보를 추출하였다. 기존의 자연어를 기반으로 하는 컴포넌트의 비정형적인 명세를 컴포넌트 검색과 조립에 필요한 정보를 효율적으로 얻을 수 있도록 구문분석과 추상화 단계를 거쳐 정형화된 중간형태의 명세로 전환하고 제안한 유사도를 사용하여 컴포넌트를 검색하고자 한다. 또한 개괄명세와 상세명세를 통해 컴포넌트 검색에 필요한 정보를 추출할 뿐만 아니라 컴포넌트의 aspect을 이용하여 컴포넌트 조림에 필요한 정보도 얻을 수 있다. 2차 질의를 통해 컴포넌트 검색의 정확도를 향상시키고 명세를 추상화시켜 검색의 재현율을 향상시킨다.

  • PDF

Acquirement and Storage of Knowledge in Intelligent Character System Using Question Answering System (질의응답시스템을 활용한 지능형 케릭터 시스템에서 지식의 획득과 저장)

  • Park, Hong-Won;Lee, Ki-Ju;Lee, Su-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.124-128
    • /
    • 2002
  • 질의응답시스템을 활용한 지능형 케릭터 시스템에서는 지능형 케릭터가 사용자(게이머)의 질의에 대해 응답할 때 해당 케릭터에 특정 지식이 주어지지 않은 경우에 대비하여 해당 지식을 질의의 주체인 사용자 혹은 다른 외부변수로부터 획득하는 방법론과 획득한 지식을 지능형 케릭터의 지식구조에 저장하는 방법론에 대한 연구가 병행되어 왔다. 본 논문에서는 지능형 케릭터가 사용자가 입력한 자연어 문장으로부터 특정 지식을 획득하고 획득한 지식을 정해진 방법에 따라 지능형 케릭터가 이해할 수 있는 지식구조로 구조화하는 방법론에 대해 구체적인 예를 통해 상세하게 설명한다.

  • PDF

Adversarial Examples for Robust Reading Comprehension (강건한 질의응답 모델을 위한 데이터셋 증강 기법)

  • Jang, Hansol;Jun, Changwook;Choi, Jooyoung;Sim, Myoseop;Kim, Hyun;Min, Kyungkoo
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.41-46
    • /
    • 2021
  • 기계 독해는 문단과 질문이 주어질 때에 정답을 맞추는 자연어처리의 연구분야다. 최근 기계 독해 모델이 사람보다 높은 성능을 보여주고 있지만, 문단과 질의가 크게 변하지 않더라도 예상과 다른 결과를 만들어 성능에 영향을 주기도 한다. 본 논문에서는 문단과 질문 두 가지 관점에서 적대적 예시 데이터를 사용하여 보다 강건한 질의응답 모델을 훈련하는 방식을 제안한다. 트랜스포머 인코더 모델을 활용하였으며, 데이터를 생성하기 위해서 KorQuAD 1.0 데이터셋에 적대적 예시를 추가하여 실험을 진행하였다. 적대적 예시를 이용한 데이터로 실험한 결과, 기존 모델보다 1% 가량 높은 성능을 보였다. 또한 질의의 적대적 예시 데이터를 활용하였을 때, 기존 KorQuAD 1.0 데이터에 대한 성능 향상을 확인하였다.

  • PDF

Evaluation of Large Language Models' Korean-Text to SQL Capability (대형 언어 모델의 한국어 Text-to-SQL 변환 능력 평가)

  • Jooyoung Choi;Kyungkoo Min;Myoseop Sim;Haemin Jung;Minjun Park;Stanley Jungkyu Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.171-176
    • /
    • 2023
  • 최근 등장한 대규모 데이터로 사전학습된 자연어 생성 모델들은 대화 능력 및 코드 생성 태스크등에서 인상적인 성능을 보여주고 있어, 본 논문에서는 대형 언어 모델 (LLM)의 한국어 질문을 SQL 쿼리 (Text-to-SQL) 변환하는 성능을 평가하고자 한다. 먼저, 영어 Text-to-SQL 벤치마크 데이터셋을 활용하여 영어 질의문을 한국어 질의문으로 번역하여 한국어 Text-to-SQL 데이터셋으로 만들었다. 대형 생성형 모델 (GPT-3 davinci, GPT-3 turbo) 의 few-shot 세팅에서 성능 평가를 진행하며, fine-tuning 없이도 대형 언어 모델들의 경쟁력있는 한국어 Text-to-SQL 변환 성능을 확인한다. 또한, 에러 분석을 수행하여 한국어 문장을 데이터베이스 쿼리문으로 변환하는 과정에서 발생하는 다양한 문제와 프롬프트 기법을 활용한 가능한 해결책을 제시한다.

  • PDF

Performance Improvement of Mathematical Formula Retrieval Using Two Different Kinds of Embedding (두 종류의 임베딩을 이용한 수식 검색 성능 개선)

  • Yang, Seon;Kim, Hyemin;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.616-618
    • /
    • 2018
  • 본 연구에서는 한글 질의어를 이용하여 MathML이라는 마크업 언어 형태로 저장된 수식을 검색하는 수식 검색 시스템을 제안하는데, 마크업 형태 자체에 대한 임베딩과 수식을 한글화 한 후의 임베딩이라는 두 가지 서로 다른 임베딩 결과를 이용하여 검색 성능을 향상시키는 것을 목표로 한다. 최근 자연어 처리의 많은 과제에서 임베딩은 거의 필수적으로 사용되고 있는데, 본 실험을 통해 자연어 문서가 아닌 마크업 형태 수식을 대상으로도 임베딩 사용이 성능 개선에 효과가 있음을 확인할 수 있다. 검색 환경을 실제와 유사하게 설정하기 위하여, 본 실험에서 사용하는 데이터에는 실험을 위해 수기로 작성된 수식들 외에도 실제 웹에서 가져온 여러 분야의 수많은 수식들이 포함된다. Indri 시스템을 이용하여 검색 실험을 수행한 결과, 임베딩을 활용하여 수식을 확장한 경우 수식 확장 이전에 비해 MRR 기준 4.8%p의 성능 향상을 확인할 수 있었다.

  • PDF

IBM Watson 작동방식에 대한 이해 및 사례 소개

  • Kim, Cheon-Sun
    • Broadcasting and Media Magazine
    • /
    • v.22 no.1
    • /
    • pp.1-9
    • /
    • 2017
  • IBM Watson은 새로운 컴퓨팅 시대인 코그니티브 시스템으로의 첫 걸음으로 상징된다. Watson은 현 프로그램 컴퓨팅의 시대 기반 위에 구축되었으나, 매우 중요한 방식에서 차이가 있다. ${\bullet}$ 오늘날 전세계 데이터의 80%를 차지하고 있는 복잡한 비정형 데이터에 대한 이해를 돕는 자연어 처리(Natural Language Processing) ${\bullet}$ 관련된 증거만을 기반으로 응답에 가중치를 부여하고 평가하기 위한 고도의 분석 기법을 적용한 가설 생성 및 평가 방식 ${\bullet}$ 반복을 통해 좀더 똑똑해 질 수 있도록 결과를 기반으로 학습을 개선할 수 있도록 돕는 동적 학습 방식이 각각이 Watson에만 특별한 것은 아니지만, Watson은 각 역량의 조합을 통해 강력한 솔루션을 제공하고 있다. IBM Watson과 같은 코그니티브 시스템은 조직이 생각하고, 행동하고, 운영되는 방식을 혁신시킬 수 있다. 이 글에서는 어떻게 IBM Watson이 시작되었으며, 직접적이고 신뢰할 수 있는 답변을 제공하기 위해 자연어 처리와 동적 학습 및 가설 생성/평가를 어떻게 조합하는지, 나아가 어떤 분야에서 적용되고 있는지 그 사례를 소개하고자 한다.

A Conversational Agent based on Learning Classifier System for Generating Various Types of Sentences (다양한 문장 생성을 위한 Learning Classifier System기반 대화형에 에이전트)

  • 윤은경;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.163-165
    • /
    • 2002
  • 인터넷 이용자 수가 증가함에 따라 각 사이트에서는 수많은 정보들 중에서 사용자가 원하는 정보를 효과적으로 제공해야 할 필요성이 증가하고 있다. 이에 따라 사용자와 자연어로 정보를 주고받으며 사이트의 가상 대리자 역할을 수행할 수 있는 대화형 에이전트에 관한 연구가 활발히 진행되고 있다. 하지만 대부분의 에이전트들이 단순한 패턴 매칭 기법을 사용하기 때문에 만족스러운 답변을 제공해주지 못하고 있다. 본 논문에서는 사이트에 대한 사용자의 친밀도를 높일 수 있도록 하기 위해, 자연어로 제공되는 사용자 질의에 대해 그 의도를 파악한 후 이에 대한 다양한 답변을 수행하는 대화형 에이전트를 제안한다. 이 때 대화의 지능성과 다양성을 보장하기 위하여 GA를 이용한 learning classifier system을 도입하여 주어진 데이터베이스로부터 새로운 문장을 만들어 다양한 답변을 할 수 있도록 한다. 연구실을 소개하는 간단한 문제에 적용하여, 그 가능성 및 개선점을 파악한다.

  • PDF

Informational Chatbot System about COVID-19 based on Natural Language Processing (자연어처리를 기반으로 한 코로나 정보 제공 챗봇 시스템)

  • Song, Ho-yeon;Gwak, Chan-woo;Lee, Dong-won;Lee, Yun-soo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.822-825
    • /
    • 2020
  • 본 논문에서는 코로나 바이러스로 인한 불편함을 겪는 사람들에게 코로나 관련 정보를 편리하게 제공하기 위해 인공지능 기반의 챗봇을 개발하였다. 인공지능 기술이 도입됨에 따라 챗봇이 여러 기관에서 고객 응대를 포함한 다양한 업무를 수행하고 있다는 점에 착안하여 IBM Watson Assistant를 활용한다. Watson Assistant는 사용자가 입력한 말을 자연어 처리를 통해 분석하여 문장을 생성한 후 사용자에게 전달한다. Intent와 Entitiy를 통해 질의의 행위와 주체를 입력한 후 높은 빈도가 예상되는 질문을 작성하고, Dialog를 통해 대화 흐름을 파악한다. 사용자는 Axure로 설계된 사용자 인터페이스를 통해 대화 전송, 정보 수신 등 동작을 취할 수 있으며, 각 언어에 맞는 SDK 라이브러리를 제공한다는 이점을 활용하여 Node.js로 화면에서 발생하는 액션과 데이터 전달을 처리한다.