• 제목/요약/키워드: 자연어 질의

검색결과 186건 처리시간 0.026초

클래스 임베딩과 주의 집중 순환 신경망을 이용한 자주 묻는 질문의 자동 분류 (Automatic Classification of Frequently Asked Questions Using Class Embedding and Attentive Recurrent Neural Network)

  • 장영진;김학수;김세빈;강동호;장현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.367-370
    • /
    • 2018
  • 웹 또는 모바일 사용자는 고객 센터에 구축된 자주 묻는 질문을 이용하여 원하는 서비스를 제공받는다. 그러나 자주 묻는 질문은 사용자가 직접 핵심어를 입력하여 검색된 결과 중 필요한 정보를 찾아야 하는 어려움이 있다. 이러한 문제를 해결하기 위해 본 논문에서는 사용자 질의를 입력 받아 질의에 해당하는 클래스를 분류해주는 문장 분류 모델을 제안한다. 제안모델은 웹이나 모바일 환경의 오타나 맞춤법 오류에 대한 강건함을 위해 자소 단위 합성곱 신경망을 사용한다. 그리고 기계 번역 이외에도 자연어 처리 부분에서 큰 성능 향상을 보여주는 주의 집중 방법과 클래스 임베딩을 이용한 문장 분류 시스템을 사용한다. 457개의 클래스 분류와 769개의 클래스 분류에 대한 실험 결과 Micro F1 점수 기준 81.32%, 61.11%의 성능을 보였다.

  • PDF

명사 워드넷과 단일어 사전을 이용한 한국어 동사 워드넷 구축 (Construction of Korean Verb Wordnet Using Preexisting Noun Wordnet and Monolingual Dictionary)

  • 이주호;배희숙;김은혜;김혜경;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.92-97
    • /
    • 2002
  • 의미기반 정보 검색, 자연어 질의 응답, 지식 자동 습득, 담화 처리 등 높은 수준의 자연언어처리 시스템에서 의미처리를 위한 대용량의 지식 베이스가 필요하다. 이러한 지식 베이스 중에서 가장 기본적인 것이 워드넷이다. 이러한 워드넷을 이용함으로써 여러 의미 사이의 의미 유사도를 구할 수 있고, 속성을 물려받을 수 있기 때문에 비슷한 속성을 가진 의미들을 한꺼번에 다루는 데 유용하다. 본 논문에서는 기본 어휘를 바탕으로 기존의 명사 워드넷과 단일어 사전을 이용하여 한국어 동사 워드넷을 구축하는 방법을 제시한다. 본 논문에서 1차 작업을 통하여 구축한 동사 워드넷에는 동사 1,757개에 대한 4,717개의 의미(중복을 포함하면 모두 5,235개의 의미)를 포함하고 있으며 특별히 의미가 많이 편중된 14개의 개념에 속한 571개의 의미를 53개의 세부 개념으로 재분류하여 최종적으로 모두 767개의 계층적 개념으로 구성된 동사 워드넷이 만들어 졌다.

  • PDF

한국어 생략어복원 가이드라인 (Korean Zero Anaphora Resolution Guidelines)

  • 류지희;임준호;임수종;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.213-219
    • /
    • 2017
  • 말과 글에서 유추가 가능한 정보에 대해서는 사람들이 일반적으로 생략해서 표현하는 경우를 볼 수 있다. 사람들은 생략된 정보를 문맥적으로 유추하여 이해하는 것이 어렵지 않지만, 컴퓨터의 경우 생략된 정보를 고려하지 못해 주어진 정보를 완전하게 이해하지 못하는 문제를 낳게 된다. 우리는 이러한 문제를 생략어복원을 통해 해결할 수 있다고 여기면서 본 논문을 통해 한국어 생략어복원에 대해 정의하고 기술 개발에 필요한 말뭉치 구축 시의 생략어복원 대상 및 태깅 사례를 포함하는 가이드라인을 제안한다. 또한 본 가이드라인에 의한 말뭉치 구축 및 기술 개발을 통해서 엑소브레인과 같은 한국어 질의응답 시스템의 품질 향상에 기여하는 것이 본 연구의 궁극적인 목적이다.

  • PDF

한국어 생략어복원 가이드라인 (Korean Zero Anaphora Resolution Guidelines)

  • 류지희;임준호;임수종;김현기
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.213-219
    • /
    • 2017
  • 말과 글에서 유추가 가능한 정보에 대해서는 사람들이 일반적으로 생략해서 표현하는 경우를 볼 수 있다. 사람들은 생략된 정보를 문맥적으로 유추하여 이해하는 것이 어렵지 않지만, 컴퓨터의 경우 생략된 정보를 고려하지 못해 주어진 정보를 완전하게 이해하지 못하는 문제를 낳게 된다. 우리는 이러한 문제를 생략어복원을 통해 해결할 수 있다고 여기면서 본 논문을 통해 한국어 생략어복원에 대해 정의하고 기술 개발에 필요한 말뭉치 구축 시의 생략어복원 대상 및 태깅 사례를 포함하는 가이드라인을 제안한다. 또한 본 가이드라인에 의한 말뭉치 구축 및 기술 개발을 통해서 엑소브레인과 같은 한국어 질의응답 시스템의 품질 향상에 기여하는 것이 본 연구의 궁극적인 목적이다.

  • PDF

바이그램 색인에 기반한 한-일 교차언어검색 (Korean-Japanese Cross Lingual Information Retrieval Based on Bi-gram Indexing)

  • 이규찬;강인수;나승훈;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.448-450
    • /
    • 2005
  • 교차언어검색 시스템은 다양한 언어자원을 필요로 한다. 여기서는 한-일 대역어 사전과 일본어 문서의 바이그램 색인만을 이용해서 교차언어검색을 수행하는 방법을 제시한다. 한국어로 된 자연어 질의에서 형태소분석기 등의 도움 없이 간단하게 일본어 대역어 리스트를 생성할 수 있는 방법과, 검색의 성능을 올릴 수 있도록 대역어에 가중치를 부여하는 방법을 제안한다. 그리고 실험을 통해 제시한 방법을 평가하고 분석한다.

  • PDF

Neural Attention을 반영한 문장 생성 모델 (Sentence generation model with neural attention)

  • 이세희;이지형
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2017년도 제55차 동계학술대회논문집 25권1호
    • /
    • pp.17-18
    • /
    • 2017
  • 자연어 처리 분야에서 대화문 생성, 질의응답 등과 같은 문장생성과 관련된 연구가 꾸준히 진행되고 있다. 본 논문에서는 기존 순환신경망 모델에 Neural Attention을 추가하여 주제 정보를 어느 정도 포함시킬지 결정한 뒤 다음 문장을 생성할 때 사용하는 모델을 제안한다. 이는 기존 문장과 다음 문장의 확률 정보를 사용할 뿐만 아니라 주제 정보를 추가하여 문맥적인 의미를 넣을 수 있기 때문에, 더욱 연관성 있는 문장을 생성할 수 있게 도와준다. 이 모델은 적절한 다음 문장을 생성할 뿐만 아니라 추가적으로 어떤 단어가 다음 문장을 생성함에 있어 주제문장에 더 민감하게 반응하는지 확인할 수 있다.

  • PDF

형태소 분석 주도의 한국어 복합동사 처리 (Morphological Analysis Driven Processing of Compound Verbal in Korean)

  • 이기오;김기철;이용석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.119-127
    • /
    • 1994
  • 복합동사의 처리는 기계변역이나 자연어 이해 시스템의 질에 상당한 영향을 주기 때문에 복합동사의 정확한 분석과 처리는 중요하다. 기종의 형태소 분석에서는 복합동사에 대한 처리를 복합 동사를 구성하는 각 용언들에 대한 분석결과를 생성하여 주고 구문분석단계에서 문법규칙을 이용하여 처리함으로써 문법이 커지고 파싱테이블과 심볼테이블이 커져 메모리 효율이 저하되고 형태소 분석에서의 품사 모호성이 구문분석단계에 영향을 주어 구문구조 모호성을 야기하며 복합동사의 정확한 의미를 나타내기 어려운 문제를 가진다. 본 논문은 한국어의 복합동사를 형태소 분석단계에서 처리해 주고 여기에서 처리하기 힘든 복합동사는 사전과 구문분석단계 등의 모듈에서 처리하는 총괄적인 복합동사 처리방법을 제안한다.

  • PDF

위치기반 서비스 시스템 분석을 위한 시뮬레이션 방법 (A Simulation Method for LBS system Anaysis)

  • 임재걸;한희웅
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.1581-1584
    • /
    • 2005
  • 위치기반 서비스는 일반적으로 사용자에게 매우 유용한 정보를 제공하기 때문에 위치기반 서비스를 제공하는 시스템 개발이 활발히 진행되고 있다. 하지만 위치기반 서비스 시스템 개발 초기에 설계중인 시스템을 최적화하기 위한 방법에 대한 연구는 찾아보기 힘들다. 본 논문은 설계중인 위치기반 서비스 시스템을 분석하는 시뮬레이션 방법을 소개한다. 제안하는 방법은 자연어로 기술된 전통적인 위치기반 서비스 시스템의 페트리 넷 모형을 구축하고, 시뮬레이션을 실행하여 설계 중인 시스템이 사용자가 요구하는 서비스의 질을 만족하는지 그렇지 않은지를 판단한다. 전자의 경우에는 자원을 절약하여 시스템 구축비용을 절감하는 방안을 모색할 수 있으며, 후자의 경우에는 설계 중인 시스템을 최소의 비용으로 보강하는 방안을 시뮬레이션을 통하여 모색할 수 있다 .

  • PDF

클라이언트-서버 구조를 기반으로 한 민속놀이 안내 도우미 시스템의 설계 및 구현

  • 강오한;김병만
    • 한국산업정보학회논문지
    • /
    • 제3권1호
    • /
    • pp.23-36
    • /
    • 1998
  • 본 논문에서는 전통 민속놀이를 동영상 및 안내음성으로 초고속통신망을 통하여 전송하고 상영할수 있는 클라이언트-서버형 민속놀이 안내 도우미 시스템의 구현 기술을 설명한다. 사용자가 마우스나 간단한 자연어를 통하여 보고자 하는 민속놀이나 요구사항을 입력하면 클라이언트는 서버에게 이를 전송하고 , 서버는 이런 조건을 만족하는 민속놀이의 동영상 및 안내음성을 초고속통신망을 통하여 클라이언트에게 전송하여 상영한다. 클라이언트-서버 시스템의 많은 기능들이 웹(WWW) 서버 프로그램과 브라우져(Browser0에서 기본 기능으로 제공되므로, 시스템의 구현에 이들 기능을 활요하였다. 클라이언트-서버형 도우미 시스템에서는 멀티미디어 데이터를 생성하는 기본기능외에도 멀티미디어 데이터의 동기화,키워드를 이용한 검색, 음성인식, 탐색(navigation)등의 다양한 기능을 사용자의 질의에 맞게 동작되도록 구현하였다.

토픽 모델을 이용한 수학식 검색 결과 재랭킹 (Reranking Search Results for Mathematical Equation Retrieval Using Topic Models)

  • 양선;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.77-81
    • /
    • 2013
  • 본 논문은 두 가지 주제에 대해 연구한다. 첫 번째는 수학식 검색에 대한 것이다. 웹에는 양질의 수학식 데이터가 마크업 언어 형태로 저장되어 있으며 이를 활용하기 위한 연구들이 활발히 진행되고 있다. 본 연구에서는 MathML (Mathematical Markup Language)로 저장된 수학식 데이터를 일반 질의어를 이용하여 검색한다. 두 번째 주제는 토픽 모델(topic model)로 검색 성능을 향상시키는 방법에 대한 것이다. 먼저 수학식 데이터를 일반 자연어 문장으로 변환한 후 Indri 시스템을 이용하여 검색을 수행하고, 토픽 모델을 이용하여 미리 산출된 스코어를 적용하여 검색 순위를 재랭킹한 결과, MRR 기준 평균 5%의 성능을 향상시킬 수 있었다.

  • PDF