• 제목/요약/키워드: 질의응답시스템

검색결과 438건 처리시간 0.022초

HMM에 기반한 한국어 개체명 인식 (HMM-based Korean Named Entity Recognition)

  • 황이규;윤보현
    • 정보처리학회논문지B
    • /
    • 제10B권2호
    • /
    • pp.229-236
    • /
    • 2003
  • 개체명 인식은 질의응답 시스템이나 정보 추출 시스템에서 필수 불가결한 과정이다. 이 논문에서는 HMM 기반의 복합 명사 구성 원리를 이용한 한국어 개체명 인식 방법에 대해 설명한다. 한국어에서 많은 개체명들이 하나 이상의 단어로 구성되어 있다. 또한, 하나의 개체명을 구성하는 단어들 사이와 개체명과 개체명 주위의 단어 사이에도 문맥적 관계를 가지고 있다. 본 논문에서는 단어들을 개체명 독립 단어, 개체명 구성 단어, 개체명 인접 단어로 분류하고, 개체명 관련 단어 유형과 품사를 기반으로 HMM을 학습하였다. 본 논문에서 제안하는 개체명 인식 시스템은 가변길이의 개체명을 인식하기 위해 트라이그램 모델을 사용하였다. 트라이그램 모델을 이용한 HMM은 데이터 부족 문제를 가지고 있으며, 이를 해결하기 위해 다단계 백-오프를 이용하였다. 경제 분야 신문기사를 이용한 실험 결과 F-measure 97.6%의 결과를 얻었다.

한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램 (Named Entity Recognition and Dictionary Construction for Korean Title: Books, Movies, Music and TV Programs)

  • 박용민;이재성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권7호
    • /
    • pp.285-292
    • /
    • 2014
  • 개체명 인식은 정보검색 시스템, 질의응답 시스템, 기계번역 시스템 등의 성능을 향상시키기 위하여 사용된다. 개체명 인식은 일반적으로 PLOs(인명, 지명, 기관명)을 대상으로 하며, 주로 미등록어와 고유명사로 이루어져 있기 때문에 고유명사나 미등록어는 중요한 개체명 후보로 쓰일 수 있다. 하지만 도서명, 영화명, 음악명, TV프로그램명과 같은 제목 개체명은 PLO와는 달리 단어부터 문장까지 매우 다양한 형태를 지니고 있어서 개체명 인식이 쉽지 않다. 본 논문에서는 뉴스 기사문을 이용하여 제목 개체명을 빠르게 인식하고 자동으로 사전을 구축하는 방법을 제안한다. 먼저 특수기호로 묶인 어절을 추출하고, 주변 문맥 단어 및 단어 거리를 이용하여 SVM으로 제목 후보들을 추출하였다. 이렇게 추출된 제목 후보들은 상호 정보량을 가중치로 SVM을 이용해 제목 유형을 분류하였다.

사건 탐지 및 추적을 위해 신문기사에서 자동 추출된 시간정보의 유용성 판단 (Judgment about the Usefulness of Automatically Extracted Temporal Information from News Articles for Event Detection and Tracking)

  • 김평;맹성현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권6호
    • /
    • pp.564-573
    • /
    • 2006
  • 시간정보는 정보 추출, 질의응답 시스템, 자동 요약과 같은 자연언어 처리 응용분야에서 중요한 역할을 한다. 사건 탐지 및 추적 분야에서는 기사의 발행일이 기사간 유사도 계산에 많이 사용되고 있지만 그 유용성에는 한계가 있다. 본 연구에서는 사건 탐지 및 추적 시스템의 성능을 향상시키기 위해서, 한국어 신문기사를 대상으로 비교적 간단한 자연언어 처리 기술을 사용해서 시간정보를 추출하는 방법을 개발하였다. 시간표현 어구를 추출하기 위해 품사패턴과 어휘사전이 사용되었고, 추출된 시간표현 어구는 정규화 과정을 통해 특정 시각 또는 기간으로 변환되었다. 실험을 통해 시간표현 추출과정의 정확도를 측정하였고, 기사에서 자동으로 추출된 시간을 사용함으로써 사건 탐지 및 추적 시스템의 성능을 향상시킬 수 있었다.

웹 브라우저를 활용한 교수자-학습자 소통 프로그램 효과성 연구 (Exploring the Effects of the Audience Presentation System Using a Web Browser)

  • 조동식;이혜영;이혜진
    • 한국정보통신학회논문지
    • /
    • 제24권2호
    • /
    • pp.238-243
    • /
    • 2020
  • 학습자(Student)는 질문을 통해 본인이 궁금증을 좀 더 명확히 하여 학습 효과를 극대화할 수 있는데도 불구하고, 수업 및 강의 시간에 학습자가 교수자(Lecturer)에게 질문을 하지 못하는 다양한 이유가 있다(예. 학습자의 질문에 대한 부끄러움). 특히, 다수의 학습자가 참여하는 강의의 경우 더 크게 이러한 상황이 발생하게 된다. 최근, 이를 극복하고자 학습자에게 질문 혹은 커멘트를 좀 더 쉽고 편안하게 할 수 있는 교수자-학습자 소통 프로그램(Audience Presentation System, APS)이 활성화 되어 강의 시간에 널리 사용되고 있다. 이러한 APS 프로그램은 실제로 얼마만큼의 효과가 있는지에 대해 아직까지 명확히 드러난 연구 사례를 없는 상황이다. 본 논문에서는 설문 조사를 기반으로 APS 시스템에 대한 효과성 분석을 수행하였다. 본 연구 논문의 결과에 따르면, APS 시스템을 사용한 경우 사용성, 흥미도, 참여도, 필요성, 활용도 등 전반적으로 모든 학습자들이 만족한다는 것을 알 수 있었다.

데이터 웨어하우스 성능 관리를 위한 DBMax의 확장 (An Extension of the DBMax for Data Warehouse Performance Administration)

  • 김은주;용환승;이상원
    • 정보처리학회논문지D
    • /
    • 제10D권3호
    • /
    • pp.407-416
    • /
    • 2003
  • 데이터베이스의 사용이 증가하고 다루어야 하는 데이터의 양이 방대해지면서 데이터베이스 시스템을 효율적으로 사용하기 위한 성능 관리 기술이 중요해지고 있다. 특히 데이터 웨어하우스는 대용량의 데이터를 대상으로 복잡한 분석을 수행하거나 전략적 의사 결정을 위해 사용하기 때문에 신속한 질의 응답을 위한 성능 관리가 무엇보다 중요하다. 데이터 웨어하우스는 일반 운영계 시스템과는 다른 목적과 특성을 가지기 때문에 그에 적합한 성능 모니터링 방법 및 튜닝 기술이 필요하다. 본 연구에서는 OLTP(On-Line Transaction Processing)용 오라클 데이터베이스를 위한 국산 성능 관리 도구인 DBMax를 데이터 웨어하우스 환경에 적합하도록 기능을 확장한다. 우선 데이터 웨어하우스 응용 분야를 지원하기 위한 오라클 9i의 요약 관리(summary management) 기능과 ETL(Data Extraction, Transformation and Loading) 기능을 중심으로 데이터 웨어하우스 시스템의 성능 관리시 고려해야 할 요구 사항을 분석하고 이를 지원하는 DBMax의 확장 아키텍처를 설계 및 구현한다. 구체적으로 요약 관리와 ETL 작업을 지원하기 위한 오라클 9i의 다양한 스키마 객체에 대한 정보와 성능 관련 지표를 제시하여 데이터 웨어하우스 환경에서 수행되는 질의에 대한 SQL 튜닝 기능을 강화한다. 또한 사후 분석을 위한 BBMax의 로그 파일에서 의미 있는 SQL 문을 추출하여 잠재적으로 유용한 실체화된 뷰를 추천하는 요약 권고 기능을 추가한다.

Multi-pass Sieve를 이용한 한국어 상호참조해결 (Korean Coreference Resolution using the Multi-pass Sieve)

  • 박천음;최경호;이창기
    • 정보과학회 논문지
    • /
    • 제41권11호
    • /
    • pp.992-1005
    • /
    • 2014
  • 상호참조해결은 문서 내에서 선행하는 명사구와 현재 등장한 명사구 간에 같은 개체를 의미하는 지를 결정하는 문제로 정보 추출, 문서분류 및 요약, 질의응답 등에 적용된다. 본 논문은 상호참조해결의 규칙기반 방법 중 가장 성능이 좋은 Stanford의 다 단계 시브(Multi-pass Sieve) 시스템을 한국어에 적용한다. 본 논문에서는 모든 명사구를 멘션(mention)으로 다루고 있으며, Stanford의 다 단계 시브 시스템과는 달리 멘션 추출을 위해 의존 구문 트리를 이용하고, 동적으로 한국어 약어 리스트를 구축한다. 또한 한국어 대명사를 참조하는데 있어 중심화 이론 중 중심의 전이적인 특성을 적용하여 가중치를 부여하는 방법을 제안한다. 실험 결과 F1 값은 MUC 59.0%, B3 59.5%, Ceafe 63.5%, CoNLL(평균) 60.7%의 성능을 보였다.

사용자의 이해수준에 따른 효율적인 웹문서 검색 (Efficient Web Document Search based on Users' Understanding Levels)

  • 심상희;이수정
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권1호
    • /
    • pp.38-46
    • /
    • 2009
  • 웹 문서 수가 급격히 증가함에 따라 인터넷을 검색할 때마다 발생하는 정보의 과부하 문제가 심각하게 부각되었다. 이러한 문제를 경감시키기 위해 사용자의 선호도에 부합하는 웹 환경을 조성하여 주는 등의 개인화 작업이 주목을 받고 있으나, 대부분의 검색 엔진은 사용자 질의어에만 초점을 두어 응답결과를 산출하고 있다. 이에 본 논문에서는 사용자의 이해수준에 따른 개인화된 검색 결과를 추출하는 방식에 대해 연구한다. 기존 연구와 차별화된 특징은 사용자 이해 수준을 고려하여 그에 맞는 난이도의 문서들이 우선적으로 검색되게 하는 것이다. 문서에 접근한 사용자들의 이해수준을 바탕으로 문서난이도를 변경시켜 주고, 사용자의 이해수준은 사용자가 접근한 문서 난이도를 바탕으로 주기적으로 변경시켜, 문서 난이도와 사용자 이해수준이 상호 연계되며 변경되도록 하였다. 본 논문의 결과를 적용한 웹 검색 시스템은 다양한 연령충의 웹 사용자들에게 매우 유익한 결과를 가져다 줄 것이다.

퍼지필터링 기반의 메시지 사서함 서비스를 위한 genealogy 그룹화 (Genealogy grouping for services of message post-office box based on fuzzy-filtering)

  • 이종득;안정용
    • 한국지능시스템학회논문지
    • /
    • 제15권6호
    • /
    • pp.701-708
    • /
    • 2005
  • 사서함 구조에서 메시지 서비스를 위한 중요한 구조적 메커니즘은 메시지 객체들을 콘텐츠에 따라 그룹 클래스 계층 구조를 구성하는 것이다. 본 논문에서는 응용 도메인에서 많은 구조적인 메시지 객체들을 클러스터링하기 위한 $\alpha$-cut 기반의 genealogy 그룹화 방법을 제안한다. 제안된 방법은 의미적 유사 관계와 퍼지 유사 관계를 이용하여 관계성을 결정하고 search() insert(), hierarchy()의 연산을 이용하여 그룹화 구조를 수행한다. 이러한 구조는 그룹과 관련된 작업을 쉽게 처리해주고 질의응답 객체 식별, 유사성 발견 등을 쉽게 해준다. 따라서 제안된 사서함 구조는 그룹화 생성을 통해서 사용자들에게 메시지객체를 효율적으로 서비스하고 관리하는 기능을 제공한다. 그리고 제안된 기법의 성능을 알아보기 위해 5600개의 메시지 객체를 이용하여 non-grouping, BGM, RGM, OGM 방법과 비교 분석한다.

GuessWhat?! 문제에 대한 분석과 파훼 (Analyzing and Solving GuessWhat?!)

  • 이상우;한철호;허유정;강우영;전재현;장병탁
    • 정보과학회 논문지
    • /
    • 제45권1호
    • /
    • pp.30-35
    • /
    • 2018
  • GuessWhat?!은 질문자와 답변자로 구성된 두 플레이어가 이미지를 보고 질문자에게 비밀로 감추어진 정답 물체에 대해 예/아니오/잘 모르겠음 셋 중 하나로 묻고 답하며, 정답 물체를 추려 나가는 문제이다. GuessWhat?!은 최근 컴퓨터 비전과 인공지능 대화 시스템의 테스트베드로서 컴퓨터 비전과 인공지능 학계의 많은 관심을 받았다. 본 논문에서, 우리는 GuessWhat?! 게임 프레임워크가 가지는 특성에 대해 논의한다. 더 나아가, 우리는 제안된 틀을 기반으로 GuessWhat?!의 간단한 solution을 제안한다. 사람이 평균 4~5개 정도의 질문을 통하여 맞추는 이 문제에 대하여, 우리가 제안한 방법은 2개의 질문만으로 기존 딥러닝 기반 기술의 성능을 상회하는 성능을 보이며, 5개의 질문이 허용되면 인간 수준의 성능을 능가한다.

한국어 Hedge 문장 인식을 위한 태깅 말뭉치 및 단서어구 패턴 구축 (Constructing Tagged Corpus and Cue Word Patterns for Detecting Korean Hedge Sentences)

  • 정주석;김준혁;김해일;오성호;강신재
    • 한국지능시스템학회논문지
    • /
    • 제21권6호
    • /
    • pp.761-766
    • /
    • 2011
  • Hedge는 불확실함을 나타내는 언어적 표현으로, 저자가 자신의 글에 내포된 내용이 불확실하거나 의심이 갈 때 사용한다. 이러한 불확실성 때문에 hedge가 포함된 문장은 사실이 아닌 문장으로 간주된다. 문장이 사실인지 아닌지를 판단하는 것은 여러 응용에서 사용될 수 있는데, 정보검색, 정보추출, 질의응답 등의 응용분야에서 전처리 과정으로 사용되어, 보다 정확한 결과를 얻게 한다. 본 논문에서는 한국어 hedge 말뭉치를 구축하고, 이로부터 hedge 단서 어구들을 추출하여 일반화된 단서어구 패턴을 구축한 후, 한국어 hedge 인식 실험을 하였다. 실험을 통하여 78.6%의 F1-measure값을 얻을 수 있었다.