• 제목/요약/키워드: 질의응답시스템

검색결과 438건 처리시간 0.029초

정렬된 성경 코퍼스로부터 바꿔쓰기표현(paraphrase)의 자동 추출 (Automatic Extraction of Paraphrases from a Parallel Bible Corpus)

  • 이공주;윤보현
    • 인지과학
    • /
    • 제17권4호
    • /
    • pp.323-336
    • /
    • 2006
  • 바꿔쓰기(paraphrasing)는 동일한 내용을 다르게 표현하는 방식을 의미한다. 이러한 바꿔쓰기표현들(paraphrues)은 기계번역, 질의 응답 시스템, 문서 요약과 같은 다양한 분야에 매우 유용하게 사용될 수 있다. 그러나 이와 같은 바꿔쓰기표현의 유용성에도 불구하고 바꿔쓰기표현을 자동으로 추출할 수 있는 방법이 매우 어렵다. 우선 바꿔쓰기표현을 자동으로 추출할 수 있는 데이터를 구하는 것부터가 어려운 문제이다. 본 연구에서는 여러 버전의 한글 성경 코퍼스로부터 바꿔쓰기표현을 자동으로 추출해 보고자 한다. 성경은 각 문장이 절과 구로 나누어져 있어 문장과 문장을 정렬시키는 것이 매우 용이하다. 정렬된 여러 버전의 성경 코퍼스로부터 자율학습(unsupervised learning)을 통해서 자동으로 바꿔쓰기표현을 추출한다. 이와 같은 방법은 어휘수준의 바꿔쓰기표현 뿐만 아니라 구문수준의 바꿔쓰기표현도 추출할 수 있음을 보여준다.

  • PDF

안전기준의 검색과 분석을 위한 기계독해 기반 질의응답 시스템 (Machine Reading Comprehension-based Question and Answering System for Search and Analysis of Safety Standards)

  • 김민호;조상현;박덕근;권혁철
    • 한국멀티미디어학회논문지
    • /
    • 제23권2호
    • /
    • pp.351-360
    • /
    • 2020
  • If various unreasonable safety standards are preemptively and effectively readjusted, the risk of accidents can be reduced. In this paper, we proposed a machine reading comprehension-based safety standard Q&A system to secure supporting technology for effective search and analysis of safety standards for integrated and systematic management of safety standards. The proposed model finds documents related to safety standard questions in the various laws and regulations, and then divides these documents into provisions. Only those provisions that are likely to contain the answer to the question are selected, and then the BERT-based machine reading comprehension model is used to find answers to questions related to safety standards. When the proposed safety standard Q&A system is applied to KorQuAD dataset, the performance of EM 40.42% and F1 55.34% are shown.

백과사전 질의응답을 위한 격틀 기반 의존관계 분석 (Dependency Relation Analysis using Case Frame for Encyclopedia Question-Answering System)

  • 임수종;정의석;장명길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.167-172
    • /
    • 2004
  • 백과사전에서 정답을 찾기 위한 정보 중의 하나로 구조분석 정보를 이용하기 위하여 의존 관계 분석을 통해 정확한 구조분석에 대한 연구를 하였다. 정답을 찾기 위한 대상이 되는 용언과 논항의 관계를 파악하기 위해 먼저 의존관계 분석의 모호성 정도를 줄이기 위해 문장을 구묶음으로 나누었고 나눠진 구묶음에서 중심어와 중심어에 해당하는 의미코드를 추출하였다. 이렇게 구분된 구묶음 간의 의존관계를 파악하기 위하여 주로 격틀과 의미코드에 의존하는 의미자질, 거리 자질, 격관계 자질, 절형태 자질을 이용하여 의존관계 모호성을 해소하였다. 백과사전의 특성상 생략되는 성분과 연속 동사 처리를 하여 보다 정확하게 백과사전 QA시스템에서 정답을 찾을 수 있는 정보를 제공하도록 하였다. 실험결과 동사구와 명사구의 의존관계는 89.43의 성능을 보였고 의존관계에 격을 부여한 경우는 78.40%의 정확율, 백과사전 후처리에 해당하는 복원은 68.23의 성능을 보인다.

  • PDF

투영벡터의 통계적성질을 이용한 영상 검색 (Image Retrieval using Statistical Property of Projection Vector)

  • 권동현;김용훈;배성포;이태홍
    • 한국통신학회논문지
    • /
    • 제25권7A호
    • /
    • pp.1044-1049
    • /
    • 2000
  • 영상의 특징을 나타내는 방법의 하나인 투영은 영상의 근사화된 형상 및 위치 정보 등의 많은 유용한 정보를 포함하고 있다. 그러나 투영을 영상 검색을 위한 방법으로 사용할 경우, 사용되는 색인 데이터 량이 많고, 에디터 베이스의 영상 크기에 따라 토영된 벡터의 길이가 달라진다는 단점이 있다. 이에 본 논문에서는 투영기법이 안고 있는 이러한 문제점을 극복하는 방법으로 데이터베이스 영상을 투영한 후 투영 벡터의 국부화를 통하여 영상의 지역적 특성이 반영되도록 하였으며, 색인 데이터 량을 주리기 위하여 투영된 벡터의 분산 값을 색인 데이터로 활용하였다. 제안된 방법은 검색 시 투영 기법의 장점을 수용함과 동시에 영상의 통계적 특성을 활용할 수 있을 뿐 아니라 시스템 구현 시 질의 시간 내에 응답을 얻을 수 있다는 이점이 있다.

  • PDF

웹을 이용한 개체명 부착 말뭉치의 자동생성과 정제 (Automatic Generation of Named Entity Tagged Corpus using Web Search Engine)

  • 안주희;이승우;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.85-91
    • /
    • 2002
  • 최근 정보 추출, 질의응답 시스템 등의 고정밀 자연어처리 어플리케이션이 부각됨에 따라 개체명 인식의 중요성이 더욱 커지고 있다. 이러한 개체명 인식을 위한 학습에는 대용량의 어휘자료를 필요로 하기 때문에 충분한 학습 데이터, 즉 개체명 태그가 부착된 충분한 코퍼스가 제공되지 못하는 경우 자료희귀문제(data sparseness problem)로 인하여 목적한 효과를 내지 못하는 경우가 않다. 그러나 태그가 부착된 코퍼스를 생성하는 일은 시간과 인력이 많이 드는 힘든 작업이다. 최근 인터넷의 발전으로 웹 데이터는 그 양이 매우 많으며, 습득 또한 웹 검색 엔진을 사용해서 자동으로 모음으로써 다량의 말뭉치를 모으는 것이 매우 용이하다. 따라서 최근에는 웹을 무한한 언어자원으로 보고 웹에서 필요한 언어자원을 자동으로 뽑는 연구가 활발히 진행되고 있다. 본 연구는 이러한 연구의 첫 시도로 웹으로부터 다량의 원시(raw) 코퍼스를 얻어 개체명 태깅 학습을 위한 태그 부착 코퍼스를 자동으로 생성하고 이렇게 생성된 말뭉치를 개체면 태깅 학습에 적용하는 비교 실험을 통해 수집된 말뭉치의 유효성을 검증하고자 한다. 향후에는 자동으로 웹으로부터 개체 명 태깅 규칙과 패턴을 뽑아내어 실제 개체명 태거를 빨리 개발하여 유용하게 사용할 수 있다.

  • PDF

명사 워드넷과 단일어 사전을 이용한 한국어 동사 워드넷 구축 (Construction of Korean Verb Wordnet Using Preexisting Noun Wordnet and Monolingual Dictionary)

  • 이주호;배희숙;김은혜;김혜경;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.92-97
    • /
    • 2002
  • 의미기반 정보 검색, 자연어 질의 응답, 지식 자동 습득, 담화 처리 등 높은 수준의 자연언어처리 시스템에서 의미처리를 위한 대용량의 지식 베이스가 필요하다. 이러한 지식 베이스 중에서 가장 기본적인 것이 워드넷이다. 이러한 워드넷을 이용함으로써 여러 의미 사이의 의미 유사도를 구할 수 있고, 속성을 물려받을 수 있기 때문에 비슷한 속성을 가진 의미들을 한꺼번에 다루는 데 유용하다. 본 논문에서는 기본 어휘를 바탕으로 기존의 명사 워드넷과 단일어 사전을 이용하여 한국어 동사 워드넷을 구축하는 방법을 제시한다. 본 논문에서 1차 작업을 통하여 구축한 동사 워드넷에는 동사 1,757개에 대한 4,717개의 의미(중복을 포함하면 모두 5,235개의 의미)를 포함하고 있으며 특별히 의미가 많이 편중된 14개의 개념에 속한 571개의 의미를 53개의 세부 개념으로 재분류하여 최종적으로 모두 767개의 계층적 개념으로 구성된 동사 워드넷이 만들어 졌다.

  • PDF

동적 프레임 크기 할당을 위한 태그 수 추정 기법 (Tag Number Estimation Scheme for Dynamic Frame Size Allocation)

  • 임인택;최진오;김수환;최진호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 춘계학술대회
    • /
    • pp.756-758
    • /
    • 2010
  • 프레임 기반 슬롯 ALOHA 알고리즘을 기반으로 하는 RFID 시스템인 경우, 고정된 프레임을 갖기 때문에 식별 영역 내에 있는 태그의 수와 프레임 크기에 따라 태그 식별 성능이 크게 변화할 것으로 예상된다. 따라서 본 논문에서는 하나의 질의 라운드 동안 태그들이 응답하는 슬롯의 상태와 확률적 계산을 통하여 얻은 결과를 바탕으로 리더의 식별 영역 내에 남아있는 태그의 수를 추정하는 기법을 제안하고, 이에 대한 성능을 분석한다.

  • PDF

Ko-ATOMIC 2.0: 한국어 상식 지식 그래프 구축 (Ko-ATOMIC 2.0: Constructing Commonsense Knowledge Graph in Korean)

  • 이재욱;서재형;정다현;박찬준;;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.319-323
    • /
    • 2023
  • 일반 상식 기반의 지식 그래프는 대규모 코퍼스에 포함되어 있는 일반 상식을 수집하고 구조화하는 지식의 표현 방법이다. 일반 상식 기반의 지식 그래프는 코퍼스 내에 포함되어 있는 다양한 일반 상식의 형태와 관계를 모델링하며, 주로 질의응답 시스템, 상식 추론 등의 자연어처리 하위 작업에 활용할 수 있다. 가장 잘 알려진 일반 상식 기반의 지식 그래프로는 ConceptNet [1], ATOMIC [2]이 있다. 하지만 한국어 기반의 일반 상식 기반의 지식 그래프에 대한 연구가 존재했지만, 자연어처리 태스크에 활용하기에는 충분하지 않다. 본 연구에서는 대규모 언어 모델과 프롬프트의 활용을 통해 한국어 일반 상식 기반의 지식 그래프를 효과적으로 구축하는 방법론을 제시한다. 또한, 제안하는 방법론으로 구축한 지식 그래프와 기존의 한국어 상식 그래프의 품질을 양적, 질적으로 검증한다.

  • PDF

음성녹음 기반의 실감형 어학시스템 콘텐츠 개발 (Development of tangible language content system based on voice recording)

  • 나종원
    • 한국항행학회논문지
    • /
    • 제17권2호
    • /
    • pp.234-239
    • /
    • 2013
  • 기존의 어학시스템 콘텐츠의 문제점은 수업에 대한 집중력 저하와 실제 학습여부를 판단할 수 없었고, 수업 진행자의 평가로 많은 결정이 되었다. 이로 인해 음성녹음 기반에 유비쿼터스 기술과 가상현실 기술을 조합하여 강의실에 프로젝터를 설치하고 각 강의실의 RFID 리더기 부착과 학생의 RFID 태그 부착된 학생증을 통해 영어 등급에 해당하는 콘텐츠를 학습한다. 3차원 영상 콘텐츠로 가상 현실상의 외국인과의 질의응답을 음성녹음 기술을 이용하여 발음과 억양을 동시에 체크 하여 레벨 패스 또는 레벨 실패를 판가름 한다. 이렇게 구성된 시스템은 학생 교육 데이터를 중앙 서버에 DB로 저장후 피드백 과정을 통해 정보를 제공하게 된다. 본 연구로 어학 콘텐츠에서 공통적으로 가질 수 있는 문제점들을 분석하고 문제점에 대하여 음성 녹음기술을 적용하여 기존의 어학콘텐츠에서 해결하지 못했던 문제점을 해결하였고 레벨위주의 수업이 가능하였다. 또한, 흥미위주의 적극적인 수업참여가 되도록 기여하였다.

강인한 오디오 핑거프린팅 시스템을 위한 에너지와 통계적 필터링 (Energy and Statistical Filtering for a Robust Audio Fingerprinting System)

  • 정병준;김대진
    • 한국콘텐츠학회논문지
    • /
    • 제12권5호
    • /
    • pp.1-9
    • /
    • 2012
  • 디지털 음악과 스마트 폰이 대중화되면서 잡음에 강인한 실시간 음악 핑거프린트 시스템이 다양하게 개발되고 있다. 특히 핑거프린트 알고리즘 중 Multiple Hashing(MLH)은 잡음에 강인하고 정교한 구조로 되어 있다. 본 논문에서는 음악 데이터베이스로부터 질의 및 응답의 정확도를 개선하기 위해 에너지 집중필터를 사용하고 연속성과 중복성을 제거하는 통계적 필터를 제안한다. 에너지 집중 필터는 하위 비트에 에너지가 집중되는 Discrite Cosine Transform(DCT)의 특징을 이용하고, 통계적 필터는 검색된 핑거프린트 정보들 사이의 상관관계 특성을 이용한다. 실험 결과로 잡음 환경에서 에너지와 통계적 필터링으로 구성된 제안 알고리즘은 우수성을 보인다. 이는 제안된 필터 엔진으로 Philips Robust Hash(PRH)보다 잡음에 강인하고 Multiple Hashing(MLH)보다 간결한 핑거프린트 시스템을 구성할 수 있다.