• Title/Summary/Keyword: 말뭉치 생성

검색결과 139건 처리시간 0.027초

형태소 분석 기법을 이용한 음성 인식 후처리 (Postprocessing of A Speech Recognition using the Morphological Anlaysis Technique)

  • 박미성;김미진;김계성;김성규;이문희;최재혁;이상조
    • 전자공학회논문지C
    • /
    • 제36C권4호
    • /
    • pp.65-77
    • /
    • 1999
  • 연속 음성 인식 결과를 자연어 처리 기술과 접목시키기 위해 처리해야 할 두가지 문제점이 있다. 첫째는 말하는 단위와 문서의 띄어쓰기 단위가 일치하지 않는다는 것이고, 둘째는 발음시 형태소 내부 및 형태소 간에 음운 변동 현상이 생긴다는 것이다. 본 논문에서는 이 두가지 문제를 어절생성기와 음절복원기로 해결하고, 생성된 결과들을 형태소 분석하여 실패한 결과들은 교정기를 통해 교정하는 연속 음성 인식 후처리 시스템을 구현하였다. 제안한 시스템의 실험은 두 종류의 음성 말뭉치 ?, 교과서 음성 말뭉치와 사설 음성 말뭉치를 대항으로 수행하였다. 각 말뭉치에 대한 성공률은 각각 93.72%, 92.26% 였고, 이 실험으로 제안한 시스템은 음성 말뭉치의 종류에 민감하지 않는 안정된 시스템임을 알 수 있었다.

  • PDF

주제 임베딩을 활용한 한국어 생성 기반 챗봇 (Korean Generative Chatbot using Topic Embedding)

  • 오신혁;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.524-528
    • /
    • 2020
  • 챗봇은 발화에 대해 컴퓨터가 자동으로 응답하는 시스템이다. 현재 챗봇은 전체 주제에 대한 잡담(chit-chat)보다는 특정 주제에 관한 대화를 목적으로 많이 개발되고 있다. 하지만 개개인이 필요로 하는 챗봇 용도에 적합한 학습 데이터는 부족하다. 이러한 상황에서 챗봇 학습을 위해 필요한 주제의 말뭉치를 대량으로 구축하는 것은 시간과 비용이 많이 소모되어 현실적으로 어렵다. 따라서 학습에 필요한 소량의 말뭉치만 사용하더라도 주제에 적합한 응답을 할 수 있는 챗봇이 필요하다. 이에 본 논문은 챗봇의 목적과 관련 없는 대량의 말뭉치와 소량의 주제 기반 말뭉치를 이용하여 높은 성능을 끌어낼 수 있는 주제 임베딩 방법을 제안한다.

  • PDF

Bidirectional Dynamic LSTM을 이용한 음절 단위 개체명 추출 및 자동화된 말뭉치 구축 (Syllables-based Named Entity Extraction and Automatic Corpus Construction using Bidirectional Dynamic LSTM)

  • 오성식;임창대;안기호;박외진
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.317-320
    • /
    • 2017
  • 개체명 인식은 자연어 문장에서 장소, 제작물, 사람 등 분류를 통한 의미 부여가 가능한 단어를 파악하는 기술로서 의미 분석을 위한 핵심 기술이다. 현재 많은 개체명 분석 관련 연구들은 형태소 분석 결과에 의존적인 형태를 갖고 있어서, 형태소 분석 결과의 정확성이 개체명 분석 결과의 성능에 영향을 미치고 있다. 본 연구에서는 형태소 분석 과정을 거치지 않는 음절 기반의 개체명 분석 기술을 제안하여 형태소 분석의 정확도가 낮은 통신어, 신조어 분석 성능을 향상하였다. 또한, 자동화된 방법으로 음절 단위 개체명 말뭉치 및 개체명 사전을 구축하는 프로세스를 정의하여 개체명 분석의 정확도 향상 및 인지 범주의 확대를 도모하였다. 본 연구에서 제안한 개체명 인식 기술은 한국어 개체명 표준에 기반한 129가지의 개체명 분류가 가능하며, 이는 자연어 처리 기술이 필요한 산업계에서 상용화하는데 큰 기여를 할 것으로 판단된다.

  • PDF

말뭉치 정규화와 의미 규칙 기반 요구사항 정제를 통한 원인-결과 그래프 자동 생성 (Automatic Generation of Cause-Effect Graph through Refining Requirements Specifications based on Semantic rules with Corpus Normalization)

  • 장우성;김영철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.691-693
    • /
    • 2019
  • 현실적으로 요구사항의 불명료성은 테스트 케이스 추출에 어려움을 초래한다. 명료한 요구사항 기반의 사용자 승인 테스트는 소프트웨어의 올바른 품질을 증가시키고, 유지보수 비용을 감소시킨다. 하지만 중소기업에서는 촉박한 개발 기간, 테스트 도구 구매 비용의 부담, 낮은 테스트 기술 레벨 등의 이유로 좋은 품질의 테스트를 수행하기가 힘들다. 이러한 문제점의 해결을 위해 말뭉치 정규화를 이용한 의미 규칙으로 불명료한 요구사항을 간결하고 명료한 요구사항으로 변경하기 위한 메커니즘을 제안한다. 또한 이를 원인-결과 그래프 자동 생성하는 방법을 제안한다. 이는 원인-결과 그래프를 통해 테스트케이스를 최대한 생성하는 기초가 될 수 있다.

한국어 시간정보추출 연구를 위한 언어자원 및 시스템 구축 (Constructing a Korean Language Resource and Developing a Temporal Information Extraction System for Korean Documents)

  • 임채균;오교중;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.636-638
    • /
    • 2018
  • 본 논문에서는 영어권에 비해 상대적으로 부족한 한국어 언어자원을 지속적으로 구축함으로써 한국어 문서로 구성된 시간정보 주석 말뭉치를 확보하고 이를 바탕으로 한국어 시간정보추출 시스템에 대한 연구를 수행한다. 말뭉치 구축 과정에서의 시간정보 주석 작업은 가이드라인을 숙지한 주석자들이 수작업으로 기록하고, 어떤 주석 결과에 대해 의견이 다른 경우에는 중재자가 주석자들과 함께 검토하며 합의점을 도출한다. 시간정보추출 시스템은 자연어 문장에 대한 형태소 분석결과를 이용하여 시간표현(TIMEX3), 시간관계와 연관된 사건(EVENT), 시간표현 및 사건들 간의 시간관계(TLINK)를 추출하는 단계로 이루어진다. 추출된 한국어 시간정보는 문서 내 공통된 개체에 대한 공간정보와 결합함으로써 시공간정보가 모두 반영된 SPOTL을 생성한다. 추후 실험을 통하여 제안시스템의 구체적인 시간정보추출 성능을 파악할 것이다.

  • PDF

외국인의 한국어 학습을 위한 어휘 문제 자동 생성 (Automatic Generation of Vocabulary Problem for Learning Korean as a Foreign Language)

  • 김성욱;임재현;김예인;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.247-250
    • /
    • 2014
  • 국내에서 거주하는 외국인들을 대상으로 한 여러 정책들이 만들어지고 있다, 그에 따른 한국어 교육의 수요는 증가하고 있지만 그에 적합한 한국어 교육시스템의 자동화 및 발전은 미약하다. 본 논문에서는 사전예문과 획득이 용이한 말뭉치를 가공하여 적절한 수준의 문제를 자동으로 생성하는 방법을 제안한다. 자동문제생성에서는 말뭉치와 사전 예문에서 문제와 보기문항을 생성하고, 보기 리스트를 생성한다. 웹문서 검색빈도를 이용하여 생성된 보기리스트의 적합성을 분석하여 정제된 보기 리스트를 획득한다. 얻어진 보기들을 임의로 선택하여 출력함으로써 사용자들이 다양한 문제를 접할 수 있도록 한다.

  • PDF

생성적 적대적 신경망을 이용한 생성기반 멀티턴 챗봇 (Generative Multi-Turn Chatbot Using Generative Adversarial Network)

  • 김진태;김학수;권오욱;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.25-30
    • /
    • 2018
  • 기존의 검색 기반 챗봇 시스템과 다르게 생성 기반 챗봇 시스템은 사전에 정의된 응답에 의존하지 않고 채팅 말뭉치를 학습한 신경망 모델을 사용하여 응답을 생성한다. 생성 기반 챗봇 시스템이 사람과 같이 자연스러운 응답을 생성하려면 이전 문맥을 반영해야 할 필요가 있다. 기존 연구에서는 문맥을 반영하기 위해 이전 문맥과 입력 발화를 통합하여 하나의 벡터로 표현했다. 이러한 경우 이전 문맥과 입력 발화가 분리되어 있지 않아 이전 문맥이 필요하지 않는 경우 잡음으로 작용할 수 있다. 본 논문은 이러한 문제를 해결하기 위해 입력 발화와 이전 문맥을 각각의 벡터로 표현하는 방법을 제안한다. 또한 생성적 적대적 신경망을 통해 챗봇 시스템을 보강하는 방법을 제안한다. 채팅 말뭉치(55,000 개의 학습 데이터, 5,000개의 검증 데이터, 5,260 개의 평가 데이터)를 사용한 실험에서 제안한 문맥 반영 방법과 생성적 적대적 신경망을 통한 챗봇 시스템 보강 방법은 BLEU와 임베딩 기반 평가의 성능 향상에 도움을 주었다.

  • PDF

바이오 분야 학술 문헌에서의 분야별 관계 추출 데이터셋 반자동 구축에 관한 연구 - 알츠하이머병 유관 유전자 간 상호 작용 중심으로 - (A Study on the Semiautomatic Construction of Domain-Specific Relation Extraction Datasets from Biomedical Abstracts - Mainly Focusing on a Genic Interaction Dataset in Alzheimer's Disease Domain -)

  • 최성필;유석종;조현양
    • 한국도서관정보학회지
    • /
    • 제47권4호
    • /
    • pp.289-307
    • /
    • 2016
  • 본 논문에서는 생의학 분야의 특정 세부 분야에 특화된 관계 추출 학습 말뭉치를 효율적으로 구축할 수 있는 시스템을 소개한다. 이 시스템은 대상 분야에 해당하는 용어집(유전자, 단백질, 질환 명칭 등)을 입력하면, 대용량 상호 작용 데이터베이스를 통해서 이들 용어 간의 연관 관계를 1차적으로 생성하고 생성된 연관 관계 집합을 다시 학술 데이터베이스에서 검색하여 최종적으로 연관 관계 포함 문장을 추출하는 형태로 수행된다. 개발된 시스템의 유용성 검증을 위해서 알츠하이머병 분야에서의 유전자 간 상호 작용 학습 말뭉치를 구축하는데 본 시스템을 적용하였고, 140개의 유전자 집합을 입력하여 이 분야에 특화된 학습 집합인 유전자 쌍 및 상호 작용 포함 문장 3,510 건을 추출하였다. 본 논문에서 제안한 시스템을 활용함으로써 기존에 완전 수작업으로 수행되던 연관 관계 추출용 학습 말뭉치 구축의 효율성을 높일 수 있고 다양한 세부 분야에 적합한 학습 말뭉치 구축에 도움을 줄 수 있다.

Denoising Transformer기반 한국어 맞춤법 교정기 (Korean Spell Correction based on Denoising Transformer)

  • 박찬준;정솔;양기수;이수미;조재춘;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.368-372
    • /
    • 2019
  • 맞춤법 교정이란 주어진 문장에서 나타나는 철자 및 맞춤법 오류들을 올바르게 교정하는 것을 뜻하며 맞춤법 교정 시스템이란 컴퓨터가 이를 자동으로 수행하는 것을 의미한다. 본 논문에서는 맞춤법 교정을 기계번역의 관점으로 바라보고 문제를 해결하였다. 소스문장에 맞춤법 오류문장, 타겟 문장에 올바른 문장을 넣어 학습시키는 방법을 제안한다. 본 논문에서는 단일 말뭉치로 한국어 맞춤법 병렬 말뭉치를 구성하는 방법을 제안하며 G2P(Grapheme to Phoneme)를 이용한 오류 데이터 생성, 자모 단위 철자 오류데이터 생성, 통번역 데이터 기반 오류 데이터 생성 크게 3가지 방법론을 이용하여 맞춤법 오류데이터를 생성하는 방법론을 제안한다. 실험결과 GLEU 점수 65.98의 성능을 보였으며 44.68, 39.55의 성능을 보인 상용화 시스템보다 우수한 성능을 보였다.

  • PDF

과학기술 용어에 대한 용어 생명주기 고찰 -전자신문 말뭉치를 중심으로- (A Study on Term Life Cycle for Science & Technology Terms -Focused on 'ETNEWS' Corpus-)

  • 정한민;성원경
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 추계 종합학술대회 논문집
    • /
    • pp.84-89
    • /
    • 2006
  • 과학기술 분야에서의 기술 발전 속도에 맞추어 해당 분야의 용어 역시 생성과 소멸을 끊임없이 반복한다. 본 연구에서는 아직까지 체계적으로 다루어지고 있지 않은 용어 생명주기를 정의하고 다양한 관점으로 대용량 말뭉치에서 추출된 용어들을 분석함으로써 그 필요성을 주장하고자 한다. 용어 추출을 위한 대상으로서 12년 분량의 1,700여만 어절을 포함하는 전자신문 말뭉치를 선정하였는데, 그 이유는 여러 기간에 걸친 말뭉치이므로 용어 생명주기 추이를 파악하기 용이하며, 기술 발전이 빠른 대표적인 분야인 컴퓨터/IT/전기 전자를 포함하고 있기 때문이다. 본 연구를 통해 기간에 따른 용어 생명주기 변화, 용어 수명과 전문성과의 관계 등 여러 분석 결과를 얻었으며, 앞으로 일반 사전에의 등재 여부를 결정이나 유사 기술 간의 경쟁 구도를 분석 등 다양한 응용 분야에 활용될 것으로 기대 한다.

  • PDF