• 제목/요약/키워드: 한국어 발화 분석

검색결과 128건 처리시간 0.023초

문장의 종결정보와 예문을 이용한 핵심개념 기반의 한국어 대화체 파싱 (Core Concept-based Korean Spoken Language Parsing Using Ending Information and Example Sentences)

  • 김홍국;서영훈
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.279-284
    • /
    • 2000
  • 핵심개념 기반의 분석 시스템은 기존의 CFG형태로 기술된 문법의 양을 현저히 줄이고 간투어, 중복발화등과 같은 파싱 불필요 성분을 처리하는 루틴을 개선해 파서의 부담을 줄인 분석 방법이다. 핵심개념 기반 분석 시스템은 동사를 기준으로 문법을 기술한다. 따라서 발화자의 사투리 등에 의해서 동사 정보를 상실한 문장은 분석이 되지 않는 문제점을 가지고 있으며 또한, 문장 분석시 분석 문법을 구성할 수 없는 짧은 발화문같은 경우에도 분석을 하지 못하는 문제점을 가지고 있다. 이러한 문제점들을 해결하기 위해서 본 논문에서는 발화문의 예를 작성해 놓은 예문사전과 발화문이 가지고 있는 종결형 정보를 이용해서 그러한 문제를 해결하고 분석의 정확성을 높였다.

  • PDF

한국어 모바일 대화형 에이전트 시스템 (A Korean Mobile Conversational Agent System)

  • 홍금원;이연수;김민정;이승욱;이주영;임해창
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권6호
    • /
    • pp.263-271
    • /
    • 2008
  • 본 논문에서는 한국어 정보처리 기술을 사용한 모바일 환경의 대화형 에이전트 시스템에 대해 논한다. 대화형 에이전트 시스템 구축의 목적은 인간 사용자와 시스템 에이전트간의 자연어 인터페이스를 제공하여 보다 편리한 상호작용을 가능하게 하는 데 있다. 모바일 환경의 대화형 에이전트를 구축하기 위해서는 구어체 발화에 특화된 다양한 언어 처리 및 언어 이해 요소들이 필요하다. 본 시스템은 입력 문장의 오류처리, 형태소 분석 및 품사 태깅, 양태 분석, 논항 인식 및 의미프레임 생성, 그리고 유사 발화 검색 및 응답 생성으로 구성된다. 주어진 사용자 발화에 적절한 응답을 생성하기 위해서 본 시스템은 사용자 발화와 예제 발화 간의 어휘적, 통사/구문적, 의미적 유사도 정보를 활용하여 예제기반 응답 검색을 수행한다.

  • PDF

지지벡터기계(Support Vector Machines)를 이용한 한국어 화행분석 (An analysis of Speech Acts for Korean Using Support Vector Machines)

  • 은종민;이성욱;서정연
    • 정보처리학회논문지B
    • /
    • 제12B권3호
    • /
    • pp.365-368
    • /
    • 2005
  • 본 연구에서는 지지 벡터 기계(Support Vector Machines)를 이용하여 한국어 대화의 화행을 분석하는 방법을 제안한다. 우리는 발화의 어휘 및 품사와 이진 품사 쌍을 문장 자질로 사용하고 이전 발화의 문맥을 문맥 발화로 사용한다. 카이 제곱 통계량을 이용해 적절한 자질을 선택하고 선택된 자질로 지지 벡터 기계를 학습하였다. 학습된 지지 벡터 기계 분류기를 이용하여 각 발화의 화행을 분석하였다. 호텔 예약 영역의 말뭉치에 대해 제안된 시스템을 이용하여 실험한 결과 약 $90.54\%$의 정확률을 얻었다.

문장 유형과 양태 정보를 이용한 합성곱 신경망 기반의 대화체 발화 화행 분석 (CNN Based Speech-act Classification Using Sentence Types and Modalities)

  • 박용신;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.642-644
    • /
    • 2018
  • 화행(Speech-act)이란 어떤 목적을 달성하기 위해 발화를 통해 이루어지는 화자의 행위를 뜻하며, 화행 분석(Speech-act analysis)이란 주어진 발화의 화행을 결정하는 것을 뜻한다. 문장 유형과 양태는 화행의 일종으로, 문장 유형의 경우 화자의 기본적인 발화 의도에 따라 평서문, 명령문, 청유문, 의문문, 감탄문의 다섯 가지 유형으로 나눌 수 있고, 양태는 문장이 표현하는 명제나, 명제가 기술하는 상황에 대해서 화자가 갖는 의견이나 태도를 말한다. 본 논문에서는 종결어미와 보조용언으로부터 비교적 간단하게 추출 가능한 문장 유형과 양태 정보를 활용하여 대화체 발화문의 화행 분석 성능을 높이는 방법을 보인다. 본 논문에서 제안하는 모델은 합성곱 신경망(CNN)을 사용한 기본 모델에 비해 0.52%p 성능 향상을 보였다.

  • PDF

대규모 언어 모델 기반 한국어 휴지 예측 연구 (A Study on Korean Pause Prediction based Large Language Model)

  • 나정호;이정;나승훈;정정범;최맹식;이충희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.14-18
    • /
    • 2023
  • 본 연구는 한국어 음성-텍스트 데이터에서 보편적으로 나타난 휴지의 실현 양상을 분석하고, 이를 토대로 데이터셋을 선별해 보편적이고 규격화된 한국어 휴지 예측을 위한 모델을 제안하였다. 이를 위해 전문적인 발성 훈련을 받은 성우 등의 발화가 녹음된 음성-텍스트 데이터셋을 수집하고 MFA와 같은 음소 정렬기를 사용해 휴지를 라벨링하는 등의 전처리를 하고, 다양한 화자의 발화에서 공통적으로 나타난 휴지를 선별해 학습데이터셋을 구축하였다. 구축된 데이터셋을 바탕으로 LLM 중 하나인 KULLM 모델을 미세 조정하고 제안한 모델의 휴지 예측 성능을 평가하였다.

  • PDF

KFL중국인학습자들의 한국어 동형다의 종결어미 발화문에 대한 원어민화자의 지각 평가 양상 (Perceptive evaluation of Korean native speakers on the polysemic sentence final ending produced by Chinese Korean learners)

  • 윤영숙
    • 말소리와 음성과학
    • /
    • 제12권4호
    • /
    • pp.27-36
    • /
    • 2020
  • 본 논문은 중국인 한국어학습자들이 발화한 한국어 동형다의 종결어미 '-(으)ㄹ 걸' 대한 한국어 원어민화자들의 지각양상을 분석하고 이를 바탕으로 '-(으)ㄹ 걸'의 청지각적 의미 변별에 결정적인 역할을 하는 운율변수를 한국어 교육적 관점에서 분석하는 데 목적이 있다. 동형다의 종결어미는 하나의 형태로 두 개 이상의 의미를 전달하는 종결어미를 일컫는다. 지금까지 외국인학습자들을 대상으로 한 동형다의 종결어미에 대한 연구는 외국인학습자들의 발화문을 원어민 화자의 발화문과 비교·분석하여 음운론적·음성학적 유사점과 차이점을 분석하여 발화정확도나 오류유형을 측정하는 데 집중되었다. 이로 인해 원어민화자와의 유사성과 차이점이 '-(으)ㄹ 걸'의 의미 판별에 실제로 유의미한 작용을 하는지에 대한 청지각적 연구는 이루어지지 못했다. 본 연구에서는 중국인 한국어학습자들의 동형다의 종결어미 문장이 한국어 원어민화자들에게 어떤 양상으로 지각되는지 분석하여 동형다의 종결어미 억양교육에 필요한 운율 규범을 상정해 보고자 한다. 본 연구의 실험자료 산출에는 한국어 숙달도 중·고급에 해당하는 10명의 중국인 한국어학습자들이, 지각 실험에는 20대의 한국인 원어민화자들이 참가하였다. 분석 자료는 '-(으)ㄹ 걸'이 추측으로 사용된 두 문장과 후회로 사용된 두 문장이다. 10명의 중국인화자들이 4개의 실험문장을 4회 반복 발화분이 지각실험 자료로 사용되었다. 지각실험참가자들은 실험 자료를 들으면서 문장 경계성조의 억양에만 의존하여 '-(으)ㄹ 걸'의 의미와 정확성 정도를 판별하였다. 25명의 청취실험자들의 지각실험 결과를 바탕으로 정확한 추측, 추측, 모호함, 후회, 정확한 후회로 지각된 문장들의 운율변수, 즉 경계성조, 경계성조의 기울기, 경계음절과 선행음절 간 피치편차, 경계음절의 피치레벨을 측정하였다. 통계분석 결과 상기된 모든 운율변수가 '-(으)ㄹ 걸'의 의미변별과 유의미한 관련이 있음을 알 수 있었다. 즉 운율변수가 커질수록 추측으로 작아질수록 후회문장으로 지각됨을 관찰할 수 있었다. 그러나 로지스틱 회귀분석을 통해 의미변별에 가장 핵심적인 역할을 수행하는 운율변수는 피치편차임을 알 수 있었다. 이러한 결과는 '(으)ㄹ 걸'의 발화에서 마지막 두 음절의 피치 조절로 두 의미를 변별하여 발화할 수 있음을 의미하며 '-(으)ㄹ 걸'의 억양교육에서 보다 객관적이고 유의미한 규범적 운율 요소로 적용될 수 있을 것이다.

사전학습 모델을 이용한 음식업종 고객 발화 의도 분류 분석 (Analysis of utterance intent classification of cutomer in the food industry using Pretrained Model)

  • 김준회;임희석
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.43-44
    • /
    • 2022
  • 기존 자연어 처리 모델은 문맥 단위 단어 임베딩을 처리하지 못하는 한계점을 가지고 있는 한편 최근 BERT 기반 사전학습 모델들은 문장 단위 임베딩이 가능하고 사전학습을 통해 학습 효율이 비약적으로 개선되었다는 특징이 있다. 본 논문에서는 사전학습 언어 모델들을 이용하여 음식점, 배달전문점 등 음식 업종에서 발생한 고객 발화 의도를 분류하고 모델별 성능을 비교하여 최적의 모델을 제안하고자 한다. 연구결과, 사전학습 모델의 한국어 코퍼스와 Vocab 사이즈가 클수록 고객의 발화 의도를 잘 예측하였다. 한편, 본 연구에서 발화자의 의도를 크게 문의와 요청으로 구분하여 진행하였는데, 문의와 요청의 큰 차이점인 '물음표'를 제거한 후 성능을 비교해본 결과, 물음표가 존재할 때 발화자 의도 예측에 좋은 성능을 보였다. 이를 통해 음식 업종에서 발화자의 의도를 예측하는 시스템을 개발하고 챗봇 시스템 등에 활용한다면, 발화자의 의도에 적합한 서비스를 정확하게 적시에 제공할 수 있을 것으로 기대한다.

  • PDF

주의집중 메커니즘 기반의 양방향 GRU-CRF를 이용한 화행 분석과 슬롯 필링 공동 학습 모델 (A Joint Learning Model for Speech-act Analysis and Slot Filling Using Bidirectional GRU-CRF Based on Attention Mechanism)

  • 윤정민;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.252-255
    • /
    • 2018
  • 화행 분석이란 자연어 발화를 통해 나타나는 화자의 의도를 파악하는 것을 말하며, 슬롯 필링이란 자연어 발화에서 도메인에 맞는 정보를 추출하기 위해 미리 정의되어진 슬롯에 대한 값을 찾는 것을 말한다. 최근 화행 분석과 슬롯 필링 연구는 딥 러닝 기반의 공동 학습을 이용하는 연구가 많이 이루어지고 있고 본 논문에서는 한국어 특허상담 도메인 대화 말뭉치를 이용하여 공동 학습 모델을 구축하고 개별적인 모델과 성능을 비교한다. 또한 추가적으로 공동 학습 모델에 주의집중 메커니즘을 적용하여 성능이 향상됨을 보인다. 최종적으로 주의집중 메커니즘 기반의 공동 학습 모델이 기준 모델과 비교하여 화행 분류와 슬롯 필링 성능이 각각 3.35%p, 0.54%p 향상되어 85.41%, 80.94%의 성능을 얻었다.

  • PDF

대화 요약 생성을 위한 한국어 방송 대본 데이터셋 (KMSS: Korean Media Script Dataset for Dialogue Summarization )

  • 김봉수;전혜진;전현규;정혜인;장정훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.198-204
    • /
    • 2022
  • 대화 요약은 다중 발화자와 발화문으로 이루어진 멀티턴 형식의 문서에 대해 핵심내용을 추출하거나 생성하는 태스크이다. 대화 요약 모델은 추천, 대화 시스템 등에 콘텐츠, 서비스 기록에 대한 분석을 제공하는 데 유용하다. 하지만 모델 구축에 필요한 한국어 대화 요약 데이터셋에 대한 연구는 부족한 실정이다. 본 논문에서는 생성 기반 대화 요약을 위한 데이터셋을 제안한다. 이를 위해 국내 방송사의 대용량 콘텐츠로 부터 원천 데이터를 수집하고, 주석자가 수작업으로 레이블링 하였다. 구축된 데이터셋 규모는 6개 카테고리에 대해 약 100K이며, 요약문은 단문장, 세문장, 2할문장으로 구분되어 레이블링 되었다. 또한 본 논문에서는 데이터의 특성을 내재화하고 통제할 수 있도록 대화 요약 레이블링 가이드를 제안한다. 이를 기준으로 모델 적합성 검증에 사용될 디코딩 모델 구조를 선정한다. 실험을 통해 구축된 데이터의 몇가지 특성을 조명하고, 후속 연구를 위한 벤치마크 성능을 제시한다. 데이터와 모델은 aihub.or.kr에 배포 되었다.

  • PDF

음성인식 기반 리마인더를 위한 시간 표현 분석 기법 (Time Expression Analysis For Reminder Applications Using Speech Recognition)

  • 박재성;이상원;장재나;강상우
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.264-266
    • /
    • 2017
  • 본 연구는 리마인더 앱을 위한 효과적인 시간 표현 분석 방법을 제안한다. 시간 표현 분석을 위한 정규식 패턴을 이용하여 사용자 발화 텍스트로부터 시간 정보를 분석하고 시간 표현 유형에 따라 절대적 시간 정보로 변환한다. 제안한 방법은 정규식 패턴을 이용한 시간 표현 분석 기법으로 시스템의 유지 관리가 용이하고 정보량이 많은 패턴과의 매칭을 위해 효과적이다.

  • PDF