• 제목/요약/키워드: 구어 말뭉치

검색결과 21건 처리시간 0.025초

말뭉치 자원 희소성에 따른 통계적 수지 신호 번역 문제의 해결 (Addressing Low-Resource Problems in Statistical Machine Translation of Manual Signals in Sign Language)

  • 박한철;김정호;박종철
    • 정보과학회 논문지
    • /
    • 제44권2호
    • /
    • pp.163-170
    • /
    • 2017
  • 통계적 기계 번역을 이용한 구어-수화 번역 연구가 활발해짐에도 불구하고 수화 말뭉치의 자원 희소성 문제는 해결되지 않고 있다. 본 연구는 수화 번역의 첫 번째 단계로써 통계적 기계 번역을 이용한 구어-수지 신호 번역에서 말뭉치 자원 희소성으로부터 기인하는 문제점들을 해결할 수 있는 세 가지 전처리 방법을 제안한다. 본 연구에서 제안하는 방법은 1) 구어 문장의 패러프레이징을 통한 말뭉치 확장 방법, 2) 구어 단어의 표제어화를 통한 개별 어휘 출현 빈도 증가 및 구어 표현의 번역 가능성을 향상시키는 방법, 그리고 3) 수지 표현으로 전사되지 않는 구어의 기능어 제거를 통한 구어-수지 표현 간 문장 성분을 일치시키는 방법이다. 서로 다른 특징을 지닌 영어-미국 수화 병렬 말뭉치들을 이용한 실험에서 각 방법론들이 단독으로 쓰일 때와 조합되어 함께 사용되었을 때 모두 말뭉치의 종류와 관계없이 번역 성능을 개선시킬 수 있다는 것을 확인할 수 있었다.

한국어 튜터링 챗봇을 위한 말뭉치 구축 (Building a Corpus for Korean Tutoring Chatbot)

  • 김한샘;최경호;한지윤;정해영;곽용진
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.288-293
    • /
    • 2017
  • 교수-학습 발화는 발화 턴 간에 규칙화된 인과관계가 강하고 자연 발화에서의 출현율이 낮다. 일반적으로 어휘부, 표현 제시부, 대화부로 구성되며 커리큘럼과 화제에 따라 구축된 언어자원이 필요하다. 기존의 말뭉치는 이러한 교수-학습 발화의 특징을 반영하지 않았기 때문에 한국어 교육용 튜터링 챗봇을 개발하는 데에 활용도가 떨어진다. 이에 따라 이 논문에서는 자연스러운 언어 사용 수집, 도구 기반의 수집, 주제별 수집 및 분류, 점진적 구축 절차의 원칙에 따라 교수-학습의 실제 상황을 반영하는 준구어 말뭉치를 구축한다. 교실에서 발생하는 언어학습 상황을 시나리오로 구성하여 대화 흐름을 제어하고 채팅용 메신저와 유사한 형태의 도구를 통해 말뭉치를 구축한다. 이 연구는 한국어 튜터링 챗봇을 개발하기 위해 말뭉치 구축용 챗봇과 한국어 학습자, 한국어 교수자가 시나리오를 기반으로 발화문을 생성한 준구어 말뭉치를 최초로 구축한다는 데에 의의가 있다.

  • PDF

한국어 경량형 띄어쓰기 교정 시스템의 구현 (An Implementation of a Lightweight Spacing-Error Correction System for Korean)

  • 송영길;김학수
    • 컴퓨터교육학회논문지
    • /
    • 제12권2호
    • /
    • pp.87-96
    • /
    • 2009
  • 본 논문에서는 기존의 규칙 기반 방법과 통계 기반 방법의 장점을 취하면서도 메모리 사용량이 적은 한국어 띄어쓰기 교정 시스템을 제안한다. 또한 철자 오류와 조사 생략이 빈번히 발생하는 모바일 구어체에 강건하도록 모델을 학습시키기 위해서 일반 구어체 말뭉치로부터 가상의 구어체 말뭉치를 자동으로 구축하는 방법을 제안한다. 제안 시스템은 새로운 음절 패턴에 대한 적용 범위를 증가시키기 위해서 음절 유니그램 통계 정보를 이용하며, 정밀도 향상을 위해서 음절 바이그램 이상의 오류 교정 규칙을 이용한다. 가상의 모바일 구어체 문장에 대한 실험 결과에 따르면 제안 시스템은 1MB 내외의 적은 메모리를 사용하면서도 92.10%(일반 구어체 말뭉치에서 93.80%, 일반 균형 말뭉치에서 94.07%)라는 비교적 높은 정밀도를 보였다.

  • PDF

구어 의존 구문 분석을 위한 비유창성 처리 연구 (A Study of Disfluency Processing for Dependency Parsing of Spoken)

  • 박석원;최현수;한지윤;오태환;안의정;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.144-148
    • /
    • 2019
  • 비유창성(disfluency)은 문어와 같이 정연한 구조로 말하지 못하는 현상 전반을 지칭한다. 이는 구어에서 보편적으로 발생하는 현상으로 구어 의존 구문 분석의 난이도를 상향시키는 요인이다. 본 연구에서는 비유창성 요소 유형을 담화 표지, 수정 표현, 반복 표현, 삽입 표현으로 분류하였다. 또한 유형별 비유창성 요소를 실제 말뭉치에서 어떻게 구문 주석할 것인지를 제안한다. 이와 같은 구어 데이터 처리 방식은 대화시스템 등 구어를 처리해야 하는 도메인에서의 자연언어이해 성능 향상에 기여할 것이다.

  • PDF

한국어 튜터링 챗봇을 위한 말뭉치 구축 (Building a Corpus for Korean Tutoring Chatbot)

  • 김한샘;최경호;한지윤;정해영;곽용진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.288-293
    • /
    • 2017
  • 교수-학습 발화는 발화 턴 간에 규칙화된 인과관계가 강하고 자연 발화에서의 출현율이 낮다. 일반적으로 어휘부, 표현 제시부, 대화부로 구성되며 커리큘럼과 화제에 따라 구축된 언어자원이 필요하다. 기존의 말뭉치는 이러한 교수-학습 발화의 특징을 반영하지 않았기 때문에 한국어 교육용 튜터링 챗봇을 개발하는데에 활용도가 떨어진다. 이에 따라 이 논문에서는 자연스러운 언어 사용 수집, 도구 기반의 수집, 주제별 수집 및 분류, 점진적 구축 절차의 원칙에 따라 교수-학습의 실제 상황을 반영하는 준구어 말뭉치를 구축한다. 교실에서 발생하는 언어학습 상황을 시나리오로 구성하여 대화 흐름을 제어하고 채팅용 메신저와 유사한 형태의 도구를 통해 말뭉치를 구축한다. 이 연구는 한국어 튜터링 챗봇을 개발하기 위해 말뭉치 구축용 챗봇과 한국어 학습자, 한국어 교수자가 시나리오를 기반으로 발화문을 생성한 준구어 말뭉치를 최초로 구축한다는 데에 의의가 있다.

  • PDF

구어체 말뭉치의 어휘 사용 특징 분석 및 감정 어휘 사전의 자동 구축 (Analyzing Vocabulary Characteristics of Colloquial Style Corpus and Automatic Construction of Sentiment Lexicon)

  • 강승식;원혜진;이민행
    • 스마트미디어저널
    • /
    • 제9권4호
    • /
    • pp.144-151
    • /
    • 2020
  • 모바일 환경에서 의사소통은 SMS 문자로 이루어진다. SMS 문자에서 사용되는 어휘들은 일반적인 한국어 문어체 문장에서 사용되는 어휘들과 다른 부류의 어휘들이 사용될 것으로 예상할 수 있다. 예를 들어, 일반적인 문어체의 경우 문장의 시작이나 끝맺음이 올바르고 문장의 구성요소가 잘 갖추어졌지만, SMS 문자 말뭉치의 경우 구성요소를 생략 및 간략한 표현으로 대체하는 경우가 많다. 이러한 어휘 사용 특성을 분석하기 위하여, 기존에 구축된 구어체 말뭉치와 문어체 말뭉치를 사용한다. 실험에서는 구어체 말뭉치인 SMS 문자 말뭉치와 네이버 영화평 말뭉치, 그리고 문어체 말뭉치인 한국어 문어체 원시 말뭉치의 어휘사용 특성을 비교-분석한다. 말뭉치별 어휘 비교 및 분석을 위하여 품사 태그 형용사(VA)를 기준으로 하였고, 공연강도를 측정하기 위해 변별적 공연어휘소 분석 방법론을 사용하였다. 그 결과 '좋-', '죄송하-', '즐겁-' 등 감정표현 형용사들이 SMS 문자 말뭉치에서 선호되는 반면, 네이버 영화평 말뭉치에서는 평가 표현과 관련된 형용사들이 선호되는 것을 확인할 수 있었다. 이러한 과정에서 추출된 공연강도가 높은 형용사를 기준으로 감정어휘 사전을 자동 구축하기 위하여 단어 임베딩 기법을 사용하였으며, 총 343,603개의 감성어휘를 자동 구축하였다.

21세기 세종 계획 특수자료 구축 분과의 성과 (1998~2007) (The $21^{st}$ Century Sejong Project Special Corpus Construction (1998~2007))

  • 서상규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.317-322
    • /
    • 2007
  • 이 발표는, <21세기 세종 계획>(문화관광부/국립국어원의 지원, 1998~2007)의 일환으로 이루어진, 특수자료 구축 분과의 지난 10년간의 성과를 소개하고자 하는 데에 목적이 있다. 특수자료 구축 분과에서는 구어, 병렬, 역사 자료, 북한 및 해외 말뭉치와 같은 특수 말뭉치의 구축을 담당하고 있다. 여기서는 특수자료 구축 소분과의 개요와 과제의 구성, 각 세부 과제별 말뭉치 구축 성과 및 각 말뭉치의 가치와 특성을 밝히고자 한다.

  • PDF

문장 부호 자동 완성을 위한 한국어 말뭉치 구축 연구 (A Study on Building Korean Dialogue Corpus for Punctuation and Quotation Mark Filling)

  • 한승규;양기수;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.475-477
    • /
    • 2019
  • 문장 부호란, 글에서 문장의 구조를 잘 드러내거나 글쓴이의 의도를 쉽게 전달하기 위하여 사용되는 부호들로, 따옴표나 쉼표, 마침표 등이 있다. 대화 시스템과 같이 컴퓨터가 생성해 낸 문장을 인간이 이해해야 하는 경우나 음성 인식(Speech-To-Text) 결과물의 품질을 향상시키기 위해서는, 문장 부호의 올바른 삽입이 필요하다. 본 논문에서는 이를 수행하는 딥 러닝 기반 모델을 훈련할 때 필요로 하는 한국어 말뭉치를 구축한 내용을 소개한다. 이 말뭉치는 대한민국정부에서 장관급 이상이 발언한 각종 연설문에서 적절한 기준을 통해 선별된 고품질의 문장으로 구성되어 있다. 문장의 총 개수는 126,795개이고 1,633,817개의 단어들(조사는 합쳐서 한 단어로 계산한다)로 구성되어 있다. 마침표와 쉼표는 각각 121,256개, 67,097개씩이다.

  • PDF

음절 N-Gram과 어절 통계 정보를 이용한 한국어 띄어쓰기 시스템 (Korean Word Spacing System Using Syllable N-Gram and Word Statistic Information)

  • 최성자;강미영;허희근;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.47-53
    • /
    • 2003
  • 본 논문은 정제된 대용량 말뭉치로부터 얻은 음절 n-gram과 어절 통계를 이용한 한국어 자동 띄어쓰기 시스템을 제안한다. 한 문장 내에서 최적의 띄어쓰기 위치는 Viterbi 알고리즘에 의해 결정된다. 통계 기반 연구에 고유한 문제인 데이터 부족 문제, 학습 말뭉치 의존 문제를 개선하기 위하여 말뭉치를 확장하고 실험을 통해 얻은 매개변수를 사용하고 최장 일치 Viable Prefix를 찾아 어절 목록에 추가한다. 본 연구에 사용된 학습 말뭉치는 33,641,511어절로 구성되어 있으며 구어와 문어를 두루 포함한다.

  • PDF

구어 말뭉치를 통한 한국어 용언활용에서의 모음조화 변이 및 변화 추이 연구 (Transition of vowel harmony in Korean verbal conjugation: Patterns of variation in a spoken corpus)

  • 강희조
    • 말소리와 음성과학
    • /
    • 제15권2호
    • /
    • pp.21-29
    • /
    • 2023
  • 이 논문은 현대 한국어 용언활용에서 모음조화 양상에서 보이는 변이(조화형과 비조화형의 공존)가 어떤 언어 내적/외적 변수들에 의해 통제되고 있는지 확인하여 그 변화의 발동과 전파 과정을 설명하려는 연구이다. 이를 위하여 국립국어원 발행 일상 대화 음성 말뭉치를 활용하여 42개 어간의 조화형 및 비조화형을 검색한 후 음운/형태적 특성 및 사회언어학적 특성에 따른 효과를 검증하였다. 그 결과 전반적으로 비조화형의 비율이 1% 미만으로 매우 낮게 나타났으며 대부분은 /ㅏ/-모음 어간이 단모음 종결 어미와 결합한 사례임을 확인하였다. 다만 기존 연구들에서 거의 보이지 않던 연결 어미나 선어말 어미의 경우에도 비조화형이 소수 나타났다. 말뭉치에서 발견된 /ㅗ/-모음 어간의 비조화형을 자료로 삼아 청취실험을 실시하여 비조화형의 발동이 음운 감쇄나 과소 실현에 의해 일어났을 가능성을 보였다. 다만 전파되는 과정에는 모음의 변별도나 형태적 분석과 같은 인지적 관점에서의 설명이 더 나음을 주장한다. 결과적으로 현대 한국어의 모음조화 변이 및 변화는는 조음적/인지적 요인이 복합적으로 작용되었다고 본다.