• Title/Summary/Keyword: 사용자말뭉치

Search Result 61, Processing Time 0.026 seconds

Korean Writing Assistant System using Corpus Statistics (말뭉치의 통계정보를 이용한 한국어 글쓰기 도우미 시스템)

  • Lee, Jae-Seoung;Yu, Joo-Hyun;Lee, Hyun-Ho;Lee, Hyun Ah
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.206-208
    • /
    • 2015
  • 온라인을 통해 접하게 되는 잘못된 우리말 표현과 외국어 중심 교육 등으로 인하여 학생들의 한국어 능력, 특히 글쓰기 능력에 우려가 높아지고 있다. 본 논문에서는 잘 작성된 말뭉치에서 얻어진 데이터에 기반한 한국어 글쓰기 도우미 시스템을 제안한다. 시스템은 작성 중인 문맥에 맞은 단어를 추천하는 용언/체언 추천과 입력 문장의 주요 단어가 포함된 말뭉치의 문장을 제시하는 유사 문장 추천, 문서의 단어가 문서의 문맥 단어와 조화로운지를 확인하는 어휘 응집성 검사, 단어 중복도를 확인하기 위한 단어 빈도 검사 기능을 제공한다. 시스템에서는 사용자가 말뭉치를 추가하면 색인을 구축할 수 있어 원하는 분야에 맞는 추천과 검사 기능을 제공할 수 있다.

  • PDF

A Semi-Automatic Semantic Mark Tagging System for Building Dialogue Corpus (대화 말뭉치 구축을 위한 반자동 의미표지 태깅 시스템)

  • Park, Junhyeok;Lee, Songwook;Lim, Yoonseob;Choi, Jongsuk
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.8 no.5
    • /
    • pp.213-222
    • /
    • 2019
  • Determining the meaning of a keyword in a speech dialogue system is an important technology for the future implementation of an intelligent speech dialogue interface. After extracting keywords to grasp intention from user's utterance, the intention of utterance is determined by using the semantic mark of keyword. One keyword can have several semantic marks, and we regard the task of attaching the correct semantic mark to the user's intentions on these keyword as a problem of word sense disambiguation. In this study, about 23% of all keywords in the corpus is manually tagged to build a semantic mark dictionary, a synonym dictionary, and a context vector dictionary, and then the remaining 77% of all keywords is automatically tagged. The semantic mark of a keyword is determined by calculating the context vector similarity from the context vector dictionary. For an unregistered keyword, the semantic mark of the most similar keyword is attached using a synonym dictionary. We compare the performance of the system with manually constructed training set and semi-automatically expanded training set by selecting 3 high-frequency keywords and 3 low-frequency keywords in the corpus. In experiments, we obtained accuracy of 54.4% with manually constructed training set and 50.0% with semi-automatically expanded training set.

A study on the Automatic Generation of Conversational QA Corpora (대화형 질의응답 말뭉치 자동 생성에 대한 연구)

  • Hwang, Seonjeong;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.133-138
    • /
    • 2021
  • 최근 다양한 분야에서 자동 고객 응대 시스템을 도입하고 있으며 이에 따른 대화형 질의응답 시스템 연구의 필요성이 증가하고 있다. 본 논문에서는 새로운 도메인의 대화형 질의응답 시스템 구축에 필요한 말뭉치를 자동으로 생성하는 대화형 질의-응답 생성 시스템을 소개한다. 또한 이전 대화 내용을 고려하여 문서로부터 사용자의 다음 질문 대상이 될만한 응답 후보를 추출하는 맥락 관련 응답 추출 과제와 이에 대한 성능 평가 지표인 Sequential F1 점수를 함께 제안한다. 대화형 질의응답 말뭉치인 CoQA에 대해 응답 후보 추출 실험을 진행한 결과 기존의 응답 추출 모델보다 우리의 맥락 관련 응답 추출 모델이 Sequential F1 점수에서 31.1 높은 성능을 보였다. 또한 맥락 관련 응답 추출 모듈과 기존에 연구된 대화형 질의 생성 모듈을 결합하여 개발한 대화형 질의-응답 생성 시스템을 통해 374,260 쌍의 질의-응답으로 구성된 대화형 질의응답 말뭉치를 구축하였다.

  • PDF

Cross-Texting Prevention System using Korean Chat Corpus (한글 채팅 말뭉치를 이용한 크로스-텍스팅 방지 시스템)

  • Lee, Da-Young;Who, Hwan-Gue
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.377-382
    • /
    • 2020
  • cross-texting은 실수로 의도하지 않은 상대방에게 메세지를 잘못 전송하는 것을 말한다. 휴대폰 메신저 사용이 활발해짐에 따라 이 같은 실수가 빈번하게 발생하는데 메신저에서 제공하는 기능은 대체로 사후 해결책에 해당하고 사용자가 사전에 실수를 발견하기는 어렵다. 본 논문에서는 사용자가 작성한 문장의 형식적 자질를 분석하여 현재 참여중인 대화에서 작성한 문장이 cross-texting인지를 판별하는 모델을 제안했다. 문장에서 높임법, 표층적 완성도 자질을 추출하고 이를 통해 특정 사용자의 대화를 모델링하여 주어진 문장이 대화에 부합하는지 여부를 판단한다. 이같은 방식은 채팅방의 이전 기록만으로도 사용자가 작성한 문장이 cross-texting인지 여부를 쉽게 판단할 수 있는 힌트를 제공할 수 있다. 실제 메신저 대화 말뭉치를 이용해 제작한 데이터에서 94% 정확도로 cross-texting을 탐지했다.

  • PDF

Design of word prediction system for Assistive Communication System (통신보조기기용 어휘 예측 시스템의 구조)

  • 황인정;김효진;이은주;민홍기
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2000.08a
    • /
    • pp.169-172
    • /
    • 2000
  • 본 연구에서는 청각장애인용 통신보조기기에 적용하기 위한 어휘예측 시스템의 기본구조를 제안한다. 통신보조기기의 어휘는 사용자의 환경을 고려한 어휘이므로, 어휘 예측 시스템도 사용자의 환경과 실생활에서 쉽게 이용할 수 있는 방향으로 고안되어야 한다. 따라서 어휘예측 시스템은 사용자의 환경을 정의하고, 중심어휘와 장소별 도메인에서의 어휘를 발췌한다. 발췌된 어휘는 말뭉치와 의미함축의 원리를 이용하여 분류한다. 분류된 어휘는 문법적 지식을 바탕으로 가상 네트워크를 구성한다. 가상네트워크에서의 어휘는 명사, 조사, 동사의 3부분으로 나눈 후 의미함축과 말뭉치로부터 파생된 어휘를 근접한 거리에 위치시킨다. 동일한 네트워크상에서 어휘의 위치는 문법적 연관성, 빈도수 등을 이용하여 정한다. 따라서 본 연구에서는 어휘예측은 명사, 조사, 동사에서 가장 근접한 어휘를 연결하여 간단한 문장을 작성할 수 있는 어휘 예측 시스템의 기본구조를 제안한다.

  • PDF

Developing a Sentiment Analysing and Tagging System (감성 분석 및 감성 정보 부착 시스템 구현)

  • Lee, Hyun Gyu;Lee, Songwook
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.5 no.8
    • /
    • pp.377-384
    • /
    • 2016
  • Our goal is to build the system which collects tweets from Twitter, analyzes the sentiment of each tweet, and helps users build a sentiment tagged corpus semi-automatically. After collecting tweets with the Twitter API, we analyzes the sentiments of them with a sentiment dictionary. With the proposed system, users can verify the results of the system and can insert new sentimental words or dependency relations where sentiment information exist. Sentiment information is tagged with the JSON structure which is useful for building or accessing the corpus. With a test set, the system shows about 76% on the accuracy in analysing the sentiments of sentences as positive, neutral, or negative.

korean-Hanja Translation System based on Semantic Processing (의미처리 기반의 한글-한자 변환 시스템)

  • Kim, Hong-Soon;Sin, Joon-Choul;Ok, Cheol-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.398-401
    • /
    • 2011
  • 워드프로세서에서의 한자를 가진 한글 어휘의 한자 변환 작업은 사용자에 의해 음절/단어 단위의 변환으로 많은 시간이 소요되어 효율이 떨어진다. 본 논문에서는 한글 문장의 의미처리를 통해 문맥에 맞는 한자를 자동 변환하는 시스템을 제안한다. 문맥에 맞는 한글-한자 변환을 위해서는 우선 정확한 형태소 분석 및 동형이의어 분별이 선행되어야 한다. 이를 위해 본 논문에서는 은닉마르코프모델 기반의 형태소 및 동형이의어 동시 태깅 시스템을 구현하였다. 제안한 시스템은 형태의미 세종 말뭉치 1,100만여 어절을 이용하여 unigram과 bigram을 추출 하였고, unigram을 이용하여 어절의 생성확률 사전을 구축하고 bigram을 이용하여 전이확률 학습사전을 구축하였다. 그리고 품사 및 동형이의어 태깅 후 명사를 표준국어대사전에 등재된 한자로 변환하는 시스템을 구현하였다. 구현된 시스템의 성능 확인을 위해 전체 세종 말뭉치를 문장단위로 비학습 말뭉치를 구성하여 실험하였고, 실험결과 한자를 가진 동형이의어에 대한 한자 변환에서 90.35%의 정확률을 보였다.

Speech Animation by Visualizing the Organs of Articulation (조음 기관의 시각화를 이용한 음성 동기화 애니메이션)

  • Lee, Sung-Jin;Kim, Ig-Jae;Ko, Hyeong-Seok
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02a
    • /
    • pp.843-851
    • /
    • 2006
  • 본 논문에서는 음성에 따른 얼굴 애니메이션을 사실적으로 표현하기 위한 조음기관(혀, 성대 등)의 움직임을 시각화하는 방법을 제시한다. 이를 위해서, 음성에 따른 얼굴 애니메이션을 위한 말뭉치(Corpus)를 생성하고, 생성된 말뭉치에 대해서 음소 단위의 분석(Phoneme alignment) 처리를 한 후, 각 음소에 따른 조음기관의 움직임을 생성한다. 본 논문에서는 조음기관의 움직임 생성을 위해서 얼굴 애니메이션 처리에서 널리 사용되고 있는 기저 모델 기반 형태 혼합 보간 기법(Blend shape Interpolation)을 사용하였다. 그리고 이를 통하여 프레임/키프레임 기반 움직임 생성 사용자 인터페이스를 구축하였다. 구축된 인터페이스를 통해 언어치료사가 직접 각 음소 별 조음기관의 정확한 모션 데이터를 생성토록 한다. 획득된 모션 데이터를 기반으로 각 음소 별 조음기관의 3차원 기본 기저를 모델링하고, 새롭게 입력된 음소 시퀀스(phoneme sequence)에 대해서 동기화된 3차원 조음기관의 움직임을 생성한다. 이를 통해 자연스러운 3차원 얼굴 애니메이션에 적용하여 얼굴과 동기화된 조음 기관의 움직임을 만들어 낼 수 있다.

  • PDF

Automatic Generation of Vocabulary Problem for Learning Korean as a Foreign Language (외국인의 한국어 학습을 위한 어휘 문제 자동 생성)

  • Kim, Seong-Uk;Lim, JaeHyun;Kim, Yein;Lee, Hyun Ah
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.247-250
    • /
    • 2014
  • 국내에서 거주하는 외국인들을 대상으로 한 여러 정책들이 만들어지고 있다, 그에 따른 한국어 교육의 수요는 증가하고 있지만 그에 적합한 한국어 교육시스템의 자동화 및 발전은 미약하다. 본 논문에서는 사전예문과 획득이 용이한 말뭉치를 가공하여 적절한 수준의 문제를 자동으로 생성하는 방법을 제안한다. 자동문제생성에서는 말뭉치와 사전 예문에서 문제와 보기문항을 생성하고, 보기 리스트를 생성한다. 웹문서 검색빈도를 이용하여 생성된 보기리스트의 적합성을 분석하여 정제된 보기 리스트를 획득한다. 얻어진 보기들을 임의로 선택하여 출력함으로써 사용자들이 다양한 문제를 접할 수 있도록 한다.

  • PDF

Automatic Generation of Cause-Effect Graph through Refining Requirements Specifications based on Semantic rules with Corpus Normalization (말뭉치 정규화와 의미 규칙 기반 요구사항 정제를 통한 원인-결과 그래프 자동 생성)

  • Jang, Woo Sung;Kim, R.Young Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.691-693
    • /
    • 2019
  • 현실적으로 요구사항의 불명료성은 테스트 케이스 추출에 어려움을 초래한다. 명료한 요구사항 기반의 사용자 승인 테스트는 소프트웨어의 올바른 품질을 증가시키고, 유지보수 비용을 감소시킨다. 하지만 중소기업에서는 촉박한 개발 기간, 테스트 도구 구매 비용의 부담, 낮은 테스트 기술 레벨 등의 이유로 좋은 품질의 테스트를 수행하기가 힘들다. 이러한 문제점의 해결을 위해 말뭉치 정규화를 이용한 의미 규칙으로 불명료한 요구사항을 간결하고 명료한 요구사항으로 변경하기 위한 메커니즘을 제안한다. 또한 이를 원인-결과 그래프 자동 생성하는 방법을 제안한다. 이는 원인-결과 그래프를 통해 테스트케이스를 최대한 생성하는 기초가 될 수 있다.