• 제목/요약/키워드: 사용자말뭉치

검색결과 61건 처리시간 0.045초

UWIN을 이용한 접미파생명사 중의성 해소 (Derived Nouns of Suffixes Disambiguation using User-Word Intelligent Network)

  • 배영준;옥철영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.432-435
    • /
    • 2012
  • 지식정보화 사회로의 진입으로 언어처리의 필요성은 점차 확대되고 있으나, 현재의 언어처리 기술은 의미분석에 기반하지 않음으로써 많은 한계를 가지고 있다. 본 논문에서는 의미분석의 일환으로 접미사의 중의성 해소를 위해 한국어 사용자 어휘지능망(U-WIN)을 이용한 접미파생명사 분석 방법을 제시한다. 세종 말뭉치에서 중의성 접미사를 포함한 32,647개의 문장을 대상으로 접미사 앞의 어근을 추출하여 U-WIN과 매핑되는 노드에 가중치를 부여한 뒤 이를 접미사 중의성 해소에 사용한다. 동형이의 접미사 49종 중 세종말뭉치에 나타난 25개의 동형이의접미사만을 대상으로 실험한 결과 91.83%의 정확률을 보였다.

영어 말하기, 쓰기 학습자를 위한 문법 오류 검출 시스템 (Grammar Error Detection System for Learners of Spoken and Written English)

  • 서홍석;이성진;이진식;이종훈;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.136-139
    • /
    • 2011
  • 외국어 교육의 필요성이 강조되고 그에 대한 요구가 늘어남에 따라 언어 교육의 기회를 늘리고 비용을 줄이기 위해 컴퓨터 기반의 다양한 기술들의 요구 역시 증가하고 개발되고 있다. 언어 능력 개발의 중요한 요소로서 문법 교육에 대한 컴퓨터 지원 기술 연구가 활발히 진행되고 있다. 본 연구에서는 문법 오류 시뮬레이션을 통해 문법 오류 패턴 데이터베이스를 구축하고 이들 패턴과 사용자 입력의 패턴 매칭으로 생성된 자질 벡터로 기계 학습을 하여 문법성 확인을 했다. 문법성 확인 결과에 따라 오류 종류에 따른 상대 빈도를 고려하여 오류 종류를 분류했다. 또 말하기와 쓰기 작업의 서로 다른 특성을 반영하기 위해 말하기 작업과 쓰기 작업에 대한 두 개의 다른 말뭉치가 학습에 이용 되었다.

  • PDF

상품리뷰요약을 위한 대체어 자동추출 (Automatic Extraction of Alternative Words for Product Review Summarization)

  • 안미희;백종범;이수원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.501-503
    • /
    • 2012
  • 오피니언 마이닝에서 특징기반으로 상품평을 요약할 때, 동일한 상품의 같은 특징에 대한 사용자의 표현이 일치하지 않아 같은 특징을 다른 것으로 인식하는 오류가 발생되어 효과적인 분석을 하는데 어려움이 있다. 본 연구에서는 이러한 문제점을 해결하기 위하여 온라인쇼핑몰의 상품평에서 명사와 형용사쌍 말뭉치를 이용하여 연관단어뭉치를 추출하고, 상관성이 높은 형용사를 각 명사의 특징으로 이용하여 대체어 목록을 자동으로 추출하는 방법을 제안한다.

외국인 학습자를 위한 문맥 기반 실시간 국어 문장 교정 (Context Based Real-time Korean Writing Correction for Foreigners)

  • 박영근;김재민;이성동;이현아
    • 정보과학회 논문지
    • /
    • 제44권10호
    • /
    • pp.1087-1093
    • /
    • 2017
  • 외국인 유학생과 국내 체류 외국인 등 한국어를 학습하고자 하는 외국인이 지속적으로 증가함에 따라 외국인 한국어 학습자의 교육에 대한 관심이 높아지고 있다. 기존 맞춤법 검사기는 한국인의 사용에 중점을 두고 있어 외국인 한국어 학습자가 사용하기에는 다소 부적절하다. 본 논문에서는 한국어의 문맥 특성과 외국인의 작문 특성을 반영한 한국어 교정 방식을 제안한다. 제안하는 방식에서는 국어 문서에서 자주 사용되는 표현을 추천 교정으로 제시하기 위해 말뭉치를 활용한다. 말뭉치에서 추출된 어절 바이그램에 대한 음절 역색인을 사용하여 입력된 작문에 대한 교정 후보 집합을 얻고, 외국인의 작문 특성을 반영하는 편집거리 계산 방법을 사용하여 순위화된 추천 교정을 제시한다. 구현된 시스템에서는 사용성 향상을 위해 키보드 후킹에 기반한 사용자인터페이스를 제공하여 다른 응용프로그램에서의 입력과 동시에 문장 교정 결과를 얻을 수 있다. 외국인의 작문 환경에 대한 평가에서는 타 시스템에 비해 검출률을 약 45% 향상시켜, 제안된 시스템을 사용하는 경우 외국인 사용자가 스스로 작문 오류를 판단하고 수정할 수 있어 한국어 학습에 많은 도움이 될 것으로 기대된다.

외국인 학습자를 위한 문맥 기반 실시간 국어 문장 교정 (Context Based Real-time Korean Writing Correcting for Foriengers)

  • 박영근;최재성;김재민;이성동;이현아
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.273-275
    • /
    • 2016
  • 외국인 유학생과 국내 체류 외국인을 포함하여 한국어를 학습하고자 하는 외국인이 지속적으로 증가함에 따라, 외국인 한국어 학습자의 교육에 대한 관심도 높아지고 있다. 기존 맞춤법 검사기는 한국어를 충분히 이해할 수 있는 한국인의 사용에 중점을 두고 있어, 외국인 한국어 학습자가 사용하기에는 다소 부적절하다. 본 논문에서는 한국어의 문맥 특성과 외국인의 작문 특성을 반영한 한국어 교정 방식을 제안한다. 제안하는 시스템에서는 말뭉치에서 추출한 어절 바이그램에 대한 음절 역색인을 구성하여 추천 표현을 빠르게 제시할 수 있으며, 키보드 후킹에 기반한 사용자인터페이스를 제공하여 사용자 편의를 높인다.

  • PDF

질의 확장을 이용한 병렬 정보 검색 (Parallel Information Retrieval with Query Expansion)

  • 정유진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.103-105
    • /
    • 2002
  • 이 논문에서는, PC 클러스터 환경에서 질의 확장을 사용하는 정보 검색 시스템 (IR)을 설계하고 구현한 내용을 기술한다. 이 정도 검색 시스템은 문서 집합을 저장하고, 문서 집합은 역색인 파인 (IIF)로 색인되고, 랭킹 방법으로 벡터 모델을 사실하며, 질의 확장 방법으로 코사인 유사도를 사용한다. 질의 확장이란 사용자가 준 원래의 질의에 연관된 단어를 추가하여 검색 효율을 향상시키는 것이다. 여기서 제안하는 병렬 정보 검색 시스템에서는 역색인 과일은 여러 개로 분활되는데 lexical 분할 방법과 greedy 분할 방법을 사용한다. 사용자의 질의가 들어오면 질의확장을 하여 여러 개의 단어로 이루어진 확장된 질의가 만들어 지는데 이 확장된 질의를 구성하는 단어들은 각 단어와 연관된 IIF를 가지고 있는 노드에 보내어져서 병렬로 처리된다. 실험을 통하여 병렬 IR 시스템의 성능이 질의 확장과 IIF의 두 가지 분한 방법에 의해 어떻게 영향을 받는지 보인다. 실험에는 표준 한국어 테스트 말뭉치인 EKSET과 KTSET을 사용하였다. 실험에 따르면 greedy 분활 방법이 lexical 분할 방법에 비해 20%정도의 성능 향상을 보였다.

  • PDF

좌우 어절 N-gram 및 음절 N-gram을 이용한 간섭 오타 교정 방법 (Interference Typo Correction Method by using Surrounding Word N-gram and Syllable N-gram)

  • 손성환;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.496-499
    • /
    • 2019
  • 스마트폰의 쿼티 자판 소프트 키보드의 버튼과 버튼 사이 좁은 간격으로 인해 사용자가 의도치 않은 간섭 오타가 발생하는 것에 주목하였다. 그리고 오타 교정의 성능은 사용자의 관점에서 얼마나 잘 오타를 교정하느냐도 중요한 부분이지만, 또한 오타가 아닌 어절을 그대로 유지하는 것이 더 중요하게 판단될 수 있다. 왜냐하면 현실적으로 오타인 어절 보다 오타가 아닌 어절이 거의 대부분을 차지하기 때문이다. 따라서 해당 관점에서 교정 방법을 바라보고 연구할 필요가 있다. 이에 맞춰 본 논문에서는 대용량 한국어 말뭉치 데이터를 가지고 확률에 기반한 한국어 간섭 오타 수정 방법에 대해 제안한다. 제안하는 방법은 목표 어절의 좌우 어절 N-gram과 어절 내 좌우 음절 N-gram 정보를 바탕으로 발생할 수 있는 간섭 오타 교정 후보들 중 가운데서 가장 적합한 후보 어절을 선택하는 방법이다.

  • PDF

문서 말뭉치 기반 질의응답 시스템 (Text Corpus-based Question Answering System)

  • 김한준;김민경;장재영
    • 디지털콘텐츠학회 논문지
    • /
    • 제11권3호
    • /
    • pp.375-383
    • /
    • 2010
  • 질의응답시스템을 구축하는데 있어서 사용자 질의로 입력된 자연어 문장을 문법적 또는 의미적으로 완벽하게 분석하는 작업과 그 질의에 대한 정확한 답변을 찾아내는 작업은 쉬운 일이 아니다. 본 논문에서는 질의응답시스템 구축의 난제를 극복하기 위해, 문서 말뭉치에 기반하여 질의문을 자동 생성, 저장하여 이를 키워드로 검색하는 새로운 방식의 시스템을 제안한다. 질의문 생성을 위한 기본 아이디어는 수집 문서의 주요 문장에 대해 고유명사인식 기술을 활용하여 사람, 사물, 장소, 시간 등의 고유명사를 인식한 후, 각 고유명사에 해당하는 자연어 질의문을 생성하는 것이다. 질의문은 두가지 유형인 단순형 및 문장구조유지형 질의문으로 구분한다. 시스템은 이렇게 준비된 질의문 데이터베이스를 가지고 입력된 검색 키워드에 대하여 관련 질의문과 답변을 쉽게 얻을 수 있다. 본 연구의 관건은 생성된 질의문이 명확한 해답을 도출할 수 있는 의미있는 질의문을 생성하는 것이다. 이를 위해 본 연구에서는 질의문의 원천이 되는 평서문장을 선별하는 원칙과 선별된 평서문으로부터 의미있는 질의문을 생성하는 방법론을 제시한다.

질의 응답 시스템을 위한 반교사 기반의 정답 유형 분류 (Semi-Supervised Answer Type Classification For Question-Answering System)

  • 박선영;이동현;김용희;류성한;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.45-49
    • /
    • 2013
  • 기존 연구에서는 질의 응답 시스템에서 정답 유형을 분류하기 위해 패턴 매칭 방식이나 교사 학습(Supervised Learning)을 이용했다. 패턴 매칭 방식은 질의 분석을 통해 수동으로 패턴을 구축해야 한다. 교사 학습에서는 훈련 데이터 전체에 정답 유형이 태깅(Tagging)되어야 하며, 이를 위해서는 사용자의 질의에 정답 유형을 수동으로 태깅하는 작업이 많이 필요하다. 웹을 통해 정답 유형이 태깅되지 않은 대용량의 사용자 질의 말뭉치를 구할 수 있지만, 이 데이터에는 정답 유형이 태깅되어 있지 않다. 따라서, 대용량의 사용자 질의에 비례하여, 정답 유형을 수동으로 태깅하는 작업량이 증가한다. 앞서 언급한 두 가지 방법론에서, 정답 유형 분류를 위해 수작업이 많이 필요하다는 문제점을 해결하고자 본 논문에서는 일부 태깅된 훈련 데이터를 필요로 하는 반교사 학습(Semi-supervised Learning)에 기반한 정답 유형 분류를 제안한다. 이는 정답 유형 분류 작업에 필요한 노동력을 최소화함으로 대용량의 데이터를 통한 효율적 질의 응답 시스템 구축을 가능하게 한다.

  • PDF

격틀과 워드 임베딩을 활용한 유사도 기반 대화 모델링 (A Similarity-based Dialogue Modeling with Case Frame and Word Embedding)

  • 이호경;배경만;고영중
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.220-225
    • /
    • 2016
  • 본 논문에서는 격틀과 워드 임베딩을 활용한 유사도 기반 대화 모델링을 제안한다. 기존의 유사도 기반 대화 모델링 방법은 형태소, 형태소 표지, 개체명, 토픽 자질, 핵심단어 등을 대화 말뭉치에서 추출하여 BOW(Bag Of Words) 자질로 사용하였기 때문에 입력된 사용자 발화에 포함된 단어들의 주어, 목적어와 같은 문장성분들의 위치적 역할을 반영할 수 가 없다. 또한, 의미적으로 유사하지만 다른 형태소를 가지는 문장 성분들의 경우 유사도 계산에 반영되지 않는 형태소 불일치 문제가 존재한다. 이러한 문제점을 해결하기 위해서, 위치적 정보를 반영하기 위한 문장성분 기반의 격틀과 형태소 불일치 문제를 해결하기 위한 워드 임베딩을 활용하여 개선된 유사도 기반 대화 모델링을 제안한다. 개선된 유사도 기반 대화 모델링은 MRR 성능 약 92%의 성능을 나타낸다.

  • PDF