• 제목/요약/키워드: 형태소 학습

검색결과 188건 처리시간 0.025초

학습데이터를 이용하여 생성한 규칙과 사전을 이용한 명사 추출기 (A Noun Extractor based on Dictionaries and Heuristic Rules Obtained from Training Data)

  • 장동현;맹성현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.151-156
    • /
    • 1999
  • 텍스트로부터 명사를 추출하기 위해서 다양한 기법이 이용될 수 있는데, 본 논문에서는 학습 데이터를 이용하여 생성한 규칙과 사전을 이용하는 단순한 모델을 통해 명사를 효과적으로 추출할 수 있는 기법에 대하여 기술한다. 사용한 모델은 기본적으로 명사, 어미, 술어 사전을 사용하고 있으며 명사 추정은 학습 데이터를 통해 생성한 규칙을 통해 이루어진다. 제안한 방법은 복잡한 언어학적 분석 없이 명사 추정이 가능하며, 복합명사 사전을 이용하지 않고 복합 명사를 추정할 수 있는 장점을 지니고 있다. 또한, 명사추정의 주 요소인 규칙이나 사전 등록어의 추가, 갱신 등이 용이하며, 필요한 경우에는 특정 분야의 텍스트 분석을 위한 새로운 사전의 추가가 가능하다. 제안한 방법을 이용해 "제1회 형태소 분석기 및 품사 태거 평가대회(MATEC '99')"의 명사 추출기 분야에 참가하였으며, 본 논문에서는 성능평가 결과를 제시하고 평가결과에 대한 분석을 기술하고 있다. 또한, 현재의 평가기준 중에서 적합하지 않은 부분을 규정하고 이를 기준으로 삼아 자체적으로 재평가한 평가결과를 제시하였다.

  • PDF

운율구 추출 및 음소 지속 시간의 트리 기반 모델링 (Tree-based Modeling of Prosodic Phrasing and Segmental Duration)

  • 이상호;오영환
    • 한국음향학회지
    • /
    • 제17권6호
    • /
    • pp.43-53
    • /
    • 1998
  • 본 논문에서는 한국어 TTS시스템을 위한 운율구 추출, 운율구 사이의 휴지 기간, 음소의 지속 시간 모델링 방법을 설명한다. 실험을 위해 여러 장르로 구성된 400문장을 선 정하고, 이를 전문 여성 아나운서가 발성하였다. 녹음된 음성 신호에 대해 음소 및 운율구 경계를 결정하고, 문장에 대해서는 형태소 분석, 발음표기 변환, 구문 분석을 수행하였다. 400문장(약33분) 중 240문장(약20분)을 이용하여 결정 트리 및 회귀 트리를 학습시킨 후, 160분장(약13분)에 대해 실험하였다. 운율 모델링을 위한 특징들이 제안되었고, 학습된 트리 들을 해석함으로써 특징들의 유효성이 평가되었다. 실험 문장에 대해 운율구 경계의 유무를 결정하는 결정 트리의 오류율은 14.46%이었고, 운율구 사이의 휴지 기간과 음소 지속 시간 을 예측하기 위한 회귀 트리들의 평균 제곱 오류근(RMSE)이 각각 132msec, 22msec이었다. 수집된 모든 자료(400문장)로 학습한 결과, 운율구 경계 결정 오류율, 휴지 기간 및 지속시 간 RMSE의 10-fold cross-validation 추정치가 각각 13.77%, 127.91msec, 21.54msec이었다.

  • PDF

Low-Resource 환경에서 Multi-Task 학습을 이용한 카자흐어 형태소 분석 (Low-Resource Morphological Analysis for Kazakh using Multi-Task Learning)

  • ;박성배
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.437-440
    • /
    • 2021
  • 지난 10년 동안 기계학습을 통해 자연어 처리 분야에서 많은 발전이 있었다. Machine translation, question answering과 같은 문제는 사용 가능한 데이터가 많은 언어에서 높은 정확도 성능 결과를 보여준다. 그러나 low-resource 언어에선 동일한 수준의 성능에 도달할 수 없다. 카자흐어는 형태학적 분석을 위해 구축된 대용량 데이터셋이 없으므로 low-resource 환경이다. 카자흐어는 단일 어근으로 수백 개의 단어 형태를 생성할 수 있는 교착어이다. 그래서 카자흐어 문장의 형태학적 분석은 카자흐어 문장의 의미를 이해하는 기본적인 단계이다. 기존에 존재하는 카자흐어 데이터셋은 구체적인 형태학적 분석의 부재로 모델이 충분한 학습이 이루어지지 못하기 때문에 본 논문에서 새로운 데이터셋을 제안한다. 본 논문은 low-resource 환경에서 높은 정확도를 달성할 수 있는 신경망 모델 기반의 카자흐어 형태학 분석기를 제안한다.

사전 학습 모델과 Specific-Abstraction 인코더를 사용한 한국어 의존 구문 분석 (Korean Dependency Parsing using Pretrained Language Model and Specific-Abstraction Encoder)

  • 김봉수;황태선;김정욱;이새벽
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.98-102
    • /
    • 2020
  • 의존 구문 분석은 입력된 문장 내의 어절 간의 의존 관계를 예측하기 위한 자연어처리 태스크이다. 최근에는 BERT와 같은 사전학습 모델기반의 의존 구문 분석 모델이 높은 성능을 보이고 있다. 본 논문에서는 추가적인 성능 개선을 위해 ALBERT, ELECTRA 언어 모델을 형태소 분석과 BPE를 적용해 학습한 후, 인코딩 과정에 사용하였다. 또한 의존소 어절과 지배소 어절의 특징을 specific하게 추상화 하기 위해 두 개의 트랜스포머 인코더 스택을 추가한 의존 구문 분석 모델을 제안한다. 실험결과 제안한 모델이 세종 코퍼스에 대해 UAS 94.77 LAS 94.06의 성능을 보였다.

  • PDF

효율적인 키워드 검색을 지원하는 학습자료의 구조화 방법 연구 (A Study on Structuring Method of Study Data Supporting Efficient Keyword Search)

  • 김은경;최진오
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 춘계종합학술대회
    • /
    • pp.1063-1066
    • /
    • 2005
  • 다양한 학습 자료를 저장해두고 검색하는 시스템들은 주로 키워드 검색을 지원하고 있다. 여기서, 키워드 매칭 방식은 같은 분야의 자료라 하더라도 사용자가 입력한 키워드와 정확한 매칭이 되지 않을 경우 검색되지 못하는 문제점을 안고 있다. 또한 학습 테스트를 위한 학습 문제 자료는 키워드로 검색하기에는 포함한 정보의 양이 너무 적어 적용되기 어렵다. 본 논문에서는 이러한 문제점을 해결하기 위하여 학습문서를 입력할 때 문서에 포함되어 있는 각 단어들을 형태소 분석에 의하여 중요 명사들을 추출하고 데이터베이스화하는 기법을 도입하고 미리 마련한 유사한 용어 지식 데이터베이스를 활용하여 지능적이고 효율적인 학습자료 검색 기법을 제안한다.

  • PDF

자연어를 이용한 유해 영상 탐지 (Inappropriate Video Detect Using Natural Language Process)

  • 이정훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.721-724
    • /
    • 2018
  • 최근 청소년들은 욕설, 폭력적, 선정적, 비하적 표현을 일상생활에서 자연스럽게 사용하고 있다. 현재 청소년들은 자극적이고 폭력적인 개인 방송을 시청하며 유해 표현을 학습한다. 그래서 여러 기업에서는 모니터링 요원을 배치하거나 사용자들의 신고를 통해 유해 영상을 제재하는 중이다. 하지만 방대한 규모의 동용상 때문에 사람이 직접 모든 영상을 확인하는 것은 물리적으로 불가능하다. 따라서 본 논문에서는 자연어 처리 기술을 활용하여 자동으로 유해 영상을 탐지하는 시스템을 제안하고자 한다. 본 시스템은 데이터 수집, 텍스트 변환, 형태소 분석, 유해 사전 구성, 유해 판단 5가지 과정으로 이루어진다.

딥러닝을 활용한 한국어 기반 색상 팔레트 생성 (Korean-based color palette creation using deep learning)

  • 팽현석;김현우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.559-562
    • /
    • 2020
  • 본 논문에서는 한국어 입력 텍스트의 의미를 반영하는 색상 팔레트를 생성하는 방법을 제안한다. 기존 영문 모델에서 한국어의 특수성을 고려하여 입력 방법과 형태소 분석, 임베딩 등 여러 조건을 달리한 접근을 시도하고 최종적으로 두개의 모델을 선정하여 평가를 진행한다. 정량적 평가인 단일 팔레트 다양성 평가와 정성적 평가인 사용자 평가를 진행하였으며 결과 기존 영문 버전보다 다양성이 높았고 사용자가 실제 팔레트 보다 생성된 팔레트를 선호하는 비율도 향상되었다. 이번 연구로 한국어 임베딩을 활용하여 팔레트를 생성하였을 때 보다 다양한 색상과 의미적으로도 적합한 색상을 선정함을 확인할 수 있었다.

  • PDF

소셜 미디어 상 고객피드백을 위한 감성분석 (The Sensitivity Analysis for Customer Feedback on Social Media)

  • 송은지
    • 한국정보통신학회논문지
    • /
    • 제19권4호
    • /
    • pp.780-786
    • /
    • 2015
  • SNS 등과 같은 소셜 미디어는 실시간으로 자발적인 고객의 의견들을 대거 포함하고 있어 최근 기업들은 효율적인 경영을 위해 소셜 미디어상의 빅 데이터를 분석하는 시스템을 이용하여 고객피드백에 관한 정보를 수집하고 분석하고 있다. 그러나 온라인 사이트에서 수집한 데이터는 띄어쓰기와 철자 오류가 많아 기존의 형태소 분석기로는 정확한 분석을 할 수 없다. 또한 온라인 상의 문장은 짧다는 특징이 있어 상호 정보량, 카이제곱 통계량 등과 같은 기존의 의미 선택 방법을 이용하게 되면 문장 내 선택 할 수 있는 의미의 부재로 인해 정확한 감성 분류를 할 수 없다는 문제점이 있다. 이러한 문제점들을 해결하기 위해서 본 논문에서는 초/중성 및 어절 패턴 사전을 이용해서 보정할 수 있는 모듈과 문장 내 품사의 우선순위를 이용한 의미 선택 방법을 제안한다. 이러한 방법으로 형태소 분석기에서 추출된 품사 정보를 기반으로 용언과 체언을 분리해서 분석 해당 품사에 종속적인 속성 DB 구축 한 후 학습에 의해 누적된 속성 DB를 사용하여 보다 정확한 긍/부정 감성을 추출한다.

통계와 규칙을 이용한 강인한 품사 태거 (Robust Part-of-Speech Tagger using Statistical and Rule-based Approach)

  • 심준혁;김준석;차정원;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.60-75
    • /
    • 1999
  • 품사 태깅은 자연 언어 처리의 가장 기본이 되는 부분으로 상위 자연 언어 처리 부분인 구문 분석, 의미 분석의 전처리로 사용되고, 독립된 응용으로 언어의 정보를 추출하거나 정보 검색 등의 응용에 사용되어 진다. 품사 태깅은 크게 통계에 기반한 방법, 규칙에 기반한 방법, 이 둘을 모두 이용하는 혼합형 방법 등으로 나누어 연구되고 있다. 포항공대 자연언어처리 연구실의 자연 언어 처리 엔진(SKOPE)의 품사 태깅 시스템 POSTAG는 미등록어 추정이 강화된 혼합형 품사 태깅 시스템이다 본 시스템은 형태소 분석기, 통계적 품사 태거, 에러 수정 규칙 후처리기로 구성되어 있다. 이들은 각각 단순히 직렬 연결되어 있는 것이 아니라 형태소 접속 테이블을 기준으로 분석 과정에서 형태소 접속 그래프를 생성하고 처리하면서 상호 밀접한 연관을 가진다. 그리고, 미등록어용 패턴사전에 의해 등록어와 동일한 방법으로 미등록어를 처리함으로써 효율적이고 강건한 품사 태깅을 한다. 한편, POSTAG에서 사용되는 태그세트와 한국전자통신연구원(ETRI)의 표준 태그세트 간에 양방향으로 태그세트 매핑을 함으로써, 표준 태그세트로 태깅된 코퍼스로부터 POSTAC를 위한 대용량 학습자료를 얻고 POSTAG에서 두 가지 태그세트로 품사 태깅 결과 출력이 가능하다. 본 시스템은 MATEC '99'에서 제공된 30000어절에 대하여 표준 태그세트로 출력한 결과 95%의 형태소단위 정확률을 보였으며, 태그세트 매핑을 제외한 POSTAG의 품사 태깅 결과 97%의 정확률을 보였다.

  • PDF

NTIS 시스템에서 딥러닝과 형태소 분석 기반의 대화형 검색 서비스 설계 및 구현 (Design and Implementation of Interactive Search Service based on Deep Learning and Morpheme Analysis in NTIS System)

  • 이종원;김태현;최광남
    • 융합정보논문지
    • /
    • 제10권12호
    • /
    • pp.9-14
    • /
    • 2020
  • 현재 NTIS(National Technology Information Service)는 인공지능 기술을 기반으로 대화형 검색 서비스를 구축하고 있다. 이용자의 검색 의도를 파악하고 과제정보를 제공하기 위해 딥러닝 모델과 형태소 분석기를 기반으로 대화형 검색 서비스를 구축한다. 딥러닝 모델은 NTIS와 대화형 검색 서비스를 활용할 때 적재되는 로그 데이터를 기반으로 학습을 진행하고 이용자의 검색 의도를 파악한다. 그리고 단계별 검색을 통해 과제정보를 제공한다. 검색 의도 파악은 예외처리를 용이하게 해주며 단계별 검색은 통합검색보다 쉽고 빠르게 원하는 정보를 얻을 수 있도록 한다. 향후연구로는 인공지능 기술이 접목된 성장형 대화형 검색 서비스로써 이용자에게 제공하는 정보의 범위를 확대해야 한다.