• 제목/요약/키워드: Dictionary Learning

검색결과 140건 처리시간 0.125초

음절 단위 임베딩과 딥러닝 기법을 이용한 복합명사 분해 (Compound Noun Decomposition by using Syllable-based Embedding and Deep Learning)

  • 이현영;강승식
    • 스마트미디어저널
    • /
    • 제8권2호
    • /
    • pp.74-79
    • /
    • 2019
  • 기존의 복합명사 분해 알고리즘은 미등록어 단위명사들이 포함된 복합명사를 분해할 때 미등록어를 분리하기 어려운 문제가 발생한다. 이는 현실적으로 모든 고유명사, 신조어, 외래어 등의 모든 단위 명사를 사전에 등록하는 것은 불가능하다는 한계가 존재하기 때문이다. 이 문제를 해결하기 위하여 복합명사 분해 문제를 태그 열 부착(sequence labeling) 문제로 정의하고 음절 단위 임베딩과 딥러닝 기법을 이용하는 복합명사 분해 방법을 제안한다. 단위명사 사전을 구축하지 않고 미등록 단위명사를 인식하기 위하여 복합명사를 구성하는 각 음절들을 연속적인 벡터 공간에 표현하여 LSTM과 선형체인(linear-chain) CRF를 이용하는 방식으로 복합명사를 단위명사들로 분해한다.

사전과 말뭉치를 이용한 한국어 단어 중의성 해소 (Korean Word Sense Disambiguation using Dictionary and Corpus)

  • 정한조;박병화
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.1-13
    • /
    • 2015
  • 빅데이터 및 오피니언 마이닝 분야가 대두됨에 따라 정보 검색/추출, 특히 비정형 데이터에서의 정보 검색/추출 기술의 중요성이 나날이 부각되어지고 있다. 또한 정보 검색 분야에서는 이용자의 의도에 맞는 결과를 제공할 수 있는 검색엔진의 성능향상을 위한 다양한 연구들이 진행되고 있다. 이러한 정보 검색/추출 분야에서 자연어처리 기술은 비정형 데이터 분석/처리 분야에서 중요한 기술이고, 자연어처리에 있어서 하나의 단어가 여러개의 모호한 의미를 가질 수 있는 단어 중의성 문제는 자연어처리의 성능을 향상시키기 위해 우선적으로 해결해야하는 문제점들의 하나이다. 본 연구는 단어 중의성 해소 방법에 사용될 수 있는 말뭉치를 많은 시간과 노력이 요구되는 수동적인 방법이 아닌, 사전들의 예제를 활용하여 자동적으로 생성할 수 있는 방법을 소개한다. 즉, 기존의 수동적인 방법으로 의미 태깅된 세종말뭉치에 표준국어대사전의 예제를 자동적으로 태깅하여 결합한 말뭉치를 사용한 단어 중의성 해소 방법을 소개한다. 표준국어대사전에서 단어 중의성 해소의 주요 대상인 전체 명사 (265,655개) 중에 중의성 해소의 대상이 되는 중의어 (29,868개)의 각 센스 (93,522개)와 연관된 속담, 용례 문장 (56,914개)들을 결합 말뭉치에 추가하였다. 품사 및 센스가 같이 태깅된 세종말뭉치의 약 79만개의 문장과 표준국어대사전의 약 5.7만개의 문장을 각각 또는 병합하여 교차검증을 사용하여 실험을 진행하였다. 실험 결과는 결합 말뭉치를 사용하였을 때 정확도와 재현율에 있어서 향상된 결과가 발견되었다. 본 연구의 결과는 인터넷 검색엔진 등의 검색결과의 성능향상과 오피니언 마이닝, 텍스트 마이닝과 관련한 자연어 분석/처리에 있어서 문장의 내용을 보다 명확히 파악하는데 도움을 줄 수 있을 것으로 기대되어진다.

어절 내 형태소 출현 정보와 클러스터링 기법을 이용한 어휘지식 자동 획득 (The automatic Lexical Knowledge acquisition using morpheme information and Clustering techniques)

  • 유원희;서태원;임희석
    • 컴퓨터교육학회논문지
    • /
    • 제13권1호
    • /
    • pp.65-73
    • /
    • 2010
  • 본 논문은 자연어처리 연구를 위하여 지도학습(supervised learning)방식의 어휘지식(lexical knowledge) 수동 구축 방법의 한계점을 극복하기 위하여 비지도학습(unsupervised learning)방식의 자동 어휘지식 획득 모델을 제안한다. 제안하는 모델은 벡터화, 클러스터링, 어휘지식 획득 과정을 통하여 입력으로 주어지는 어휘목록에서 어휘지식을 자동으로 획득한다. 모델의 어휘지식 획득 과정에서 파라미터 변화에 따른 어휘지식 개수의 변화와 어휘지식의 특징이 나타나는 어휘 지식 사전의 일부 모습을 보인다. 실험결과 어휘지식 중 하나로 획득되는 어휘범주 지식의 클러스터가 일정한 개수에서 수렴하는 것이 관찰되어 어휘지식을 필요로 하는 전자사전 자동구축의 가능성을 확인하였다. 또한 한국어 특성이 반영되어 좌 우 통사정보가 포함된 어휘사전을 구축하였다.

  • PDF

컨벌루션 신경망과 변종데이터를 이용한 시계열 패턴 인식 (Convolutional Neural Network and Data Mutation for Time Series Pattern Recognition)

  • 안명호;류미현
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 춘계학술대회
    • /
    • pp.727-730
    • /
    • 2016
  • TSC(Time Series Classification)은 시계열데이터를 패턴에 따라 분류하는 것으로, 시계열이 매우 흔한 데이터형태이고, 또한 활용도가 높기 때문에 오랜 시간동안 Data Mining 과 Machine Learning 분야의 주요한 이슈였다. 전통적인 방법에서는 Distance와 Dictionary 기반의 방법들을 많이 활용하였으나, Time Scale과 Random Noise의 문제로 인해 분류의 정확도가 제한되었다. 본 논문에서는 Deep Learning의 CNN(Convolutional Neural Network)과 변종데이터(Data Mutation)을 이용해 정확도를 향상시킨 방법을 제시한다. CNN은 이미지분야에서 이미 검증된 신경망 모델로써 시계열데이터의 특성을 나타내는 Feature를 인식하는데 효과적으로 활용할 수 있고, 변종데이터는 하나의 데이터를 다양한 방식으로 변종을 만들어 CNN이 특정 패턴의 가능한 변형에 대해서도 학습할 수 있도록 데이터를 제공한다. 제시한 방식은 기존의 방식보다 우수한 정확도를 보여준다.

  • PDF

광학 문자 인식을 통한 단어 정리 방법 (Vocabulary Generation Method by Optical Character Recognition)

  • 김남규;김동언;김성우;권순각
    • 한국멀티미디어학회논문지
    • /
    • 제18권8호
    • /
    • pp.943-949
    • /
    • 2015
  • A reader usually spends a lot of time browsing and searching word meaning in a dictionary, internet or smart applications in order to find the unknown words. In this paper, we propose a method to compensate this drawback. The proposed method introduces a vocabulary upon recognizing a word or group of words that was captured by a smart phone camera. Through this proposed method, organizing and editing words that were captured by smart phone, searching the dictionary data using bisection method, listening pronunciation with the use of speech synthesizer, building and editing of vocabulary stored in database are given as the features. A smart phone application for organizing English words was established. The proposed method significantly reduces the organizing time for unknown English words and increases the English learning efficiency.

초등학교 과학 교과서 및 실험 관찰 물리영역에 수록된 과학 전문 용어 조사 (Research of Scientific Terms for Physics Area of Elementary School Science Textbooks and Laboratory Observation Books)

  • 윤은정;박윤배
    • 한국초등과학교육학회지:초등과학교육
    • /
    • 제28권3호
    • /
    • pp.331-339
    • /
    • 2009
  • The purpose of this study is to make a list of scientific terms to decrease students' difficulties of science learning. By using inductive method, database has established from elementary school science textbooks and laboratory observation books. All terms from physics area of science textbooks and laboratory observation books at the levels of grade 3 to 6 were analyzed based on the Standard Korean Dictionary (1999) and Book of Physics Terminology (2005). As a result, we made a list of 204 scientific terms by grade level. Those were 51 words for grade 3, 55 words for grade 4, 56 words for grade 5, and 42 words for grade 6. And there were some incongruities among textbooks, the Standard Korean Dictionary and the Book of Physics Terminology.

  • PDF

A Novel Multiple Kernel Sparse Representation based Classification for Face Recognition

  • Zheng, Hao;Ye, Qiaolin;Jin, Zhong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제8권4호
    • /
    • pp.1463-1480
    • /
    • 2014
  • It is well known that sparse code is effective for feature extraction of face recognition, especially sparse mode can be learned in the kernel space, and obtain better performance. Some recent algorithms made use of single kernel in the sparse mode, but this didn't make full use of the kernel information. The key issue is how to select the suitable kernel weights, and combine the selected kernels. In this paper, we propose a novel multiple kernel sparse representation based classification for face recognition (MKSRC), which performs sparse code and dictionary learning in the multiple kernel space. Initially, several possible kernels are combined and the sparse coefficient is computed, then the kernel weights can be obtained by the sparse coefficient. Finally convergence makes the kernel weights optimal. The experiments results show that our algorithm outperforms other state-of-the-art algorithms and demonstrate the promising performance of the proposed algorithms.

전산언어학에서의 한국어 필수논항의 의미역 상정과 재고 (Consideration of Sematic Roles of Korean Subcategory in Computational Linguistics)

  • 김윤정;김완수;옥철영
    • 한국언어정보학회지:언어와정보
    • /
    • 제18권2호
    • /
    • pp.169-199
    • /
    • 2014
  • This study was performed to assume the Sematic role of the obligatory argument of the predicate in a Korean sentence, and to accomplish the task to attach the assumed thematic role to the real corpus. With this study, the maximum of the Sematic role was determined and the Criterion of the Sematic role was set. The maximum of the Sematic role was determined 22. This study arranged the Sematic role of case marker and attached the Sematic role to the predicate of the sentence within The standard Korean Dictionary. The program to attach the thematic role was developed(UTagger-SR). The Sematic role of case marker and Case frame dictionary was equipped in this program. By attaching the Sematic role, it was found that the most important the Sematic role in the korean sentence is the theme of the predicate and the next is the subject of the predicate.

  • PDF

베트남어 사전을 사용한 베트남어 SentiWordNet 구축 (Construction of Vietnamese SentiWordNet by using Vietnamese Dictionary)

  • 뷔쉬에손;박성배
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.745-748
    • /
    • 2014
  • SentiWordNet is an important lexical resource supporting sentiment analysis in opinion mining applications. In this paper, we propose a novel approach to construct a Vietnamese SentiWordNet (VSWN). SentiWordNet is typically generated from WordNet in which each synset has numerical scores to indicate its opinion polarities. Many previous studies obtained these scores by applying a machine learning method to WordNet. However, Vietnamese WordNet is not available unfortunately by the time of this paper. Therefore, we propose a method to construct VSWN from a Vietnamese dictionary, not from WordNet. We show the effectiveness of the proposed method by generating a VSWN with 39,561 synsets automatically. The method is experimentally tested with 266 synsets with aspect of positivity and negativity. It attains a competitive result compared with English SentiWordNet that is 0.066 and 0.052 differences for positivity and negativity sets respectively.

Analysis on Review Data of Restaurants in Google Maps through Text Mining: Focusing on Sentiment Analysis

  • Shin, Bee;Ryu, Sohee;Kim, Yongjun;Kim, Dongwhan
    • Journal of Multimedia Information System
    • /
    • 제9권1호
    • /
    • pp.61-68
    • /
    • 2022
  • The importance of online reviews is prevalent as more people access goods or places online and make decisions to visit or purchase. However, such reviews are generally provided by short sentences or mere star ratings; failing to provide a general overview of customer preferences and decision factors. This study explored and broke down restaurant reviews found on Google Maps. After collecting and analyzing 5,427 reviews, we vectorized the importance of words using the TF-IDF. We used a random forest machine learning algorithm to calculate the coefficient of positivity and negativity of words used in reviews. As the result, we were able to build a dictionary of words for positive and negative sentiment using each word's coefficient. We classified words into four major evaluation categories and derived insights into sentiment in each criterion. We believe the dictionary of review words and analyzing the major evaluation categories can help prospective restaurant visitors to read between the lines on restaurant reviews found on the Web.