• Title/Summary/Keyword: 텍스트분류

Search Result 684, Processing Time 0.037 seconds

Aspect-Based Sentiment Analysis Using BERT: Developing Aspect Category Sentiment Classification Models (BERT를 활용한 속성기반 감성분석: 속성카테고리 감성분류 모델 개발)

  • Park, Hyun-jung;Shin, Kyung-shik
    • Journal of Intelligence and Information Systems
    • /
    • v.26 no.4
    • /
    • pp.1-25
    • /
    • 2020
  • Sentiment Analysis (SA) is a Natural Language Processing (NLP) task that analyzes the sentiments consumers or the public feel about an arbitrary object from written texts. Furthermore, Aspect-Based Sentiment Analysis (ABSA) is a fine-grained analysis of the sentiments towards each aspect of an object. Since having a more practical value in terms of business, ABSA is drawing attention from both academic and industrial organizations. When there is a review that says "The restaurant is expensive but the food is really fantastic", for example, the general SA evaluates the overall sentiment towards the 'restaurant' as 'positive', while ABSA identifies the restaurant's aspect 'price' as 'negative' and 'food' aspect as 'positive'. Thus, ABSA enables a more specific and effective marketing strategy. In order to perform ABSA, it is necessary to identify what are the aspect terms or aspect categories included in the text, and judge the sentiments towards them. Accordingly, there exist four main areas in ABSA; aspect term extraction, aspect category detection, Aspect Term Sentiment Classification (ATSC), and Aspect Category Sentiment Classification (ACSC). It is usually conducted by extracting aspect terms and then performing ATSC to analyze sentiments for the given aspect terms, or by extracting aspect categories and then performing ACSC to analyze sentiments for the given aspect category. Here, an aspect category is expressed in one or more aspect terms, or indirectly inferred by other words. In the preceding example sentence, 'price' and 'food' are both aspect categories, and the aspect category 'food' is expressed by the aspect term 'food' included in the review. If the review sentence includes 'pasta', 'steak', or 'grilled chicken special', these can all be aspect terms for the aspect category 'food'. As such, an aspect category referred to by one or more specific aspect terms is called an explicit aspect. On the other hand, the aspect category like 'price', which does not have any specific aspect terms but can be indirectly guessed with an emotional word 'expensive,' is called an implicit aspect. So far, the 'aspect category' has been used to avoid confusion about 'aspect term'. From now on, we will consider 'aspect category' and 'aspect' as the same concept and use the word 'aspect' more for convenience. And one thing to note is that ATSC analyzes the sentiment towards given aspect terms, so it deals only with explicit aspects, and ACSC treats not only explicit aspects but also implicit aspects. This study seeks to find answers to the following issues ignored in the previous studies when applying the BERT pre-trained language model to ACSC and derives superior ACSC models. First, is it more effective to reflect the output vector of tokens for aspect categories than to use only the final output vector of [CLS] token as a classification vector? Second, is there any performance difference between QA (Question Answering) and NLI (Natural Language Inference) types in the sentence-pair configuration of input data? Third, is there any performance difference according to the order of sentence including aspect category in the QA or NLI type sentence-pair configuration of input data? To achieve these research objectives, we implemented 12 ACSC models and conducted experiments on 4 English benchmark datasets. As a result, ACSC models that provide performance beyond the existing studies without expanding the training dataset were derived. In addition, it was found that it is more effective to reflect the output vector of the aspect category token than to use only the output vector for the [CLS] token as a classification vector. It was also found that QA type input generally provides better performance than NLI, and the order of the sentence with the aspect category in QA type is irrelevant with performance. There may be some differences depending on the characteristics of the dataset, but when using NLI type sentence-pair input, placing the sentence containing the aspect category second seems to provide better performance. The new methodology for designing the ACSC model used in this study could be similarly applied to other studies such as ATSC.

Design of Module for Spam Mail Stocking with OTP(One Time Password) (OTP를 이용한 스팸 메일 차단 모듈 설계)

  • Choo Yeoun-Soo;Lee Jae-Sik;Kim Jung-Jae;Cho Chang-Hyun;Jun Moon-Seog
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11a
    • /
    • pp.235-237
    • /
    • 2005
  • 인터넷 사용의 증가로 않은 사람들이 기존의 편지나 엽서를 사용하던 것을 전자 메일(e-mail)로 대체하고 있다. 전자 메일은 텍스트뿐만 아니라 그림, 음성, 동영상까지 전송이 가능하여 필요한 문서들도 첨부가 가능하여 많은 사람들에게 호응을 얻고 있지만 광고 메일이나 음란 사이트 홍보 메일로 사용되면서 많은 전자 메일 사용자들에게 정신적 피해를 주고 있으며 메일링 서비스를 하고 있는 업체들에게 큰 유해를 끼치고 있다. 본 논문에서는 사용자가 요구하지 않은 광고성 스팸 메일을 OTP(One Time Password)를 이용하여 효과적으로 차단하는 모듈을 제안, 설계한다. 기존의 차단 방식은 메일 서버에 저장된 메일들을 삭제하는 방식으로 메일 서버에 많은 과부하를 주며 메일 서버의 저장 용량을 낭비하여 사용자로 하여금 곡 필요한 메일들을 송, 수신 하지 못할 수도 있었다. 본 논문에서 제안하는 시스템은 스팸 메일로 분류된 메일들을 메일 서버 자체에 저장하지 않는 방식을 사용하여서 기존의 문제점을 해결하였다.

  • PDF

Technical Entity Recognition System based on Distributed Parallel Processing (분산병렬처리 기반 기술개체 인식 시스템)

  • Choi, Yun-Soo;Lee, Won-Goo;Lee, Min-Ho;Choi, Dong-Hoon;Yoon, Hwa-Mook;Cho, Min-Hee;Jeong, Han-Min
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06a
    • /
    • pp.242-244
    • /
    • 2012
  • 과학기술 문헌의 기술개체 인식에 관한 연구는 정보추출, 텍스트마이닝, 질의응답 분야 등의 선행 연구로서 다양한 통계적 방법론을 사용하여 기술개체 인식 정확률을 향상시키기 위해 연구되어 왔다. 하지만 기존의 연구는 단일-코어 또는 단일 머신 상에서 수행되었기 때문에, 폭발적으로 증가하는 문헌들에 대한 실시간 분석 요구를 처리할 수 없는 상황에 직면하고 있다. 이에 본 논문에서는 기술개체를 인식하는 과정에서 병목현상이 발생하는 작업을 "후보개체 추출 과정"의 언어처리 부분과 "개체 가중치 할당 과정"에서 통계정보를 취합하는 부분으로 분류하고, 각 작업을 하둡의 맵 작업과 리듀스 작업을 이용하여 해결하는 분산 병렬 처리 기반의 기술개체 인식 방법에 대해 살펴보고자 한다.

Development of Automatic Lip-sync MAYA Plug-in for 3D Characters (3D 캐릭터에서의 자동 립싱크 MAYA 플러그인 개발)

  • Lee, Sang-Woo;Shin, Sung-Wook;Chung, Sung-Taek
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.18 no.3
    • /
    • pp.127-134
    • /
    • 2018
  • In this paper, we have developed the Auto Lip-Sync Maya plug-in for extracting Korean phonemes from voice data and text information based on Korean and produce high quality 3D lip-sync animation using divided phonemes. In the developed system, phoneme separation was classified into 8 vowels and 13 consonants used in Korean, referring to 49 phonemes provided by Microsoft Speech API engine SAPI. In addition, the pronunciation of vowels and consonants has variety Mouth Shapes, but the same Viseme can be applied to some identical ones. Based on this, we have developed Auto Lip-sync Maya Plug-in based on Python to enable lip-sync animation to be implemented automatically at once.

Detecting Improper Sentences in a News Article Using Text Mining (텍스트 마이닝을 이용한 기사 내 부적합 문단 검출 시스템)

  • Kim, Kyu-Wan;Sin, Hyun-Ju;Kim, Seon-Jin;Lee, Hyun Ah
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.294-297
    • /
    • 2017
  • SNS와 스마트기기의 발전으로 온라인을 통한 뉴스 배포가 용이해지면서 악의적으로 조작된 뉴스가 급속도로 생성되어 확산되고 있다. 뉴스 조작은 다양한 형태로 이루어지는데, 이 중에서 정상적인 기사 내에 광고나 낚시성 내용을 포함시켜 독자가 의도하지 않은 정보에 노출되게 하는 형태는 독자가 해당 내용을 진짜 뉴스로 받아들이기 쉽다. 본 논문에서는 뉴스 기사 내에 포함된 문단 중에서 부적합한 문단이 포함되었는지를 판정하기 위한 방법을 제안한다. 제안하는 방식에서는 자연어 처리에 유용한 Convolutional Neural Network(CNN)모델 중 Word2Vec과 tf-idf 알고리즘, 로지스틱 회귀를 함께 이용하여 뉴스 부적합 문단을 검출한다. 본 시스템에서는 로지스틱 회귀를 이용하여 문단의 카테고리를 분류하여 본문의 카테고리 분포도를 계산하고 Word2Vec을 이용하여 문단간의 유사도를 계산한 결과에 가중치를 부여하여 부적합 문단을 검출한다.

  • PDF

A Study on the Analysis of Semantic Relation and Category of the Korean Emotion Words (한글 감정단어의 의미적 관계와 범주 분석에 관한 연구)

  • Lee, Soo-Sang
    • Journal of Korean Library and Information Science Society
    • /
    • v.47 no.2
    • /
    • pp.51-70
    • /
    • 2016
  • The purpose of this study is to analyze the semantic relation network and valence-arousal dimension through the words that describe emotions in Korean language. The results of this analysis are summarized as follows. Firstly, each emotion word was semantically linked in the network. This particular feature hinders differentiating various types of "emotion words" in accordance with similarity in meaning. Instead, central emotion words playing a central role in a network was identified. Secondly, many words are classified as two categories at the valence and arousal level: (1) negative of valence and high of arousal, (2) negative of valence and middle of arousal. This aspects of Korean emotional words would be useful to analyze emotions in various text data of books and document information.

Domain-specific Ontology Construction by Terminology Processing (전문용어의 처리에 의한 도메인 온톨로지의 구축)

  • 임수연;송무희;이상조
    • Journal of KIISE:Software and Applications
    • /
    • v.31 no.3
    • /
    • pp.353-360
    • /
    • 2004
  • Ontology defines the terms used in a specific domain and the relationships between them and represents them as hierarchical taxonomy. The present paper proposes a semi-automatic domain-specific ontology construction method based on terminology Processing. For this purpose, it presents an algorithm to extract terminology according to the noun/suffix pattern of terminology in domain texts and find their hierarchical structure. The experiment was carried out using pharmacy-related documents. As singleton terminology with noun/suffix were identified, the average accuracy was 92.57%. In case of multi-word terminology, the average accuracy was 66.64%. The constructed ontology forms natural semantic clusters with based on suffices and semantic information, so can be utilized in approaches to specific knowledge such as information look-up or as the base of inference to improve searching abilities.

A Study on automatic assignment of descriptors using machine learning (기계학습을 통한 디스크립터 자동부여에 관한 연구)

  • Kim, Pan-Jun
    • Journal of the Korean Society for information Management
    • /
    • v.23 no.1 s.59
    • /
    • pp.279-299
    • /
    • 2006
  • This study utilizes various approaches of machine learning in the process of automatically assigning descriptors to journal articles. The effectiveness of feature selection and the size of training set were examined, after selecting core journals in the field of information science and organizing test collection from the articles of the past 11 years. Regarding feature selection, after reducing the feature set using $x^2$ statistics(CHI) and criteria that prefer high-frequency features(COS, GSS, JAC), the trained Support Vector Machines(SVM) performed the best. With respect to the size of the training set, it significantly influenced the performance of Support Vector Machines(SVM) and Voted Perceptron(VTP). However, it had little effect on Naive Bayes(NB).

Human body learning system using multimodal and user-centric interfaces (멀티모달 사용자 중심 인터페이스를 적용한 인체 학습 시스템)

  • Kim, Ki-Min;Kim, Jae-Il;Park, Jin-Ah
    • 한국HCI학회:학술대회논문집
    • /
    • 2008.02a
    • /
    • pp.85-90
    • /
    • 2008
  • This paper describes the human body learning system using the multi-modal user interface. Through our learning system, students can study about human anatomy interactively. The existing learning methods use the one-way materials like images, text and movies. But we propose the new learning system that includes 3D organ surface models, haptic interface and the hierarchical data structure of human organs to serve enhanced learning that utilizes sensorimotor skills.

  • PDF

Mean Shift Clustering을 이용한 영상 검색결과 개선

  • Kwon, Kyung-Su;Shin, Yun-Hee;Kim, Young-Rae;Kim, Eun-Yi
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 2009.05a
    • /
    • pp.138-143
    • /
    • 2009
  • 본 논문에서는 감성 공간에서 mean shift clustering과 user feedback을 이용하여 영상 검색 결과를 개선하기 위한 시스템을 제안한다. 제안된 시스템은 사용자 인터페이스, 감성 공간 변환, 검색결과 순위 재지정(re-ranking)으로 구성된다. 사용자 인터페이스는 텍스트 형태의 질의 입력과 감성 어휘 선택에 따른 user feedback에 의해 개선된 검색결과를 보인다. 사용된 감성 어휘는 고바야시가 정의한 romantic, natural, casual, elegant, chic, classic, dandy, modern 등의 8개 어휘를 사용한다. 감성 공간 변환 단계에서는 입력된 질의에 따라 웹 영상 검색 엔진(Yahoo)에 의해 검색된 결과 영상들에 대해 컬러와 패턴정보의 특징을 추출하고, 이를 입력으로 하는 8개의 각 감성별 분류기에 의해 각 영상은 8차원 감성 공간으로의 특징 벡터로 변환된다. 이때 감성 공간으로 변환된 특징 벡터들은 mean shift clustering을 통해 군집화 되고, 그 결과로써 대표 클러스터를 찾게 된다. 검색결과 순위 재지정 단계에서는 user feedback 유무에 따라 대표 클러스터의 평균 벡터와 user feedback에 의해 생성된 사용자 감성 벡터에 의해 검색 결과를 개선할 수 있다. 이때 각 기준에 따라 유사도가 결정되고 검색결과 순위가 재지정 된다 제안된 시스템의 성능을 검증하기 위해 7개의 질의의 각 400장, 총 2,800장에 대한 Yahoo 검색 결과와 제안된 시스템을 개선된 검색 결과를 비교하였다.

  • PDF