• Title/Summary/Keyword: 텍스트분류

Search Result 684, Processing Time 0.029 seconds

Automatic Harmful Website Rating System Based on Hyperlink Relationship (하이퍼링크 연관성을 이용한 유해사이트의 자동분류)

  • Jang, Young-Hun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.1573-1576
    • /
    • 2005
  • 인터넷의 발전과 함께 유해사이트의 급속한 증가로 유해사이트 분류의 신뢰도를 높일 필요성이 높아지고 있다. 기존의 유해사이트 분류방식에는 텍스트 기반의 분류방식과 Skin-Color Detection 알고리즘을 이용한 이미지 기반 방식이 있으며, 현재 텍스트 기반의 사이트 분류방식이 보편적으로 사용되고 있다. 본 논문은 기존 유해사이트 분류의 신뢰도를 높이기 위하여 유해사이트에 포함된 링크 정보를 기반으로 유해사이트 분류의 정확성을 검증할 수 있음을 증명하였다.

  • PDF

Research Paper Classification Scheme based on Word Embedding (워드 임베딩 기반 연구 논문 분류 기법)

  • Dipto, Biswas;Gil, Joon-Min
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.494-497
    • /
    • 2021
  • 텍스트 분류(text classification)는 원시 텍스트 데이터로부터 정보를 추출할 수 있는 기술에 기반하여 많은 양의 텍스트 데이터를 관심 영역으로 분류하는 것으로 최근에 각광을 받고 있다. 본 논문에서는 워드 임베딩(word embedding) 기법을 이용하여 특정 분야의 연구 논문을 분류하고 추천하는 기법을 제안한다. 워드 임베딩으로 CBOW(Continuous Bag-of-Word)와 Sg(Skip-gram)를 연구 논문의 분류에 적용하고 기존 방식인 TF-IDF(Term Frequency-Inverse Document Frequency)와 성능을 비교 분석한다. 성능 평가 결과는 워드 임베딩에 기반한 연구 논문 분류 기법이 TF-IDF에 기반한 연구 논문 분류 기법보다 좋은 성능을 가진다는 것을 나타낸다.

Short Text Emotion Recognition based on Complex Keywords (복합색인어 기반 단문텍스트 감정 인식 기법)

  • Han, Ki-Hyun;Lee, Sungyoung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.520-522
    • /
    • 2013
  • 스마트 폰의 확산으로 대화의 개념이 음성에서 텍스트로 확대 되고 있다. 방대하게 누적되고 있는 메신저의 텍스트 데이터로부터 유용한 정보들을 찾아 사용자에게 추천서비스를 제공할 수 있다. 이를 뒷받침 해주기 위해서는 텍스트 감정 인식이 중요하다. 기존에는 PMI기법과 감정키워드를 이용하여 감정을 분류 하였다. 그러나 특정단어로 감정을 분류하기 때문에 정확도가 낮았다. 본 논문에서는 복합색인어 기반 텍스트 감정 인식 기법을 제안한다. 문장에서 동사와 복합색인어를 추출하여 음운으로 분해한다. 그리고 스트링커널에서 벡터 값을 추출하여 기계학습 알고리즘(SVM)으로 4가지 감정(행복, 슬픔. 화남, 평범)으로 분류하는 방법이다. 동사와 감정에 영향을 주는 색인어를 추출하여 감정을 인식하는 기법으로 실험결과 정확도는 기존에 동사만 사용했을 때 보다 15%향상됨을 보였다.

A Feature Selection Technique for an Efficient Document Automatic Classification (효율적인 문서 자동 분류를 위한 대표 색인어 추출 기법)

  • 김지숙;문현정;김영지;우용태
    • Proceedings of the Korea Database Society Conference
    • /
    • 2001.06a
    • /
    • pp.295-302
    • /
    • 2001
  • 최근 대량의 텍스트 문서로부터 의미 있는 패턴이나 연관 규칙을 발견하기 위한 텍스트마이닝 기법에 대한 연구가 활발히 전개되고 있다. 하지만 비정형 텍스트 문서로부터 추출된 용어의 수는 불규칙적이고 일반적인 용어가 많이 추출되는 관계로 기존의 연관 규칙 탐사 방법을 사용하게 되면 무의미한 연관 규칙이 대량으로 생성되어 지식 정보를 효과적으로 검색하기 어렵다. 본 논문에서는 연관 규칙 탐사 기법을 이용하여 비감독학습 기법에 의해 대량의 문서를 효율적으로 분류하기 위한 대표 색인어 추출 기법을 제안하였다. 컴퓨터 분야의 논문을 대상으로 각 분야별 대표 색인어를 추출하여 유사한 문서끼리 분류하는 실험을 통해 제안된 방법의 효율성을 보였다.

  • PDF

A Tensor Space Model based Deep Neural Network for Automated Text Classification (자동문서분류를 위한 텐서공간모델 기반 심층 신경망)

  • Lim, Pu-reum;Kim, Han-joon
    • Database Research
    • /
    • v.34 no.3
    • /
    • pp.3-13
    • /
    • 2018
  • Text classification is one of the text mining technologies that classifies a given textual document into its appropriate categories and is used in various fields such as spam email detection, news classification, question answering, emotional analysis, and chat bot. In general, the text classification system utilizes machine learning algorithms, and among a number of algorithms, naïve Bayes and support vector machine, which are suitable for text data, are known to have reasonable performance. Recently, with the development of deep learning technology, several researches on applying deep neural networks such as recurrent neural networks (RNN) and convolutional neural networks (CNN) have been introduced to improve the performance of text classification system. However, the current text classification techniques have not yet reached the perfect level of text classification. This paper focuses on the fact that the text data is expressed as a vector only with the word dimensions, which impairs the semantic information inherent in the text, and proposes a neural network architecture based upon the semantic tensor space model.

A Ensemble Classification Method of Korean Standard Industry Code for Corporate Business Analysis (기업 비지니스 분석을 위한 한국표준산업코드 앙상블 분류)

  • Kyo-Joong Oh;Ho-Jin Choi;Jinwon Kim;Wonseok Cha;Ilgu Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.477-479
    • /
    • 2022
  • 본 논문에서는 기업 비즈니스 분석을 위해 한국표준산업분류에 근거하여 국내 사업체의 산업군을 분류하는 앙상블 분류 모델 구축 방법론을 제시한다. 기업 평가 및 보고서 자동화 시스템 구축을 위해 기업의 재무제표 정보, 기업등록부와 같은 신고 정보, 사업체 조사 정보에 포함된 텍스트 정보를 이용하여, 각 기업이 속해 있는 산업군 정보를 분석해야 하며, 이를 통해 동일한 산업군에 속해 있는 다른 기업에 대한 현황 파악 및 비교 등 비즈니스 정보를 분석할 수 있다.

  • PDF

Image classification model utilizing text to improve image classification accuracy (이미지 분류 정확도 향상을 위한 텍스트 활용 이미지 분류 모델)

  • Ju-Hyeok Lee;Mi-Hui Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.724-726
    • /
    • 2023
  • 컴퓨터 비전 문제 중 이미지 분류는 핵심적인 주제 중 하나이다. 딥러닝의 발전으로 이미지 분류 문제에서 높은 정확도와 성능을 보여준다. 하지만 대부분 이미지 분류 연구에서 시각정보인 이미지 내의 특징에만 의존하고 있다. 그렇기에 이미지의 본질적인 맥략과 함께 있는 텍스트 정보를 활용하지 못하는 경우도 있다. 이에 본 논문은 텍스트 정보를 활용하여 이미지 분류 성능을 개선하는 방식을 제안한다.

A User Sentiment Classification Using Instagram image and text Analysis (인스타그램 이미지와 텍스트 분석을 통한 사용자 감정 분류)

  • Hong, Taekeun;Kim, Jeongin;Shin, Juhyun
    • Smart Media Journal
    • /
    • v.5 no.1
    • /
    • pp.61-68
    • /
    • 2016
  • According to increasing SNS users and developing smart devices like smart phone and tablet PC recently, many techniques to classify user emotions with social network information are researching briskly. The use emotion classification stands for distinguishing its emotion with text and images listed on his/her SNS. This paper suggests a method to classify user emotions through sampling a value of a representative figure on a trigonometrical function, a representative adjective on text, and a canny algorithm on images. The sampling representative adjective on text is selected as one of high frequency in the samplings and measured values of positive-negative by SentiWordNet. Figures sampled on images are selected as the representative in figures; triangle, quadrangle, and circle as well as classified user emotions by measuring pleasure-unpleased values as a type of figures and inclines. Finally, this is re-defined as x-y graph that represents pleasure-unpleased and positive-negative values with wheel of emotions by Plutchik. Also, we are anticipating for applying user-customized service through classifying user emotions on wheel of emotions by Plutchik that is redefined the representative adjectives and figures.

Analyzing and classifying emotional flow of story in emotion dimension space (정서 차원 공간에서 소설의 지배 정서 분석 및 분류)

  • Rhee, Shin-Young;Ham, Jun-Seok;Ko, Il-Ju
    • Korean Journal of Cognitive Science
    • /
    • v.22 no.3
    • /
    • pp.299-326
    • /
    • 2011
  • The text such as stories, blogs, chat, message and reviews have the overall emotional flow. It can be classified to the text having similar emotional flow if we compare the similarity between texts, and it can be used such as recommendations and opinion collection. In this paper, we extract emotion terms from the text sequentially and analysis emotion terms in the pleasantness-unpleasantness and activation dimension in order to identify the emotional flow of the text. To analyze the 'dominant emotion' which is the overall emotional flow in the text, we add the time dimension as sequential flow of the text, and analyze the emotional flow in three dimensional space: pleasantness-unpleasantness, activation and time. Also, we suggested that a classification method to compute similarity of the emotional flow in the text using the Euclidean distance in three dimensional space. With the proposed method, we analyze the dominant emotion in korean modern short stories and classify them to similar dominant emotion.

  • PDF

Incremental Early Text Classification system for Early Risk Detection (조기 위험 검출을 위한 점진적 조기 텍스트 분류 시스템)

  • Bae, Sohyeun;Lee, Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.91-96
    • /
    • 2021
  • 조기 위험 검출은 실시간으로 들어오는 텍스트를 순차적으로 처리하면서 해당 대화에 위험이 있는지 조기에 분류하는 작업으로, 정확도 저하를 최소화하는 동시에 가능한 한 빨리 대화를 분류하는 것을 목적으로 한다. 이러한, 조기 위험 검출은 온라인 그루밍 검출, 보이스 피싱 검출과 같은 다양한 영역에 활용될 수 있다. 이에, 본 논문에서는 조기 위험 검출 문제를 정의하고, 이를 평가할 수 있는 데이터 셋과 Latency F1 평가 지표를 소개한다. 또한, 점진적 문장 분류 모듈과 위험 검출 결정 모듈로 구성된 점진적 조기 텍스트 분류 시스템을 제안한다. 점진적 문장 분류 모듈은 이전 문장들에 대한 메모리 벡터와 현재 문장 벡터를 통해 현재까지의 대화를 분류한다. 위험 검출 결정 모듈은 softmax 분류 점수와 강화학습을 기반으로 하여 Read 또는 Stop 판단을 내린다. 결정 모듈이 Stop 판단을 내리면, 현재까지의 대화에 대한 분류 결과를 전체 대화의 분류 결과로 간주하고 작업을 종료한다. 해당 시스템은 micro F1과 Latency F1 지표 각각에서 0.9684와 0.8918로 높은 검출 정확성 및 검출 신속성을 달성하였다.

  • PDF