• 제목/요약/키워드: Short text

검색결과 252건 처리시간 0.026초

Enhancing the Text Mining Process by Implementation of Average-Stochastic Gradient Descent Weight Dropped Long-Short Memory

  • Annaluri, Sreenivasa Rao;Attili, Venkata Ramana
    • International Journal of Computer Science & Network Security
    • /
    • 제22권7호
    • /
    • pp.352-358
    • /
    • 2022
  • Text mining is an important process used for analyzing the data collected from different sources like videos, audio, social media, and so on. The tools like Natural Language Processing (NLP) are mostly used in real-time applications. In the earlier research, text mining approaches were implemented using long-short memory (LSTM) networks. In this paper, text mining is performed using average-stochastic gradient descent weight-dropped (AWD)-LSTM techniques to obtain better accuracy and performance. The proposed model is effectively demonstrated by considering the internet movie database (IMDB) reviews. To implement the proposed model Python language was used due to easy adaptability and flexibility while dealing with massive data sets/databases. From the results, it is seen that the proposed LSTM plus weight dropped plus embedding model demonstrated an accuracy of 88.36% as compared to the previous models of AWD LSTM as 85.64. This result proved to be far better when compared with the results obtained by just LSTM model (with 85.16%) accuracy. Finally, the loss function proved to decrease from 0.341 to 0.299 using the proposed model

Self-Attention을 적용한 문장 임베딩으로부터 이미지 생성 연구 (A Study on Image Generation from Sentence Embedding Applying Self-Attention)

  • 유경호;노주현;홍택은;김형주;김판구
    • 스마트미디어저널
    • /
    • 제10권1호
    • /
    • pp.63-69
    • /
    • 2021
  • 사람이 어떤 문장을 보고 그 문장에 대해 이해하는 것은 문장 안에서 주요한 단어를 이미지로 연상시켜 그 문장에 대해 이해한다. 이러한 연상과정을 컴퓨터가 할 수 있도록 하는 것을 text-to-image라고 한다. 기존 딥 러닝 기반 text-to-image 모델은 Convolutional Neural Network(CNN)-Long Short Term Memory(LSTM), bi-directional LSTM을 사용하여 텍스트의 특징을 추출하고, GAN에 입력으로 하여 이미지를 생성한다. 기존 text-to-image 모델은 텍스트 특징 추출에서 기본적인 임베딩을 사용하였으며, 여러 모듈을 사용하여 이미지를 생성하므로 학습 시간이 오래 걸린다. 따라서 본 연구에서는 자연어 처리분야에서 성능 향상을 보인 어텐션 메커니즘(Attention Mechanism)을 문장 임베딩에 사용하여 특징을 추출하고, 추출된 특징을 GAN에 입력하여 이미지를 생성하는 방법을 제안한다. 실험 결과 기존 연구에서 사용되는 모델보다 inception score가 높았으며 육안으로 판단하였을 때 입력된 문장에서 특징을 잘 표현하는 이미지를 생성하였다. 또한, 긴 문장이 입력되었을 때에도 문장을 잘 표현하는 이미지를 생성하였다.

Text Classification Method Using Deep Learning Model Fusion and Its Application

  • 신성윤;조광현;조승표;이현창
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.409-410
    • /
    • 2022
  • 본 논문은 LSTM(Long-Short Term Memory) 네트워크와 CNN 딥러닝 기법을 기반으로 하는 융합 모델을 제안하고 다중 카테고리 뉴스 데이터 세트에 적용하여 좋은 결과를 얻었다. 실험에 따르면 딥 러닝 기반의 융합 모델이 텍스트 감정 분류의 정밀도와 정확도를 크게 향상시켰다. 이 방법은 모델을 최적화하고 모델의 성능을 향상시키는 중요한 방법이 될 것이다.

  • PDF

Text Classification on Social Network Platforms Based on Deep Learning Models

  • YA, Chen;Tan, Juan;Hoekyung, Jung
    • Journal of information and communication convergence engineering
    • /
    • 제21권1호
    • /
    • pp.9-16
    • /
    • 2023
  • The natural language on social network platforms has a certain front-to-back dependency in structure, and the direct conversion of Chinese text into a vector makes the dimensionality very high, thereby resulting in the low accuracy of existing text classification methods. To this end, this study establishes a deep learning model that combines a big data ultra-deep convolutional neural network (UDCNN) and long short-term memory network (LSTM). The deep structure of UDCNN is used to extract the features of text vector classification. The LSTM stores historical information to extract the context dependency of long texts, and word embedding is introduced to convert the text into low-dimensional vectors. Experiments are conducted on the social network platforms Sogou corpus and the University HowNet Chinese corpus. The research results show that compared with CNN + rand, LSTM, and other models, the neural network deep learning hybrid model can effectively improve the accuracy of text classification.

온라인 텍스트 분석을 통해 추정한 기업의 사회적책임 성과가 기업의 단기적 장기적 성과에 미치는 영향 분석 (Investigating the Impact of Corporate Social Responsibility on Firm's Short- and Long-Term Performance with Online Text Analytics)

  • 이희승;진윤선;권오병
    • 지능정보연구
    • /
    • 제22권2호
    • /
    • pp.13-31
    • /
    • 2016
  • 그동안 기업의 사회적 책임(CSR)관련 활동의 결과가 기업 성과에 미치는 단기적 및 장기적 영향에 대한 다양한 연구가 진행되었지만 그 결과는 일관되지 못한데 그 주된 원인은 기업의 사회적책임이라고 하는 개념의 불일치였다. 따라서 본 연구는 온라인 뉴스와 같은 비정형 공개 데이터로부터 기업의 사회적책임에 관련한 키워드를 텍스트 마이닝 기법을 사용하여 추출하고 그 개념에 대한 통계치와 기업 성과와의 관계성을 이해하려고 했다. 이를 위해 개념과 관련한 키워드는 뉴욕타임즈와 구글 스칼러에서 CSR이라고 하는 단어로 검색한 비정형 데이터로부터 인식하였다. 그런 다음 점검 대상이 되는 기업에 대한 글이 실려 있는 온라인 문서를 수집하여 기업의 사회적 책임과 기업 단기적 및 장기적 성과 사이의 인과관계를 분석하였다. 그 결과, 기업의 사회적 책임에 대한 전문적인 평가 보고서의 도움 없이도 본 연구에서 개발한 기업의 사회적 책임 인덱스만으로 기업의 단기적 성과에는 영향이 없지만 장기적 성과와는 통계적으로 유의하게 정비례관계가 있는 것이 밝혀졌다. 본 연구는 빅데이터 분석을 통해 효율적이고 의미 있는 기업의 사회적 책임 평가 방법을 개발한 첫 번째 시도라는 의미가 있다.

전화상담과 문자메시지 제공이 허혈성 심질환자의 금연에 미치는 효과 (Effects of a Smoking Cession Program Using Telephone Counselling and Text Messaging for Patients after Ischemic Heart Disease)

  • 김은심;최혜옥
    • 한국산학기술학회논문지
    • /
    • 제15권12호
    • /
    • pp.7248-7258
    • /
    • 2014
  • 본 연구는 전화상담과 문자메시지 제공 금연프로그램이 중재 횟수를 달리한 실험군1, 실험군2와 대조군의 금연 자기효능감, 니코틴의존도, 호기일산화탄소 농도, 금연성공률에 미치는 효과를 알아보기 위한 유사실험연구로 허혈성 심질환자 60명을 대상으로 하였다. 프로그램효과를 측정한 결과, 실험군은 대조군에 비해 금연 자기효능감, 금연성공률은 유의하게 증가하였고, 니코틴의존도, 호기 일산화탄소 농도는 유의하게 감소하였다. 또한 실험군1은 실험군2에 비해 금연 자기효능감, 금연성공률은 유의하게 증가하였고, 호기 일산화탄소는 유의하게 감소하였으나, 니코틴의존도에는 유의한 차이가 없었다. 따라서 허혈성 심질환자에게 제공한 전화상담과 문자메시지 중재 금연프로그램은 금연성공률의 향상에 효과가 있으며 중재 횟수에 따라 더욱 효과가 있는 것으로 나타났다.

A Text Sentiment Classification Method Based on LSTM-CNN

  • Wang, Guangxing;Shin, Seong-Yoon;Lee, Won Joo
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권12호
    • /
    • pp.1-7
    • /
    • 2019
  • 머신 러닝의 심층 개발로 딥 러닝 방법은 특히 CNN(Convolution Neural Network)에서 큰 진전을 이루었다. 전통적인 텍스트 정서 분류 방법과 비교할 때 딥 러닝 기반 CNN은 복잡한 다중 레이블 및 다중 분류 실험의 텍스트 분류 및 처리에서 크게 발전하였다. 그러나 텍스트 정서 분류를 위한 신경망에도 문제가 있다. 이 논문에서는 LSTM (Long-Short Term Memory network) 및 CNN 딥 러닝 방법에 기반 한 융합 모델을 제안하고, 다중 카테고리 뉴스 데이터 세트에 적용하여 좋은 결과를 얻었다. 실험에 따르면 딥 러닝을 기반으로 한 융합 모델이 텍스트 정서 분류의 예측성과 정확성을 크게 개선하였다. 본 논문에서 제안한 방법은 모델을 최적화하고 그 모델의 성능을 개선하는 중요한 방법이 될 것이다.

딥러닝 알고리즘을 이용한 문서의 인코딩 및 언어 판별 (Encoding and language detection of text document using Deep learning algorithm)

  • 김선범;배준우;박희진
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권5호
    • /
    • pp.124-130
    • /
    • 2017
  • 문자 인코딩은 문자나 기호를 컴퓨터로 표현하기 위해 사용되는 방법이며 문자 인코딩 판별 소프트웨어들이 존재한다. 기존의 널리 쓰이는 인코딩 판별 소프트웨어인"uchardet"의 경우 변조되지 않은 일반 문서의 인코딩 판별 정확도는 91.39% 이지만 언어 판별 정확도는 32.09%에 불과하다. 또한 문서가 치환 암호에 의해 암호화 된 경우 인코딩 판별 정확도는 3.55%, 언어 판별 정확도는 0.06%로 매우 낮은 정확도를 보였다. 따라서 본 논문에서는 Deep learning 알고리즘인 LSTM(Long Short-Term Memory)을 이용한 문서의 인코딩 및 언어 판별 방법을 제안하며, 기존의 인코딩 판별 소프트웨어"uchardet"보다 뛰어난 결과를 보였다. 제안하는 방법을 이용한 일반 문서의 인코딩 판별 정확도는 99.89%이며, 언어 판별 정확도는 99.92%이다. 또한 문서가 치환 암호에 의해 암호화된 경우에는 제안하는 방법의 인코딩 판별 정확도는 99.26%이며, 언어 판별 정확도는 99.77%로 매우 뛰어나다.