• Title/Summary/Keyword: 텍스트 데이터 분석

Search Result 1,112, Processing Time 0.026 seconds

A Study on Improvement of Image Classification Accuracy Using Image-Text Pairs (이미지-텍스트 쌍을 활용한 이미지 분류 정확도 향상에 관한 연구)

  • Mi-Hui Kim;Ju-Hyeok Lee
    • Journal of IKEEE
    • /
    • v.27 no.4
    • /
    • pp.561-566
    • /
    • 2023
  • With the development of deep learning, it is possible to solve various computer non-specialized problems such as image processing. However, most image processing methods use only the visual information of the image to process the image. Text data such as descriptions and annotations related to images may provide additional tactile and visual information that is difficult to obtain from the image itself. In this paper, we intend to improve image classification accuracy through a deep learning model that analyzes images and texts using image-text pairs. The proposed model showed an approximately 11% classification accuracy improvement over the deep learning model using only image information.

Self-Supervised Document Representation Method

  • Yun, Yeoil;Kim, Namgyu
    • Journal of the Korea Society of Computer and Information
    • /
    • v.25 no.5
    • /
    • pp.187-197
    • /
    • 2020
  • Recently, various methods of text embedding using deep learning algorithms have been proposed. Especially, the way of using pre-trained language model which uses tremendous amount of text data in training is mainly applied for embedding new text data. However, traditional pre-trained language model has some limitations that it is hard to understand unique context of new text data when the text has too many tokens. In this paper, we propose self-supervised learning-based fine tuning method for pre-trained language model to infer vectors of long-text. Also, we applied our method to news articles and classified them into categories and compared classification accuracy with traditional models. As a result, it was confirmed that the vector generated by the proposed model more accurately expresses the inherent characteristics of the document than the vectors generated by the traditional models.

The Analysis on the KAIE Articles using Social Network Analysis (사회연결망 분석을 활용한 정보교육학회 논문 분석)

  • Park, SunJu
    • Journal of The Korean Association of Information Education
    • /
    • v.20 no.6
    • /
    • pp.543-552
    • /
    • 2016
  • Recently, a number of researches focus on social network analysis and it is applied to various fields not only in social science area but also in natural science area. Therefore, the social network analysis and the text analysis were conducted in order to analyze the current trend of the theses in information education field. The result indicated that the most frequently mentioned words were consistent with the development of information technology and the change in information education curriculum. That is, the mentioned words were computer aided instruction (CAI) and courseware for period 1, ICT for period 2, smart and scratch for period 3, and in period 4, computational thinking ability and coding appeared for the first time. Moreover, as the result of social network analysis, it concluded the research topics became more complicated and detailed as the words diversified throughout the period in which the simplified network in period 1 changed its configuration into a structure with more diversified words of higher centrality.

Development on Improved of LZW Compression Algorithm by Mixed Text File for Embedded System (임베디드시스템을 위한 혼용텍스트 파일의 개선된 LZW 압축 알고리즘 구현)

  • Cho, Mi-Nam;Ji, Yoo-Kang
    • The Journal of the Korea Contents Association
    • /
    • v.10 no.12
    • /
    • pp.70-76
    • /
    • 2010
  • This paper Extended ELZW(EBCDIC Lempel Ziv Welch) algorithm uses 2 byte prefix field for pointer of a table and 1 byte suffix field for repeat counter. where, a prefix field uses a pointer(index) of compression table and a suffix field uses a counter of overlapping or recursion text data in compression table. To increase compression ratio, after construction of compression table, table data are properly packed as different bit string in accordance with a alphabet, Hangeul, and pointer respectively. Therefore, proposed ELZW algorithm is superior to 1byte LZW algorithm as 5.22 percent and superior to 2byte LZW algorithm as 8.96 percent.

A Tensor Space Model based Deep Neural Network for Automated Text Classification (자동문서분류를 위한 텐서공간모델 기반 심층 신경망)

  • Lim, Pu-reum;Kim, Han-joon
    • Database Research
    • /
    • v.34 no.3
    • /
    • pp.3-13
    • /
    • 2018
  • Text classification is one of the text mining technologies that classifies a given textual document into its appropriate categories and is used in various fields such as spam email detection, news classification, question answering, emotional analysis, and chat bot. In general, the text classification system utilizes machine learning algorithms, and among a number of algorithms, naïve Bayes and support vector machine, which are suitable for text data, are known to have reasonable performance. Recently, with the development of deep learning technology, several researches on applying deep neural networks such as recurrent neural networks (RNN) and convolutional neural networks (CNN) have been introduced to improve the performance of text classification system. However, the current text classification techniques have not yet reached the perfect level of text classification. This paper focuses on the fact that the text data is expressed as a vector only with the word dimensions, which impairs the semantic information inherent in the text, and proposes a neural network architecture based upon the semantic tensor space model.

A Study on Educational Data Mining for Public Data Portal through Topic Modeling Method with Latent Dirichlet Allocation (LDA기반 토픽모델링을 활용한 공공데이터 기반의 교육용 데이터마이닝 연구)

  • Seungki Shin
    • Journal of The Korean Association of Information Education
    • /
    • v.26 no.5
    • /
    • pp.439-448
    • /
    • 2022
  • This study aims to search for education-related datasets provided by public data portals and examine what data types are constructed through classification using topic modeling methods. Regarding the data of the public data portal, 3,072 cases of file data in the education field were collected based on the classification system. Text mining analysis was performed using the LDA-based topic modeling method with stopword processing and data pre-processing for each dataset. Program information and student-supporting notifications were usually provided in the pre-classified dataset for education from the data portal. On the other hand, the characteristics of educational programs and supporting information for the disabled, parents, the elderly, and children through the perspective of lifelong education were generally indicated in the dataset collected by searching for education. The results of data analysis through this study show that providing sufficient educational information through the public data portal would be better to help the students' data science-based decision-making and problem-solving skills.

'Economic Security' Discourse Analysis Using Text Mining (텍스트 마이닝을 활용한 '경제안보' 담론 분석)

  • Jungjoo Oh;Yeram Lim;Hyesu Cheon;Wonhyung Park
    • Annual Conference of KIPS
    • /
    • 2024.05a
    • /
    • pp.513-516
    • /
    • 2024
  • 미·중 기술 패권 경쟁이 심화되면서 경제안보는 국가안보의 핵심 요소로 부상하였다. 주요국들은 각국이 도입한 경제안보 개념에 따라 입법과 정책을 추진하고 있다. 그러나 우리나라에서 경제안보 개념은 아직까지 불분명한 상황이다. 이에 본 연구는 국내 뉴스 빅데이터를 통해 경제안보 관련 담론을 파악하여 한국식 경제안보 개념화를 위한 토대를 만드는 것을 목적으로 하였다. 빅카인즈를 통해 경제안보 관련 뉴스 기사를 수집하고 텍스트 마이닝을 활용하여 분석하였다. TF-IDF 분석과 LDA 토픽 모델링이 분석에 활용되었다. 그 결과 세 개의 주요 토픽이 도출되었고, 경제안보의 이중 구조를 확인할 수 있었다. 본 연구는 향후 한국식 경제안보를 개념화하고 그에 대한 전략을 마련하기 위한 기초자료로 활용할 수 있을 것으로 기대한다.

Web based Text-mining and Biological Network Analysis System (웹기반 문헌분석 및 생물학적 네트워크 분석시스템 개발)

  • Seo, Dongmin;Cho, Sung-Hoon;Ahn, Kwang-Sung;Yu, Seok Jong;Park, Dong-Il
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2017.05a
    • /
    • pp.27-28
    • /
    • 2017
  • 다양한 위상학적 관계(topological relation)를 분석하는 네트워크 분석은 복잡한 데이터에서 숨어있는 특성과 사실을 발견하는 기술로 최근 빅데이터 분야에서 데이터 분석 핵심 기술로 급부상하고 있다. 본 연구에서는 질병연구에 핵심적인 생물학적 네트워크의 생성 및 사용자 친화적인 네트워크 분석시스템을 개발하였다. 개발한 시스템은 PubMed에서 특정 질병과 관련있는 논문 요약 정보를 자동 수집후 텍스트마이닝을 통해 질병 관련 화합물, 유전자 그리고 상호작용 정보를 추출해 생물학적 네트워크를 생성하는 기능을 제공한다. 또한, 연구자가 손쉽게 생성된 네트워크에 대한 검색 및 다차원 분석을 수행할 수 있는 기능을 제공한다. 마지막으로 개발한 시스템의 우수성을 입증하기 위해 크론병(Crohn's Disease)에 대한 적용사례를 소개한다.

  • PDF

Product reputation mining based on sentiment analysis (감성 분석 기반의 제품 평판 마이닝)

  • Song, In-Hwan;Han, Jinju;On, Byung-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.429-433
    • /
    • 2019
  • 스마트폰 보급의 확산으로 제품 구매 시 웹 사이트 및 SNS를 이용하여 제품 리뷰를 참고하는 소비자들이 증가하고 있다. 전자 상거래 사이트의 제품 리뷰는 구매 예정자들에게 유용한 정보로 활용되곤 한다. 하지만 구매 예정자가 직접 제품에 대한 리뷰 데이터를 찾아 전체 내용을 일일이 읽고 분석해야하기 때문에 시간이 오래 걸릴뿐만 아니라 가공되지 않는 데이터가 줄 수 있는 정보는 한정적이다. 또한 이러한 리뷰들은 상품의 특징을 파악하기에도 어려움이 있다. 본 논문에서는 제품의 주요 이슈를 추출하고 주요 이슈에 대한 감성 분석과 감성 요약을 통해 제품 분석 및 평가를 제공하는 시스템을 설계 및 구현하였다. 이를 휴대폰 제품에 적용하여 구축한 시스템을 통해 소비자가 방대한 양의 제품의 리뷰 데이터를 분석할 필요 없이 제품의 주요 이슈와 가공된 분석 결과를 시각적으로 빠르게 제공받을 수 있음을 보였다.

  • PDF

Prompt Tuning For Korean Aspect-Based Sentiment Analysis (프롬프트 튜닝기법을 적용한 한국어 속성기반 감정분석)

  • Bong-Su Kim;Hyun-Kyu Jeon;Seung-Ho Choi;Ji-Yoon Kim;Jung-Hoon Jang
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.50-55
    • /
    • 2023
  • 속성 기반 감정 분석은 텍스트 내에서 감정과 해당 감정이 특정 속성, 예를 들어 제품의 특성이나 서비스의 특징에 어떻게 연결되는지를 분석하는 태스크이다. 본 논문에서는 속성 기반 감정 분석 데이터를 사용한 다중 작업-토큰 레이블링 문제에 프롬프트 튜닝 기법을 적용하기 위한 포괄적인 방법론을 소개한다. 이러한 방법론에는 토큰 레이블링 문제를 시퀀스 레이블링 문제로 일반화하기 위한 감정 표현 영역 검출 파이프라인이 포함된다. 또한 분리된 시퀀스들을 속성과 감정에 대해 분류 하기 위한 템플릿을 선정하고, 데이터셋 특성에 맞는 레이블 워드를 확장하는 방법을 제안함으써 모델의 성능을 최적화한다. 최종적으로, 퓨샷 세팅에서의 속성 기반 감정 분석 태스크에 대한 몇 가지 실험 결과와 분석을 제공한다. 구축된 데이터와 베이스라인 모델은 AIHUB(www.aihub.or.kr)에 공개되어 있다.

  • PDF