• Title/Summary/Keyword: 텍스트 데이터 분석

Search Result 1,103, Processing Time 0.024 seconds

Natural Language Processing Trends For Science & Technology Data (과학기술데이터를 위한 자연어처리 기술 동향)

  • Jeong, Hyun Ji;Jang, Gwangseon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.666-669
    • /
    • 2021
  • 연구수행과정에서 발생하는 논문, 특허, 연구보고서 등의 과학기술데이터는 다양한 과학기술지식을 포함한다. 연구자들의 효과적인 연구를 지원하기 위해서는 과학기술데이터 분석을 통한 지식 발견이 필수적이다. 과학기술데이터는 일반 텍스트와는 다르게 다수의 전문용어를 포함하고 있으며, 고유의 양식이 정해져 있고, 텍스트 길이가 대체로 길다는 특징이 있다. 본 고에서는 이러한 과학기술데이터만의 고유한 특징을 반영한 인공지능 기반 자연어처리 기술들을 소개함으로써 과학기술데이터 분석에 대한 이해를 돕고자 한다.

Peronsal Happiness Analysis using Big Data Based Text Design Monitoring System Architecture Design (빅데이터 기반의 텍스트를 활용한 개인 행복도 분석 모니터링 시스템 아키텍쳐 설계)

  • Sim, Jong-seong;Kim, Hee-chul
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2019.05a
    • /
    • pp.504-506
    • /
    • 2019
  • The text and diary data of many SNSs around the world are uploaded, but it does not go beyond sharing and recording the data. In general, social big data is used to identify taste and interests. However, there is a need for a system that analyzes and displays their status and information. Therefore, in this paper, the happiness diary system deals with the design of the system that can record the data of the SNS and its own diary, store them in the big data system, and express the happiness through their diary and SNS data using emotional analysis.

  • PDF

Efficient Emotion Classification Method Based on Multimodal Approach Using Limited Speech and Text Data (적은 양의 음성 및 텍스트 데이터를 활용한 멀티 모달 기반의 효율적인 감정 분류 기법)

  • Mirr Shin;Youhyun Shin
    • The Transactions of the Korea Information Processing Society
    • /
    • v.13 no.4
    • /
    • pp.174-180
    • /
    • 2024
  • In this paper, we explore an emotion classification method through multimodal learning utilizing wav2vec 2.0 and KcELECTRA models. It is known that multimodal learning, which leverages both speech and text data, can significantly enhance emotion classification performance compared to methods that solely rely on speech data. Our study conducts a comparative analysis of BERT and its derivative models, known for their superior performance in the field of natural language processing, to select the optimal model for effective feature extraction from text data for use as the text processing model. The results confirm that the KcELECTRA model exhibits outstanding performance in emotion classification tasks. Furthermore, experiments using datasets made available by AI-Hub demonstrate that the inclusion of text data enables achieving superior performance with less data than when using speech data alone. The experiments show that the use of the KcELECTRA model achieved the highest accuracy of 96.57%. This indicates that multimodal learning can offer meaningful performance improvements in complex natural language processing tasks such as emotion classification.

Research on the big data collecting system for measuring of broadcast content influence (방송콘텐츠 영향력 도출을 위한 빅데이터 분석체계에 관한 연구)

  • Choi, Hong-Gyu;Park, Goo-Man;Choi, Seong-Jhin;Kim, Sung-Tae
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2014.11a
    • /
    • pp.171-174
    • /
    • 2014
  • 본 논문은 방송콘텐츠 영향력 도출을 위해 고려되어야 할 요소들에 대해 다뤄보았다. 기존에 방송콘텐츠의 영향력을 나타내는 측정지표로 시청률과 청취율 같은 설문조사 방식의 조사자의 개입을 통한 방식이 활용되었다면, 최근 소셜미디어를 통해 수많은 정보가 교환되는 환경에서는 새로운 측정방식의 제안이 가능할 것으로 보았다. 이에, 본 연구에서는 소셜미디어상 대용량의 텍스트 데이터인 이른바 '소셜텍스트 빅데이터'를 활용해 방송콘텐츠의 영향력을 분석하는 방식을 제안하였다. 또한 이러한 빅데이터 분석을 위해 일반적으로 발생할 수 있는 문제들과 이 과정에서 유의하여야 사항들에 대해 다뤄보았다.

  • PDF

A Comparative Study on Sentiment Analysis Based on Psychological Model (감정 분석에서의 심리 모델 적용 비교 연구)

  • Kim, Haejun;Do, Junho;Sun, Juoh;Jeong, Seohee;Lee, Hyunah
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.450-452
    • /
    • 2020
  • 기술의 발전과 함께 사용자에게 가까이 자리 잡은 소셜 네트워크 서비스는 이미지, 동영상, 텍스트 등 활용 가능한 데이터의 수를 폭발적으로 증가시켰다. 작성자의 감정을 포함하고 있는 텍스트 데이터는 시장 조사, 주가 예측 등 다양한 분야에서 이용할 수 있으며, 이로 인해 긍부정의 이진 분류가 아닌 다중 감정 분석의 필요성 또한 높아지고 있다. 본 논문에서는 딥러닝 기반 감정 분류에 심리학 이론의 기반 감정 모델을 활용한 결합 모델과 단일 모델을 비교한다. 학습을 위해 AI Hub에서 제공하는 데이터와 노래 가사 데이터를 복합적으로 사용하였으며, 결과에서는 대부분의 경우에 결합 모델이 높은 결과를 보였다.

  • PDF

Technology of Distributed Stream Computing (분산 스트림 컴퓨팅 기술 동향)

  • Lee, M.Y.
    • Electronics and Telecommunications Trends
    • /
    • v.26 no.1
    • /
    • pp.80-88
    • /
    • 2011
  • 데이터의 효과적인 활용이 경쟁력 확보에 주요한 요인이나, 데이터 폭증은 유용한 정보를 얻는데 필요한 처리 시간의 지연을 야기하고 있다. 개인 맞춤형 서비스, 방범 방재 서비스 등 모니터링 & 대응 서비스를 위해 분석할 데이터의 양이 급증하고 있으며, 텍스트, 영상, 오디오 등 비정형 데이터에 대한 실시간 분석 필요성이 증대하고 있다. 대량의 폭증하는 데이터에 대한 실시간 분석 처리 환경을 제공하기 위해 분산 병렬 컴퓨팅 기술과 데이터 스트림 연속 처리 기술이 활용되고 있다. 본고에서는 폭증하는 데이터 스트림 처리를 위하여 확장성 및 유연한 처리 환경을 제공하는 분산 스트림 컴퓨팅 기술에 대해 소개한다.

  • PDF

Development of ENC Data Loader for General Purpose (범용적 활용을 위한 ENC Data Loader의 개발)

  • 심우성;강준선;서상현;박종민
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 1998.11a
    • /
    • pp.414-419
    • /
    • 1998
  • 1996년에 3판이 발행된 S-57 표준은 디지틀 수로데이터의 국제적인 교환 표준형식이며 ENC는 S-57을 기본형식으로 하고 특정 상품을 위한 생산품 규약에 의해 만들어진 것이다. ECDIS에 사용되기 위해 만들어진 디지틀 해도 데이터 상품이지만 앞으로 예상되는 ENC 데이터의 일반적 목적을 갖고 있는 사용자들이 모두 S-57과 ENC 생산품 규약을 이해하고 데이터를 읽기 위해 시간과 노력을 투자하는 것은 무척 소비적인 일이 될 것이다. 즉 사용자의 요구는 데이터의 형식이 아니라 데이터의 사용에 집중된다. 그러므로 사용자가 데이터의 내부형식을 알지 못하더라도 사용하고자 하는 의도에 맞게 데이터의 내용을 보여주고 필요한 형식으로 재가공하여 사용할 수 있도록 데이터를 제공하는 프로그램이 필요하며 이는 ENC의 보급 및 활용도를 높이는데 매우 중요하다고 할 수 있다. 본 논문에서는 Data Loader 개발의 기초 단계로 ENC 데이터를 텍스트 형태로 전환하여 ENC에 담긴 내용을 파악할 수 있도록 하는 ENC Data Loader의 기능과 프로그램 개발과정에 대하여 기술하고 텍스트가 아닌 그림으로 보여주며 일반적인 데이터 교환형식으로 변환하는 둥의 새로운 모듈 개발과정을 설명한다. 이를 위해 ENC 데이터의 형식과 내용을 분석하고 GIS 측면에서의 데이터 해석을 시도한다. 또한 이러한 프로그램을 이용한 향후 ENC 데이터의 활용방안에 대하여 기술한다.

  • PDF

Text Mining and Visualization of Unstructured Data Using Big Data Analytical Tool R (빅데이터 분석 도구 R을 이용한 비정형 데이터 텍스트 마이닝과 시각화)

  • Nam, Soo-Tai;Shin, Seong-Yoon;Jin, Chan-Yong
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.25 no.9
    • /
    • pp.1199-1205
    • /
    • 2021
  • In the era of big data, not only structured data well organized in databases, but also the Internet, social network services, it is very important to effectively analyze unstructured big data such as web documents, e-mails, and social data generated in real time in mobile environment. Big data analysis is the process of creating new value by discovering meaningful new correlations, patterns, and trends in big data stored in data storage. We intend to summarize and visualize the analysis results through frequency analysis of unstructured article data using R language, a big data analysis tool. The data used in this study was analyzed for total 104 papers in the Mon-May 2021 among the journals of the Korea Institute of Information and Communication Engineering. In the final analysis results, the most frequently mentioned keyword was "Data", which ranked first 1,538 times. Therefore, based on the results of the analysis, the limitations of the study and theoretical implications are suggested.

A Big Data Learning for Patent Analysis (특허분석을 위한 빅 데이터학습)

  • Jun, Sunghae
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.23 no.5
    • /
    • pp.406-411
    • /
    • 2013
  • Big data issue has been considered in diverse fields. Also, big data learning has been required in all areas such as engineering and social science. Statistics and machine learning algorithms are representative tools for big data learning. In this paper, we study learning tools for big data and propose an efficient methodology for big data learning via legacy data to practical application. We apply our big data learning to patent analysis, because patent is one of big data. Also, we use patent analysis result for technology forecasting. To illustrate how the proposed methodology could be applied in real domain, we will retrieve patents related to big data from patent databases in the world. Using searched patent data, we perform a case study by text mining preprocessing and multiple linear regression of statistics.

A Big Data Preprocessing using Statistical Text Mining (통계적 텍스트 마이닝을 이용한 빅 데이터 전처리)

  • Jun, Sunghae
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.25 no.5
    • /
    • pp.470-476
    • /
    • 2015
  • Big data has been used in diverse areas. For example, in computer science and sociology, there is a difference in their issues to approach big data, but they have same usage to analyze big data and imply the analysis result. So the meaningful analysis and implication of big data are needed in most areas. Statistics and machine learning provide various methods for big data analysis. In this paper, we study a process for big data analysis, and propose an efficient methodology of entire process from collecting big data to implying the result of big data analysis. In addition, patent documents have the characteristics of big data, we propose an approach to apply big data analysis to patent data, and imply the result of patent big data to build R&D strategy. To illustrate how to use our proposed methodology for real problem, we perform a case study using applied and registered patent documents retrieved from the patent databases in the world.