• Title/Summary/Keyword: 텍스트 데이터 분석

Search Result 1,095, Processing Time 0.03 seconds

A novel on Context Information Analysis and Prediction Process using Text Mining (텍스트 마이닝을 이용한 상황 정보 분석 및 예측 프로세스에 관한 연구)

  • Jung, Se-hoon;Kang, Joo-hee;Kim, Jong-chan;Sim, Chun-bo
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2015.10a
    • /
    • pp.1039-1040
    • /
    • 2015
  • 최근 IoT 및 인공지능 기술을 활용한 상황 정보 예측 서비스가 각광을 받고 있다. 본 논문에서는 특정 메타 데이터(Meta Data)로부터 입력되는 정보를 기반으로 상황 정보 분석 및 예측하는 프로세스를 제안한다. 주성분 분석 및 데이터의 집단화(Corpus), 문서 매트릭스(Document Matrix), 단어 빈도수(Frequency)에 따른 데이터 전처리 과정을 통해 상황정보 데이터를 확보한다. 또한 연관 규칙분석을 통해 분류된 데이터의 연관성을 분석하여 예측 데이터의 연관성을 확보한다. 제안하는 상황정보 분석 및 예측 모델은 R을 적용하여 설계한다.

  • PDF

A Study for Big Data Analytics Platform with Raspberry Pi Cluster and Apache Spark (라즈베리 파이 클러스터와 아파치 스파크를 활용한 빅데이터 분석 플랫폼 연구)

  • Kim, Young-Sun;Park, Ji-Young;Yoon, Bo-Ram;Lee, Jung-Hyun;Yong, Hwan-Seung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.1272-1275
    • /
    • 2015
  • 최근 관심이 증대되고 있는 빅데이터 분석 및 처리를 위한 병렬분산처리 시스템은 대용량 서버가 필요하고 인프라 구축을 위해 고비용을 지불해야 한다. 이를 해결하기 위해 본 연구에서는 저렴한 라즈베리 파이로 클러스터를 구성하고, 하둡보다 빠른 속도의 처리를 제공하는 아파치 스파크를 분석 솔루션으로 하는 빅데이터 분석 플랫폼을 구축하였다. 구축한 플랫폼이 빅데이터 활용을 위해 적절한 성능을 보이는지 확인하기 위해 텍스트 마이닝을 수행하였고, 분석 결과 유효한 성능을 보였다. 적절한 비용으로 빅데이터 분석이 가능해지면서 중소기업과 개인, 교육 기관에서도 빅데이터 활용이 가능해지면서 활용 분야가 크게 확대될 것으로 보인다.

Application of Text Mining for Legal Information System: Focusing on Defamation Precedent (법률정보시스템을 위한 텍스트 마이닝 적용 방안 - 명예 훼손 판례를 대상으로 -)

  • Kim, Yong Hwan
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.54 no.1
    • /
    • pp.387-409
    • /
    • 2020
  • Precedents are data containing various types of information. In this study, I proposed a method to be utilized as legal information system for the public using automatic text analysis performed on precedents. It is carried out to analyze the defamation precedent using reference provision, judgment issues, major points of judgment, and reference precedents. As a result of the analysis, legal provisions used in defamation, key issues covered by defamation, and key cases are extracted. Although only applied to the Supreme Court case regarding defamation, the proposed methodology could be applied to various legal topics.

Analyzing OTT Interactive Content Using Text Mining Method (텍스트 마이닝으로 OTT 인터랙티브 콘텐츠 다시보기)

  • Sukchang Lee
    • The Journal of the Convergence on Culture Technology
    • /
    • v.9 no.5
    • /
    • pp.859-865
    • /
    • 2023
  • In a situation where service providers are increasingly focusing on content development due to the intense competition in the OTT market, interactive content that encourages active participation from viewers is garnering significant attention. In response to this trend, research on interactive content is being conducted more actively. This study aims to analyze interactive content through text mining techniques, with a specific focus on online unstructured data. The analysis includes deriving the characteristics of keywords according to their weight, examining the relationship between OTT platforms and interactive content, and tracking changes in the trends of interactive content based on objective data. To conduct this analysis, detailed techniques such as 'Word Cloud', 'Relationship Analysis', and 'Keyword Trend' are used, and the study also aims to derive meaningful implications from these analyses.

Analysis of the Yearbook from the Korea Meteorological Administration using a text-mining agorithm (텍스트 마이닝 알고리즘을 이용한 기상청 기상연감 자료 분석)

  • Sun, Hyunseok;Lim, Changwon;Lee, YungSeop
    • The Korean Journal of Applied Statistics
    • /
    • v.30 no.4
    • /
    • pp.603-613
    • /
    • 2017
  • Many people have recently posted about personal interests on social media. The development of the Internet and computer technology has enabled the storage of digital forms of documents that has resulted in an explosion of the amount of textual data generated; subsequently there is an increased demand for technology to create valuable information from a large number of documents. A text mining technique is often used since text-based data is mostly composed of unstructured forms that are not suitable for the application of statistical analysis or data mining techniques. This study analyzed the Meteorological Yearbook data of the Korea Meteorological Administration (KMA) with a text mining technique. First, a term dictionary was constructed through preprocessing and a term-document matrix was generated. This term dictionary was then used to calculate the annual frequency of term, and observe the change in relative frequency for frequently appearing words. We also used regression analysis to identify terms with increasing and decreasing trends. We analyzed the trends in the Meteorological Yearbook of the KMA and analyzed trends of weather related news, weather status, and status of work trends that the KMA focused on. This study is to provide useful information that can help analyze and improve the meteorological services and reflect meteorological policy.

A study on stock price prediction system based on text mining method using LSTM and stock market news (LSTM과 증시 뉴스를 활용한 텍스트 마이닝 기법 기반 주가 예측시스템 연구)

  • Hong, Sunghyuck
    • Journal of Digital Convergence
    • /
    • v.18 no.7
    • /
    • pp.223-228
    • /
    • 2020
  • The stock price reflects people's psychology, and factors affecting the entire stock market include economic growth rate, economic rate, interest rate, trade balance, exchange rate, and currency. The domestic stock market is heavily influenced by the stock index of the United States and neighboring countries on the previous day, and the representative stock indexes are the Dow index, NASDAQ, and S & P500. Recently, research on stock price analysis using stock news has been actively conducted, and research is underway to predict the future based on past time series data through artificial intelligence-based analysis. However, even if the stock market is hit for a short period of time by the forecasting system, the market will no longer move according to the short-term strategy, and it will have to change anew. Therefore, this model monitored Samsung Electronics' stock data and news information through text mining, and presented a predictable model by showing the analyzed results.

A Study on the Application of Text Mining for Corporate Application form (기업 자기소개서 대상 텍스트 마이닝 적용 연구)

  • Kim, Kyoung-Sik;Kim, Seong-Bo;Kim, Ung-mo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.11a
    • /
    • pp.668-670
    • /
    • 2017
  • 최근 우리 나라 청년실업률의 증가와 함께 기업에서는 좋은 인재를 뽑기 위하여 정형화된 자격증보다는 지원자의 경험과 역량을 보기 위한 자기소개서에 대한 중요성이 커지고 있다. 그리하여 비정형 데이터를 분석하는 대표적인 방법인 텍스트 마이닝 기법을 이용하여 취업 커뮤니티에 올라 온 합격한 삼성, 현대자동차, LG 자기소개서 데이터를 얻어내고 그 후 KONLPY 패키지를 통하여 형태소 분석을 실시한다. 합격자소서에 자주 나온 단어의 순위를 매기고 공통적으로 많이 들어간 단어와 각 대기업 별 차이가 나는 단어를 회사의 인재상과 비교해본다. 그리고 취업 준비생들에게 효율적인 방법을 통해 자기소개서를 작성하여 합격률을 높이는 방향으로 사용한다.

R&D Redundancy and Similarity Check System (클라우드 기반 R&D 연구 보고서 문서표절 및 유사도 검출 시스템)

  • Shin, Hyojoung;Park, Kiheung;Haing, Huhduck
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.01a
    • /
    • pp.31-32
    • /
    • 2016
  • 최근 정부의 R&D 연구에 대한 지원 규모 증가로 인해 전국가적으로 활발하게 기술 연구가 진행되고 있지만 예산을 집행하는 과정에서 기술 연구개발 과제의 중복연구로 시간과 예산을 낭비하는 사례를 노출하고 있다. 이와 같은 문제점을 해결하기 위해서는 정부 R&D 과제 선정과정에서 연구주제의 중복성 방지 등 근원적 혁신이 필요하다. 본 논문에서는 텍스트 마이닝 기술 및 빅데이터 분석 기술(하둡, 아마존 웹 서비스)과 같은 데이터 분석 기술이 도입된 클라우드 기반 R&D 연구 보고서 문서표절 및 유사도를 검출하는 시스템을 제안한다. 본 시스템은 SaaS 형태의 "on-demand software"로 웹 접속만으로 사용이 가능하다.

  • PDF

Using noise filtering and sufficient dimension reduction method on unstructured economic data (노이즈 필터링과 충분차원축소를 이용한 비정형 경제 데이터 활용에 대한 연구)

  • Jae Keun Yoo;Yujin Park;Beomseok Seo
    • The Korean Journal of Applied Statistics
    • /
    • v.37 no.2
    • /
    • pp.119-138
    • /
    • 2024
  • Text indicators are increasingly valuable in economic forecasting, but are often hindered by noise and high dimensionality. This study aims to explore post-processing techniques, specifically noise filtering and dimensionality reduction, to normalize text indicators and enhance their utility through empirical analysis. Predictive target variables for the empirical analysis include monthly leading index cyclical variations, BSI (business survey index) All industry sales performance, BSI All industry sales outlook, as well as quarterly real GDP SA (seasonally adjusted) growth rate and real GDP YoY (year-on-year) growth rate. This study explores the Hodrick and Prescott filter, which is widely used in econometrics for noise filtering, and employs sufficient dimension reduction, a nonparametric dimensionality reduction methodology, in conjunction with unstructured text data. The analysis results reveal that noise filtering of text indicators significantly improves predictive accuracy for both monthly and quarterly variables, particularly when the dataset is large. Moreover, this study demonstrated that applying dimensionality reduction further enhances predictive performance. These findings imply that post-processing techniques, such as noise filtering and dimensionality reduction, are crucial for enhancing the utility of text indicators and can contribute to improving the accuracy of economic forecasts.

Design and Implementation of an Analysis module based on MapReduce for Large-scalable Social Data (대용량 소셜 데이터의 의미 분석을 위한 MapReduce 기반의 분석 모듈 설계 및 구현)

  • Lee, Hyeok-Ju;Kim, Myoung-Jin;Lee, Han-Ku;Yoon, Hyo-Gun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06b
    • /
    • pp.357-360
    • /
    • 2011
  • 최근 인터넷과 통신기술, 특히 모바일과 관련된 기술의 급속한 발전으로 소셜 커뮤니케이션 수단으로 대표되는 SNS(Social Networking Service)가 중요한 이슈로 부각되어지고 있다. SNS 서비스 제공시 중요하게 고려되어져야 할 사항은 정확하고 의미 있는 데이터를 통해서 사용자가 원하고 관심 있는 분야의 정보를 어떻게 제공할 것인가에 초점이 맞춰져 있어야 한다. 그러나 최근 폭발적으로 증가되어지고 있는 소셜 데이터 때문에 사용자는 의미 분석이 정확하게 이루어지지 않은 신뢰성이 결여된 소셜 커뮤니케이션 서비스를 제공받고 있다. 이러한 소셜데이터 분석의 문제점을 해결하기 위해서 본 논문에서는 소셜 네트워크 서비스에 필요한 데이터를 수집하고, 클라우드 컴퓨팅 환경에서 수집된 대용량 SNS 데이터의 의미를 분석 할 수 있는 MapReduce 기반의 분석 모듈의 구조를 제안하였다. 제안한 모듈은 의미 분석에 필요한 소셜 데이터를 수집하는 수집 기능과 수집된 소셜데이터의 의미 분석을 수행하는 분석 기능을 포함하고 있다. 수집 기능은 SNS에서 생성되는 텍스트 형태의 데이터를 수집하고 MapReduce를 통해서 데이터를 분석하기 쉽게 적절한 크기로 생성된 파일을 분할한다. 수집된 소셜 데이터의 의미 분석은 기존 TF-IDF 방식에 개선된 Weighted-MINMAX 적용한 알고리즘을 통해서 구현하였다. 개선된 알고리즘은 단어의 중요도를 평가하고, 중요도가 높은 단어로 구성된 의미정보 제공 서비스를 지원한다. 시스템의 성능 평가를 위해서 노드별 데이터 처리시간과 추출 키워드의 정확도를 측정하였다.