• Title/Summary/Keyword: 뉴스 데이터 분석

Search Result 391, Processing Time 0.035 seconds

The Next Generation of Energy News Big Data Analytics (차세대 에너지 관련 뉴스 빅데이터 분석)

  • Lee, YeChan;Cho, HaeChan;Ban, ChaeHoon
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2016.10a
    • /
    • pp.451-453
    • /
    • 2016
  • 대규모의 데이터가 생산되고 저장되는 정보화 시대에서 현재와 과거의 데이터를 바탕으로 미래를 추측하고 방향성을 알아갈 수 있는 빅데이터의 중요성이 강조되고 있다. 정형되지 못한 대규모 데이터를 빅데이터 분석 도구인 R을 통해 통계를 기초로 데이터의 정보분석과 정형화하도록 한다. 본 논문에서는 R을 이용하여 뉴스에서 나타나는 차세대 에너지 관련 빅데이터를 분석한다. 뉴스 기사에서 차세대 에너지 관련 데이터를 수집하고 수집된 키워드를 이용하여 근미래의 효율적인 차세대 에너지의 등장을 예측한다. 에너지 산업의 추진에 대한 흐름과 방향성을 제시하고 의사결정을 위한 기술적 과제를 도출함으로 탄력적인 경영과 의사결정에 도움을 주며 기술적 문제의 근원을 사전에 예측하고 방지할 수 있을 것으로 보여진다.

  • PDF

COVID-19 Cascade Dataset for Fake News Detection (COVID-19 가짜뉴스 탐지를 위한 전파 데이터셋)

  • Han, So-Eun;Kang, Yoonsuk;Ko, Yunyong;Ahn, Jeewon;Kim, Yusim;Oh, Seong Soo;Park, Heejin;Kim, Sang-Wook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.312-313
    • /
    • 2021
  • 가짜뉴스가 사회연결망 상에서 빠르게 전파되면서 사회적 혼란을 야기하고 있어 가짜뉴스를 탐지하는 것이 중요한 문제로 대두되고 있다. 최근 가짜뉴스 탐지 연구에서 사회연결망의 전파 정보를 활용한 방법이 기존 뉴스 컨텐츠 기반 가짜뉴스 탐지 방법보다 효과적임을 보였다. 따라서 본 논문에서는 기존 CoAID 데이터셋을 기반으로 사회연결망상의 전파 데이터를 포함하는 COVID-19 Cascade 데이터셋을 소개한다. COVID-19 Cascade 를 활용하면 전파 기반 가짜뉴스 탐지 방법에도 적용이 가능하다. 이후 간단한 분석을 통해 진짜뉴스와 가짜뉴스의 차이를 확인한다.

Stock Prediction Using News Text Mining and Time Series Analysis (뉴스 텍스트 마이닝과 시계열 분석을 이용한 주가예측)

  • Ahn, Sung-Won;Cho, Sung-Bae
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.364-369
    • /
    • 2010
  • 본 논문에서는 뉴스 텍스트 마이닝을 수행하여 2005년 1월부터 2008년 12월까지 4년 간의 뉴스 데이터에 대해 주가에 호재인지 악재인지 여부에 대해 학습을 하고, 이를 근거로 신규 발행된 뉴스가 주가 상승 또는 하락에 영향을 미치는지를 예측하는 알고리즘을 제안한다. 뉴스 텍스트 마이닝을 위해 변형된 Bag of Words 모델과 Naive Bayesian 분류기법을 사용하였으며, 특히 주가 예측에 있어서 뉴스 마이닝에만 의존하던 기존의 관련 연구와는 달리 예측의 정확성을 높이기 위해 주가의 시계열 데이터 분석기법인 RSI를 추가로 작용하였다. 2009년 11월부터 2010년 2월까지 4개월간 42,355건의 뉴스 데이터에 대해 실험한 결과, 기존 연구 대비 의미 있는 결과인 55.01%의 예측성공률을 얻었다.

  • PDF

Detection and spread of agricultural drought warning based on news data (뉴스 데이터 기반 농업 가뭄 전조 감지 및 확산 분석)

  • Min-Jin Kim;Won-Ho Nam;Mi-Hye Yang;Ji-Wan Lee;Seong-Joon Kim
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.339-339
    • /
    • 2023
  • 2018년도 연강수량은 1,386.9 mm로 평년 수준의 비가 내렸으나, 7-8월에 발생한 폭염 및 가뭄으로 인해 강원, 전남, 경북, 충남 지역에서 밭작물 중심으로 22,767 ha 피해가 발생하였다. 2019년도 연강수량은 1,171.9 mm로 평년보다 약 10% 적은 수준의 비가 내렸으며, 동일시기에 인천, 강원, 충남 지역에서 논·밭작물 중심으로 3,112 ha 피해가 발생하였다. 기후변화로 인해 강수량이 지역별로 편중되어 국지적 가뭄이 빈발하여 지역별로 가뭄의 영향, 피해, 체감 정도가 상이한 양상을 보이고 있다. 가뭄을 사전에 방지하기 위해서는 가뭄 모니터링과 선제적 대응이 중요하며, 현재 가뭄의 특징, 상황 등의 목적에 따라 다양한 형태의 가뭄 모니터링 시스템이 개발되고 있다. 가뭄의 피해와 영향 정도는 지역 간의 차이가 나타나 지역별로 가뭄을 체감하는 정도가 다르기 때문에 하나의 결과로 나타내기에는 어려움이 있다. 따라서, 가뭄의 발생 시기와 확산 정도를 분석하여 특보 발효 시점과 가뭄 대응 방안에 대한 기준 마련이 중요하다. 본 연구는 현대 사회에서 가장 중요한 요소로써 활용되고 있는 빅데이터 중 비정형 데이터로 분류되는 뉴스데이터와 논·밭의 가뭄을 나타내는 농업 가뭄과 관련된 데이터를 활용하여 농업 가뭄의 전조를 파악해보고자 한다. 2018년부터 2019년까지 전국을 대상으로 농업 가뭄에 관한 키워드 선정 후, 웹 크롤링을 통해 뉴스데이터를 수집해 논 가뭄과 밭 가뭄을 구별하여 각 지역에서 최초로 가뭄 기사가 발행된 시기와 지역별 기사의 빈도를 산출하였다. 뉴스데이터의 농업 가뭄 전조 감지 가능성을 파악하기 위해 국가가뭄정보통계집에서 논 물마름 시기와 밭 시듦 시기 자료를 활용하였다. 가뭄 피해 발생시기와 관련 기사 발행 시기 비교, 농업용수 대상 비상용수 지원 자료를 활용하여 실제 농업 가뭄확산 감지 여부를 분석하여 농업 가뭄 관련 뉴스데이터 간의 상관성을 분석하였다.

  • PDF

The Venture Business Starts News and SNS Big Data Analytics (벤처창업 관련 뉴스 및 SNS 빅데이터 분석)

  • Ban, ChaeHoon;Lee, YeChan;Ahn, DaeJoong;Kwak, YoonHyeok
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2017.05a
    • /
    • pp.99-102
    • /
    • 2017
  • 대규모의 데이터가 생산되고 저장되는 정보화 시대에서 현재와 과거의 데이터를 바탕으로 미래를 추측하고 방향성을 알아갈 수 있는 빅데이터의 중요성이 강조되고 있다. 정형화 되지 못한 대규모 데이터를 빅데이터 분석 도구인 R과 웹크롤링을 통해 분석하고 그 통계를 기초로 데이터의 정형화와 정보 분석을 하도록 한다. 본 논문에서는 R과 웹크롤링을 이용하여 최근 이슈가 되고 있는 벤처창업을 주 키워드로 하여 뉴스 및 SNS에서 나타나는 벤처창업 관련 빅데이터를 분석한다. 뉴스기사와 페이스북, 트위터에서 벤처창업 관련 데이터를 수집하고 수집된 데이터에서 키워드를 분류하여 효율적인 벤처창업의 방법과 종류, 방향성에 대해 예측한다. 과거의 벤처창업 실패요인을 분석하고 현재의 문제점을 찾아 데이터 분석을 통해 벤처창업의 흐름과 방향성을 제시하여 창업자들이 겪을 수 있는 어려움을 사전에 예측하고 파악함으로써 실질적인 벤처창업에 크게 이바지할 것으로 보여 진다.

  • PDF

Article Analytic and Summarizing Algorithm by facilitating TF-IDF based on k-means (TF-IDF를 활용한 k-means 기반의 효율적인 대용량 기사 처리 및 요약 알고리즘)

  • Jang, Minseo;OH, Sujin;Kim, Ung-Mo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.271-274
    • /
    • 2018
  • 본 논문에서는 뉴스기사 데이터를 활용하여 대규모 뉴스기사를 소주제로 분류하는 군집 분석 방법을 제안한다. 또한, 분류된 뉴스기사를 사용자가 빠르게 이해하고 접할 수 있도록 핵심 문장을 추출하여 제공하는 방법을 제안한다. 분석 데이터는 포털 사이트 점유율 1위인 네이버의 경제 분야 뉴스기사를 크롤링하여 수집한다. 뉴스기사의 분석을 위해 전 처리를 통해 특수문자, 조사, 어미, 구두점 등의 불 용어 처리를 수행한다. 또한, k-means 알고리즘을 이용하여 대용량의 뉴스기사를 주제 별로 분류하는 것을 진행하며 그것을 토대로 핵심 문장을 추출한다. 추출된 핵심 문장은 분류된 뉴스기사의 주제를 나타내며 사용자에게 빠르게 정보를 전달하기 위해 활용한다. 본 논문의 연구 내용이 여러 언론사 사이트에 반영되면 사이트 품질과 사용자 만족도 향상에 기여할 수 있을 것으로 보인다.

Sentimental Analysis of SW Education News Data (SW 교육 뉴스데이터의 감성분석)

  • Park, SunJu
    • Journal of The Korean Association of Information Education
    • /
    • v.21 no.1
    • /
    • pp.89-96
    • /
    • 2017
  • Recently, a number of researches actively focus on the contents and sensitivity of information distributed through SNS as smartphones and SNS gained its popularity. In this paper, we collected online news data about SW education, extracted words after morphological analysis, and analyzed emotions of collected news data by calculating sentimental score of each news datum. Also, the accuracy of the calculated sentimental score was examined. As a result, the number of news related to 'SW education' in the collection period was about 189 per month, and the average of sentimental score was 0.7, which signifies the news related to 'SW education' was emotionally positive. We were positive about the importance of SW education and the policy implementation, but there were negative views on the specific method for the realization. That is, a lack of SW education environment and its education method, a problem related to improvement of SW developers and improvement of their labor conditions, and increase of private education in coding were the factors for the negative viewers.

An Analysis of News Report Characteristics on Archives & Records Management for the Press in Korea: Based on 1999~2018 News Big Data (뉴스 빅데이터를 이용한 우리나라 언론의 기록관리 분야 보도 특성 분석: 1999~2018 뉴스를 중심으로)

  • Han, Seunghee
    • Journal of the Korean Society for information Management
    • /
    • v.35 no.3
    • /
    • pp.41-75
    • /
    • 2018
  • The purpose of this study is to analyze the characteristics of Korean media on the topic of archives & records management based on time-series analysis. In this study, from January, 1999 to June, 2018, 4,680 news articles on archives & records management topics were extracted from BigKinds. In order to examine the characteristics of the media coverage on the archives & records management topic, this study was analyzed to the difference of the press coverage by period, subject, and type of the media. In addition, this study was conducted word-frequency based content analysis and semantic network analysis to investigate the content characteristics of media on the subject. Based on these results, this study was analyzed to the differences of media coverage by period, subject, and type of media. As a result, the news in the field of records management showed that there was a difference in the amount of news coverage and news contents by period, subject, and type of media. The amount of news coverage began to increase after the Presidential Records Management Act was enacted in 2007, and the largest amount of news was reported in 2013. Daily newspapers and financial newspapers reported the largest amount of news. As a result of analyzing news reports, during the first 10 years after 1999, news topics were formed around the issues arising from the application and diffusion process of the concept of archives & records management. However, since the enactment of the Presidential Records Management Act, archives & records management has become a major factor in political and social issues, and a large amount of political and social news has been reported.

Development of Web Crawler and Network Analysis Technology for Occurrence and Prediction of Flooding (수난 발생 및 규모 예측을 위한 웹 크롤러 및 네트워크 분석기술 개발)

  • Seo, Dongmin;Kim, Hoyong;Lee, Jeongha;Hwang, Seokhwan
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2019.05a
    • /
    • pp.5-6
    • /
    • 2019
  • 빅데이터 분석을 위해 활용되는 데이터로는 뉴스, 블로그, SNS, 논문, 특허 그리고 센서로부터 수집된 데이터 등 매우 다양한 유형의 데이터가 있다. 특히, 신뢰성 있는 데이터를 실시간 제공하는 웹 데이터의 활용이 점차 확산되고 있다. 그리고 빅데이터의 활용이 다양한 분야로 점차 확산되고 웹 데이터가 매년 기하급수적으로 증가하면서, 최근 웹 데이터는 재난대응 미디어로써 매우 중요한 역할을 하고 있다. 또한, 빅데이터 분석에 활용되는 원천 데이터는 네트워크 형태이며, 최근 소셜 네트워크 분석을 통한 효과적인 상품 광고, 핵심 유전자 발굴, 신약 재창출 등 다양한 영역에서 네트워크 분석 기술이 사회와 인류에게 가치 있는 정보를 제공할 수 있는 가능성을 제시하면서 네트워크 분석 기술의 중요성이 부각되고 있다. 본 논문에서는 웹에서 제공하는 뉴스와 SNS 데이터를 이용해 수난 발생 및 규모 예측을 지원하는 웹 크롤러 및 네트워크 분석기술을 제안한다.

  • PDF

Analysis of similarity between industries based on unstructured data using topic modeling (토픽 모델링을 이용한 비정형 데이터 기반 산업간 유사도 분석)

  • Kim, Kyungwon;Park, Jongbin;Jung, Jongjin;Yoon, Kyoungro
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2018.11a
    • /
    • pp.180-182
    • /
    • 2018
  • 최근 빠르게 변화하는 산업 환경에서 뉴스 기사와 같은 비정형 데이터를 기반으로 산업 트랜드를 분석하기 위한 연구가 진행되고 있다. 뉴스와 같은 비정형 데이터를 기반으로 산업별 트랜드를 분석하기 위해서는 분석 대상 산업에 대한 많은 양의 시계열 데이터가 요구된다. 하지만, 수집된 비정형 데이터를 분류하면 산업별/기간별 일정하지 않은 데이터 분포를 보이거나, 특정 산업에 대해서는 특정 기간에 데이터가 존재하지 않은 경우가 발생하여 산업별 시계열 분석이 어려운 경우가 발생할 수 있다. 이에, 본 논문에서는 산업별/기간별 균일하지 못한 비정형 데이터의 분포를 보정하기 위한 방법으로 비정형 데이터 기반 산업간 유사도를 분석 기법을 제안한다. 산업별 유사도 분석을 위해 각 산업별 주요 키워드를 도출하고 토픽 모델링 기법을 이용하여 산업간 유사도 분석을 통해 산업별/기간별 비정형 데이터 부족현상을 보완하는 방법을 제시한다.

  • PDF