• Title/Summary/Keyword: 뉴스 데이터 분석

Search Result 391, Processing Time 0.027 seconds

Study of Policy through Big data Analysis about Gambling News (사행산업 관련 뉴스의 빅데이터 분석을 통한 정책 연구)

  • Moon, HyeJung;Kim, SungKyung
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2016.11a
    • /
    • pp.190-193
    • /
    • 2016
  • 본 연구는 사행산업의 분야인 복권, 체육진흥투표권, 경마, 카지노에 대해 언론에서는 어떻게 다루어지고 있는지를 1990년부터 2015년까지의 뉴스데이터를 빅데이터 분석 방법 중 테스트의 의미연결망 분석을 통해 밝혀보고자 하는 연구이다. 이 논문은 의미망 분석을 통해 기사의 빈도와 연결성을 프레이밍과 시민관심 정도로 재조명 하여 기사에 대한 언론보도자의 의도와 시민의 인식차이를 밝혔고, 이를 통해 정책적 특성과 개혁과제를 탐색하였다. 분석결과 복권의 경우 당첨번호, 당첨금, 조작의혹 등 당첨에 대한 부분이 주제인 '사회문제' 형태였으며, 체육진흥투표권의 경우에는 사업입찰, 불법사이트, 발매대상 등 주로 사업추진과 불법사이트에 대한 '의무정보' 종류였고, 경마의 경우 사업장, 홍보, 기사 등으로 사업홍보나 광고 관련 뉴스이었고, 마지막으로 카지노의 경우에는 불법, 도박장, 외국인 등 '주요정보'에 해당하는 논문이었다. 시대에 따라 1990년대에는 카지노, 2000년대에는 복권, 2010년대에는 경마에 대한 기사보도가 많아졌으며, 이에 대한 시민의 반응도 사업비리, 당첨, 시민운동 등의 차이가 있었다. 마지막으로 기사의 빈도와 연결성이 나타내는 프레이밍 정도와 시민의 관심은 '1. 홍보광고, 2. 의무정보, 3. 사회이슈, 4. 주요정보' 네 가지로 구분되었으며 이 중 사고, 비리 등 주요기사로 구분되는 사회문제가 주요 공공의제로 형성되는 것을 확인할 수 있었다.

  • PDF

Covid 19 News Data Analysis and Visualization

  • Hur, Tai-Sung;Hwang, In-Yong
    • Journal of the Korea Society of Computer and Information
    • /
    • v.27 no.4
    • /
    • pp.37-43
    • /
    • 2022
  • In this paper, we calculate the word frequency by date and region using news data related to COVID-19 distributed for about 8 months from December 2019 to July 2020, and visualized the correlation with the current state data of COVID-19 patients using the results. News data was collected from Big Kids, a news big data system operated by the Korea Press Promotion Foundation. The visualization system proposed in this paper shows the news frequency of the selected region compared to the overall region, the key keyword of the selected region, the region of the main keyword, and the date change of the selected region. Through this visualization, the main keywords and trends of COVID-19 confirmed and infected people can be identified for previous events.

News Article Big Data Analysis based on Machine Learning in Distributed Processing Environments (분산 처리 환경에서의 기계학습 기반의 뉴스 기사 빅 데이터 분석)

  • Oh, Hee-bin;Lee, Jeong-cheol;Kim, Kyungsup
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.11a
    • /
    • pp.59-62
    • /
    • 2017
  • 본 논문에서는 텍스트 형태의 빅 데이터를 분산처리 환경에서 기계학습을 이용하여 분석하고 유의미한 데이터를 만들어내는 시스템에 대해 다루었다. 빅 데이터의 한 종류인 뉴스 기사 빅 데이터를 분산 시스템 환경(Spark) 내에서 기계 학습(Word2Vec)을 이용하여 뉴스 기사의 키워드 간의 연관도를 분석하는 분산 처리 시스템을 설계 및 구현하였고, 사용자가 입력한 검색어와 연관된 키워드들을 한눈에 파악하기 쉽게 만드는 시각화 시스템을 설계하였다.

Objectivity in Korean News Reporting : Machine Learning-Based Verification of News Headline Accuracy (기계학습 기반 국내 뉴스 헤드라인의 정확성 검증 연구)

  • Baik, Jisoo;Lee, Seung Eon;Han, Jiyoung;Cha, Meeyoung
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.281-286
    • /
    • 2021
  • 뉴스 헤드라인에 제3자의 발언을 직접 인용해 전언하는 이른바 '따옴표 저널리즘'이 언론 보도의 객관주의 원칙을 해치는지는 언론학 및 뉴스 구독자에게 중요한 문제이다. 이 연구는 온라인 포털사이트를 통해 실시간 유통되는 한국어 기사의 정확성을 판별하기 위한 기계학습(Machine Learning) 모델을 제안한다. 이 연구에서 제안하는 모델은 Edit Distance와 FastText 기법을 활용해 기사 제목과 본문 내 인용구의 유사성을 측정하고, XGBoost 모델을 활용해 최종 분류한다. 아울러 이 모델을 통해 229만 건의 뉴스 헤드라인에 대해 직접 인용구가 포함된 기사가 취재원의 발언을 주관적인 윤색없이 독자들에게 전하고 있는지를 판별했다. 이뿐만 아니라 딥러닝 기반의 KoELECTRA 모델을 활용해 기사의 제목 내 인용구에 대한 감성 분석을 진행했다. 분석 결과, 윤색이 가미되지 않은 직접 인용형 기사의 비율이 지난 20년 동안 10% 이상 증가했으며, 기사 제목의 인용구에 나타나는 감정은 부정 감성이 긍정 감성의 2.8배 정도로 우세했다. 이러한 시도는 앞으로 계산사회과학 방법론과 빅데이터에 기반한 언론 보도의 평가 및 개선에 도움을 주리라 기대한다.

  • PDF

Wrapper-based Economy Data Collection System Design And Implementation (래퍼 기반 경제 데이터 수집 시스템 설계 및 구현)

  • Piao, Zhegao;Gu, Yeong Hyeon;Yoo, Seong Joon
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2015.05a
    • /
    • pp.227-230
    • /
    • 2015
  • For analyzing and prediction of economic trends, it is necessary to collect particular economic news and stock data. Typical Web crawler to analyze the page content, collects document and extracts URL automatically. On the other hand there are forms of crawler that can collect only document of a particular topic. In order to collect economic news on a particular Web site, we need to design a crawler which could directly analyze its structure and gather data from it. The wrapper-based web crawler design is required. In this paper, we design a crawler wrapper for Economic news analysis system based on big data and implemented to collect data. we collect the data which stock data, sales data from USA auto market since 2000 with wrapper-based crawler. USA and South Korea's economic news data are also collected by wrapper-based crawler. To determining the data update frequency on the site. And periodically updated. We remove duplicate data and build a structured data set for next analysis. Primary to remove the noise data, such as advertising and public relations, etc.

  • PDF

News Data Analysis Using Acoustic Model Output of Continuous Speech Recognition (연속음성인식의 음향모델 출력을 이용한 뉴스 데이터 분석)

  • Lee, Kyong-Rok
    • The Journal of the Korea Contents Association
    • /
    • v.6 no.10
    • /
    • pp.9-16
    • /
    • 2006
  • In this paper, the acoustic model output of CSR(Continuous Speech Recognition) was used to analyze news data News database used in this experiment was consisted of 2,093 articles. Due to the low efficiency of language model, conventional Korean CSR is not appropriate to the analysis of news data. This problem could be handled successfully by introducing post-processing work of recognition result of acoustic model. The acoustic model more robust than language model in Korean environment. The result of post-processing work was made into KIF(Keyword information file). When threshold of acoustic model's output level was 100, 86.9% of whole target morpheme was included in post-processing result. At the same condition, applying length information based normalization, 81.25% of whole target morpheme was recognized. The purpose of normalization was to compensate long-length morpheme. According to experiment result, 75.13% of whole target morpheme was recognized KIF(314MB) had been produced from original news data(5,040MB). The decrease rate of absolute information met was approximately 93.8%.

  • PDF

News Clustering and Multi-Document Summarization for Real-time Issue Analysis (실시간 이슈 분석을 위한 뉴스 군집화 및 다중 문서 요약)

  • Yu, Hongyeon;Lee, Seungwoo;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.132-137
    • /
    • 2018
  • 뉴스 기반의 실시간 이슈 분석을 위해서는 실시간으로 생성되는 다중 뉴스 기사 집합을 입력으로 받아 점증적으로 군집화 하고, 각 군집별 정보를 자동으로 요약하는 기술이 필요하다. 기존에는 정적인 데이터 기반의 군집화와 요약 각각에 대한 연구는 활발히 진행되고 있지만, 실시간으로 입력되는 대량의 데이터를 위한 점증적인 군집화와 요약에 대한 연구는 매우 부족하다. 따라서 본 논문에서는 실시간으로 입력되는 대량의 뉴스 기사 집합을 분석하기 위한 점증적이고 계층적인 뉴스 군집화 및 다중 문서 요약 방법을 제안한다. 평가를 위해서 2016년 10월, 11월 두 달간의 실제 데이터를 사용 하였으며, 전문 교육을 받은 연구원들이 Precision at k 기반의 정성평가를 진행하였다. 그 결과, 자동으로 생성된 12개의 군집에서 군집 성능은 평균 66% (상위계층 $l_1$: 82%, 하위계층 $l_2$: 43%), 요약 성능은 평균 92%를 얻었다.

  • PDF

CoAID+ : COVID-19 News Cascade Dataset for Social Context Based Fake News Detection (CoAID+ : 소셜 컨텍스트 기반 가짜뉴스 탐지를 위한 COVID-19 뉴스 파급 데이터)

  • Han, Soeun;Kang, Yoonsuk;Ko, Yunyong;Ahn, Jeewon;Kim, Yushim;Oh, Seongsoo;Park, Heejin;Kim, Sang-Wook
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.11 no.4
    • /
    • pp.149-156
    • /
    • 2022
  • In the current COVID-19 pandemic, fake news and misinformation related to COVID-19 have been causing serious confusion in our society. To accurately detect such fake news, social context-based methods have been widely studied in the literature. They detect fake news based on the social context that indicates how a news article is propagated over social media (e.g., Twitter). Most existing COVID-19 related datasets gathered for fake news detection, however, contain only the news content information, but not its social context information. In this case, the social context-based detection methods cannot be applied, which could be a big obstacle in the fake news detection research. To address this issue, in this work, we collect from Twitter the social context information based on CoAID, which is a COVID-19 news content dataset built for fake news detection, thereby building CoAID+ that includes both the news content information and its social context information. The CoAID+ dataset can be utilized in a variety of methods for social context-based fake news detection, thus would help revitalize the fake news detection research area. Finally, through a comprehensive analysis of the CoAID+ dataset in various perspectives, we present some interesting features capable of differentiating real and fake news.

An Analysis of Domestic Newspaper Articles on 5.18 using the Bigkinds System (빅카인즈를 활용한 5·18 관련 국내 기사 분석 연구)

  • Juhyeon Park;Hyunji Park;Youngbum Gim
    • Journal of the Korean Society for information Management
    • /
    • v.41 no.1
    • /
    • pp.107-132
    • /
    • 2024
  • This study attempted to analyze newspaper articles related to May 18 through frequency analysis and network analysis using news data related to May 18 for about 30 years from 1990 to 2022 at the Korea Press Foundation's Big Kinds. Specifically, quantitative change trends were examined by analyzing the amount of articles by period and region, and the connection structure between major keywords by the regime was explored through network analysis by regime using co-appearance keywords. As a result of the analysis, it was found that 2019 had the largest amount of coverage, which had many social issues in time, and the Jeolla-do region had the largest amount of coverage in the region. And as a result of network analysis, there were differences in words related to May 18 in news data according to the perception and policy of the regime toward May 18. As a result of synthesizing the analysis of May 18 news data, it was confirmed that May 18 was becoming a democratic movement over time regardless of region, but at the same time, the distortion of May 18 was not resolved.

Political Information Filtering on Online News Comment (정보 중립성 확보를 위한 인터넷 뉴스 댓글의 정치성향 분석)

  • Choi, Hyebong;Kim, Jaehong;Lee, Jihyun;Lee, Mingu
    • The Journal of the Convergence on Culture Technology
    • /
    • v.6 no.4
    • /
    • pp.575-582
    • /
    • 2020
  • We proposes a method to estimate political preference of users who write comments on internet news. We collected and analyzed a massive amount of new comment data from internet news to extract features that effectively characterizes political preference of users. We expect that it helps user to obtain unbiased information from internet news and online discussion by providing estimated political stance of news comment writer. Through comprehensive tests we prove the effectiveness of two proposed methods, lexicon-based algorithm and similarity-based algorithm.