• 제목/요약/키워드: news data

검색결과 885건 처리시간 0.024초

문서 요약 기법이 가짜 뉴스 탐지 모형에 미치는 영향에 관한 연구 (A Study on the Effect of the Document Summarization Technique on the Fake News Detection Model)

  • 심재승;원하람;안현철
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.201-220
    • /
    • 2019
  • 가짜뉴스가 전세계적 이슈로 부상한 최근 수년간 가짜뉴스 문제 해결을 위한 논의와 연구가 지속되고 있다. 특히 인공지능과 텍스트 분석을 이용한 자동화 가짜 뉴스 탐지에 대한 연구가 주목을 받고 있는데, 대부분 문서 분류 기법을 이용한 연구들이 주를 이루고 있는 가운데 문서 요약 기법은 지금까지 거의 활용되지 않았다. 그러나 최근 가짜뉴스 탐지 연구에 생성 요약 기법을 적용하여 성능 개선을 이끌어낸 사례가 해외에서 보고된 바 있으며, 추출 요약 기법 기반의 뉴스 자동 요약 서비스가 대중화된 현재, 요약된 뉴스 정보가 국내 가짜뉴스 탐지 모형의 성능 제고에 긍정적인 영향을 미치는지 확인해 볼 필요가 있다. 이에 본 연구에서는 국내 가짜뉴스에 요약 기법을 적용했을 때 정보 손실이 일어나는지, 혹은 정보가 그대로 보전되거나 혹은 잡음 제거를 통한 정보 획득 효과가 발생하는지 알아보기 위해 국내 뉴스 데이터에 추출 요약 기법을 적용하여 '본문 기반 가짜뉴스 탐지 모형'과 '요약문 기반 가짜뉴스 탐지 모형'을 구축하고, 다수의 기계학습 알고리즘을 적용하여 두 모형의 성능을 비교하는 실험을 수행하였다. 그 결과 BPN(Back Propagation Neural Network)과 SVM(Support Vector Machine)의 경우 큰 성능 차이가 발생하지 않았지만 DT(Decision Tree)의 경우 본문 기반 모델이, LR(Logistic Regression)의 경우 요약문 기반 모델이 다소 우세한 성능을 보였음을 확인하였다. 결과를 검증하는 과정에서 통계적으로 유의미한 수준으로는 요약문 기반 모델과 본문 기반 모델간의 차이가 확인되지는 않았지만, 요약을 적용하였을 경우 가짜뉴스 판별에 도움이 되는 핵심 정보는 최소한 보전되며 LR의 경우 성능 향상의 가능성이 있음을 확인하였다. 본 연구는 추출요약 기법을 국내 가짜뉴스 탐지 연구에 처음으로 적용해 본 도전적인 연구라는 점에서 의의가 있다. 하지만 한계점으로는 비교적 적은 데이터로 실험이 수행되었다는 점과 한 가지 문서요약기법만 사용되었다는 점을 제시할 수 있다. 향후 대규모의 데이터에서도 같은 맥락의 실험결과가 도출되는지 검증하고, 보다 다양한 문서요약기법을 적용해 봄으로써 요약 기법 간 차이를 규명하는 확장된 연구가 추후 수행되어야 할 것이다.

가짜뉴스의 시대, 지속가능한 발전을 위한 보편적 리터러시의 구축 및 제공에 대한 실험적 연구 (An Exploratory Study on the Establishment and Provision of Universal Literacy for Sustainable Development in the Era of Fake News)

  • 이정미
    • 한국문헌정보학회지
    • /
    • 제55권1호
    • /
    • pp.85-106
    • /
    • 2021
  • 본 연구의 목적은 가짜뉴스의 개념과 정의를 오정보/허위정보를 중심으로 살펴보고 현대사회가 가짜뉴스와 같은 정보왜곡으로 인한 사회 현실 왜곡, 민주주의 훼손에 대해 대응할 방안을 살펴보고자 하는 것이다. 이를 위해 가짜뉴스의 개념을 사실성과 속이고자 하는 의도성에 바탕해 살펴보고, 가짜뉴스의 생성과 파급이 이루어지는 우리의 사회 환경을 데이터화 관점에서 살펴보았다. 이러한 환경에서 인류의 정보접근과 활용에 중추적 역할을 하는 도서관계는 UN 2030 의제인 지속가능한 발전목표의 실현을 위해 보편적 리터러시 교육의 구축과 제공을 위해 힘써야 할 것이라 주장하였다. 데이터화 정도와 사회의 정치·경제·사회·문화적 배경에 따라 데이터 커뮤니케이션 유형을 조사 분석하여 해당 사회를 이해하는 것이 보편적 리터러시 교육항목 구성에 핵심이며 이런 이유로 보편적 리터러시는 각각의 사회가 가지는 데이터화 정도와 이용자에 따라 유연성있게 구현되어야 한다고 결론지었다.

News Impact Curve and Test for Asymmetric Volatility

  • Park, J.A.;Choi, M.S.;Kim, K.K.;Hwang, S.Y.
    • Journal of the Korean Data and Information Science Society
    • /
    • 제18권3호
    • /
    • pp.697-704
    • /
    • 2007
  • It is common in financial time series that volatility(conditional variance) as a measure of risk exhibits asymmetry in such a manner that positive and negative values of return rates of the series tend to provide different contributions to the volatility. We are concerned with asymmetric conditional variances for Korean financial time series especially during the time span of 2000-2001. Notice that these periods suffer from 9-11 disaster in US and collapses of stock prices of dot-companies in Korea. Threshold-ARCH models are considered and a Wald test of asymmetry is suggested. News impact curves are illustrated for graphical representations of leverage effects inherent in various Korean financial time series.

  • PDF

CoAID+ : 소셜 컨텍스트 기반 가짜뉴스 탐지를 위한 COVID-19 뉴스 파급 데이터 (CoAID+ : COVID-19 News Cascade Dataset for Social Context Based Fake News Detection)

  • 한소은;강윤석;고윤용;안지원;김유심;오성수;박희진;김상욱
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권4호
    • /
    • pp.149-156
    • /
    • 2022
  • 최근 전 세계적으로 COVID-19이 유행하는 상황 속에서 이와 관련된 가짜뉴스가 심각한 사회적 혼란을 야기하고 있다. 이러한 배경에서 가짜뉴스를 정확하게 탐지하기 위해, 뉴스가 소셜 미디어를 통해 파급되는 과정과 같은 소셜 컨텍스트 정보를 활용하는 소셜 컨텍스트 기반 탐지 기법들이 널리 사용되고 있다. 그러나 대부분의 기 구축된 가짜뉴스 탐지를 위한 데이터들은 뉴스 자체의 내용 정보 위주로 구성되어, 소셜 컨텍스트 정보를 거의 포함하지 않는다. 즉, 이 데이터들에는 소셜 컨텍스트 기반 탐지 기법을 적용할 수 없으며, 이러한 데이터의 한계는 가짜뉴스 탐지 연구 분야의 발전을 저해하는 방해 요소이다. 본 논문은 이러한 한계를 극복하기 위해, 기존의 저명한 가짜뉴스 데이터인 CoAID 데이터를 기반으로, 소셜 컨텍스트 정보를 추가적으로 수집하여, CoAID 데이터의 뉴스 내용 정보와 해당 뉴스들의 소셜 컨텍스트 정보를 모두 포함하는 CoAID+ 데이터를 구축한다. 본 논문에서 구축한 CoAID+ 데이터는 기존의 대부분의 소셜 컨텍스트 기반 탐지 기법들에 적용될 수 있으며, 향후 새로운 소셜 컨텍스트 기반 탐지 기법들에 대한 연구도 더욱 활성화시킬 수 있을 것으로 기대된다. 마지막으로, 본 논문은 다양한 관점에서 CoAID+ 데이터를 분석하여 진짜뉴스와 가짜뉴스의 파급 패턴 및 키워드에 따른 파급 패턴도 파악하여 소개한다.

뉴스 빅데이터를 활용한 수소 이슈 탐색 (A Study on Social Issues for Hydrogen Industry Using News Big Data)

  • 최일영;김혜경
    • 한국수소및신에너지학회논문집
    • /
    • 제33권2호
    • /
    • pp.121-129
    • /
    • 2022
  • With the advent of the post-2020 climate regime, the hydrogen industry is growing rapidly around the world. In order to build the hydrogen economy, it is important to identify social issues related to hydrogen and prepare countermeasures for them. Accordingly, this study conducted a semantic network analysis on hydrogen news from NAVER. As a result of the analysis, the number of hydrogen news in 2020 increased by 4.5 times compared to 2016, and as of 2018, the hydrogen issue has shifted from an environmental aspect to an economic aspect. In addition, although the initial government-led hydrogen industry is expanding to the mobility field such as privately-led fuel cell electric vehicles and hydrogen fuel, terms showing concerns about the safety such as explosions are constantly being exposed. Thus, it is necessary not only to expand the hydrogen ecosystem through the participation of private companies, but also to promote hydrogen safety.

토픽모델링을 활용한 해운물류 뉴스 분석 (Analysis of Shipping and Logistics News Articles using Topic Modeling)

  • 윤희영;곽일엽
    • 무역학회지
    • /
    • 제46권4호
    • /
    • pp.61-76
    • /
    • 2021
  • This study focuses on three logistics-related news (Logistics Newspaper, Korea Shipping Gadget, and Korea Shipping Newspaper) in order to present changes in logistics issues, centering on Corona 19, which has recently had the greatest impact in the world. For data collection, two-year news articles in 2019 and 2020 (title, article, content, date, article classification, article URL) were collected through web crawling (using Python's BeautifulSoup, requests module) on the homepages of three representative logistics-related media companies. As for the data analysis methods, fundamental statistical analysis, Latent Dirichlet Allocation (LDA) for topic modeling, and Scattertext were performed. The analysis results were as follows. First, among the three news media related to logistics, the Korea Shipping Newspaper was carrying out the most active media activities. Second, through topic modeling with LDA, eight logistics-related topics were identified, and keywords and significant issues of each topic were presented. Third, the keywords were visually expressed through Scattertext. This is the first study to present changes in the logistics field, focusing on articles from representative logistics-related media in 2019 and 2020. In particular, 2019 and 2020 can be divided into before and after the outbreak of Corona 19, which has had a great impact not only on the logistics field but also on our lives as a whole. For future work, a multi-faceted approach is required, such as comparative studies of logistics issues between countries or presenting implications based on long-term time-series articles.

A Study on the Meaning of The First Slam Dunk Based on Text Mining and Semantic Network Analysis

  • Kyung-Won Byun
    • International journal of advanced smart convergence
    • /
    • 제12권1호
    • /
    • pp.164-172
    • /
    • 2023
  • In this study, we identify the recognition of 'The First Slam Dunk', which is gaining popularity as a sports-based cartoon through big data analysis of social media channels, and provide basic data for the development and development of various contents in the sports industry. Social media channels collected detailed social big data from news provided on Naver and Google sites. Data were collected from January 1, 2023 to February 15, 2023, referring to the release date of 'The First Slam Dunk' in Korea. The collected data were 2,106 Naver news data, and 1,019 Google news data were collected. TF and TF-IDF were analyzed through text mining for these data. Through this, semantic network analysis was conducted for 60 keywords. Big data analysis programs such as Textom and UCINET were used for social big data analysis, and NetDraw was used for visualization. As a result of the study, the keyword with the high frequency in relation to the subject in consideration of TF and TF-IDF appeared 4,079 times as 'The First Slam Dunk' was the keyword with the high frequency among the frequent keywords. Next are 'Slam Dunk', 'Movie', 'Premiere', 'Animation', 'Audience', and 'Box-Office'. Based on these results, 60 high-frequency appearing keywords were extracted. After that, semantic metrics and centrality analysis were conducted. Finally, a total of 6 clusters(competing movie, cartoon, passion, premiere, attention, Box-Office) were formed through CONCOR analysis. Based on this analysis of the semantic network of 'The First Slam Dunk', basic data on the development plan of sports content were provided.

Word2Vec을 활용한 뉴스 기반 주가지수 방향성 예측용 감성 사전 구축 (News based Stock Market Sentiment Lexicon Acquisition Using Word2Vec)

  • 김다예;이영인
    • 한국빅데이터학회지
    • /
    • 제3권1호
    • /
    • pp.13-20
    • /
    • 2018
  • 주식 시장에 대한 예측은 오랜 기간 많은 이들의 꿈이었다. 하지만 수많은 노력에도 불구하고 주식 시장을 정확하게 예측하기란 쉬운 일이 아니었다. 본 연구는 주식 시장의 방향성에 주목하여 이 방향성을 예측할 수 있는 감성사전을 구축하는 새로운 방법을 제시한다. 이를 위해 2015년 1월 1일부터 2017년 12월 31일까지 3년간의 증시 뉴스 25,000여 건의 데이터를 수집하여, 문맥을 고려하기 위한 Word2Vec을 적용하였다. 이를 바탕으로 뉴스에 감성분석을 실시하여 KOSPI 종가 지수를 예측해 보았다.

How Content Affects Clicks: A Dynamic Model of Online Content Consumption

  • Inyoung Chae;Da Young Kim
    • Asia pacific journal of information systems
    • /
    • 제31권4호
    • /
    • pp.606-632
    • /
    • 2021
  • With many consumers being exposed to news via social media platforms, news organizations are challenged to attract visitors and generate revenue during visits to their websites. They therefore need detailed information on how to write articles and headlines to increase visitors' engagement with the content to drive advertising revenues. For those news organizations whose business model depends mainly on advertisements, rather than subscriptions, it is particularly crucial to understand what makes the website attractive to their visitors, what drives users to stay on the website, and what factors affect a user's exit decision. The current research examines individual news consumers' choices to find patterns of increase or decrease in user engagement relative to a variety of topics, as well as to the mood or tone of the content. Using clickstream data from a major news organization, the authors develop a user-level dynamic model of clickstream behavior that takes into account the content of both headlines and stories that visitors read. The authors find that readers appear to exhibit state dependence in the tone of the articles that they read. They also show how the topics expressed in headlines can affect the amount of content readers consume when visiting the news organization to a much larger degree than the topics expressed in the content of the article. Online publishers can make use of such findings to present visitors with content that is likely to maintain and/or increase their engagement and consequently drive advertising revenue.

사회면 기사 분석(1998년~2009년)을 통해 본 뉴스 미디어의 현실구성 (A Trend Analysis of the Metro Sections of News Media in Korea during 1998 and 2009)

  • 정일권
    • 한국언론정보학보
    • /
    • 제50권
    • /
    • pp.143-163
    • /
    • 2010
  • 이 연구는 지난 12년간 (1998년에서 2009년) 국내 뉴스 미디어의 사회면 기사의 변화 추세와 뉴스 미디어 간의 차이를 분석하는 것을 목적으로 했다. 연구목적 달성을 위해 이 연구는 지난 12년간(1998년 1월에서 2009년 8월)의 사회면 기사 전체의 헤드라인을(n=53,765) 비교하여, 뉴스기사를 통해 드러나는 현실이 시간의 흐름에 따라 변화가 있는지를 조사했다. 그리고 신문과 방송이라는 매체적 특성 그리고 뉴스 미디어의 이념적 성향에 따른 차이를 비교해 보기 위해 국내 지상파 방송 3사에서 보도된 기사와 주요 7개 전국지에 게재된 기사의 헤드라인을 매체와 개별 뉴스 미디어의 두 수준에 걸쳐 비교했다. 분석 결과, 뉴스 미디어의 사회면 기사는 현실과 정권이라고 하는 요인에 의해 영향을 받으며 이 두 요인의 공통성으로 인해 뉴스 미디어간 다소의 유사성을 지니게 된다는 결론에 도달했다. 그러나 동일한 대상(현실과 정권)을 받아들이는 방향과 정도의 차이 때문에 뉴스 미디어 간에 차별화가 이뤄지며 이러한 차이는 사회면 기사의 주제 선택에 영향을 미치게 됨을 알 수 있었다.

  • PDF