• 제목/요약/키워드: news articles clustering

검색결과 24건 처리시간 0.028초

준 실시간 뉴스 이슈 분석을 위한 계층적·점증적 군집화 (Hierarchical and Incremental Clustering for Semi Real-time Issue Analysis on News Articles)

  • 김호용;이승우;장홍준;서동민
    • 한국콘텐츠학회논문지
    • /
    • 제20권6호
    • /
    • pp.556-578
    • /
    • 2020
  • 실시간으로 발생하는 뉴스 기사로부터 이슈를 분석하기 위한 다양한 연구가 진행되어 왔다. 하지만 범주에 따라 계층적으로 이슈를 분석하는 연구는 많이 진행되지 않았고, 계층적 이슈 분석을 위한 기존의 연구에서 제안하는 방식 또한 뉴스 기사 증가에 따라 군집화 속도가 느려지는 문제점이 있다. 따라서 본 논문에서는 준 실시간으로 뉴스 기사의 이슈를 분석하는 계층적·점증적 군집화 방식을 제안한다. 제안하는 군집화 방식은 샴 신경망을 이용한 가중 코사인 유사도 측정 모델 기반의 k-평균 알고리즘을 이용한 단어 군집 기반 문서 표현 방식을 통해 뉴스 기사를 문서 벡터로 표현한다. 그리고 문서 벡터로부터 초기 이슈 군집 트리를 생성하고, 새로 발생한 뉴스 기사를 해당 이슈 군집 트리에 추가하는 점증적 군집화 방식을 제안함으로써 뉴스 기사의 계층적 이슈를 준 실시간으로 분석한다. 마지막으로, 본 논문에서 제안하는 방식과 기존 방식들과의 성능평가를 통해 제안하는 군집화 방식이 정확도 측면에서 기존 방식 대비 NMI 지표 기준 0.26 정도 성능이 향상되었고, 속도 측면에서 약 10배 이상의 성능이 향상됨을 입증하였다.

트위트 이형 정보 망을 이용한 뉴스 기사의 사용자 지향적 클러스터링 (User Oriented clustering of news articles using Tweets Heterogeneous Information Network)

  • 무하마드 쇼아입;송왕철
    • 인터넷정보학회논문지
    • /
    • 제14권6호
    • /
    • pp.85-94
    • /
    • 2013
  • 월드와이드 웹, 특히 web 2.0의 출현과 함께 뉴스 기사들의 양이 엄청나게 증가하면서 독자들이 그들의 요건에 맞춰 뉴스기사를 선택하는데 어려움이 있다. 이러한 문제를 해결하기 위해서 여러 클러스터링 메커니즘이 뉴스기사들을 분별하도록 제안되었다. 하지만, 이러한 기법들은 완전히 기계 지향적 기법들이고, 클러스터링의 멤버쉽을 결정하는 과정에 사용자의 참여가 제외되어 있다. 본 논문에서는 뉴스 기사 클러스터링 처리과정에서 참여문제를 해결하기 위해서, 객체들을 클러스터링하는 뉴스 기사와 트위터에 포스트하려는 사용자의 결정을 조합하므로써 뉴스 기사를 클러스터링하는 프레임워크를 제안한다. 우리는 이를 위해 트위터 해쉬-태그를 이용할 수 있도록 했다. 더욱이, 트윗된 글에 대한 리트윗 빈번도에 기반하여 사용자의 신용도를 계산하므로써, 클러스터링 멤버쉽 함수의 정확도를 개선시키려 한다. 제안된 방법에 대한 성능을 보이기 위해, 2013년도에 파키스탄에서 있었던 선거동안에 발생한 메시지를 이용했다. 우리의 결과를 통해 사용자의 결과를 이용하므로써, 일반 클러스터링보다 더 나은 결과물이 달성될 수 있음을 보였다.

대한민국 정권별 아동복지정책 관련 뉴스 기사 분석: K-평균 군집 분석 (Analysis of News Articles on Child Welfare Policies in South Korea: K-Means Clustering)

  • 김은주;김성광;박빛나
    • 동서간호학연구지
    • /
    • 제29권2호
    • /
    • pp.185-195
    • /
    • 2023
  • Purpose: The purpose of this study is to analyze changes of child welfare policies and provide insights based on the collection and classification of newspaper articles. Methods: Articles related to child welfare policies were collected from 1990, during the Kim, Young-sam administration, to May 9, 2022, under the Moon, Jae-in administration. K-Means clustering and keyword Term Frequency-Inverse Document Frequency analysis were utilized to cluster and analyze newspaper articles with similar themes. Results: The administrations of Kim, Young-sam, Kim, Dae-jung, Roh, Moo-hyun, and Park, Geun-hye were classified into two clusters, and the Lee, Myung-bak and Moon, Jae-in administrations were classified into three clusters. Conclusion: South Korea's child welfare policies have focused on ensuring the safety and healthy development of children through diverse policies initiatives over the years. However, challenges related to child protection and child abuse persist. This requires additional resources and budget allocation. It is important to establish a comprehensive support system for children and families, including comprehensive nursing support.

사건중심 뉴스기사 자동요약을 위한 사건탐지 기법에 관한 연구 (A Study on an Effective Event Detection Method for Event-Focused News Summarization)

  • 정영미;김용광
    • 정보관리학회지
    • /
    • 제25권4호
    • /
    • pp.227-243
    • /
    • 2008
  • 이 연구에서는 사건중심 뉴스기사 요약문을 자동생성하기 위해 뉴스기사들을 SVM 분류기를 이용하여 사건 주제범주로 먼저 분류한 후, 각 주제범주 내에서 싱글패스 클러스터링 알고리즘을 통해 특정한 사건 관련 기사들을 탐지하는 기법을 제안하였다. 사건탐지 성능을 높이기 위해 고유명사에 가중치를 부여하고, 뉴스의 발생시간을 고려한 시간벌점함수를 제안하였다. 또한 일정 규모 이상의 클러스터를 분할하여 적절한 크기의 사건 클러스터를 생성하도록 수정된 싱글패스 알고리즘을 사용하였다. 이 연구에서 제안한 사건탐지 기법의 성능은 단순 싱글패스 클러스터링 기법에 비해 정확률, 재현율, F-척도에서 각각 37.1%, 0.1%, 35.4%의 성능 향상률을 보였고, 오보율과 탐지비용에서는 각각 74.7%, 11.3%의 향상률을 나타냈다.

문서 클러스터링을 이용한 문맥 광고 시스템 (Contextual Advertisement System based on Document Clustering)

  • 이동광;강인호;안동언
    • 정보처리학회논문지B
    • /
    • 제15B권1호
    • /
    • pp.73-80
    • /
    • 2008
  • 본 연구에서는 문서 클러스터링을 이용하여 동음 이의어와 핵심단어 선정 실패로 인해 발생하는 자동 광고 시스템의 오류를 해결하는 광고 키워드 추출방식을 제안한다. 먼저 대규모 뉴스기사를 대상으로 유사한 내용을 가지며 동일한 광고 키워드와 연관이 있는 기사들을 자동으로 분류하여 광고 키워드에 대한 문맥 정보를 구축한다. 또한 광고 대상물에 대한 광고주의 요약 정보나 광고 대상 웹페이지를 분석하여 광고 키워드에 대한 문맥 정보를 추출하는 방식을 보인다. 이렇게 구축된 문서 분류와 광고 키워드용 문맥 정보를 이용하여 광고 대상 문서가 속한 문서 분류를 추정하여 단어들의 의미적인 애매성을 해결하고, 추정한 문서 분류와 관련 있으면서 문맥적으로 중요성을 가지는 핵심 단어들을 선정하여 광고 키워드를 추출한다. 상용 광고 시스템과의 비교 분석 결과 신문 기사나 일반 블로그를 대상으로 최소 21%의 성능 향상을 얻었다.

A Heuristic Method of In-situ Drought Using Mass Media Information

  • Lee, Jiwan;Kim, Seong-Joon
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.168-168
    • /
    • 2020
  • This study is to evaluate the drought-related bigdata characteristics published from South Korean by developing crawler. The 5 years (2013 ~ 2017) drought-related posted articles were collected from Korean internet search engine 'NAVER' which contains 13 main and 81 local daily newspapers. During the 5 years period, total 40,219 news articles including 'drought' word were found using crawler. To filter the homonyms liken drought to soccer goal drought in sports, money drought economics, and policy drought in politics often used in South Korea, the quality control was processed and 47.8 % articles were filtered. After, the 20,999 (52.2 %) drought news articles of this study were classified into four categories of water deficit (WD), water security and support (WSS), economic damage and impact (EDI), and environmental and sanitation impact (ESI) with 27, 15, 13, and 18 drought-related keywords in each category. The WD, WSS, EDI, and ESI occupied 41.4 %, 34.5 %, 14.8 %, and 9.3 % respectively. The drought articles were mostly posted in June 2015 and June 2017 with 22.7 % (15,097) and 15.9 % (10,619) respectively. The drought news articles were spatiotemporally compared with SPI (Standardized Precipitation Index) and RDI (Reservoir Drought Index) were calculated. They were classified into administration boundaries of 8 main cities and 9 provinces in South Korea because the drought response works based on local government unit. The space-time clustering between news articles (WD, WSS, EDI, and ESI) and indices (SPI and RDI) were tried how much they have correlation each other. The spatiotemporal clusters detection was applied using SaTScan software (Kulldorff, 2015). The retrospective and prospective cluster analyses were conducted for past and present time to understand how much they are intensive in clusters. The news articles of WD, WSS and EDI had strong clusters in provinces, and ESI in cities.

  • PDF

다계층 이원 네트워크를 활용한 사용자 관점의 이슈 클러스터링 (User-Perspective Issue Clustering Using Multi-Layered Two-Mode Network Analysis)

  • 김지은;김남규;조윤호
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.93-107
    • /
    • 2014
  • 대부분의 인터넷 쇼핑몰은 자사 고객의 관심 분야를 파악하고 이를 상품 추천에 효과적으로 활용하기 위해 많은 노력을 기울이고 있다. 하지만 고객이 회원 가입 시 직접 입력한 개인 정보는 신뢰하기가 어렵고, 고객의 구매 패턴을 통해 파악한 관심 분야 정보는 자사 사이트 내에 진입한 이후에만 보인 한정된 패턴이라는 측면에서 해당 고객의 다양한 관심분야를 제대로 나타낸다고 보기 어렵다. 이러한 한계를 극복하기 위해 본 연구에서는 고객의 평소 인터넷 사용 기록을 통해 최근 방문 사이트들의 주제를 분석함으로써, 고객의 실제 관심 분야를 파악할 수 있는 방안을 제시하였다. 또한 토픽 분석을 통해 각 사이트의 주제를 도출하고 도출된 주제를 다시 동시 방문자 관점에서 군집화 함으로써, 고객 관점에서 의미가 있는 상위 수준의 새로운 테마를 발굴하기 위한 방법론을 제안하였다. 연구의 특징은 유사주제 중심의 군집화라는 기존 연구와는 달리 사용자 관점의 관심주제 중심 군집화라 할 수 있다. 향후 사용자 중심의 카테고리 설계를 비롯한 새로운 관점의 고객군 정의 등 보다 높은 차원의 마케팅 전략 수립에 활용이 가능할 것으로 기대된다. 사용자 관점의 이슈 군집화 과정은 크롤링, 토픽 분석, 액세스 패턴 분석, 네트워크 병합, 네트워크 변환 및 군집화와 같은 여섯 가지 주요단계로 구성되어있다. 이를 위해 텍스트 마이닝과 소셜 네트워크 분석 기법을 활용한 비정형 텍스트를 기반으로한 빅데이터의 활용 방법을 모색하였다. 제안 방법론의 실무 적용 가능성을 평가하기 위해, 국내 최대 포털 뉴스 사이트의 방문자 2,177명의 1년간 방문 기록과 뉴스기사 대한 분석을 수행하고 그 결과를 요약하여 제시하였다.

Table based Single Pass Algorithm for Clustering News Articles

  • Jo, Tae-Ho
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제8권3호
    • /
    • pp.231-237
    • /
    • 2008
  • This research proposes a modified version of single pass algorithm specialized for text clustering. Encoding documents into numerical vectors for using the traditional version of single pass algorithm causes the two main problems: huge dimensionality and sparse distribution. Therefore, in order to address the two problems, this research modifies the single pass algorithm into its version where documents are encoded into not numerical vectors but other forms. In the proposed version, documents are mapped into tables and the operation on two tables is defined for using the single pass algorithm. The goal of this research is to improve the performance of single pass algorithm for text clustering by modifying it into the specialized version.

Arabic Stock News Sentiments Using the Bidirectional Encoder Representations from Transformers Model

  • Eman Alasmari;Mohamed Hamdy;Khaled H. Alyoubi;Fahd Saleh Alotaibi
    • International Journal of Computer Science & Network Security
    • /
    • 제24권2호
    • /
    • pp.113-123
    • /
    • 2024
  • Stock market news sentiment analysis (SA) aims to identify the attitudes of the news of the stock on the official platforms toward companies' stocks. It supports making the right decision in investing or analysts' evaluation. However, the research on Arabic SA is limited compared to that on English SA due to the complexity and limited corpora of the Arabic language. This paper develops a model of sentiment classification to predict the polarity of Arabic stock news in microblogs. Also, it aims to extract the reasons which lead to polarity categorization as the main economic causes or aspects based on semantic unity. Therefore, this paper presents an Arabic SA approach based on the logistic regression model and the Bidirectional Encoder Representations from Transformers (BERT) model. The proposed model is used to classify articles as positive, negative, or neutral. It was trained on the basis of data collected from an official Saudi stock market article platform that was later preprocessed and labeled. Moreover, the economic reasons for the articles based on semantic unit, divided into seven economic aspects to highlight the polarity of the articles, were investigated. The supervised BERT model obtained 88% article classification accuracy based on SA, and the unsupervised mean Word2Vec encoder obtained 80% economic-aspect clustering accuracy. Predicting polarity classification on the Arabic stock market news and their economic reasons would provide valuable benefits to the stock SA field.

TRIB: 블로그 댓글 분류 및 시각화 시스템 (TRIB : A Clustering and Visualization System for Responding Comments on Blogs)

  • 이윤정;지정훈;우균;조환규
    • 정보처리학회논문지D
    • /
    • 제16D권5호
    • /
    • pp.817-824
    • /
    • 2009
  • 최근 들어 블로그나 인터넷 게시판 등은 사람들의 정보 공유나 의견 교환의 중요한 매체가 되고 있으며, 많은 수의 블로그들이 사회적 문제들을 반영하고 있다. 온라인 커뮤니티에서 많은 사용자들은 댓글을 통해 인터넷 뉴스나 블로그 게시물에 대한 자신의 의견을 적극적으로 표현하고 있다. 블로그 사용이 활발해짐에 따라 수만개 이상의 댓글들이 등록되는 블로그들도 쉽게 찾을 수 있다. 대부분의 블로그나 인터넷 포털사이트의 경우 게시물이나 댓글들을 순차적인 목록 형태로 제공하므로 자신이 원하는 내용의 댓글을 검색하거나 전체 댓글에 대한 전반적인 파악이 힘들다. 본 논문에서는 게시물에 달린 많은 수의 댓글들을 분류하고, 이를 시각화 하는 시스템인 TRIB (Telescope for Responding comments for Internet Blog)를 제안한다. TRIB는 미리 정의된 사용자 정의 사전을 이용하여 댓글을 내용에 따라 분류하여 시각화한다. 또한, 사용자들의 관심과 흥미를 고려한 개인화 된 뷰를 제공한다. TRIB의 유용성을 보이기 위해서 1,000개 이상의 댓글을 가진 인터넷 게시물들을 대상으로 한 실험을 통해 TRIB 시스템의 댓글 분류와 시각화 성능을 보인다.