• 제목/요약/키워드: 뉴스 기사 분류

검색결과 80건 처리시간 0.026초

TF-IDF를 활용한 k-means 기반의 효율적인 대용량 기사 처리 및 요약 알고리즘 (Article Analytic and Summarizing Algorithm by facilitating TF-IDF based on k-means)

  • 장민서;오수진;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.271-274
    • /
    • 2018
  • 본 논문에서는 뉴스기사 데이터를 활용하여 대규모 뉴스기사를 소주제로 분류하는 군집 분석 방법을 제안한다. 또한, 분류된 뉴스기사를 사용자가 빠르게 이해하고 접할 수 있도록 핵심 문장을 추출하여 제공하는 방법을 제안한다. 분석 데이터는 포털 사이트 점유율 1위인 네이버의 경제 분야 뉴스기사를 크롤링하여 수집한다. 뉴스기사의 분석을 위해 전 처리를 통해 특수문자, 조사, 어미, 구두점 등의 불 용어 처리를 수행한다. 또한, k-means 알고리즘을 이용하여 대용량의 뉴스기사를 주제 별로 분류하는 것을 진행하며 그것을 토대로 핵심 문장을 추출한다. 추출된 핵심 문장은 분류된 뉴스기사의 주제를 나타내며 사용자에게 빠르게 정보를 전달하기 위해 활용한다. 본 논문의 연구 내용이 여러 언론사 사이트에 반영되면 사이트 품질과 사용자 만족도 향상에 기여할 수 있을 것으로 보인다.

심층 주제, 지역, 장르를 모두 분류할 수 있는 다면적 뉴스 기사 자동 분류 모델 연구 (Research on Multi-facted News Article Classification Models Classifying Subjects, Geographies and Genres)

  • 이효진;최성필
    • 한국문헌정보학회지
    • /
    • 제58권3호
    • /
    • pp.65-89
    • /
    • 2024
  • 본 연구는 한국어 사전학습 모델을 활용하여 뉴스 기사를 주제, 장르, 지역별로 각각 분류하는 모델을 구축하였다. 이를 위해 국내 언론사의 분류체계를 참고하여 새로운 뉴스 기사 분류체계를 설계하였다. 주제 및 장르 분류 모델은 대분류와 중분류 모델을 연결한 계층적 구조의 분류 모델로 구현하여 카테고리 통합 모델의 성능과 비교하였다. 평가 결과, 계층적 구조의 분류 모델은 모호하거나 중복된 카테고리에서 카테고리 통합 모델보다 더 명확한 분류를 수행할 수 있다는 이점이 있었다. 뉴스 기사의 지역적 분류를 위해서는 18개의 카테고리에 대하여 분류를 수행하는 모델을 구축하였으며 지역 관련 뉴스 기사의 경우, 지역적 특성이 본문에 명확히 드러나 높은 성능을 기록할 수 있었다. 본 연구는 주제, 장르, 지역의 다각적인 측면에서 뉴스 기사를 효과적으로 분류할 수 있음을 보여주었으며, 이를 통해 사용자 요구에 부합하는 다차원적 뉴스 기사 분류 서비스의 가능성을 제시한 점에서 의의가 있다.

형태소 임베딩과 SVM을 이용한 뉴스 기사 정치적 편향성의 자동 분류 (Automatic Bias Classification of Political News Articles by using Morpheme Embedding and SVM)

  • 조단비;이현영;박지훈;강승식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.451-454
    • /
    • 2020
  • 딥러닝 기술을 이용한 정치적 성향의 편향성 분류를 위하여 신문 뉴스 기사를 수집하고, 머신러닝을 위한 학습 데이터를 구축하였다. 학습 데이터의 구축은 보수 성향과 진보 성향을 대표하는 6개 언론사의 뉴스에서 정치적 성향을 이진 분류 데이터로 구축하였다. 뉴스 기사의 수집 방법으로 최근 이슈들 중에서 정치적 성향과 밀접하게 관련이 있는 키워드 15개를 선정하고 이에 관한 뉴스 기사들을 수집하였다. 그 결과로 11,584개의 학습 및 실험용 데이터를 구축하였으며, 정치적 편향성 분류를 위한 머신러닝 모델을 설계하였다. 머신러닝 기법으로 학습 및 실험을 위해 형태소 단위의 임베딩을 이용하여 문장 및 문서 임베딩으로 확장하였으며, SVM(Support Vector Machine)을 이용하여 정치적 편향성 분류 실험을 수행한 결과로 75%의 정확도를 달성하였다.

효율적인 데이터 관리를 위한 내용기반 뉴스 비디오 검색 시스템 구현 (Implementation of Content-based News Video Retrieval System for Efficient Video Data Management)

  • 남윤성;양동일;배종식;최형진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.755-758
    • /
    • 2005
  • 뉴스 데이터를 구조적으로 분할하고 의미적으로 분류하여 내용별로 세분화하여 검색하는 방법을 제안한다. 구조적 분할은 공간 밝기 분포와 명암도의 불연속성 그리고 시간적인 관계 등 프레임간의 상관 정보를 이용하여 장면을 분할한다. 의미적 분류는 키 프레임에서 추출된 특징 정보를 사전 지식 정보와 비교하여 뉴스 비디오의 세부 내용을 기사별로 분류한다. 뉴스의 진행이 앵커 프레임을 중심으로 주기적으로 반복된다는 특징을 이용하여 앵커 장면과 비 앵커 장면으로 기사를 분류한다. 비 앵커 장면은 연설장면, 인터뷰장면, 일반 장면으로 세분화하고 기사별로 분류하여 검색하도록 한다. 또한 뉴스 아이콘에 의한 요약 검색 기능 그리고 자막 통합 처리에 의한 자막 검색을 하여 뉴스 비디오를 내용별로 분류하고 인덱싱하여 신속하게 뉴스 비디오를 검색할 수 있도록 설계한다.

  • PDF

트위터에서 이슈가 되고있는 뉴스 기사에 대한 소셜 사용자 네트워크 기반 정치 성향 분류 (Political Bias Classification Based on Social User Networks on Issuable Political News Article in Twitter)

  • 김준길;이경순
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.641-644
    • /
    • 2012
  • 트위터에서 정치 성향을 가지거나 관심이 있는 트위터 사용자는 관심있는 정치 인물이나 단체에 대한 뉴스 기사에 대해 자신의 의견을 남기거나 그대로 인용하게 된다. 또한, 자신의 의견과 공감하거나 비공감하는 트윗에 대해서 리트윗을 하거나 추가적인 자신의 의견을 언급하기도 한다. 본 논문에서는 이슈가 되고있는 정치 뉴스 기사에 대해 관심 있는 트위터 사용자들을 찾아 트위터 사용자들 간의 트윗 문서들 사이에서의 관계 정보를 가지는 사용자 네트워크에서의 트위터 사용자들의 성향을 분류해주는 방법을 제안한다. 제안한 방법의 유효성을 검증하기 위해 트위터에서 이슈가 된 정치 뉴스 기사들과 각 뉴스 이슈를 언급한 트위터 데이터에서 트윗 문서 내용 유사도 기반 분류 방법과의 비교 실험 하였다. 실험 결과에서 사용자간의 관계 정보를 이용한 성향 분류 방법이 유효함을 보였다.

개인 맞춤형 뉴스 추천 시스템의 설계 및 개발 (Design and Development of a Personalized News Recommendation System)

  • 유영서;이지민;이기용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.599-602
    • /
    • 2016
  • 실시간으로 뉴스 기사를 제공하는 온라인 뉴스 시스템이 널리 사용되면서, 사람들은 매 순간 속보와 새로운 뉴스 등 대량의 뉴스 기사에 노출되어 있다. 하지만 방대한 뉴스들로부터 사용자가 원하는 뉴스를 찾는 것은 매우 어려운 일이다. 따라서 개인 관심사에 따라 뉴스를 추천해주는 개인 맞춤형 뉴스 추천 시스템의 필요성이 증가되고 있다. 본 논문에서는 사용자의 관심사를 분석하여, 사용자의 관심사에 따라 관련된 뉴스를 자동으로 추천해주는 뉴스 추천 시스템을 설계 및 개발한다. 제안 시스템은 각 사용자가 북마크한 뉴스 기사와 읽은 뉴스 기사를 클러스터링하여 사용자별 프로파일을 생성한다. 또한 전체 뉴스 기사들을 클러스터링하여 주제 별로 분류한다. 사용자에게 뉴스를 추천하기 위해, 제안 시스템은 해당 사용자 프로파일에 포함된 각 클러스터에 대해 전체 뉴스 기사에 대한 클러스터들 중 가장 가까운 클러스터를 찾아 해당 클러스터 내의 뉴스 기사들을 거리 순으로 추천한다. 실제 구현된 시스템을 통해, 제안한 뉴스 추천 시스템이 각 개인에게 뉴스를 효과적으로 추천함을 보인다.

긍정적 뉴스에 따른 주가변동 분석 (Analysis of stock price fluctuations due to positive news)

  • 신태현;백재순;김성진
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.161-162
    • /
    • 2024
  • 언젠가 한 번쯤 "뉴스에서 발생하는 소식들은 주가변동에 어떤 영향을 줄까?" 하고 궁금해 본 적이 있을 것이다. 본 논문에서는 이러한 궁금증을 해소하기 위해 뉴스기사에 따른 주식시장의 변동을 연구분석한 내용을 소개한다. 이를 위해 뉴스기사를 크롤링하고 자연어 처리 기술을 통해 긍정적 기사와 부정적 기사를 분류하고 해당 날짜의 주가변동 그래프를 분석하여 뉴스에서의 긍정적 요소와 부정적 요소가 주식시장에 얼마나 영향을 주는지 머신러닝 알고리즘을 통해 알아보았다.

  • PDF

기계학습 기반 국내 뉴스 헤드라인의 정확성 검증 연구 (Objectivity in Korean News Reporting : Machine Learning-Based Verification of News Headline Accuracy)

  • 백지수;이승언;한지영;차미영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.281-286
    • /
    • 2021
  • 뉴스 헤드라인에 제3자의 발언을 직접 인용해 전언하는 이른바 '따옴표 저널리즘'이 언론 보도의 객관주의 원칙을 해치는지는 언론학 및 뉴스 구독자에게 중요한 문제이다. 이 연구는 온라인 포털사이트를 통해 실시간 유통되는 한국어 기사의 정확성을 판별하기 위한 기계학습(Machine Learning) 모델을 제안한다. 이 연구에서 제안하는 모델은 Edit Distance와 FastText 기법을 활용해 기사 제목과 본문 내 인용구의 유사성을 측정하고, XGBoost 모델을 활용해 최종 분류한다. 아울러 이 모델을 통해 229만 건의 뉴스 헤드라인에 대해 직접 인용구가 포함된 기사가 취재원의 발언을 주관적인 윤색없이 독자들에게 전하고 있는지를 판별했다. 이뿐만 아니라 딥러닝 기반의 KoELECTRA 모델을 활용해 기사의 제목 내 인용구에 대한 감성 분석을 진행했다. 분석 결과, 윤색이 가미되지 않은 직접 인용형 기사의 비율이 지난 20년 동안 10% 이상 증가했으며, 기사 제목의 인용구에 나타나는 감정은 부정 감성이 긍정 감성의 2.8배 정도로 우세했다. 이러한 시도는 앞으로 계산사회과학 방법론과 빅데이터에 기반한 언론 보도의 평가 및 개선에 도움을 주리라 기대한다.

  • PDF

비지도학습 기반의 행정부서별 신문기사 자동분류 연구 (A Study on Automatic Classification of Newspaper Articles Based on Unsupervised Learning by Departments)

  • 김현종;유승의;이철호;남광우
    • 한국산학기술학회논문지
    • /
    • 제21권9호
    • /
    • pp.345-351
    • /
    • 2020
  • 행정기관은 정책 대응성을 제고하기 위해 빅데이터 분석에 관심을 기울이고 있다. 빅데이터 중 뉴스 기사는 정책 이슈와 정책에 대한 여론을 파악하는데 중요한 자료로 활용될 수 있다. 한편으로 새로운 온라인 매체의 등장으로 뉴스 기사의 생산은 급격히 증가하고 있어 문서 자동분류를 통해 기사를 수집할 필요가 있다. 그러나 기존 뉴스 기사의 범주와 키워드 검색방법으로는 특정 행정기관 및 부서별로 업무에 관련된 기사를 자동적으로 수집하는 것에 한계가 있었다. 또한 기존의 지도학습 기반의 분류 기법은 다량의 학습 데이터가 필요한 단점을 가지고 있다. 이에 본 연구에서는 행정부서의 업무특징을 포함한 분류사전을 활용하여 기사의 분류를 효과적으로 처리하기 위한 방법을 제안한다. 이를 위해 행정 기관의 업무와 신문기사를 Word2Vec와 토픽모델링 기법으로 부서별 특징을 추출하여 분류사전을 생성하고, 행정 부서별로 신문기사를 자동분류 한 결과 71%정도의 정확도를 얻었다. 본 연구는 행정부서별 신문기사를 자동분류하기 위해 부서별 업무 특징 추출 방법과 비지도학습 기반의 자동분류 방법을 제시하였다는 학문적·실무적 기여점이 있다.

연관규칙 마이닝을 활용한 뉴스기사 키워드의 연관성 탐사 (Discovering News Keyword Associations Using Association Rule Mining)

  • 김한준;장재영
    • 한국인터넷방송통신학회논문지
    • /
    • 제11권6호
    • /
    • pp.63-71
    • /
    • 2011
  • 현재 대부분의 웹포털 사이트는 인기도 또는 중요도가 높은 키워드를 제공하는 서비스가 제공되고 있는데, 구체적으로 태그 클라우드 형태와 연관 검색 서비스와 같은 사용자 친화형 서비스를 지원하고 있다. 하지만 일반적으로 뉴스기사는 날짜와 분야별로 기사들이 분류되어 있기에, 사용자는 카테고리별로 나누어진 기사를 읽을 수만 있을 뿐 그 기사와 연관된 다른 기사를 쉽게 찾아보지는 못한 실정이다. 또한 연관 검색어 서비스도 사용자가 검색한 입력내용을 기반으로 연관성 정도를 분석하기에 충분한 객관성을 보장하지 못하고 있다. 본 논문에서는 기존의 태그 클라우드 방식에서 좀 더 나아가 축적된 뉴스 기사로 부터 검색 키워드와 밀접히 연관된 키워드를 추출하여 제공하는 기사 검색 방식을 제안한다. 제안 기법은 기본적으로 연관규칙 마이닝을 이용하여 키워드 연관성을 추출하게 되며, 뉴스기사 특성을 반영하여 문장 내부에 존재하는 키워드에 한정하여 연관성을 추출한다. 연관된 키워드 집합을 이용하여 키워드와 가장 밀접한 기사를 검색할 뿐만 아니라, 연관 키워드간의 관계성을 보여줌으로써 뉴스 기사들 속에 숨겨진 연관정보의 탐색을 가능하게 한다.