• 제목/요약/키워드: 뉴스기사

검색결과 502건 처리시간 0.03초

인터넷 게시물의 댓글 분석 및 시각화 (Analysis and Visualization for Comment Messages of Internet Posts)

  • 이윤정;지정훈;우균;조환규
    • 한국콘텐츠학회논문지
    • /
    • 제9권7호
    • /
    • pp.45-56
    • /
    • 2009
  • 오늘날 인터넷 사용자들은 블로그나 뉴스, 인터넷 게시판 등의 매체에서 댓글을 통해 다른 사람의 의견을 살피고 자신의 의견을 나타내고 있다. 그러나 현재 대부분의 블로그나 인터넷 포털 사이트의 경우 기사나 댓글들을 순차적인 목록 형태로 제공하므로 사용자가 원하는 내용의 댓글을 검색하거나 살펴보는 것은 힘든 일이다. 또한 댓글 사용자가 증가함에 따라 스팸 댓글이나 악플 등이 사회 문제가 되기도 한다. 본 논문에서는 다음 아고라(Daum AGORA) 웹 블로그의 게시글과 댓글을 통계적으로 분석하고 유사도를 기반으로 클러스터링하는 시스템을 제안한다. 본 시스템은 클러스터링 결과를 시각화하여 간단한 스크린 뷰(screen view)로 보여준다. 또한, 본 시스템은 생물정보학에서 잘 알려진 정렬 기법인 Needleman-Wunsch 알고리즘을 이용해 스팸 댓글을 필터링한다.

이동 평균 기반 동적 시간 와핑 기법을 이용한 시계열 키워드 데이터의 분류 성능 개선 방안 (Enhancing Classification Performance of Temporal Keyword Data by Using Moving Average-based Dynamic Time Warping Method)

  • 정도헌
    • 정보관리학회지
    • /
    • 제36권4호
    • /
    • pp.83-105
    • /
    • 2019
  • 본 연구는 시계열 특성을 갖는 데이터의 패턴 유사도 비교를 통해 유사 추세를 보이는 키워드를 자동 분류하기 위한 효과적인 방법을 제안하는 것을 목표로 한다. 이를 위해 대량의 웹 뉴스 기사를 수집하고 키워드를 추출한 후 120개 구간을 갖는 시계열 데이터를 생성하였다. 제안한 모델의 성능 평가를 위한 테스트 셋을 구축하기 위해, 440개의 주요 키워드를 8종의 추세 유형에 따라 수작업으로 범주를 부여하였다. 본 연구에서는 시계열 분석에 널리 활용되는 동적 시간 와핑(DTW) 기법을 기반으로, 추세의 경향성을 잘 보여주는 이동평균(MA) 기법을 DTW에 추가 적용한 응용 모델인 MA-DTW를 제안하였다, 자동 분류 성능 평가를 위해 k-최근접 이웃(kNN) 알고리즘을 적용한 결과, ED와 DTW가 각각 마이크로 평균 F1 기준 48.2%와 66.6%의 최고 점수를 보인 데 비해, 제안 모델은 최고 74.3%의 식별 성능을 보여주었다. 종합 성능 평가를 통해 측정된 모든 지표에서, 제안 모델이 기존의 ED와 DTW에 비해 우수한 성능을 보임을 확인하였다.

효율적인 문헌 분류를 위한 시계열 기반 데이터 집합 선정 기법 (Time-Series based Dataset Selection Method for Effective Text Classification)

  • 채영훈;정도헌
    • 한국콘텐츠학회논문지
    • /
    • 제17권1호
    • /
    • pp.39-49
    • /
    • 2017
  • 인터넷 기술이 발전함에 따라 온라인상의 데이터는 급격하게 증가하고 있고, 증가하는 데이터에 대해 점진적인 기계학습 기법을 통해 효율적으로 학습하기 위한 연구가 진행되고 있다. 온라인상의 문서는 대부분 게시일, 출판일과 같은 시계열적 정보를 포함하고 있고, 이를 분류에 반영한다면 효율적인 분류가 가능할 것이다. 본 연구에서는 웹 문서상에서 나타나는 어휘의 시계열적 변화를 분석하였고, 분석한 시계열 정보를 기반으로 데이터 집합을 분할하여 효율적인 분류 학습 기법을 제안한다. 실험 및 검증을 위해 온라인상의 뉴스 기사 100만 건을 시계열 정보를 포함하여 수집하였다. 수집된 데이터를 바탕으로 데이터 집합을 분할하여 $Na{\ddot{i}}ve$ Bayes 및 SVM 분류기를 사용하여 실험을 진행하였고, 각 모델에서 전체 데이터 집합 학습 대비 최대 2.02% 포인트, 2.32% 포인트의 성능 향상을 확인하였다. 본 연구를 통해 시계열적 어휘의 변화를 분류에 반영하여 분류의 성능을 향상시킬 수 있음을 확인하였다.

문서의 주제어별 가중치 부여와 단어 군집을 이용한 한국어 문서 자동 분류 시스템 (An Automatic Classification System of Korean Documents Using Weight for Keywords of Document and Word Cluster)

  • 허준희;최준혁;이정현;김중배;임기욱
    • 정보처리학회논문지B
    • /
    • 제8B권5호
    • /
    • pp.447-454
    • /
    • 2001
  • 새로운 문서를 기존에 존재하는 클래스들에 할당하는 방법을 문서의 자동 분류라고 한다. 문서의 자동 분류는 뉴스 그룹의 기사분류, 웹 문서의 범주화, 전자 메일의 순서화, 사용자의 관심을 학습하여 보다 정확한 정보 검색을 제시하는데 사용될수 있다. 본 논문에서는 한국어 문서분류의 정확도를 높이기 위하여 문서내의 모든 단어들에 대한 확률값을 사용하여, 문서를 분류하는 기존의 방법과 달리 문서의 주제어를 선정하여 주제어로 선정된 단어들에 가중치를 부여하고 그렇지 않은 단어들에 대해서는 제거하너가 낮은 가중치를 부여하는 베이지안 분류자를 사용한다. 문서에는 특징으로 추출된 단어가 적어 문서를 분류하기 위한 만족할 만한 정보를 제공하지 못할 경우에 부족한 문서의 특징을 보충하기 위하여 말뭉치로부터 자동 단어 군집화를 통해 형성된 연관 단어 군집을 사용한다. 이러한 방법을 한국어 문서에 적용한 결과 기존의 베이지안 확률을 사용한 분류법보다 향상된 분류 정확도를 얻을 수 있었다.

  • PDF

소셜 미디어에 기반한 이벤트 정보의 시공간적 시각화를 통한 추이 분석 (Trend Analysis using Spatial-Temporal Visualization of Event Information based on Social Media)

  • 오효정;윤보현;유철중;김용
    • 인터넷정보학회논문지
    • /
    • 제15권6호
    • /
    • pp.65-75
    • /
    • 2014
  • 본 논문의 주안점은 다양한 매스 미디어에 나타난 이벤트(event) 정보를 자동으로 인식하고, 이를 시간 및 장소 축으로 시각화함으로써 특정 이벤트의 시간의 흐름에 따른 장소 이동의 추이를 분석하는 데에 있다. 특히 사용자가 직접 작성한 소셜 미디어에 기반하여 이벤트를 추출하고 그들 간의 연속성 분석을 통해 해당 이벤트의 변화 방향성과 사회적 영향을 가늠할 수 있다. 연속성 이벤트의 특성을 규명하기 위해 2년간의 뉴스 기사 및 트윗(tweet)을 수집하여 관련 도메인 선정을 위한 전수조사를 수행하였다. 수행 결과, '질병'과 '여가'도메인을 선정, 본 논문에서 제안한 시각화 방법을 적용한 사례 연구를 통해 시간 및 장소 관점에서의 시각화를 통한 추이 분석의 효용성과 제안된 방법의 유용성을 검증하였다. 특히 단순 사실기반의 연속성 시각과 결과와 사용자의 관심도가 반영된 소셜 미디어에 기반한 연속성 시각화 결과를 비교한 결과, 같은 시기의 이벤트들이라 하더라도 사회적으로 미치는 파장이 큰 장소 이동의 흐름을 파악할 수 있음을 보였다.

한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램 (Named Entity Recognition and Dictionary Construction for Korean Title: Books, Movies, Music and TV Programs)

  • 박용민;이재성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권7호
    • /
    • pp.285-292
    • /
    • 2014
  • 개체명 인식은 정보검색 시스템, 질의응답 시스템, 기계번역 시스템 등의 성능을 향상시키기 위하여 사용된다. 개체명 인식은 일반적으로 PLOs(인명, 지명, 기관명)을 대상으로 하며, 주로 미등록어와 고유명사로 이루어져 있기 때문에 고유명사나 미등록어는 중요한 개체명 후보로 쓰일 수 있다. 하지만 도서명, 영화명, 음악명, TV프로그램명과 같은 제목 개체명은 PLO와는 달리 단어부터 문장까지 매우 다양한 형태를 지니고 있어서 개체명 인식이 쉽지 않다. 본 논문에서는 뉴스 기사문을 이용하여 제목 개체명을 빠르게 인식하고 자동으로 사전을 구축하는 방법을 제안한다. 먼저 특수기호로 묶인 어절을 추출하고, 주변 문맥 단어 및 단어 거리를 이용하여 SVM으로 제목 후보들을 추출하였다. 이렇게 추출된 제목 후보들은 상호 정보량을 가중치로 SVM을 이용해 제목 유형을 분류하였다.

The Result of Question Investigation about the Awareness of Light Pollution in Korea

  • Cho, Jaesang;Lee, Won-Chul;Lim, Hyung-Jin;Sul, Ah-Chim
    • 천문학회보
    • /
    • 제39권1호
    • /
    • pp.89.1-89.1
    • /
    • 2014
  • 빛공해란, 불필요하거나 필요 이상의 인공빛이 야생 동식물들과 우리 인간들에게 악영향을 미치는 현상을 말하며, 실생활에서 인공빛 에너지를 목적에 맞지 않게 사용하는 것이 이 현상의 주요 원인이라고 할 수 있다. 빛공해 현상은 야생 동식물들에게 악영향을 주어 개체수를 감소시킬뿐만 아니라 멸종에까지 이르게 할 수 있으며, 지구 자전의 영향으로 하루 24시간 주기로 설정되어 있는 우리 인간의 생체리듬을 교란시켜 암, 비만, 당뇨병, 그리고 우울증 등과 같은 인간의 목숨을 위협할 수 있는 질병들을 일으키기도 한다. 하지만 인공빛을 목적에 맞게 올바르게 사용한다면 그로 인해 절약된 에너지와 그 비용을 다른 필요한 분야에 대체하여 사용할 수 있을 것이다. 우리는 과거의 빛공해 관련 논문과 보고서의 설문조사 결과를 통하여 빛공해로 인한 피해와 에너지 낭비 문제가 빛공해에 대한 일반 시민들의 무관심으로부터 발생하고 있다는 사실을 확인할 수 있었다. 따라서 우리는 빛공해에 대한 일반 시민들의 인식 변화를 알아보기 위하여 기존에 진행된 설문조사와 같은 문답내용의 설문조사를 올해 다시 실시하였다. 그 설문조사의 결과를 통하여 우리는 과거보다 빛공해에 대한 인식이 많이 확산되어 있다는 사실을 알 수 있었으며, 그 이유로는 최근 빛공해와 관련된 많은 뉴스 기사들과 함께 웹상의 소셜네트워크와 같은 다양한 경로의 정보매체들을 통하여 빛공해에 대한 정보를 보다 빠르고 쉽게 접할 수 있는 환경이 조성되었기 때문이라고 분석하였다. 빛공해 인식 확산에 더욱 더 기여하기 위하여 최근에 우리는 국제 어두운 밤하늘 협회 한국 지부 (Korean Chapter, International Dark-Sky Association) 인가를 받아 그 단체 이름으로 빛공해 방지 홍보 사업을 온라인과 오프라인을 통하여 보다 더 활발히 진행하기 위하여 많은 노력을 하고 있다.

  • PDF

랜덤 포레스트를 이용한 한국어 상호참조 해결 (Coreference Resolution for Korean Using Random Forests)

  • 정석원;최맹식;김학수
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.535-540
    • /
    • 2016
  • 상호참조 해결은 문서 내에 존재하는 멘션들을 식별하고, 참조하는 멘션끼리 군집화하는 것으로 정보 추출, 사건 추적, 질의응답과 같은 자연어처리 응용에 필수적인 과정이다. 최근에는 기계학습에 기반한 다양한 상호참조 해결 모델들이 제안되었으며, 잘 알려진 것처럼 이런 기계학습 기반 모델들은 상호참조 멘션 태그들이 수동으로 부착된 대량의 학습 데이터를 필요로 한다. 그러나 한국어에서는 기계학습 모델들을 학습할 가용한 공개 데이터가 존재하지 않는다. 그러므로 본 논문에서는 다른 기계학습 모델보다 적은 학습 데이터를 필요로 하는 효율적인 상호참조 해결 모델을 제안한다. 제안 모델은 시브-가이드 자질 기반의 랜덤 포레스트를 사용하여 상호참조하는 멘션들을 구분한다. 야구 뉴스 기사를 이용한 실험에서 제안 모델은 다른 기계학습 모델보다 높은 0.6678의 CoNLL F1-점수를 보였다.

의미 기반 유전 알고리즘을 사용한 특징 선택 (Semantic-based Genetic Algorithm for Feature Selection)

  • 김정호;인주호;채수환
    • 인터넷정보학회논문지
    • /
    • 제13권4호
    • /
    • pp.1-10
    • /
    • 2012
  • 본 논문은 문서 분류의 전처리 단계인 특징 선택을 위해 의미를 고려한 최적의 특징 선택 방법을 제안한다. 특징 선택은 불필요한 특징을 제거하고 분류에 필요한 특징을 추출하는 작업으로 분류 작업에서 매우 중요한 역할을 한다. 특징 선택 기법으로 특징의 의미를 파악하여 특징을 선택하는 LSA(Latent Semantic Analysis) 기법을 사용하지만 기본 LSA는 분류 작업에 특성화 된 기법이 아니므로 지도적 학습을 통해 분류에 적합하도록 개선된 지도적 LSA를 사용한다. 지도적 LSA를 통해 선택된 특징들로부터 최적화 기법인 유전 알고리즘을 사용하여 더 최적의 특징들을 추출한다. 마지막으로, 추출한 특징들로 분류할 문서를 표현하고 SVM (Support Vector Machine)을 이용한 특정 분류기를 사용하여 분류를 수행하였다. 지도적 LSA를 통해 의미를 고려하고 유전 알고리즘을 통해 최적의 특징 집합을 찾음으로써 높은 분류 성능과 효율성을 보일 것이라 가정하였다. 인터넷 뉴스 기사를 대상으로 분류 실험을 수행한 결과 적은 수의 특징들로 높은 분류 성능을 확인할 수 있었다.

토픽 모델링과 네트워크 분석을 활용한 사물주소 도입에 대한 언론보도 분석 (An Analysis of the Media's Report on the Adoption of the Address of Things using Topic Modeling and Network Analysis)

  • 모성훈;임철현;김현재;이정우
    • 스마트미디어저널
    • /
    • 제10권2호
    • /
    • pp.38-47
    • /
    • 2021
  • 본 연구는 주소를 둘러싼 국내외 환경변화 속에서 관계 법령 개정 및 시범사업 등에 의해 본격적으로 도입이 이루어지고 있는 사물주소에 대한 언론보도를 분석하였다. 네이버 뉴스 플랫폼에서 2018년 4월부터 2020년 9월까지 기간동안 '사물주소'라고 검색하여 수집된 언론보도기사의 제목과 원문을 수집하여 토픽 모델링 및 네트워크 분석을 실시하였다. 분석 결과, 보도주제는 4가지 유형으로 '사물주소체계 추진', '사물주소 부여대상 실증', '도로명주소 사용 개선', '주소 활성화를 위한 교육·홍보'로 나타났으며, 해당 기간동안 '사물주소 부여 실증' 주제가 주요 의제였음을 확인하였다. 분석 결과를 행정안전부의 「제3차 주소정책 기본계획(2018-2022)」과 비교하여 정책적 시사점을 제시하였다.