• 제목/요약/키워드: news data

검색결과 888건 처리시간 0.023초

토픽 모델링을 활용한 '수돗물 유충' 뉴스 빅데이터 분석 (News Big Data Analysis of 'Tap Water Larvae' Using Topic Modeling Analysis)

  • 이수연;김태종
    • 한국콘텐츠학회논문지
    • /
    • 제20권11호
    • /
    • pp.28-37
    • /
    • 2020
  • 본 연구는 '수돗물 유충' 사태의 뉴스 빅데이터를 분석함으로써, '수돗물 유충'과 관련된 주요 키워드와 토픽을 파악하여, 환경문제에 대한 위기 대응력 제고방안을 제안하기 위해 수행되었다. 2020년 7월 13일부터 8월 31일까지 보도된 1,975건의 '수돗물 유충' 뉴스를 토픽 모델링 기법으로 분석하였다. 그 결과 언론에서 나타난 '수돗물 유충' 사태가 발생기, 확산기, 수습기로 구분되며, 각 5개의 토픽을 선정하여, 환경문제의 발생과 추진 과정을 확인할 수 있었다. 분석 결과를 바탕으로 환경문제에 대한 위기 대응 방안을 다음과 같이 제언하였다. 첫째, '수돗물 유충' 사건을 중심으로 얽혀있는 다양한 맥락을 탐구하고 통합적인 안목을 형성하는 교육으로 환경문제에 대한 대응력을 기를 수 있도록 해야 한다. 둘째, 인터넷 커뮤니티를 활용한 시민참여의 환경정보 공유와 환경감시 역할 부여가 필요하다. 셋째, 신속하고 정확한 환경정보 제공과 소통을 담당하는 환경 커뮤니케이터의 양성 및 배치가 필요하다. 본 연구는 '수돗물 유충' 관련 뉴스 빅데이터를 기반으로 국내에서 처음으로 토픽 모델링 분석기법을 활용하여 분석한 연구로서, 비정형 데이터로 나타나는 환경 관련 이슈를 실증적이고 체계적으로 분석했다는 학술적 의의와 환경교육 및 커뮤니케이션 개선 방안을 제시했다는 정책적 의의를 지닌다.

FINANCIAL MODELS INDUCED FROM AUXILIARY INDICES AND TWITTER DATA

  • Oh, Jae-Pill
    • Korean Journal of Mathematics
    • /
    • 제22권3호
    • /
    • pp.529-552
    • /
    • 2014
  • As we know, some indices and data are strong influence to the price movement of some assets now, but not to another assets and in future. Thus we define some asset models for several time intervals; intraday, weekly, monthly, and yearly asset models. We define these asset models by using Brownian motion with volatility and Poisson process, and several deterministic functions(index function, twitter data function and big-jump simple function etc). In our asset models, these deterministic functions are the positive or negative levels of auxiliary indices, of analyzed data, and for imminent and extreme state(for example, financial shock or the highest popularity in the market). These functions determined by indices, twitter data and shocking news are a kind of one of speciality of our asset models. For reasonableness of our asset models, we introduce several real data, figurers and tables, and simulations. Perhaps from our asset models, for short-term or long-term investment, we can classify and reference many kinds of usual auxiliary indices, information and data.

텍스트 마이닝 기법을 적용한 뉴스 데이터에서의 사건 네트워크 구축 (Construction of Event Networks from Large News Data Using Text Mining Techniques)

  • 이민철;김혜진
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.183-203
    • /
    • 2018
  • 전통적으로 신문 매체는 국내외에서 발생하는 사건들을 살피는 데에 가장 적합한 매체이다. 최근에는 정보통신 기술의 발달로 온라인 뉴스 매체가 다양하게 등장하면서 주변에서 일어나는 사건들에 대한 보도가 크게 증가하였고, 이것은 독자들에게 많은 양의 정보를 보다 빠르고 편리하게 접할 기회를 제공함과 동시에 감당할 수 없는 많은 양의 정보소비라는 문제점도 제공하고 있다. 본 연구에서는 방대한 양의 뉴스기사로부터 데이터를 추출하여 주요 사건을 감지하고, 사건들 간의 관련성을 판단하여 사건 네트워크를 구축함으로써 독자들에게 현시적이고 요약적인 사건정보를 제공하는 기법을 제안하는 것을 목적으로 한다. 이를 위해 2016년 3월에서 2017년 3월까지의 한국 정치 및 사회 기사를 수집하였고, 전처리과정에서 NPMI와 Word2Vec 기법을 활용하여 고유명사 및 합성명사와 이형동의어 추출의 정확성을 높였다. 그리고 LDA 토픽 모델링을 실시하여 날짜별로 주제 분포를 계산하고 주제 분포의 최고점을 찾아 사건을 탐지하는 데 사용하였다. 또한 사건 네트워크를 구축하기 위해 탐지된 사건들 간의 관련성을 측정을 위하여 두 사건이 같은 뉴스 기사에 동시에 등장할수록 서로 더 연관이 있을 것이라는 가정을 바탕으로 코사인 유사도를 확장하여 관련성 점수를 계산하는데 사용하였다. 최종적으로 각 사건은 각의 정점으로, 그리고 사건 간의 관련성 점수는 정점들을 잇는 간선으로 설정하여 사건 네트워크를 구축하였다. 본 연구에서 제시한 사건 네트워크는 1년간 한국에서 발생했던 정치 및 사회 분야의 주요 사건들이 시간 순으로 정렬되었고, 이와 동시에 특정 사건이 어떤 사건과 관련이 있는지 파악하는데 도움을 주었다. 또한 일련의 사건들의 시발점이 되는 사건이 무엇이었는가도 확인이 가능하였다. 본 연구는 텍스트 전처리 과정에서 다양한 텍스트 마이닝 기법과 새로이 주목받고 있는 Word2vec 기법을 적용하여 봄으로써 기존의 한글 텍스트 분석에서 어려움을 겪고 있었던 고유명사 및 합성명사 추출과 이형동의어의 정확도를 높였다는 것에서 학문적 의의를 찾을 수 있다. 그리고, LDA 토픽 모델링을 활용하기에 방대한 양의 데이터를 쉽게 분석 가능하다는 것과 기존의 사건 탐지에서는 파악하기 어려웠던 사건 간 관련성을 주제 동시출현을 통해 파악할 수 있다는 점에서 기존의 사건 탐지 방법과 차별화된다.

NoD서비스용 멀티미디어 데이터의 효율적인 저장 및 검색을 위한 하부저장 관리자의 설계 및 구현 (Design and Implementation of a Low-level Storage Manager for Efficient Storage and Retrieval of Multimedia Data in NOD Services)

  • 진기성;정재욱;장재우
    • 한국정보처리학회논문지
    • /
    • 제7권4호
    • /
    • pp.1033-1043
    • /
    • 2000
  • 최근 NoD(News-on-Demand)에 대한 사용자의 요구가 증가함에 따라, 이러한 요구를 충족시키기 위한 많은 연구가 진행중에 있다. 그러니 뉴스 비디오 데디터는 짧은 생명주기, 앵커를 중시미으로 한 주기적 변화로인해 기존의 비디오 저장방식을 그대로 용하기가 어렵다. 이릉 위해, 본 논문에서는 NoD서비스용 멀티미디어 데이터의 효율적인 저장 및 검색을 위한 하부저장 관리자를 설계 및 구현하다. 하부 저장 관리자는 멀티미디어 객체 지체의 비디오 스트림 데이터와 색인 정보를 효율적으로 저장하고 관리하며, 텍스트 기반 검색을 위해 역화일 기법과 고차훤 특징 벡터의 색인을 위해 X-트리 구조를 제공한다. 아울러 하부 저장 관리자는 계층적인 뉴스 비디오 객체로부터 추출된 부가적인 정보들은 효율적으로 저장할 수 있는 저장 API(Application Program Interpace)와 커서를 통한 사용자의 편리한 검색을 지원하는 검색API를 제공한다. 마지막으로 하부 저장 관리자는 SHORE(Scalable Heterogeneous Object REpository) 저장 시스템을 이용하여 UNLX 운영체제 하엣 표준 C++언어를 사용하여 구현하였다. 구현하였다.

  • PDF

군 성폭력 대응 실태연구: 관련 기사 빅 데이터 분석 중심 (A Study on the Response of Military Sexual Violence: Based on Big Data Analysis of Related Articles)

  • 김영란;이민선;송현
    • 산업진흥연구
    • /
    • 제8권4호
    • /
    • pp.131-137
    • /
    • 2023
  • 본 연구는 군의 성범죄로 발생하는 문제점을 파악하고자 2019년 2월부터 2022년 5월28일까지 뉴스에서 다룬 군 성범죄 관련 기사를 수집하고 분석하였다. 언론에 보도된 군 성폭력 현황을 파악하고자 뉴스 빅 데이터 전문분석 시스템인 빅카인즈 (BIGKinds)를 활용하여 기사를 수집하였고, Textom 프로그램을 활용해 키워드를 대상으로 시기별 빈도 분석, 워드 클라우드, 의미 연결망 분석 기법을 활용하여 연구를 수행하였다. 데이터 분석 결과, 첫째, 군 내부의 성범죄에 대한 사건 관련 보도는 피해자에게 대중의 관심이 집중된 것을 확인할 수 있었다. 둘째, 성범죄에 대응하는 관련 당국의 미온적 시스템의 문제가 드러났다. 셋째, 성범죄 피해자에 대한 지원 부족이 나타났다.

토픽모델링과 시계열 회귀분석을 활용한 헬스케어 분야의 뉴스 빅데이터 분석 연구 (Big Data News Analysis in Healthcare Using Topic Modeling and Time Series Regression Analysis)

  • 김은정;장석권;이상용
    • 경영정보학연구
    • /
    • 제25권3호
    • /
    • pp.163-177
    • /
    • 2023
  • 본 연구는 디지털 헬스케어 산업 활성화를 위한 정책적 접근으로서, 주요 의제 도출 및 정책적 시사점을 제시하는데 목적이 있다. 본 연구에서는 10년(2013년~2022년) 간의 헬스케어와 관련된 뉴스 빅데이터 총 91,873건을 수집하여 토픽모델링 분석, 다차원척도 분석 및 시계열 회귀분석을 수행하였다. 토픽모델링 분석 및 다차원척도법을 통해 총 20개의 토픽을 도출하여 2차원선상에 토픽들의 군집 형태를 파악하였고, 시계열 회귀분석을 통해, 상승 추세를 나타내는 4개의 Hot topic(건강관리, 바이오제약, 기업매출·전망, 정부·정책)과 하향 추세를 나타내는 3개의 Cold topic(스마트기기, 주식·투자, 도시·건설)을 도출되었다. 본 연구의 결과는 우리나라 정책을 수립하는 정부 기관에 중요한 기초 자료로 활용될 수 있을 것이다.

빅데이터 분석을 통해 본 AI교육에 대한 사회적 인식: 뉴스기사와 트위터를 중심으로 (An analysis of public perception on Artificial Intelligence(AI) education using Big Data: Based on News articles and Twitter)

  • 이상숙;유인혁;김진희
    • 디지털융복합연구
    • /
    • 제18권6호
    • /
    • pp.9-16
    • /
    • 2020
  • 본 연구는 현 정부가 적극적으로 추진·지원하는 AI교육에 관한 대중의 요구를 파악하는 데 그 목적이 있다. 이를 위해 2018년 1월 1일부터 2019년 12월 31까지 AI교육에 대한 11개의 중앙지 뉴스기사와 트위터 게시글을 수집하여 단어 빈도분석과 토픽모델링분석을 실시하였다. 단어빈도 분석은 TF(Term Frequency)기법을, 토픽모델링분석은 잠재 디리클레 할당(Latent Dirichlet Allocation)기법을 사용하였다. 분석결과, 뉴스기사는 AI분야의 여성인재 육성, 대학교육과정의 변화, K-12의 소프트웨어 교육 및 교육과정 변화 등 거시적인 정책 지원에 대한 토픽이, 트위터에서는 지능형로봇과의 공존시대와 같은 보다 구체적인 미래시대에 대한 사회적 인식과 코딩교육, 인간의 고유역량개발 등과 같은 미래역량과 교육방법론 등에 대한 토픽이 도출되었다. 이러한 연구결과는 AI교육과정 구성 및 운영 방안과 미래 산업 인재 양성 정책 개발을 위한 시사점을 제공해 줄 수 있을 것으로 기대한다.

선거정보의 페이크뉴스에 대한 유권자 인식 분석 연구 -제19대 대통령선거 정보를 중심으로- (An Analysis on Voters' Awareness on Fake News related to Elections - Focused on the 19th Presidential ElectionData -)

  • 이종문
    • 한국도서관정보학회지
    • /
    • 제48권3호
    • /
    • pp.113-130
    • /
    • 2017
  • 본 연구는 제19대 대통령선거를 중심으로 선거정보의 페이크뉴스에 대한 유권자 인식을 분석하여 문제를 파악, 개선방안을 제언하고자 하였다. 전체 응답자 128명(남자53명, 여자75명)을 대상으로 분석결과, 첫째 응답자의 99.2(127명)가 선거 정보를 접해본 경험이 있었으며, 주로 방송(77.2%)과 스마트폰(70.9%), 인터넷(63.8%), 신문 32.3%(41명) 등의 순으로 접하는 것으로 나타났다. 둘째 응답자의 87.4%가 선거정보가 투표에 영향을 미치는 것으로 인식하고 있으며, 이들 모두가 보통 이상의 영향을 미치는 것으로 응답하였다. 셋째 19대 대통령선거에서 후보자들이 주장했던 선거정보를 표집하여 제시한 후 팩트 인식을 분석한 결과, 연령별로 유의한 차이가 있었으며, Scheffe 사후검증결과 30-40대가 20대에 비해 팩트 인식 평균이 유의하게 높은 것으로 나타났다. 이상의 분석을 토대로 선거정보의 사전 등록제도 및 검증제도를 법제화, 시스템화 할 것, 중앙선거관리위원회가 각 선거조직별로 선거정보 조사분석위원회를 설치하여, 상시적으로 선거정보를 조사 분석하여 팩트성을 유권자인 국민에게 알릴 것 등을 제언하였다.

인공지능발달 토픽 프레임 연구 -계열화(seriation)와 통합화(skeumorph)의 사회구성주의 중심으로- (A Study on AI Evolution Trend based on Topic Frame Modeling)

  • 권상희;차현주
    • 한국콘텐츠학회논문지
    • /
    • 제20권7호
    • /
    • pp.66-85
    • /
    • 2020
  • 본 연구의 목적은 AI 기술 특허(전체)와 주요 신문에 나타난 AI 보도 프레임을 바탕으로 AI 발달과정 추세를 예측하고 이를 기술·설명하는 것이다. 이를 위해 지난 9년간 출원된 한국과 미국 기술특허 요약문과 국내 주요 신문의 AI(Artificial Intelligence) 뉴스 텍스트를 분석하였다. 본 연구는 빅데이터를 활용한 토픽모델링과 시계열회귀분석이 사용되었으며, 추가로 네트워크 의제 상관분석과 회귀분석 기법이 사용되었다. 본 연구결과는 다음과 같다. 첫째, Topic 모델링 분석결과, AI 기술특허 요약문에서는 인공지능, 알고리즘 5G(Hot AI 기술) 등의 순으로 확인되었으며, AI 뉴스보도에서는 산업 적용, 데이터 활용과 시장 적용 등의 순으로 확인되어 AI의 사회문화 보도 경향을 나타냈다. 둘째, 시계열회귀분석결과, 상승추세 토픽으로는 사회문화적으로 AI 일상적·문화적 이용과 산업적용 시작이 도출되었다. 하락추세토픽으로는 시스템, 하드웨어 기술 중심으로 나타났다. 셋째, 상관관계와 회귀관계를 활용한 QAP 분석 결과, AI 기술특허와 뉴스 보도 프레임 간의 상관관계는 높은 것으로 나타났다. 이를 통해 AI 발달에서 AI 기술특허와 뉴스 보도 프레임이 미디어 담론의 결정요인에 의해 사회적으로 구성되는 것을 알 수 있었다.

Analysis of Major Changes in Press Articles Related to 'High School Credit System'

  • Kwon, Choong-Hoon
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권7호
    • /
    • pp.183-191
    • /
    • 2020
  • 본 연구의 목적은 최근 교육정책 중 관심거리가 되고 있는 '고교학점제' 관련 언론사 기사들의 최근 변화(2017년~2019년: 3년간) 모습을 객관적으로 분석하여 제시하는 것이다. 주요 연구방법론은 BIGKinds 서비스의 특정 검색어 뉴스 검색, 뉴스 트렌드 분석, 키워드 추출 및 워드클라우드 구현, 네트워크 분석 및 네트워크 그림 제시 등 이었다. 연구결과는 첫째, 2017년~2019년 3년간 국내 주요 언론사에 등장한 고교학점제 관련 기사건수는 총 3,649건이며, 정부(교육부)의 관련 정책발표를 계기로 4번 정도 특정 시점에서 기사건수가 급격하게 증가하는 뉴스 트렌드를 보였다. 둘째, 분석대상 3년간의 고교학점제 관련 언론사 기사들에서 추출한 상위출현빈도 20위 키워드들을 제시하였으며, 연도별 키워드의 변화가 나타난 것을 확인하였다. 셋째, 고교학점제 관련 언론사 기사들의 연도별 네트워크는 인물, 기관, 키워드 별로 다른 모습으로 시각화하여 제시하였다. 이와 같은 연구결과는 고교학점제 교육정책이 문재인 정부의 대표적인 교육정책으로 채택되어, 정책 결정 단계를 거쳐 정책 집행 단계로 진행되고 있음을 확인해 주었다.