• 제목/요약/키워드: twitter data

검색결과 301건 처리시간 0.022초

Monitoring People's Emotions and Symptoms after COVID-19 Vaccine

  • Najwa N. Alshahrani;Sara N. Abduljaleel;Ghidaa A. Alnefaiy;Hanan S. Alshanbari
    • International Journal of Computer Science & Network Security
    • /
    • 제23권6호
    • /
    • pp.202-206
    • /
    • 2023
  • Today, social media has become a vital tool. The world communicates and reaches the news and each other's opinions through social media accounts. Recently, considerable research has been done on analyzing social media due to its rich data content. At the same time, since the beginning of the COVID-19 pandemic, which has afflicted so many around the world, the search for a vaccine has been intense. There have been many studies analyzing people's feelings during a crisis. This study aims to understand people's opinions about available Coronavirus vaccines through a learning model that was developed for this purpose. The dataset was collected using Twitter's streaming Application Programming Interface (API) , then combined with another dataset that had already been collected. The final dataset was cleaned, then analyzed using Python. Polarity and subjectivity functions were used to obtain the results. The results showed that most people had positive opinions toward vaccines in general and toward the Pfizer one. Our study should help governments and decision-makers dispel people's fears and discover new symptoms linked to those listed by the World Health Organization.

Comparison of Sentiment Analysis from Large Twitter Datasets by Naïve Bayes and Natural Language Processing Methods

  • Back, Bong-Hyun;Ha, Il-Kyu
    • Journal of information and communication convergence engineering
    • /
    • 제17권4호
    • /
    • pp.239-245
    • /
    • 2019
  • Recently, effort to obtain various information from the vast amount of social network services (SNS) big data generated in daily life has expanded. SNS big data comprise sentences classified as unstructured data, which complicates data processing. As the amount of processing increases, a rapid processing technique is required to extract valuable information from SNS big data. We herein propose a system that can extract human sentiment information from vast amounts of SNS unstructured big data using the naïve Bayes algorithm and natural language processing (NLP). Furthermore, we analyze the effectiveness of the proposed method through various experiments. Based on sentiment accuracy analysis, experimental results showed that the machine learning method using the naïve Bayes algorithm afforded a 63.5% accuracy, which was lower than that yielded by the NLP method. However, based on data processing speed analysis, the machine learning method by the naïve Bayes algorithm demonstrated a processing performance that was approximately 5.4 times higher than that by the NLP method.

실시간 이슈 탐지를 위한 일반-급상승 단어사전 생성 및 매칭 기법 (A Generation and Matching Method of Normal-Transient Dictionary for Realtime Topic Detection)

  • 최봉준;이한주;용우석;이원석
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권5호
    • /
    • pp.7-18
    • /
    • 2017
  • 트위터는 사용자들에게 정보를 받거나 교환하는 채널로써의 역할이 활발히 이루어지고 있고 새로운 사건이 발생했을 때 빠르게 반응하기 때문에 지진이나 홍수, 자살 등의 새로운 사건을 탐지하는 센서역할로 활용할 수 있다. 그리고 사건을 탐지하기 위해서 우선적으로 관련된 트윗 추출이 필수적이다. 하지만 관련된 트윗을 찾기 위해 관련 키워드를 포함한 트윗을 추출하기 때문에 해당 키워드가 없지만 의미적으로 사건과 관련이 있는 트윗은 찾지 못하는 문제점이 있다. 또한 기존의 연구들은 디스크에 저장된 데이터에 대한 분석이 주를 이루고 있어 원하는 결과를 얻기 위해서는 데이터를 수집하여 저장하고 분석에 이르기까지 오랜 시간이 소모된다. 이러한 문제점을 해결하기 위해 본 연구에서는 실시간 이슈 탐지를 위한 일반-급상승 단어 사전 생성 및 매칭 기법을 제안한다. 데이터 스트림 인메모리 기반으로 일반-급상승 단어 사전을 생성 및 관리하기 때문에 새로운 사건을 빠르게 학습하고 대응할 수 있다. 또한 분석을 원하는 주제의 일반 사전과 급상승 사전을 동시에 관리하기 때문에 기존의 방법으로 찾지 못하는 트윗을 검출해 낼 수 있다. 본 연구를 통해 빠른 정보와 대응이 필요한 분야에 즉시적으로 활용할 수 있다.

소셜 데이터 기반 실시간 식자재 물가 예측 모형 (A Model for Nowcasting Commodity Price based on Social Media Data)

  • 김재우;차미영;이종건
    • 정보과학회 논문지
    • /
    • 제44권12호
    • /
    • pp.1258-1268
    • /
    • 2017
  • 신속하고 정확한 시장의 물가 파악은 소비자 개인을 넘어 정부와 관련 기업의 주요 관심 사항이다. 그러나 국가 단위의 물가 데이터 취합은 적지 않은 시간과 비용이 필요하다. 특히 통계 데이터 관련 인프라가 미약한 개발도상국의 경우 물가 지표 파악은 일 혹은 주 단위로 지연되어 국가의 정책 결정에 필요한 주요한 데이터의 부재가 있을 뿐만 아니라 투자 잠재성을 저하시킨다. 이러한 배경에서 이 연구는 온라인 소셜 네트워크 빅데이터를 활용한 실시간 물가 예측(Nowcast) 모델을 제시한다. 제안하는 모델은 트위터와 같은 온라인 빅데이터를 수집 및 분석함으로써 주요 소비재 시장물가를 실시간으로 단기 예측하는 알고리즘으로, 실제 15개월간 인도네시아를 대상으로 주요 식자재의 일별 물가 추이 예측에서 높은 정확도를 보임을 검증하였다. 해당 모델은 다양한 언어와 상품군으로 확장 가능하며, 기존 경제 통계를 보조함으로써 시장동향의 파악으로 정부와 기업의 전략 수립에 기여할 것으로 기대된다.

트위터에서 형태소 분석과 PageRank 기반 화제단어 추출 방법 제안 (Proposal of keyword extraction method based on morphological analysis and PageRank in Tweeter)

  • 이원형;조성일;김동회
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.157-163
    • /
    • 2018
  • SNS를 이용하는 사람들은 매일 자신의 다양한 생각을 SNS에 게시한다. SNS에 게시된 데이터는 수많은 사람들의 생각과 의견이 담겨있다고 할 수 있다. 특히 트위터에서 서비스되는 인기 화제어는 사용자가 올린 글에서 자주 등장한 단어의 횟수를 집계해 순위를 결정한다. 하지만 이와 같은 방법은 단순히 중복된 단어가 나열된 불필요한 데이터에 민감하다. 제안하는 방법은 단어간의 관계도를 이용한 단어의 화제성을 기반으로 순위를 결정하므로 불필요한 데이터의 영향을 적게 받고 주요단어를 안정적으로 추출할 수 있다. 성능 비교를 위하여 내림차순 화제어 순위와 상위 20개중에서 의미 없는 화제어의 비율 측면에서 형태소 분석과 PageRank 기반의 제안 방식과 단순 등장 횟수 기반의 기존 방식을 비교한다. 제안하는 방안과 기존 방안은 상위 20개중에서 무의미한 화제어를 각각 55%과 70%를 순위권에 포함시켰으며 제안한 방법이 기존 방법과 비교할 때 15% 정도 향상된다.

간호간병통합서비스 관련 온라인 기사 및 소셜미디어 빅데이터의 의미연결망 분석 (Semantic Network Analysis of Online News and Social Media Text Related to Comprehensive Nursing Care Service)

  • 김민지;최모나;염유식
    • 대한간호학회지
    • /
    • 제47권6호
    • /
    • pp.806-816
    • /
    • 2017
  • Purpose: As comprehensive nursing care service has gradually expanded, it has become necessary to explore the various opinions about it. The purpose of this study is to explore the large amount of text data regarding comprehensive nursing care service extracted from online news and social media by applying a semantic network analysis. Methods: The web pages of the Korean Nurses Association (KNA) News, major daily newspapers, and Twitter were crawled by searching the keyword 'comprehensive nursing care service' using Python. A morphological analysis was performed using KoNLPy. Nodes on a 'comprehensive nursing care service' cluster were selected, and frequency, edge weight, and degree centrality were calculated and visualized with Gephi for the semantic network. Results: A total of 536 news pages and 464 tweets were analyzed. In the KNA News and major daily newspapers, 'nursing workforce' and 'nursing service' were highly rated in frequency, edge weight, and degree centrality. On Twitter, the most frequent nodes were 'National Health Insurance Service' and 'comprehensive nursing care service hospital.' The nodes with the highest edge weight were 'national health insurance,' 'wards without caregiver presence,' and 'caregiving costs.' 'National Health Insurance Service' was highest in degree centrality. Conclusion: This study provides an example of how to use atypical big data for a nursing issue through semantic network analysis to explore diverse perspectives surrounding the nursing community through various media sources. Applying semantic network analysis to online big data to gather information regarding various nursing issues would help to explore opinions for formulating and implementing nursing policies.

소셜미디어 토픽모델링을 통한 스마트폰 마케팅 전략 수립 지원 (A Topic Modeling Approach to Marketing Strategies for Smartphone Companies)

  • 차윤정;이지혜;최지은;김희웅
    • 지식경영연구
    • /
    • 제16권4호
    • /
    • pp.69-87
    • /
    • 2015
  • Given the huge number of data produced by its users, SNS is a great source of customer insights. Since viral trends in SNS reflect customers' direct feedback, companies can draw out highly meaningful business insights when such data is effectively analyzed and managed. However, while the importance of understanding SNS big data keeps growing, the methods for analyzing atypical data such as SNS postings for business insights over product has not been well studied. This study aims to demonstrate the way to exploit topic modeling method to support marketing strategy generation and therefore leverage business process. First, we conducted topic modeling analysis for twitter data of Apple and Samsung smartphones. Then we comparatively examined the analysis results to draw meaningful market insights about each smartphone product. Finally, we draw out a strategic marketing recommendation for each smartphone brand based on the findings.

트위터 해시 태그를 이용한 End-to-end 뉴럴 모델 기반 키워드 추출 (End-to-end Neural Model for Keyphrase Extraction using Twitter Hash-tag Data)

  • 이영훈;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.176-178
    • /
    • 2018
  • 트위터는 최대 140자의 단문을 주고받는 소셜 네트워크 서비스이다. 트위터의 해시 태그는 주로 문장의 핵심 단어나 주요 토픽 등을 링크하게 되는데 본 논문에서는 이러한 정보를 이용하여 키워드 추출에 활용한다. 문장을 Character CNN, Bi-LSTM을 통해 문장 표현을 얻어내고 각 Span에서 이러한 문장 표현을 활용하여 Span 표현을 생성한다. Span 표현을 이용하여 각 Span에 대한 Score를 얻고 높은 점수의 Span을 이용하여 키워드를 추출한다.

  • PDF

실시간 SNS 데이터를 위한 Storm 기반 동적 태그 클라우드 (Storm-Based Dynamic Tag Cloud for Real-Time SNS Data)

  • 손시운;김다솔;이수정;길명선;문양세
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권6호
    • /
    • pp.309-314
    • /
    • 2017
  • 일반적으로 SNS (social network service) 데이터는 정형, 비정형 데이터가 섞여 빠르게 생성되는 빅데이터의 특성을 갖기 때문에 실시간 수집/저장/분석에 많은 어려움이 있다. 본 논문에서는 이러한 SNS 데이터의 분석에 활용할 수 있는 Apache Storm 기반 실시간 동적 데이터 시각화 기술을 제안한다. Storm은 대표적인 빅데이터 기술 중 하나로, 실시간으로 수집되는 데이터를 분산 환경에서 처리 및 분석하는 소프트웨어 플랫폼이다. 본 논문은 Storm을 사용하여 빠르게 발생하는 트위터(Twitter) 데이터를 수집 및 집계하고, 태그 클라우드를 통해 그 결과를 동적으로 표현하고자 한다. 이를 위해, 사용자가 요구하는 키워드를 입력받고 해당 키워드를 통한 시각화 결과를 실시간으로 확인할 수 있는 웹 인터페이스를 설계 및 구현한다. 또한, 각각의 태그 클라우드 결과를 비교하여 올바로 시각화되었는지 확인한다. 본 연구를 통해, 사용자는 관심있는 주제가 SNS에서 어떻게 변화하고 있는지 직관적으로 판단할 수 있게 되며, 시각화 결과는 주제별 트렌드 분석, 고객 니즈 파악 등 다른 서비스에도 활용이 가능하다.

Topic Modeling을 이용한 Twitter상에서 스모그 리스크에 관한 대중 인식 분류 연구 (Classification of Public Perceptions toward Smog Risks on Twitter Using Topic Modeling)

  • 김윤기
    • 지적과 국토정보
    • /
    • 제47권1호
    • /
    • pp.53-79
    • /
    • 2017
  • 본 연구의 주된 목적은 토픽 모델링(topic modeling)을 이용하여 트위터 상에서 스모그 리스크(smog risks)에 관한 대중 인식(public perceptions)을 측정하고 분류하는 것이다. 선행연구에 있어서 연구 갭(research gap)을 확인하기 위하여 본 연구는 스모그 리스크와 토픽 모델링에 대한 선행연구를 검토하였다. 그 결과 본 저자는 기존의 연구에서 상당한 연구 갭이 존재하고 있음을 확인하였으며, 이러한 연구 갭을 메우기 위해 다섯 개의 연구 질문을 설정하였다. 연구 질문들에 답을 구하기 위하여 본 연구는 10,000개의 트위터 자료를 추출하였고, 이에 대하여 워드 클라우드 분석(word cloud analysis), 상관분석, LDA를 이용한 토픽 모델링, 스트림그래프(stream graph), 위계적 집락분석(hierarchical cluster analysis)을 실시하였다. 분석 결과 자주 언급되는 단어들(the most frequent terms), 단어네트워크(terms network)의 형태, 상관관계의 유형, 스모그 관련 주제의 변동패턴에 있어서 뉴욕과 런던 사이에 큰 차이가 있음을 확인하였다. 그리하여 본 저자는 다섯 개의 연구 질문 중 네 개에 대하여 긍정적인 답을 구할 수 있었고, 이를 토대로 몇 가지 정책적 시사점을 제시하고, 향후 연구를 위한 제안들을 하였다.