• 제목/요약/키워드: tweet analysis

검색결과 75건 처리시간 0.021초

트위터에서 트윗 주기와 사용자 속도 사이 관계 (Relationship Between Tweet Frequency and User Velocity on Twitter)

  • 전소영;이알찬;서고은;신원용
    • 한국정보통신학회논문지
    • /
    • 제19권6호
    • /
    • pp.1380-1386
    • /
    • 2015
  • 최근 위치 정보를 제공하는 온라인 소셜 네트워크 서비스들의 급증으로 인해 사용자들의 지리적 위치 데이터의 중요성이 강조되고 있다. 본 논문에서는 사용자들의 고 정밀 위치 정보를 알려주는 공간 태그된 트윗 (geo-tagged tweet) 정보를 활용하여 트위터 사용자들의 정확한 위치와 트윗 전송시각을 알아낸 후, 이를 통해 사용자의 평균 이동속도와 트윗 주기 (tweet frequency) 사이의 관계를 분석한다. 구체적으로, 트윗 빈도수 계산 알고리즘을 소개하며, 결과에 대한 분석은 국가별, 도시별로 나누어 진행한다. 주요 결과로써, 사용자 속도에 따른 트윗 주기가 멱 법칙 분포 (power-law distribution) (또는 Zipf의 법칙 분포, Pareto 분포)를 따름을 보인다. 또한, 미국과 일본에서의 결과를 비교할 때, 일본에서의 분포도 지수가 미국의 경우에 비해 작음을 확인한다.

실시간 SNS 트렌드 분석에 기반한 이슈 요약 기법 (Issue summarization scheme based on real-time SNS trend analysis)

  • 김대용;김대훈;황인준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1096-1097
    • /
    • 2013
  • 최근 Twitter를 비롯한 소셜 네트워크 서비스의 급속한 확산으로 인해, 많은 수의 SNS 메시지가 실시간으로 생성되고 있다. 이러한 SNS 상의 모든 글을 읽어보는 것은 현실적으로 불가능하며, 여러 포탈 사이트에서 제공되는 실시간 검색어 순위만으로는 상세 내용을 직관적으로 파악하기 어렵다. 따라서, 이러한 SNS상의 글을 실시간으로 분석하여 최신의 트렌드를 찾고 이와 연관된 내용을 분류 및 요약할 수 있다면, 사용자에게 유용한 최신 정보를 생성하여 제공할 수 있다. 본 논문에서는 Tweet 들을 분석하여 얻은 트렌드 키워드를 기반으로 관련된 Tweet 들을 주제 별로 분류한 후, 각 주제 별로 세부 내용을 요약해서 제공하는 기법을 제안한다. 제안하는 기법은 실시간으로 생성되는 Tweet 내에서 최근 화제가 된 트렌드 및 연관 키워드를 추출해낸다. 그 후, 해당 키워드가 출현한 Tweet 내에서 핵심 키워드를 찾고, 이를 기반으로 Tweet 들을 각각의 주제별로 분류하고 각 주제를 '이슈'로 정의한다. 마지막으로, 특정한 이슈에 해당되는 Tweet들을 분석하여 각 이슈 별로 키워드 리스트 및 단문 형식으로 요약된 줄거리를 생성한다. 제안된 기법을 바탕으로 프로토타입 시스템을 구현하고, 다양한 실험을 통하여 이슈 검출 기법의 유용성 면에서 성능을 평가한다.

효율적인 트윗 분석 시스템 설계 및 구현 방법 (An Efficient Method for Design and Implementation of Tweet Analysis System)

  • 최민석
    • 디지털융복합연구
    • /
    • 제13권2호
    • /
    • pp.43-50
    • /
    • 2015
  • 다양한 소셜 네트워크 서비스의 등장과 사용자의 급증으로 소셜 네트워크 상에서 생산되는 데이터가 급증하고 있다. 전파 속도가 빠르고 개인적 성향의 의견들을 많이 포함하고 있는 소셜 네트워크 데이터의 특성으로 이를 분석하여 다양한 방면으로 활용하려는 요구도 증가하고 있다. 이러한 요구에 부응하여 실시간으로 대용량 데이터를 분석 처리하기 위한 다양한 기술 및 서비스들이 등장하고 있지만, 단기간에 적은 비용으로 그것들을 적용하기에는 어려움이 따른다. 본 논문에서는 새로운 기술이나 서비스의 도입 없이 효과적으로 트윗을 분석하기 위한 시스템 설계 및 구현 방법을 제안한다. 리눅스 기반의 호스팅 서버에 MySQL 데이터베이스와 PHP 스크립트를 이용하여 트윗 데이터를 수집하고 분석하는 모니터링 시스템을 구축하여 제안된 방법을 검증하였다.

Term Frequency-Inverse Document Frequency (TF-IDF) Technique Using Principal Component Analysis (PCA) with Naive Bayes Classification

  • J.Uma;K.Prabha
    • International Journal of Computer Science & Network Security
    • /
    • 제24권4호
    • /
    • pp.113-118
    • /
    • 2024
  • Pursuance Sentiment Analysis on Twitter is difficult then performance it's used for great review. The present be for the reason to the tweet is extremely small with mostly contain slang, emoticon, and hash tag with other tweet words. A feature extraction stands every technique concerning structure and aspect point beginning particular tweets. The subdivision in a aspect vector is an integer that has a commitment on ascribing a supposition class to a tweet. The cycle of feature extraction is to eradicate the exact quality to get better the accurateness of the classifications models. In this manuscript we proposed Term Frequency-Inverse Document Frequency (TF-IDF) method is to secure Principal Component Analysis (PCA) with Naïve Bayes Classifiers. As the classifications process, the work proposed can produce different aspects from wildly valued feature commencing a Twitter dataset.

국내 공공도서관의 트위터 이용에 관한 내용분석 (A Content Analysis on the Domestic Public Libraries' Use of Twitter)

  • 심지영
    • 정보관리학회지
    • /
    • 제34권1호
    • /
    • pp.241-262
    • /
    • 2017
  • 본 연구에서는 국내 공공도서관의 트위터 이용을 파악하고 분석하고자 한다. 도서관 정보서비스 환경에서 트위터 이용의 구체적인 패턴을 파악하기 위해, 트위터 이용이 활발한 14개 공공도서관 계정으로부터 3,038개의 트윗 데이터를 수집하여 내용분석을 수행하였다. 귀납적 방식으로 코딩 체계를 수립하였으며, 오픈 코딩 방식을 통해 공공도서관 트윗 데이터를 분석하였다. 또한 도서관별로 활성화된 유형을 파악하기 위해 대응일치분석을 수행하였다. 그 결과, 공공도서관 트위터 이용에 관한 상위 범주 3개와 9개의 하위 범주, 37개의 세부 항목을 파악하였다. 본 연구의 내용분석 결과는 향후 트위터 이용을 계획하는 도서관에게 참고자료로 제시될 수 있으리라 본다.

Predicting the Lifespan and Retweet Times of Tweets Based on Multiple Feature Analysis

  • Bae, Yongjin;Ryu, Pum-Mo;Kim, Hyunki
    • ETRI Journal
    • /
    • 제36권3호
    • /
    • pp.418-428
    • /
    • 2014
  • In social network services, such as Facebook, Google+, Twitter, and certain postings attract more people than others. In this paper, we propose a novel method for predicting the lifespan and retweet times of tweets, the latter being a proxy for measuring the popularity of a tweet. We extract information from retweet graphs, such as posting times; and social, local, and content features, so as to construct prediction knowledge bases. Tweets with a similar topic, retweet pattern, and properties are sequentially extracted from the knowledge base and then used to make a prediction. To evaluate the performance of our model, we collected tweets on Twitter from June 2012 to October 2012. We compared our model with conventional models according to the prediction goal. For the lifespan prediction of a tweet, our model can reduce the time tolerance of a tweet lifespan by about four hours, compared with conventional models. In terms of prediction of the retweet times, our model achieved a significantly outstanding precision of about 50%, which is much higher than two of the conventional models showing a precision of around 30% and 20%, respectively.

국내·외 기관의 재난정보관련 SNS 운용현황 및 개선방안에 관한 연구 (A Study on the Improvement and Analysis of SNS Operation Status on Disaster Information in Domestic and Foreign Public Institution)

  • 두효철;박준형;김혜영;오효정;김용
    • 한국비블리아학회지
    • /
    • 제28권2호
    • /
    • pp.57-78
    • /
    • 2017
  • SNS는 신속성과 확정성이 높아 긴급한 상황 속에서 정보를 빠르게 전달하는 데 유용한 수단이다. 특히 재난이나 사고 발생시 SNS를 통해 피해자의 안부확인수단, 상황파악과 같은 중요한 정보를 근접한 시각에서 정확하게 자세하게 관련 정보를 전달해 줄 수 있어 기존의 미디어가 하지 못한 역할을 보완할 수 있다. 본 연구의 목적은 국내외 재난기관 SNS 운용현황의 비교분석을 통해 국내재난기관에서 SNS를 효과적으로 활용하기 위한 시사점을 도출함으로써 재난관리업무의 효용성을 도모하는데 기여하고자 하는 것이다. 이를 위해 미국의 FEMA, 일본의 FDMA, 중앙방재회의와 한국의 국민안전처의 트윗을 수집하였으며, 이에 대한 피드백 분석, 시계열 분석, 정보유형 분석을 실시하였다. 피드백 분석은 월별 이용자 피드백 수를 정량화함으로써 트윗에 대한 이용자의 만족도를 파악하는데 목적이 있다. 시계열 분석에서는 국가별로 일정 기간에 걸친 트윗 수와 피드백 지수, 그리고 키워드를 분석함으로써 피드백 지수가 높은 정보의 원인과 기관이 이용자에게 제공해야할 정보의 내용을 파악하고자 하였다. 정보유형분석은 이용자의 관심도가 높은 트윗의 정보유형을 분석함으로써 기관이 이용자에게 제공해야할 정보의 유형을 파악하는데 목적이 있다. 이를 통해 한국 국민안전처 트위터의 활용 및 개선방안을 제언하고자 한다.

도시 지역 트윗 데이터의 시간대별 공간분포 특성 - 부산광역시를 사례로 - (A Study on the Spatial Patterns of Tweet Data for Urban Areas by Time - A Case of Busan City -)

  • 구자용
    • 지적과 국토정보
    • /
    • 제46권2호
    • /
    • pp.269-281
    • /
    • 2016
  • 최근 공간 정보 분야에서 소셜 미디어와 같은 공간 빅 데이터의 분석과 처리에 많은 관심이 집중되고 있다. 본 연구에서는 공간 빅 데이터 분석의 한 사례로서 트윗 데이터가 가지고 있는 위치 정보와 시간 정보를 바탕으로 시간대별로 공간분포를 분석하고 그 특성을 파악하였다. 부산시 지역의 트윗 데이터를 수집하고, 시간대별 공간분석을 통하여 그 특성을 파악하여, 그 지역의 토지이용 특성과 비교하였다. 부산시 지역의 트윗 데이터를 시간대에 따라 평일 주간, 평일 야간, 휴일 주간, 휴일 야간으로 구분하고, 각 시간대별로 공간적 분포 특성을 파악하여, 공간적으로 집중된 지역의 토지이용 특성과 비교하였다. 본 연구의 결과 트윗 데이터는 시간대에 따라 공간분포가 다르게 나타나고 있으며, 이는 그 지역의 일상생활 패턴과 토지이용 특성을 어느 정도 반영하고 있었다. 본 연구에서는 공간정보 분야에서 트윗 데이터와 같은 소셜 미디어 자료의 분석을 통한 활용 가능성을 제시하였다. 향후 토지 계획이나 도시 계획 등의 분야에서 다양한 소셜 미디어 자료를 활용할 수 있을 것으로 전망된다.

타임라인데이터를 이용한 트위터 사용자의 거주 지역 유추방법 (Location Inference of Twitter Users using Timeline Data)

  • 강애띠;강영옥
    • Spatial Information Research
    • /
    • 제23권2호
    • /
    • pp.69-81
    • /
    • 2015
  • SNS사용자의 거주 지역을 유추하여 그들이 생성한 데이터에 거주위치를 부여하는 것은 위치희박(location sparsity)과 생태학적 오류문제로 인해 연구결과의 신뢰성이 떨어진다는 평가를 받아온 공간빅데이터 연구에 대안이 될 수 있다. 본 연구에서는 Tweet 사용자의 거주 지역을 유추하는 방법으로 사용자 타임라인데이터 속에서 찾아낸 일상생활활동패턴을 이용하는 방법을 고안하였다. 트윗 사용자의 일상생활활동패턴은 이동궤적과 사용자의 언어(text)에서 확인할 수 있었으며 전자를 활용한 모델을 일상이동패턴모델, 후자를 활용한 모델을 일상 활동장 모델이라 명명하고 각각 모델에 입력될 변수를 선정하였다. 자신의 거주 지역에서 가장 높은 빈도의 트윗 발생 여부와 가장 높은 빈도의 거주행정구역 표현 단어를 사용하는지 아닌지를 종속변수로 한 판별분석을 실시하여 모델을 작성하였으며 설명력은 일상 이동패턴모델, 일상 활동장 모델 각각 67.5%, 57.5%였다. 이 모델을 스트레스 관련 트윗을 작성한 사용자의 타임라인데이터로 구성된 테스트데이터에 입력해본 결과 전체 사용자 48,235명 중 5,301명의 거주 지역을 유추하였고 이를 활용하여 위치 부여된 스트레스 관련 트윗 9,606개를 확보하였다. 본 연구의 유추기법을 통해 기존 SNS데이터 분석연구에서 사용하는 데이터 수집 방법보다 44배 많은 위치 부여 트윗을 확보할 수 있었다. 본 연구방법론은 SNS데이터를 이용한 연구에서 위치 부여된 데이터를 확보하는데 활용 가능할 것으로 판단되며, 각종 지역통계와 상관관계파악을 통해 지역적 현상 분석에도 SNS데이터를 이용할 수 있는 가능성을 높일 것으로 판단된다.

트위터 데이터 수집을 위한 동적 시드 선택 (Dynamic Seed Selection for Twitter Data Collection)

  • 이현철;변창현;김양곤;이상호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제41권4호
    • /
    • pp.217-225
    • /
    • 2014
  • 트위터와 같은 소셜 네트워크 분석은 인간의 행동을 이해하거나, 화제가 되는 주제를 탐지하거나, 영향력 있는 사람을 식별하거나, 커뮤니티나 그룹을 발견하는데 흥미로운 시각을 제공할 수 있다. 하지만 소셜 네트워크가 가지는 특성(즉 데이터가 방대하고, 정교하지 않으며 또한 동적인 특성)으로 인하여 소셜 네트워크에서 주제와 연관이 있는 데이터를 수집하는 것은 어려운 일이다. 본 논문은 주어진 주제와 관련 있는 트윗을 효과적으로 수집하기 위하여 시드 노드를 동적으로 선택하는 알고리즘을 제안한다. 본 알고리즘은 사용자의 영향력을 측정하기 위하여 사용자 속성을 활용하며, 수집 프로세스 중에 시드 노드를 동적으로 할당한다. 우리는 제안한 알고리즘을 실제 트윗 데이터에 적용하였으며, 만족할 만한 성능결과를 얻었다.