• 제목/요약/키워드: 트위터 데이터

검색결과 229건 처리시간 0.024초

트레이닝 데이터가 제한된 환경에서 N-Gram 사전을 이용한 트위터 스팸 탐지 방법 (A Method for Twitter Spam Detection Using N-Gram Dictionary Under Limited Labeling)

  • 최혁준;박정희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권9호
    • /
    • pp.445-456
    • /
    • 2017
  • 본 논문에서는 트레이닝 데이터가 제한된 환경에서 n-gram 사전을 이용하여 불건전 정보를 포함하는 스팸 트윗을 탐지하는 방법을 제안한다. 불건전 정보를 포함하는 스팸 트윗은 유사한 단어와 문장을 사용하는 경향이 있다. 이러한 특성을 이용하여 스팸 트윗과 정상 트윗에 대한 n-gram 사전을 구축하고 나이브 베이스 분류기를 적용하여 효과적으로 스팸 트윗을 탐지할 수 있음을 보인다. 반면에, 실시간으로 대용량의 데이터가 유입되는 트위터의 특성은 초기 트레이닝 집합 구성에 매우 큰 비용을 요구 한다. 따라서, 초기 트레이닝 집합이 매우 작거나 존재하지 않는 환경에서 적용할 수 있는 스팸 트윗 탐지 방법이 필요하다. 이를 위해 트위터의 리트윗 기능을 활용하여 의사 라벨을 생성하고 초기 트레이닝 집합의 구성과 n-gram 사전 업데이트에 활용하는 방법을 제안한다. 2016년 12월 1일부터 2016년 12월 7일까지 수집된 한국어 트윗 130만 건을 사용한 다양한 실험 결과는 비교 방법들보다 제안하는 방법의 성능이 우수함을 입증한다.

하둡을 이용한 소셜네트워킹의 TV광고효과 분석 시스템 설계 (A Design of Analysis System on TV Advertising Effect of Social Networking Using Hadoop)

  • 허서연;김윤희
    • 인터넷정보학회논문지
    • /
    • 제14권6호
    • /
    • pp.49-57
    • /
    • 2013
  • 빅데이터가 화두가 되면서, 그 대표적인 예인 SNS을 이용한 서비스 개발도 활기를 띠고 있다. SNS는 기존 매체와는 다르게 실시간으로 의견을주고받는 하나의 장으로 확장되었고, 다양하고 많은 개인들의 의견을 분석하고자 하는 서비스들도 늘어나고 있다. 한편, 매체가 다양화되면서, TV광고계에서도 광고에 대한 의견의 확보와 분석에 새로운 접근방법이 필요해졌다. 이에 본 연구에서는 TV광고의 효과를 트위터 데이터를 기반으로 분석하며 특히 하둡을 이용하여 트위터 데이터와 같은 빅데이터를 저장 및 분석하도록 하는 LiveAD라는 시스템을 설계 및 구축하여, 트위터를 대상으로 TV광고 분석을 빠르게 수행할 수 있음을 보여주었다.

TwitNet : 트위터 사용자들의 관계를 시각적으로 나타내는 Cytoscape 플러그인 개발 (TwitNet : Cytoscape Plugin for Visualizing Relation betweens Twitter Users)

  • 박지혜;김보현;이명준;권영근
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(D)
    • /
    • pp.316-321
    • /
    • 2010
  • 웹 2.0의 기술이 보급됨에 따라 소셜 네트워크 서비스에 대한 관심이 증가하였다. 국내에서는 싸이월드, 미투데이 등과 같은 서비스가 널리 사용되고 있으며 최근 급부상한 트위터는 여러 분야에서 관심을 받고 있다. 트위터는 팔로워나 트윗 등 활동 정도에 따라 랭킹 서비스가 제공되고 있지만 랭킹은 그들 사이의 관계를 세부적으로 나타내지 못한다. 본 논문에서는 트위터의 사용자들 사이에 존재하는 관계를 시각적으로 나타내는 도구에 대해 개발한다. 국내 사용자 중 팔로워의 랭킹에 따른 사용자를 이용하고, 시각화를 위해 생물학적 데이터를 네트워크로 나타내는 Cytocape 플랫폼을 사용한다. 사용자 간의 관계를 나타내는 네트워크를 통하여 온라인상에서 영향력 있는 사용자들의 관계를 나타내고 그들의 관계를 수치로 분석한다. 또한 복잡한 네트워크로부터 선택된 노드와 관련된 연결만을 추출하는 기능을 제공하여 온라인상의 관계를 상세하게 나타낸다.

  • PDF

BEOLTONG: 트위터 기반 정서분석 시스템 (BEOL TONG: Twitter-based Sentiment Analysis System)

  • 김주근;배원식;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.107-111
    • /
    • 2010
  • 본 논문에서는 트위터를 기반으로 정서분석을 수행하여 사용자에게 제시해주는 시스템인 BEOLTONG을 제안한다. BEOLTONG은 최근에 주목 받기 시작해 많은 사람들이 사용하고 있는 트위터의 장점인 풍부한 데이터와 인적 네트워크를 정서분석에 활용하여 효과적인 정서분석을 수행하고, 그 결과를 그래프와 이미지 등을 사용하여 가시적으로 사용자에게 보여줌으로써 좀 더 직관적으로, 알기 쉽게 정서분석 결과를 보고 활용할 수 있도록 한다.

  • PDF

중력 모델을 이용한 시공간 데이터의 시각화 (Spatiotemporal Data Visualization using Gravity Model)

  • 김석연;연한별;장윤
    • 정보과학회 논문지
    • /
    • 제43권2호
    • /
    • pp.135-142
    • /
    • 2016
  • 시공간 데이터는 위도와 경도를 비롯한 위치정보를 포함한 데이터를 일컫는 말로 지리학적 시각화의 연구로 시공간 데이터를 분석하고 표현하는 방법에 대한 다양한 연구가 진행되었다. 이 기술은 특정 공간에 시간을 두고 연속적 또는 이산적으로 발생하는 데이터로부터 패턴을 찾고 이를 분석하는 데 목표가 있다. 하지만, 이동 경로에 대한 정보가 없는 이산적인 시공간 데이터에서 데이터의 흐름을 시각화하는 것은 쉽지만은 않은 일이다. 본 논문에서는 커널밀도추정과 중력모델을 이용하여 이산적인 시공간 데이터로부터 벡터를 추출하고 이를 이용하여 사용자로 하여금 시공간 데이터에서 움직임과 경향을 분석할 수 있도록 시각화 하는 것에 목표를 두었다. 이를 뒷받침하기 위하여 트위터 데이터를 이용하여 이산적인 시공간 데이터를 시각화하고 분석하고자 한다.

특징추출을 이용한 트위터 메시지 주제 분류 방법 (A Method of Classifying Tweet by subject using features)

  • 송지민;김한우;김동주;정성훈
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 춘계학술대회
    • /
    • pp.905-907
    • /
    • 2014
  • 트위터는 전세계적으로 다양한 정보와 의견을 공유하는 교류의 장으로 이용되고 있다. 트위터에서 생성되는 막대한 양의 데이터를 활용하려는 시도가 이루어지고 있다. 그 중 다양한 주제별 정보를 추출하여 이용하려는 연구가 활발히 진행되고 있다. 트위터는 140자의 짧은 메시지로 정보를 공유하는 서비스이다. 이러한 짧은 메시지는 트윗에서 다양한 주제별 정보를 추출하는 것을 어렵게 한다. 본 논문에서는 트윗의 기능들과 분류할 주제의 특징을 이용하여 트윗 주제별 분류 방법을 제안한다. 이 방법의 유용성을 검증하기 위해, 트윗 API를 사용하여 수집된 10000개의 트윗으로 실험하였다. 그 결과 기존 연구들보다 뛰어난 결과를 얻었다.

  • PDF

트위터 데이터를 이용한 네트워크 기반 토픽 변화 추적 연구 (Topic-Network based Topic Shift Detection on Twitter)

  • 진설아;허고은;정유경;송민
    • 정보관리학회지
    • /
    • 제30권1호
    • /
    • pp.285-302
    • /
    • 2013
  • 본 연구는 높은 접근성과 간결성으로 인해 방대한 양의 텍스트를 생산하는 트위터 데이터를 분석하여 토픽의 변화 시점 및 패턴을 파악하였다. 먼저 특정 상품명에 관한 키워드를 추출한 후, 동시출현단어분석(Co-word Analysis)을 이용하여 노드와 에지를 통해 토픽과 관련 키워드를 직관적으로 파악 가능한 네트워크로 표현하였다. 이후 네트워크 분석 결과를 검증하기 위해 출현빈도 기반의 시계열 분석과 LDA 토픽 모델링을 실시하였다. 또한 트위터 상의 토픽 변화와 언론 기사 검색결과를 비교한 결과, 트위터는 언론 뉴스에 즉각적으로 반응하며 부정적 이슈를 빠르게 확산시키는 것을 확인하였다. 이를 통해 기업은 대중의 부정적 의견을 신속하게 파악하고 이에 대한 즉각적인 의사결정 및 대응을 위한 도구로 본 연구방법을 활용할 수 있을 것으로 기대된다.

트위터 이용자의 언어권별 자기노출 및 경계 불투과성 (Self-Disclosure and Boundary Impermeability among Languages of Twitter Users)

  • 장필식
    • 한국콘텐츠학회논문지
    • /
    • 제16권4호
    • /
    • pp.434-441
    • /
    • 2016
  • 본 연구에서는 빅데이터 분석기법을 이용하여 트위터 이용자들을 대상으로 언어에 따른 자기노출과 경계불투과성에 대한 양상을 파악하였다. 6개월 동안 5천4백만 명의 트위터 이용자가 작성한 4억여 개의 트윗을 수집하였으며, 이들 중 트윗 수 상위 10개 언어권 이용자의 프로파일 및 관련 데이터를 조사하였다. 이를 통해 트위터 이용자의 언어가 이용자 프로파일, 프로파일 이미지, 지리정보, URL, 사용자 설명 등 자기정보 공개 항목의 공개비율과 경계불투과성에 미치는 영향을 분석하였다. 분석결과, 경계 불투과성과 자기노출 비율(프로파일, 프로파일 이미지, URL, 이용자 설명, 지리정보)은 언어권에 따라 각각 통계적으로 유의한(p<0.001) 차이가 있는 것으로 나타났다. 자기노출 비율과 평균 점수는 포르투갈어, 인도네시아어 및 스페인어 이용자가 아랍어, 일본어, 터키어, 한국어 이용자에 비해 높은 것으로 파악되었다. 또한 리트윗을 포함한 트윗 수가 많은 이용자일수록 경계 불투과성이 높아지는 것으로 나타났다.

소셜 네트워크 서비스의 연구경향 분석: 국내 Twitter 관련 연구 중심 (Analysis of Research Trends on Social Network Service: Focusing on the Korea's Studies of Twitter)

  • 하병국
    • 서비스연구
    • /
    • 제5권1호
    • /
    • pp.79-89
    • /
    • 2015
  • 최근, 소셜 네트워크 서비스(Social Network Service)의 도입과 더불어 이를 다양한 목적을 충족시키는 연구가 진행되고 있다. 많은 연구가 진행됨에 따라 연구 경향을 파악하는 것이 필요하다. 하지만 연구의 양이 방대하여 많은 양의 관련 연구 문헌을 조사하는 것은 상당히 어려운 작업이다. 따라서 본 연구에서는 소셜 네트워크 서비스 중 트위터를 중심으로 관련 연구들을 체계적으로 분석하여 연구의 경향성을 밝힌다. 특히 체계적인 문헌 조사와 분석을 위해 SLR(Systematic Literature Review) 기법을 이용한다. 그리고 국내 연구를 중심으로 243편을 조사 하였다. 다양한 분야의 학문을 살펴보기 위하여 학술 분류 KDC와 기본 연구자들의 관점 그리고 트위터 데이터의 직접 사용 등을 분석차원으로 구성하여 분석하였다. 연구 결과 다양한 학문에서 트위터를 분석 하고 있으며 그 방법 또한 단순 설문을 넘어 트위터 데이터를 직접 사용하는 연구가 많았다.

소셜 빅데이터를 이용한 영화 흥행 요인 분석 (Movie Box-office Analysis using Social Big Data)

  • 이오준;박승보;정다울;유은순
    • 한국콘텐츠학회논문지
    • /
    • 제14권10호
    • /
    • pp.527-538
    • /
    • 2014
  • 수요 예측은 영화 산업에서 매우 중요한 문제이다. 최근 들어 트위터(Twitter), 페이스북(Facebook)과 같은 소셜미디어의 비정형 텍스트 데이터를 이용하여 영화 흥행을 예측하고 분석하는 시도들이 활발하게 이루어지고 있다. 기존에는 주로 데이터의 주기별 변화량을 측정하여 데이터 양과 영화 흥행간의 상관성을 분석하거나 데이터에 대해 감성의 극성 값을 부여하는 오피니언 마이닝을 통해 영화의 흥행 추이를 예측하였다. 하지만 이러한 정량적 접근만으로는 관객들이 영화를 선택하게 된 근거나 영화의 어떤 속성을 선호하는지를 알 수 없기 때문에 영화의 흥행 요인을 밝히는데 한계가 있었다. 따라서 본 연구는 트위터 데이터를 수집한 후 빈도수 측정을 통해 트윗의 내용을 대표하는 토픽(topic) 키워드를 추출하여 관객들의 관심을 반영하는 영화적 속성들이 무엇인지를 밝히고, 그 속성들에 대한 관객들의 반응을 분석함으로써 영화의 흥행에 영향을 미친 요인들을 제시한다.