• 제목/요약/키워드: Tweets

검색결과 179건 처리시간 0.029초

대용량 소셜 미디어 감성분석을 위한 반감독 학습 기법 (Semi-supervised learning for sentiment analysis in mass social media)

  • 홍소라;정연오;이지형
    • 한국지능시스템학회논문지
    • /
    • 제24권5호
    • /
    • pp.482-488
    • /
    • 2014
  • 대표적인 소셜 네트워크 서비스(SNS)인 트위터의 내용을 분석하여 자동으로 트윗에 나타난 사용자의 감성을 분석하고자 한다. 기계학습 기법을 사용해서 감성 분석 모델을 생성하기 위해서는 각각의 트윗에 긍정 또는 부정을 나타내는 감성 레이블이 필요하다. 그러나 사람이 모든 트윗에 감성 레이블을 붙이는 것은 비용이 많이 소요되고, 실질적으로 불가능하다. 그래서 본 연구에서는 "감성 레이블이 있는 데이터"와 함께 "감성 레이블이 없는 데이터"도 활용하기 위해서 반감독 학습기법인 self-training 알고리즘을 적용하여 감성분석 모델을 생성한다. Self-training 알고리즘은 "레이블이 있는 데이터"의 레이블이 있는 데이터를 활용하여 "레이블이 없는 데이터"의 레이블을 확정하여 "레이블이 있는 데이터"를 확장하는 방식으로, 분류모델을 점진적으로 개선시키는 방식이다. 그러나 데이터의 레이블이 한번 확정되면 향후 학습에서 계속 사용되므로, 초기의 오류가 계속적으로 학습에 영향을 미치게 된다. 그러므로 조금 더 신중하게 "레이블이 없는 데이터"의 레이블을 결정할 필요가 있다. 본 논문에서는 self-training 알고리즘을 이용하여 보다 높은 정확도의 감성 분석 모델을 생성하기 위하여, self-training 중 "감성 레이블이 없는 데이터"의 레이블을 결정하여 "감성 레이블이 있는 데이터"로 확장하기 위한 3가지 정책을 제시하고, 각각의 성능을 비교 분석한다. 첫 번째 정책은 임계치를 고려하는 것이다. 분류 경계로부터 일정거리 이상 떨어져 있는 데이터를 선택하고자 하는 것이다. 두 번째 정책은 같은 개수의 긍/부정 데이터를 추가하는 것이다. 한쪽 감성에 해당하는 데이터에만 국한된 학습을 하는 것을 방지하기 위한 것이다. 세 번째 정책은 최대 개수를 고려하는 것이다. 한 번에 많은 양의 데이터가 "감성 레이블이 있는 데이터"에 추가되는 것을 방지하고 상위 몇%만 선택하기 위해서, 선택되는 데이터의 개수의 상한선을 정한 것이다. 실험은 긍정과 부정으로 분류되어 있는 트위터 데이터 셋인 Stanford data set에 적용하여 실험하였다. 그 결과 학습된 모델은 "감성 레이블이 있는 데이터" 만을 가지고 모델을 생성한 것보다 감성분석의 성능을 향상 시킬 수 있었고 3가지 정책을 적용한 방법의 효과를 입증하였다.

텍스트 분석을 활용한 정보의 수요 공급 기반 뉴스 가치 평가 방안 (A Method for Evaluating News Value based on Supply and Demand of Information Using Text Analysis)

  • 이동훈;최호창;김남규
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.45-67
    • /
    • 2016
  • 최근 정보 유통의 주요 매체인 인터넷 뉴스와 SNS의 매체 간 특성 차이를 주목한 많은 연구가 있었음에도 불구하고, 양 매체의 차이를 정보의 수요 및 공급 관점에서 파악한 연구는 상대적으로 매우 부족하다. 일반적으로 새로운 정보는 언론사의 뉴스 기사를 통해 대중에게 노출되고, 대중은 이러한 기사에 대한 의견 또는 추가정보를 SNS를 통해 공유함으로써 해당 정보를 수용함과 동시에 확산시킨다. 이러한 측면에서 언론사가 뉴스를 제공하는 행위를 정보의 공급으로 파악할 수 있으며, 대중은 SNS를 통해 이에 대한 관심을 능동적으로 나타냄으로써 해당 정보에 대한 소비 수요를 표출하는 것으로 이해할 수 있다. 이는 상품 및 서비스의 가격이 수요와 공급의 관계에 의해 결정되는 것과 유사한 원리로, 정보의 가치를 정보 수요와 정보 공급의 관계에 기반을 두어 측정할 수 있음을 시사한다. 본 연구에서는 정보 공급의 대표 매체로 인터넷 뉴스 기사를, 정보 수요를 나타내는 대표 매체로 트위터를 선정하고, 특정 이슈에 대한 뉴스의 정보로서의 가치를 이와 관련된 트위터의 양으로 평가하는 뉴스가치지수(NVI, News Value Index)를 고안하여 제시한다. 구체적으로 제안 방법론은 각 이슈별로 NVI를 도출하고 이를 통해 시간의 흐름에 따른 정보 가치의 변화를 시각화하여 나타낸다. 또한 본 연구에서는 제안 방법론의 실무 적용 가능성을 평가하기 위해 인터넷 뉴스 387,018건과 트윗 31,674,795건에 대한 실험을 수행하였다. 그 결과 대부분의 이슈가 전체 정보 시장의 평균 가치에 수렴하는 형태로 변화함을 알 수 있었으며, 꾸준히 평균 이상의 가치를 가지며 정보 시장을 장악하는 등 특이한 양상을 보이는 흥미로운 이슈도 존재함을 파악할 수 있었다.

SNS를 통한 선거의 자유와 허위사실공표죄 (Through SNS and freedom of election Publicized criminal misrepresentation)

  • 이주일
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권2호
    • /
    • pp.149-156
    • /
    • 2013
  • 이 논문에서는 헌법재판소의 판결을 통하여 SNS를 통한 선거운동의 자유가 사실상 보장되었음에도 불구하고, 아직도 많은 부분 공직선거법상에서 선거운동의 자유를 제약하는 규정이 존재하여 이것이 앞으로의 선거에서 많은 법적인 문제를 야기할 가능성이 농후하다. 더욱이 그동안의 선거운동과는 차원이 다른 SNS를 통한 선거운동의 과정에서, 무한확산의 가능성이 어느 시점보다 높아지고 있는 시점에서 SNS를 통한 선거운동의 자유와 공직선거법상 허위사실유포의 한계와 관련하여 많은 문제가 발생할 가능성이 높다. 이에 그동안의 공직선거법상 허위사실 유포죄는 유포한 사실이 허위일 뿐만 아니라. 그 유포를 통하여 특정인을 낙선시키려는 목적이 있어야 성립하는 범죄로 규정되어 있음에도 이에 대한 엄격하게 해석하기 보다, 유포된 사실이 허위인가에 대하여 판단하는 형태로 법원의 판단이 이루어져 왔다. 따라서 이 법을 개정 또는 삭제하기 전에 엄격한 해석의 필요성에 대하여 논의하고자 하였다. 입법론상 폐지하는 것이 바람직하지만, 우선 해석학을 통하여 문제점을 지적하였다. 첫째, 보호법익을 본죄의 취지 맞게 제한적으로 해석하고자 하였다. 둘째, 본죄가 목적범이기 때문에 목적범에서 목적은 본죄의 경우 엄격하게 해석할 필요성을 주장하였다. 왜나하면 인터넷 공간에서 이른바 리트윗의 경우에는 팔로워들이 별 의미없이 행해지는 경우도 많을 것이기 때문에 본죄로 처벌하는데 한계가 있을 것이 분명하다. 그리고 모처럼 헌법재판소에서 SNS를 통한 선거운동의 자유를 보장하고 있는 만큼, 우리나라에서 선거의 자유로운 소통의 장을 열어주는 의미에서도 제한적 해석은 필요하다. 이는 표현의 자유를 높게 보장하게 될 것이고 이는 성숙한 시민사회로 가는 첩경이 될 것이기 때문이다.

브랜드 개성 효과: 트위터 상의 브랜드 개성 전달이 온라인 커뮤니티 참여에 미치는 영향 (The Brand Personality Effect: Communicating Brand Personality on Twitter and its Influence on Online Community Engagement)

  • 루스 안젤리 크루즈;이홍주
    • 지능정보연구
    • /
    • 제20권1호
    • /
    • pp.67-101
    • /
    • 2014
  • 새로운 기술의 활용은 고객과의 관계를 맺기위한 기업들의 마케팅 전략을 변모시켜왔다. 새로운 기술 중에서 소셜 미디어는 기업들이 온라인 고객들에게 다가가기 위한 도구이며, 유명한 소셜 미디어 사이트 중의 하나는 마이크로 블로깅 플랫폼인 트위터이다. 매일 5억건이상의 트윗이 발생하기때문에 연구자들에게는 풍부한 데이터의 원천이며, 기업들에겐 매력적인 마케팅 채널이다. 그럼에도 불구하고 효과적인 트위터 활용전략을 수립하는 것이 어려우며, 이는 적절한 트위터 활용에 대한 이론적인 또는 실증적인 검증이 이루어지지 않았기 때문이다. 본 연구는 기업들이 마케팅 채널로서의 트위터를 어떻게 효과적으로 활용할 수 있는지에 대한 실증적인 근거를 브랜드 개성과 브랜드 관여를 중심으로 연구하여 제공하고자 한다. 본 연구는 Aaker의 브랜드 개성에 대한 연구에서 제시한 브랜드 개성 척도를 활용하여 트위터 메시지가 브랜드 개성을 띄고 있는지와 이에 따른 고객들의 참여와 반응을 분석하고자 한다. 또한, 제품의 관여도에 따라서 조절효과가 존재하는지도 분석하였다. 23개 브랜드의 8주간의 트위터 계정의 포스팅을 수집하였으며, 오피니언 마이닝을 통하여 연구 가설을 검증하였다. 구체적인 본 연구의 목적은 첫째로 마케팅 연구에서 제시된 브랜드 개성의 개념이 소셜 미디어인 트위터에도 적용이 가능한지 분석하는 것이다. 둘째는 오프라인 브랜드 개성과 온라인 브랜드 개성간의 일치여부와 소셜 미디어 브랜드 커뮤니티의 활성화간의 관계를 밝히고자 한다. 마지막으로, 제품의 관여도에 따라 온라인/오프라인 브랜드 개성의 일치도가 조절효과를 갖는지를 분석하고자 한다.

K-pop 수용자의 세계관 수용 현상 연구 : 그룹 에스파의 세계관 사례를 중심으로 (A phenomenon Study on Acceptance Universe of K-pop Audience : Focused on Group Aespa's Universe Case)

  • 김나경
    • 트랜스-
    • /
    • 제12권
    • /
    • pp.173-222
    • /
    • 2022
  • 이 논문은 현재 K-pop분야 콘텐츠 전략으로 활용되고 있는 '세계관' 수용 현상에 대해 K-pop수용자 관점에서 살펴본 후, 그들의 수용 경험과 세계관의 의미 인식을 파악하고자 하였다. 이를 위해 현재 가장 활발하게 세계관을 콘텐츠 전략으로 활용하는 그룹 에스파의 세계관 수용경험과 관련된 트윗을 수집하여, 이 자료를 개인 경험의 의미구조 및 현상의 본질을 탐구하고자 하는 접근방식인 현상학적 접근방식에 따라 분석하였다. 무스타카스의 방식을 활용하여 분석한 결과, 총 21개의 주제를 통해 K-pop 수용자들의 세계관 수용 현상의 의미구조를 도출하였다. 현재 K-pop 수용자들은 세계관 수용을 통해 일방적이거나 수동적이기 보다는 능동적인 문화소비 경험을 하고 있는 것으로 나타났다. 이는 의미를 생산하고 팬덤 내부의 활발한 상호작용을 통해 외부 영향력을 행사하는 대안적 공동체인 능동적 수용자의 특성을 K-pop 수용자들이 지니고 있으며, 동시에 이 특성이 세계관을 수용하는 세부 행위들에 영향을 미치고 있음을 의미한다. 다음으로는 능동적 수용 경험을 통해 K-pop 수용자들이'마케팅 자산', '팬덤 공동체 자산', 'K-pop 산업 확장 자산'이라는 의미를 세계관에 부여하고 있음이 발견되었다. 이 중 '마케팅 자산'인식은 관련 선행연구들의 논의들을 뒷받침하는 근거로 재확인 되었다. 뿐만 아니라, 기존의 생산자적 측면의 선행연구들이 발견하지 못한 '팬덤 고유의 자산'과 'K-pop 산업의 확장 자산'의미를 발견하여 K-pop 분야 세계관의 새로운 가치를 도출하였으며, 향후 세계관의 가치 확장 측면에서 그 의미 및 방향성을 논의하여 제시하였다. 결과적으로, 이 연구는 세계관 수용 현상의 의미구조를 밝혀냈다는 것과, 기존에 논의되지 않았던 K-pop 세계관의 새로운 의미를 발견했다는 데 의의가 있으며, 관련 주제의 후속 연구를 다각도에서 제언하는 것을 통해 연구의 장을 넓히는데 기여하고자 하였다.

트위터에서의 COVID-19와 관련된 반시민성 주제 탐색: 혐오 대상 및 키워드 분석 (Investigating Topics of Incivility Related to COVID-19 on Twitter: Analysis of Targets and Keywords of Hate Speech)

  • 김규리;오찬희;주영준
    • 정보관리학회지
    • /
    • 제39권1호
    • /
    • pp.331-350
    • /
    • 2022
  • 본 연구는 코로나바이러스감염증-19 (이하 코로나19)로 인해 생겨난 코로나19 반시민성 주제와 코로나19 혐오 정서를 파악하기 위해 소셜미디어 중 하나인 트위터의 코로나19 관련 게시물을 분석하였다. 2019년 12월 1일부터 2021년 8월 31일까지 21개월 동안 작성된 코로나19 관련 혐오 대상별(지역, 공공시설 혐오, 특정 인구 집단 혐오, 종교 혐오) 게시물 수집 및 전처리를 진행하여 총 63,802개의 게시물을 분석하였다. 혐오 대상별 빈도 분석, 다이나믹 토픽 모델링, 키워드 동시 출현 네트워크 분석 기법을 통하여 혐오 대상별 반시민성 주제와 혐오 키워드를 파악하였다. 첫째, 빈도 분석 결과, 지역, 공공시설 혐오는 상대적으로 증가하는 추세를 보이고 특정 인구 집단과 종교 혐오는 상대적으로 감소하는 추세를 확인할 수 있었다. 둘째, 다이나믹 토픽 모델링 분석 결과, 지역, 공공시설 혐오는 '대구, 경북지방 혐오', '지역 간 혐오', '공공시설 혐오'로 나타났고, 특정 인구 집단 혐오는 '중국 혐오', '바이러스 전파자', '실외(야외)활동 제재'로 나타났으며, 종교 혐오는 '신천지', '기독교', '종교 내 감염', '방역 의무 거부', '확진자 동선 비난'으로 나타났다. 셋째, 키워드 동시 출현 네트워크 분석 결과, 지역, 공공시설 혐오(코로나, 대구, 확진자, 신천지, 경북, 지역), 특정 인구 집단 혐오(코로나바이러스, 우한폐렴, 우한, 중국, 중국인, 사람, 입국, 금지), 종교 혐오(신천지, 코로나, 교회, 대구, 확진자, 감염) 등을 핵심 키워드로 확인할 수 있었다. 본 연구는 소셜 미디어를 활용한 국내 코로나19 혐오 대상 및 키워드 파악을 통해 코로나19 관련한 대중의 반시민성 여론을 파악하고자 하였다. 특히 기존의 선행연구에서 시도하지 않았던 주제인 코로나19 관련 혐오에 데이터 마이닝기법을 이용하여 소셜 미디어에서 표출하는 대중의 반시민성 주제와 혐오 정서 탐색은 대중들의 여론을 파악하는 것이 의의가 있다. 더불어 본 연구 결과는 포스트 코로나 시대를 대비하는 문화적 소통 방안의 제도 및 정책 수립 기여를 위한 기본 자료에 기초할 수 있다는 점에서 실질적 함의를 시사한다.

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템 (Twitter Issue Tracking System by Topic Modeling Techniques)

  • 배정환;한남기;송민
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.109-122
    • /
    • 2014
  • 현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.

텍스트 마이닝을 이용한 2012년 한국대선 관련 트위터 분석 (Analysis of Twitter for 2012 South Korea Presidential Election by Text Mining Techniques)

  • 배정환;손지은;송민
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.141-156
    • /
    • 2013
  • 최근 소셜미디어는 전세계적 커뮤니케이션 도구로서 사용에 전문적인 지식이나 기술이 필요하지 않기 때문에 이용자들로 하여금 콘텐츠의 실시간 생산과 공유를 가능하게 하여 기존의 커뮤니케이션 양식을 새롭게 변화시키고 있다. 특히 새로운 소통매체로서 국내외의 사회적 이슈를 실시간으로 전파하면서 이용자들이 자신의 의견을 지인 및 대중과 소통하게 하여 크게는 사회적 변화의 가능성까지 야기하고 있다. 소셜미디어를 통한 정보주체의 변화로 인해 데이터는 더욱 방대해지고 '빅데이터'라 불리는 정보의 '초(超)범람'을 야기하였으며, 이러한 빅데이터는 사회적 실제를 이해하기 위한 새로운 기회이자 의미 있는 정보를 발굴해 내기 위한 새로운 연구분야로 각광받게 되었다. 빅데이터를 효율적으로 분석하기 위해 다양한 연구가 활발히 이루어지고 있다. 그러나 지금까지 소셜미디어를 대상으로 한 연구는 개괄적인 접근으로 제한된 분석에 국한되고 있다. 이를 적절히 해결하기 위해 본 연구에서는 트위터 상에서 실시간으로 방대하게 생성되는 빅스트림 데이터의 효율적 수집과 수집된 문헌의 다양한 분석을 통한 새로운 정보와 지식의 마이닝을 목표로 사회적 이슈를 포착하기 위한 실시간 트위터 트렌드 마이닝 시스템을 개발 하였다. 본 시스템은 단어의 동시출현 검색, 질의어에 의한 트위터 이용자 시각화, 두 이용자 사이의 유사도 계산, 트렌드 변화에 관한 토픽 모델링 그리고 멘션 기반 이용자 네트워크 분석의 기능들을 제공하고, 이를 통해 2012년 한국 대선을 대상으로 사례연구를 수행하였다. 본 연구를 위한 실험문헌은 2012년 10월 1일부터 2012년 10월 31일까지 약 3주간 1,737,969건의 트윗을 수집하여 구축되었다. 이 사례연구는 최신 기법을 사용하여 트위터에서 생성되는 사회적 트렌드를 마이닝 할 수 있게 했다는 점에서 주요한 의의가 있고, 이를 통해 트위터가 사회적 이슈의 변화를 효율적으로 추적하고 예측하기에 유용한 도구이며, 멘션 기반 네트워크는 트위터에서 발견할 수 있는 고유의 비가시적 네트워크로 이용자 네트워크의 또 다른 양상을 보여준다.

인공지능 기술에 관한 가트너 하이프사이클의 네트워크 집단구조 특성 및 확산패턴에 관한 연구 (Structural features and Diffusion Patterns of Gartner Hype Cycle for Artificial Intelligence using Social Network analysis)

  • 신선아;강주영
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.107-129
    • /
    • 2022
  • 기술경쟁이 심화되고 있는 오늘날 신기술에 대한 선도적 위치의 선점이 중요하다. 선도적 위치의 선점과 적정시점에 기술 획득·관리를 위해 이해관계자들은 지속적으로 기술에 대한 탐색활동을 수행한다. 이를 위한 참고 자료로서 가트너 하이프 사이클(Gartner Hype Cycle)은 중요한 의미가 있다. 하이프 사이클은 기술수명주기(S-curve)와 하이프 수준(Hype Level)을 결합하여 새로운 기술에 대한 대중의 기대감을 시간의 흐름에 따라 나타낸 그래프이다. 새로운 기술에 대한 기대는 기술사업화뿐만 아니라 연구개발 투자의 정당성, 투자유치를 위한 기회의 발판이 된다는 점에서 연구개발 담당자 및 기술투자자의 관심이 높다. 그러나 산업계의 높은 관심에 비해 실증분석을 시도한 선행연구는 다양하지 못하다. 선행문헌 분석결과 데이터 종류(뉴스, 논문, 주가지수, 검색 트래픽 등)나 분석방법은 한정적이었다. 이에 본 연구에서는 확산의 주요한 채널이 되어가고 있는 소셜네트워크서비스의 데이터를 활용하여 'Gartner Hype Cycle for Artificial Intelligence, 2021'의 단계별 기술들에 대한 집단구조(커뮤니티)의 특성과 커뮤니티 간 정보 확산패턴을 분석하고자 한다. 이를 위해 컴포넌트 응집규모(Component Cohesion Size)를 통해 각 단계별 구조적 특성과 연결중심화(Degree Centralization)와 밀도(Density)를 통해 확산의 방식을 확인하였다. 연구결과 기술을 수용하는 단계별 집단들의 커뮤니케이션 활동이 시간이 지날 수록 분절이 커지며 밀도 역시 감소함을 확인하였다. 또한 새로운 기술에 대한 관심을 촉발하는 혁신태동기 집단의 경우 정보확산을 촉발하는 외향연결(Out-degree) 중심화 지수가 높았으며, 이후의 단계는 정보를 수용하는 내향연결(In-degree) 중심화 지수가 높은 것으로 나타났다. 해당 연구를 통해 하이프 사이클에 관한 이론적 기초를 제공할 것이다. 또한 인공지능기술에 대한 기술관심집단들의 기대감을 반영한 정보확산의 특성과 패턴을 소셜데이터를 통해 분석함으로써 기업의 기술투자 의사결정에 새로운 시각을 제공할 것이다.