• 제목/요약/키워드: 소셜 미디어 데이터 수집 및 분석

검색결과 81건 처리시간 0.035초

소셜 미디어 분석을 통한 음악 추천 모델의 설계 및 구현 (Design and implementation of a music recommendation model through social media analytics)

  • 정경록;박구락;박상혁
    • 융합정보논문지
    • /
    • 제11권9호
    • /
    • pp.214-220
    • /
    • 2021
  • 스마트폰이 빠르게 보급되면서 음악을 생활 속의 배경음악처럼 항상 모든 곳에서 듣는 것이 일반화되어 개인의 상황과 조건에 맞는 추천을 할 수 있는 음악 데이터베이스를 필요하다. 본 논문에서는 소셜 미디어를 통한 음악추천 모델을 제안한다. 소셜 미디어의 데이터를 사용하여 음악 데이터베이스를 작성하고 기존의 음원 제공 플랫폼이 주로 사용하는 협업필터링과는 다른 방식으로 음악을 분류한다. 웹크롤링으로 음악 제목이 해시 태그로 달린 게시글을 찾아 해당 글에 함께 달린 다른 해시 태그들을 수집하고 분류하여 실제 청취자의 음악에 관한 의견을 데이터베이스에 사용한다. 소셜 미디어를 작성할 때의 감정, 상황, 시간대, 날씨 등 많은 조건이 해시 태그에는 포함되어 있으므로 다양한 사람의 의견이 집단지성으로 반영된 소셜 미디어 기반 데이터베이스를 구축할 수 있다.

소셜네트워크 분석과 클러스터 분석 방법을 활용한 스타트업 회사의 트위터 팔로워 네트워크에 대한 탐색적 연구 (Exploring Twitter Follower-Networks of Startup Companies Employing Social Network Analysis and Cluster Analysis)

  • 류승희
    • 벤처창업연구
    • /
    • 제14권4호
    • /
    • pp.199-209
    • /
    • 2019
  • 기업의 소셜미디어 활용이 빠른 속도로 증가함에 따라 성공적인 소셜미디어 활용전략의 중요성이 커지고 있다. 이러한 중요성은 새로이 시장에 진입하여 신속하게 시장에서의 인지도를 확대하고 미래고객을 확보해야 할 필요성이 큰 스타트업 회사에게 더욱 절실하다고 할 수 있다. 본 연구의 목적은 스타트업 회사의 소셜미디어 활용의 특징을 보여주는 지표를 탐색적으로 조사, 분석하는데 두고 있다. 주요 지표는 전반적인 소셜미디어 관련 활동을 보여주는 지표와 소셜미디어 서비스을 통해 형성된 소셜네트워크 구조의 특성과 관련 지표를 포함한다. 스타트업 회사의 이러한 지표를 좀 더 객관적으로 평가하기 위하여 잘 갖춰진 기존 회사의 지표와 비교, 분석 하였다. 본 연구를 위해 여러 소셜미디어 서비스 중 트위터를 선정하고, 트위터 REST API를 통해 측정지표와 관련된 데이터와 팔로워네트워크(follower-network)에 대한 데이터를 수집하였다. 주요 분석방법으로 각 회사의 소셜네트워크 구조의 특성을 분석하기 위해 소셜네트워크분석기법이 활용되었으며, 클러스터분석 기법을 이용하여 스타트업 회사와 기존 회사의 측정지표를 비교, 분석하였다. 분석결과에 따르면 대부분의 측정지표에서 스타트업 회사와 기존 회사 간에 유의미한 차이를 보여주고 있다. 특징적인 분석결과의 하나로 스타트업 회사들이 상대적으로 많은 수의 인플루언서 (influencer)를 팔로워네트워크에 가지고 있다는 점이다. 또한, 스타트업 회사를 포함하는 클러스터의 네트워크 모듈성(modularity)과 추이성(transitivity)이 기존 회사에 비해 상대적으로 높은 것으로 나타났다. 이러한 결과는 스타트업 회사의 소셜네트워크 안에 기존 회사에 비해 내부결속력이 높은 상대적으로 많은 수의 커뮤니티가 존재한다는 점을 시사한다고 할 수 있다. 스타트업 회사의 이러한 특징은 잠재고객 및 비즈니스 파트너와의 효과적인 정보교환을 촉진할 수 있으며, 따라서 향후 일반적인 스타트업 회사의 소셜미디어 노력은 어떻게 인플루언서를 확보할 것인지, 또한 어떻게 내부결속력이 높은 긴밀한 네트워크를 구축할 것인지에 초점을 두어야 할 필요성이 있음을 시사하고 있다.

페이스북 그룹 게시물 분석을 통한 우울증 관련 주제에 대한 고찰 (Investigating Major Topics Through the Analysis of Depression-related Facebook Group Posts)

  • 주영준;김동훈;이창호;이용정
    • 한국문헌정보학회지
    • /
    • 제53권4호
    • /
    • pp.171-187
    • /
    • 2019
  • 본 연구는 소셜 네트워크 서비스인 페이스북에서 우울증 관련 게시물을 분석하여 그 안에서 주로 논의되는 주제를 파악하고자 한다. 구체적으로, 접근 용이성, 개방성 및 익명성 등의 특징을 지니는 페이스북이라는 온라인 커뮤니티에서 사용자들이 다소 민감한 정신적 질환인 우울증에 관하여 어떤 내용을 논의하는지 살펴보고자 한다. 본 연구를 위해 페이스북 데이터 수집에서부터 주제어 추출에 이르기까지의 전반적인 과정을 포함하는 자연어 처리 기반의 데이터 분석 프레임워크를 구현하였다. 구현한 프레임워크를 이용하여, 본 연구는 우울증을 논의하는 페이스북 최대 사용자 그룹에서 최근 1년간 작성한 885개의 게시물을 수집하여 분석하였다. 주제어 추출의 완성도와 정확도를 위해 자동화된 기법과 수동적인 접근법(불용어 제거, 주제어 개수 지정)을 결합하였으며, 이를 통해 주제를 다각도에서 분석하였다. 분석 결과, 사용자들은 우울증 일반, 인간관계, 기분 및 느낌, 우울증 증상, 자살, 의료 참고, 그리고 가족 등에 대한 논의를 주로 하는 것으로 파악되었다.

SW교육의 트렌드 변화와 정책적 시사점 연구 (A Study on Trend Change and Policy Implications in SW Education)

  • 김용성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.623-625
    • /
    • 2019
  • 인공지능과 소프트웨어가 중요한 역할을 하는 시대가 되었고, 이를 학생들에게 교육하여 미래의 AI/SW 인재를 양성하는 것에 많은 관심이 집중되고 있다. 해외 주요국에서는 이러한 시대적 흐름에 맞추어 AI/SW 분야의 인재 양성을 위해 노력하고 있으며, 국내에서도 여러 부처에서 관련된 다양한 정책을 시행하고 있다. 본 논문에서는 SW교육 관련 소셜미디어와 언론 데이터를 수집하고 이를 분석하여 국내 AI/SW교육에 대한 시사점을 제시하려고 한다. 이를 위해 2014년부터 2018년까지 총 5개년도의 데이터를 수집하고, 네트워크 분석 방법을 활용하여 연도별 SW교육의 흐름, 주요 등장 키워드, 연관 검색어들을 파악하였다. 이를 활용하여 미래의 AI/SW 교육 정책 수립 및 개선을 위한 시사점을 모색해보고자 한다.

CoAID+ : 소셜 컨텍스트 기반 가짜뉴스 탐지를 위한 COVID-19 뉴스 파급 데이터 (CoAID+ : COVID-19 News Cascade Dataset for Social Context Based Fake News Detection)

  • 한소은;강윤석;고윤용;안지원;김유심;오성수;박희진;김상욱
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권4호
    • /
    • pp.149-156
    • /
    • 2022
  • 최근 전 세계적으로 COVID-19이 유행하는 상황 속에서 이와 관련된 가짜뉴스가 심각한 사회적 혼란을 야기하고 있다. 이러한 배경에서 가짜뉴스를 정확하게 탐지하기 위해, 뉴스가 소셜 미디어를 통해 파급되는 과정과 같은 소셜 컨텍스트 정보를 활용하는 소셜 컨텍스트 기반 탐지 기법들이 널리 사용되고 있다. 그러나 대부분의 기 구축된 가짜뉴스 탐지를 위한 데이터들은 뉴스 자체의 내용 정보 위주로 구성되어, 소셜 컨텍스트 정보를 거의 포함하지 않는다. 즉, 이 데이터들에는 소셜 컨텍스트 기반 탐지 기법을 적용할 수 없으며, 이러한 데이터의 한계는 가짜뉴스 탐지 연구 분야의 발전을 저해하는 방해 요소이다. 본 논문은 이러한 한계를 극복하기 위해, 기존의 저명한 가짜뉴스 데이터인 CoAID 데이터를 기반으로, 소셜 컨텍스트 정보를 추가적으로 수집하여, CoAID 데이터의 뉴스 내용 정보와 해당 뉴스들의 소셜 컨텍스트 정보를 모두 포함하는 CoAID+ 데이터를 구축한다. 본 논문에서 구축한 CoAID+ 데이터는 기존의 대부분의 소셜 컨텍스트 기반 탐지 기법들에 적용될 수 있으며, 향후 새로운 소셜 컨텍스트 기반 탐지 기법들에 대한 연구도 더욱 활성화시킬 수 있을 것으로 기대된다. 마지막으로, 본 논문은 다양한 관점에서 CoAID+ 데이터를 분석하여 진짜뉴스와 가짜뉴스의 파급 패턴 및 키워드에 따른 파급 패턴도 파악하여 소개한다.

소셜 미디어 빅데이터 분석을 통한 장애 유아에 대한 사회적 인식 연구 (A Study on Social Perception of Young Children with Disabilities through Social Media Big Data Analysis)

  • 김경민
    • 한국융합학회논문지
    • /
    • 제13권2호
    • /
    • pp.1-12
    • /
    • 2022
  • 본 연구는 장애 유아에 대한 최근 10년간의 사회적 인식을 알아보기 위해 인터넷 기반의 빅데이터 분석 시스템인 Textom을 활용하였다. Textom으로 수집된 자료는 데이터 클리닝 과정을 거쳐 빈도가 높은 순으로 50개의 키워드가 선정되었으며, 의미연결망 분석을 위해 UCINET6으로 중심성 분석과 CONCOR분석을 실시하였다. 분석된 자료는 NetDraw를 활용하여 시각화하였다. 그 결과 '교육, 요구, 부모, 통합교육' 등의 키워드가 빈도수, 연결 및 위세 중심성에서 높은 순위를 차지하였다. 그리고 매개 중심성은 '부모, 교사, 문제, 프로그램, 상담'이 높은 순위를 차지하였다. CONCOR분석에서는 '장애, 유아, 진단, 프로그램'의 키워드를 중심으로 하는 4개 군집이 형성되었다. 이러한 연구 결과를 바탕으로 장애 유아에 대한 사회적 인식의 주제가 무엇인지 살펴보고, 주제별 시사점을 논하였다.

소셜 빅데이터로 알아본 코로나19와 가족생활: 토픽모델 접근 (COVID-19 and Korean Family Life on Social Media: A Topic Model Approach)

  • 박선영;이재림
    • 한국콘텐츠학회논문지
    • /
    • 제21권3호
    • /
    • pp.282-300
    • /
    • 2021
  • 본 연구의 목적은 코로나19 확산으로 가족생활에서 급격한 변화가 일어난 1차 확산기에 블로그와 온라인 카페에 게시된 소셜 빅데이터를 분석하여 키워드를 파악하고, 게시글에 잠재된 주요 토픽을 발견하는 것이다. 강화된 사회적 거리두기가 처음 시행되었던 2020년 2월 23일부터 4월 19일까지 네이버와 다음의 블로그 및 카페에 게시된 글 중 '코로나'와 '가족' 또는 '코로나'와 '가정'이 함께 언급된 문서 총 351,734건을 분석하였다. 수집된 데이터는 전처리를 거쳐 텍스트 마이닝 기법으로 분석하였다. TF-IDF 가중치 값을 바탕으로 상위 100개 단어를 살펴보았으며, 잠재디리클레할당 방식의 토픽모델 분석을 통해 총 22개 토픽을 도출하고 토픽명을 부여하였다. 연구결과, 코로나19가 가족의 일상생활에 미친 전방위적 영향이 나타났으며, 특히 식생활, 주거생활, 여가생활, 종교생활, 자녀돌봄, 자녀교육, 가족관계, 가족의례 등에서 변화가 두드러졌다. 더불어, 가족 관련 국내 문헌에서는 잘 논의되지 않던 건강공동체로서의 가족을 시사하는 토픽도 등장하였다.

토픽모델링을 이용한 교육정책 키워드 기반 소셜미디어 분석 (Social Media Analysis Based on Keyword Related to Educational Policy Using Topic Modeling)

  • 정진명;박영호;김우주
    • 인터넷정보학회논문지
    • /
    • 제19권4호
    • /
    • pp.53-63
    • /
    • 2018
  • 정보를 전달하고 여론을 형성하는 전통적인 매스미디어의 기능이 ICT 기술의 발전으로 소셜미디어를 통해 정보와 의견을 공유하는 환경으로 급격하게 변해 왔으며, 그 영향력을 더욱 강화시키고 있다. 즉, 일반 대중들이 소셜미디어를 통해 정치 사회 경제 변화에 대한 여론을 생산하고 공유하는 여론의 영향력이 갈수록 커지고 있는 것이 확인되고 있으며, 그 변화는 선거활동과 같은 정치 분야에서 활용되고 있다. 소셜미디어를 활용해서 대중들의 의사를 파악하고, 반영하기 위한 노력은 정치 영역뿐만 아니라 공공 영역에서도 활발하게 이루어지고 있다. 본 논문은 교육분야 정책과정에서 소셜미디어 기반 여론을 활용하기 위한 가능성을 탐색하는 것을 목적으로 한다. 이를 위해 교육정책 중 소프트웨어교육에 관한 키워드를 중심으로 데이터를 수집하고, 문서의 주요 토픽과 토픽별 출현 확률, 토픽 트렌드를 분석하였다. 그 결과 '국내 컴퓨터 교육 시간'토픽이 전체의 43.99%를 차지하였으며, '프라임 사업 선정' 토픽이 36.81%, '인공지능 프로그램'토픽이 7.94%의 출현 확률을 나타내어, 대중의 소프트웨어교육 정책에 대한 주요 관심도를 파악할 수 있었다. 또한, 시기별 토픽 추세 및 연관성 있는 토픽간의 트렌드 비교 분석을 통하여 동일한 주제의 정책이라도 교육과정의 시기와 정책의 대상에 따라 유연한 정책수립이 필요하다는 시사점을 도출할 수 있었다.

국가가뭄정보분석시스템을 활용한 최근 가뭄관련 언론현황 분석 및 고찰 (The Analysis of the Recent News on Domestic Drought Situation by National Drought Information-Analysis System)

  • 이호선;전근일;박재영
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2017년도 학술발표회
    • /
    • pp.340-340
    • /
    • 2017
  • 최근 전 세계적으로 기후변화로 인한 가뭄이 빈번히 발생하고 있으며 우리나라도 '14~'15년 장기화된 가뭄으로 인해 많은 어려움을 겪었다. 이러한 가뭄은 비교적 느린 속도로 진행되고 그 영향이 복잡하게 나타나기 때문에 적절한 사전대응이 이루어지지 않으면 상당한 피해를 겪게 된다. 최근 기존 수자원 정보의 수집과 분석을 탈피해서 다른 사회 시스템과의 연계 추진하는 빅데이터 개념의 적용시도가 이루어지고 있다. K-water 국가가뭄정보분석센터에서는 가뭄의 사전인지와 영향평가의 보조적인 수단으로서 뉴스를 활용하는 방법론을 도출하고 이를 시스템에 구현하여 적용하여 활용성을 분석하였다. 언론(뉴스)정보는 가뭄의 발생, 영향, 대응 등을 포괄적으로 검색할 수 있도록 가뭄진행 순서에 따라 가뭄징조 및 예측, 가뭄발생, 가뭄영향, 가뭄대응, 가뭄대비 및 해소 관련 5개 카테고리와 이와 관련된 69개 세부 키워드로 구분하고 이를 시스템에 반영하였다. 빅데이터 기능을 적용하여 인터넷 뉴스를 해당키워드를 적용해 자동으로 수집할 수 있도록 하였으며 중복되거나 관련 없는 뉴스를 제외하고 이를 다시 발생지역으로 공간 구분하여 GIG 맵에 표출될 수 있도록 구축하였다. 구축된 시스템을 활용하여 '16년을 대상으로 수집된 총 448건의 뉴스자료를 분석한 결과 시스템에 구축되어 있는 '16년 용수공급체계를 반영한 가뭄평가결과와 발생위치, 발생시기, 피해내용 등이 '16년 물수급 현황을 잘 나타내는 것으로 나타났다. 향후 센터에서는 뉴스이외에 소셜미디어와 SNS등에서 다양한 가뭄관련정보를 빅데이터 수집방식에 의해 확보하고 이를 가뭄인자와 영향평가에 대한 참고자료로서 활용하기 위한 방안과 시스템 적용을 통한 검증을 지속적으로 진행할 예정이다.

  • PDF

LDA 토픽 모델링을 이용한 액티브 시니어 콘텐츠 트렌드 분석 (Active Senior Contents Trend Analysis using LDA Topic Modeling)

  • 이동우;김유신;신은정
    • 인터넷정보학회논문지
    • /
    • 제22권5호
    • /
    • pp.35-45
    • /
    • 2021
  • 베이비 부머 세대가 고령인구로 진입하면서 기존의 시니어와는 달리 활동적인 모습을 보이는 시니어들이 액티브 시니어라는 신조어로 불리며 새로운 소비자 층으로 떠오르고 있다. 많은 국가들과 기업들도 이들을 주목하고 관련 정책이나 서비스를 제공하고자 하지만 액티브 시니어 트렌드에 대한 연구는 매우 부족한 실정이다. 본 논문에서는 이러한 액티브 시니어에 대한 특징과 이들이 생산하고 소비하는 온라인 미디어 콘텐츠 트렌드를 파악하여, 액티브 시니어를 적극 포용하고 지원할 수 있는 온라인 미디어에 대한 정책 및 서비스 방향성을 제시하고자한다. 이를 위해 소셜 미디어에서 액티브 시니어를 수집 키워드로 2018년 1월 1일부터 2021년 6월 31일까지 8,740건의 데이터를 수집하여 키워드 빈도 분석, TF-IDF 분석, LDA 토픽 모델링 분석을 하였다. 키워드 빈도 분석 및 TF-IDF 분석을 통해서 액티브시니어에 대한 관심도가 급증하고 있다는 것을 파악하였으며 LDA 토픽 모델링 분석을통해서 온라인 콘텐츠의 주제 영역을 10가지로 분류하고 라이프 스타일, 혜택, 쇼핑, 정부 사업, 정부 교육, 건강, 사회/경제, 케어 산업, 실버 주택, 여가로 명명하였다.