• 제목/요약/키워드: 트위터 데이터

검색결과 229건 처리시간 0.025초

소셜미디어를 통한 우울 경향 이용자 담론 주제 분석 (An Analysis of the Discourse Topics of Users who Exhibit Symptoms of Depression on Social Media)

  • 서하림;송민
    • 정보관리학회지
    • /
    • 제36권4호
    • /
    • pp.207-226
    • /
    • 2019
  • 우울증은 전 세계적으로 많은 사람들이 겪고 있으며, 최근 다양한 분야에서 꾸준히 우울증에 대한 연구가 수행되고 있다. 특히 사람들이 본인의 스트레스나 감정 상태에 대해 소셜미디어에 공유한 글을 통해 그들의 심리나 정신건강에 대해 파악해보고자 하는 맥락에서 소셜미디어를 활용한 연구 역시 유의미하게 받아들여지고 있다. 이에 본 연구에서는 우울 경향의 이용자와 그렇지 않은 이용자들의 2016년부터 2019년 2월까지의 트위터 데이터를 수집하여 어떤 주제적, 어휘 사용의 특성을 보이는지 보고자 하였으며, 우울 경향의 시기별로도 어떤 차이를 보이는지 살펴보기 위해 우울 경향 관측 날짜를 기준으로 하여 이전(before) 시기와 이후(after) 시기를 구분하여 실험을 수행하였다. 토픽모델링, 동시출현 단어분석, 감성분석 방법을 통해 우울 경향과 비(非)우울 경향 이용자의 텍스트의 주제적 차이를 살펴보았고, 감성 반응에 따라 사용한 어휘에 대해서도 살펴봄으로써 어떠한 특성이 있는지 확인해 보았다. 데이터 수집 단계에서 '우울' 표현을 포함한 텍스트 데이터 수집방법을 통해 비교적 긴 기간, 많은 양의 데이터를 수집할 수 있었고, 또한 우울 경향의 여부와 시기적 구분에 따른 관심 주제에 대한 차이도 확인할 수 있었다는 점에서 유의미하다고 볼 수 있다.

개체 중의성 해소를 위한 사용자 유사도 기반의 트윗 개체 링킹 기법 (Tweet Entity Linking Method based on User Similarity for Entity Disambiguation)

  • 김서현;서영덕;백두권
    • 정보과학회 논문지
    • /
    • 제43권9호
    • /
    • pp.1043-1051
    • /
    • 2016
  • 트위터 문서는 웹 문서에 비해 길이가 짧기 때문에 웹 기반의 개체 링킹 기법을 그대로 적용시킬 수 없어 사용자 정보나 집단의 정보를 활용하는 방법들이 시도되고 있다. 하지만, 트윗의 개수가 충분하지 않은 사용자의 경우 데이터 희소성 문제가 여전히 발생하고 관련이 없는 집단의 정보를 사용할 경우 링킹의 결과에 악영향을 미칠 수 있다. 본 논문에서는 기존 연구의 문제를 해결하기 위해 단일 트윗 내의 의미 관련도 뿐만 아니라 사용자의 트윗 집합과 다른 사용자들의 트윗 집합까지 고려하여 데이터 희소성을 해결하고, 관련성이 높은 사용자들의 트윗 정보에 가중치를 주어 트윗 개체 링킹의 성능을 높이고자 한다. 실제 트위터 데이터를 활용한 실험을 통해 제안하는 트윗 개체 링킹 기법이 기존의 기법에 비해 높은 성능을 가지며, 유사도가 높은 사용자의 정보를 사용하는 것이 트윗 개체 링킹에서 데이터 희소성 해결과 링킹 정확도 향상에 연관성이 있음을 보였다.

트위터 사용자의 위치정보와 성향을 고려한 트윗 수집 시스템 (Tweet Acquisition System by Considering Location Information and Tendency of Twitter User)

  • 최우성;임준엽;황병연
    • Spatial Information Research
    • /
    • 제22권3호
    • /
    • pp.1-8
    • /
    • 2014
  • 최근 소셜 네트워크 서비스가 급격히 성장하면서, 소셜 네트워크 분석에 관련된 연구들도 많은 관심을 받고 있다. 특히 트위터는 사회적 이슈나 사건들에 대해 실시간으로 반응하기 때문에, 사회과학 분야나 정보검색 분야의 연구자들이 유용한 실험 데이터를 수집하는 데에 활용되고 있다. 그러나 정작 데이터를 수집하는 방법론에 관한 연구는 아직 미흡하다. 이에 본 논문에서는 위치 기반의 이벤트와 정치 사회적 이벤트 위주의 사용자의 성향을 고려한 트윗 수집 시스템을 제안한다. 우선 위치정보와 이벤트 관련 키워드를 포함하고 있는 트윗과 정치 사회적인 이벤트 검출에 필요한 ID들을 수집한 후, 사용자들의 성향을 분류할 ID 분석기를 설계했다. 또한 ID 분석기의 신뢰도 측정을 위해 상위 등급에 분류된 ID를 이용하여 트윗을 분석했다. 분석결과 1등급으로 분류된 ID는 88.8%의 신뢰도를 보였으며, 2등급으로 분류된 ID는 76.05%의 신뢰도를 보였다. 또한 ID 분석기는 77.5%의 신뢰도를 보였으며 소수의 ID를 사용함으로써 데이터의 수집시간을 줄였다.

텍스트마이닝을 활용한 핀테크 및 디지털 금융 서비스 트렌드 분석 (Trend Analysis of FinTech and Digital Financial Services using Text Mining)

  • 김도희;김민정
    • 디지털융복합연구
    • /
    • 제20권3호
    • /
    • pp.131-143
    • /
    • 2022
  • 본 연구는 핀테크를 중심으로 국내 디지털 금융 서비스 시장의 트렌드를 파악하고자 신문기사와 트위터 데이터를 대상으로 텍스트마이닝 기법을 사용하여 분석을 진행하였다. 핀테크 시장의 성장 과정에 있어서 간편결제 서비스 도입, 인터넷전문은행 출범, 데이터 3법 개정안 통과, 마이데이터 사업 신청 등 중요하게 작용을 한 4가지 시점을 기준으로 빈도분석을 수행하여 핵심 키워드 간의 차이를 살펴보았다. 또한 핀테크 선도 국가인 중국·미국과 미래 키워드를 핀테크 키워드와 결합한 빈도분석 결과를 통해 세계 시장 속에서 국내 핀테크 산업의 현 위치와 미래 시장 전망을 예측하였다. 마지막으로 트위터 트윗을 대상으로 감성분석을 진행하여 핀테크 서비스에 대한 소비자의 기대와 우려를 정량화하였다. 따라서 본 연구는 금융 생태계 변화 과정을 살펴보고, 분석 결과를 종합함으로써 정부와 기업이 향후 핀테크 시장 발전에 있어서 활용할 수 있는 전략적 방향성 및 대응 전략을 제시한 점에서 의의가 있다.

빅데이터 분석을 통해 본 AI교육에 대한 사회적 인식: 뉴스기사와 트위터를 중심으로 (An analysis of public perception on Artificial Intelligence(AI) education using Big Data: Based on News articles and Twitter)

  • 이상숙;유인혁;김진희
    • 디지털융복합연구
    • /
    • 제18권6호
    • /
    • pp.9-16
    • /
    • 2020
  • 본 연구는 현 정부가 적극적으로 추진·지원하는 AI교육에 관한 대중의 요구를 파악하는 데 그 목적이 있다. 이를 위해 2018년 1월 1일부터 2019년 12월 31까지 AI교육에 대한 11개의 중앙지 뉴스기사와 트위터 게시글을 수집하여 단어 빈도분석과 토픽모델링분석을 실시하였다. 단어빈도 분석은 TF(Term Frequency)기법을, 토픽모델링분석은 잠재 디리클레 할당(Latent Dirichlet Allocation)기법을 사용하였다. 분석결과, 뉴스기사는 AI분야의 여성인재 육성, 대학교육과정의 변화, K-12의 소프트웨어 교육 및 교육과정 변화 등 거시적인 정책 지원에 대한 토픽이, 트위터에서는 지능형로봇과의 공존시대와 같은 보다 구체적인 미래시대에 대한 사회적 인식과 코딩교육, 인간의 고유역량개발 등과 같은 미래역량과 교육방법론 등에 대한 토픽이 도출되었다. 이러한 연구결과는 AI교육과정 구성 및 운영 방안과 미래 산업 인재 양성 정책 개발을 위한 시사점을 제공해 줄 수 있을 것으로 기대한다.

하둡을 이용한 온라인 대용량 저장소 구현 (Implementation on Online Storage with Hadoop)

  • 엄세진;임승호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.56-58
    • /
    • 2013
  • 최근 페이스북이나 트위터와 같은 소셜네트워크 서비스를 포함하여 대용량의 빅데이터에 대한 처리와 분석이 중요한 이슈로 다뤄지고 있으며, 사용자들이 끊임없이 쏟아내는 데이터로 인해서 이러한 데이터들을 어떻게 다룰 것인지, 혹은 어떻게 분석하여 의미 있고, 가치 있는 것으로 가공할 것인지가 중요한 사안으로 여겨지고 있다. 이러한 빅데이터 관리 도구로써 하둡은 빅데이터의 처리와 분석에 있어서 가장 해결에 근접한 도구로 평가받고 있다. 이 논문은 하둡의 주요 구성요소인 HDFS(Hadoop Distributed File System)와 JAVA에 기반하여 제작되는 온라인 대용량 저장소 시스템의 가장 기본적인 요소인 온라인 데이터 저장소를 직접 설계하고 제작하고, 구현하여 봄으로써 대용량 저장소의 구현 방식에 대한 이슈를 다뤄보도록 한다.

Storm 기반 실시간 SNS 데이터의 동적 태그 클라우드 (Storm-based Dynamic Tag Cloud of Real-time SNS Data)

  • 손시운;김다솔;이수정;길명선;문양세
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.47-49
    • /
    • 2016
  • 최근 SNS(social networking service)의 사용이 급증함에 따라 SNS에서 발생하는 데이터의 분석이 활발해졌다. 하지만 SNS 데이터는 빠르게 생성되며 정형화 되어 있지 않은 빅데이터이기 때문에 그대로 수집할 경우 분석하기가 어렵다. 본 논문은 분산 스트리밍 처리 기술인 Storm을 사용하여 트위터에서 실시간으로 발생하는 데이터를 수집 및 집계하고, 태그 클라우드를 사용하여 집계 결과를 동적으로 시각화하고자 한다. 또한 사용자가 쉽게 키워드를 입력하고 시각화 결과를 실시간으로 확인할 수 있도록 웹 인터페이스를 구현한다. 그리고 결과를 통해 태그 클라우드의 결과가 시간에 따라 바르게 시각화되었는지 확인한다. 본 논문은 빠르게 발생하는 SNS 데이터로부터 각 키워드와 관련된 정보를 시각화하여 각 사용자에게 제공할 수 있는 우수한 결과가 사료된다.

연결 데이터 환경에서 접근제어를 위한 RBAC 모델 (A RBAC Model for Access Control in Linked Data Environments)

  • 이종현;김장원;정동원;백두권
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.181-184
    • /
    • 2010
  • 이 논문에서는 Linking Open Data 프로젝트를 기반으로 개발된 어플리케이션들의 접근제어를 위하여 기존 RBAC 모델을 연결 데이터에 적용 가능하도록 확장한 모델을 제안한다. 제안 모델은 온톨로지의 구조에 RBAC 모델에 적용할 수 있도록 RBAC 모델에 사용자를 위한 제약조건을 온톨로지로 표현하였으며, 지능형 엔진을 통해 사용자에게 적합한 권한을 추론한다. 사용자에 적합한 접근권한을 주기 위해 FOAF, flickr, 트위터 등의 데이터가 연결되어있는 연결 데이터로부터 사용자 프로파일을 확장할 수 있는 정보를 획득할 수 있으며, 이를 기존 정보에 확장하여 사용자의 권한을 부여한다. 본 논문에서 제안한 모델의 실효성을 검증하기 위하여 DBpedia Mobile을 위한 접근제어 시스템을 설계하였으며 안드로이드 SDK 환경에 프로토타입을 구현하여 제안 모델을 연결 데이터 환경의 어플리케이션에 적용 가능함을 보였다.

챗봇 데이터에 나타난 우울의 범주와 특성에 관한 연구 (A study on the categories and characteristics of depressive moods in chatbot data)

  • 진효진;백금희;차지영;최정회;임현승;차미영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.993-996
    • /
    • 2021
  • 챗봇의 사용 용도는 일상 대화와 소비자 응대를 넘어서 심리 상담 용도로 확장하고 있다. 이 연구에서는 챗봇-사람 채팅에서 무작위로 추출한 '우울'과 관련된 대화 데이터를 텍스트마이닝 기법으로 분석하여 채팅에서의 우울 관련 담론 주제를 파악하였다. 더불어 정성 분석을 통해 사용자들이 챗봇에 털어놓고 있는 '우울' 의 종류를 범주화하고 분류하여, 트위터의 '우울' 데이터와의 차이점을 비교하였다. 이를 통해 챗봇 데이터의 '우울' 대화만의 특징을 파악하고, 우울 증상 탐지와 그에 따른 적절한 심리지원 정보를 제공하는 서비스 디자인의 착안점을 제시한다.

대용량 소셜 미디어 감성분석을 위한 반감독 학습 기법 (Semi-supervised learning for sentiment analysis in mass social media)

  • 홍소라;정연오;이지형
    • 한국지능시스템학회논문지
    • /
    • 제24권5호
    • /
    • pp.482-488
    • /
    • 2014
  • 대표적인 소셜 네트워크 서비스(SNS)인 트위터의 내용을 분석하여 자동으로 트윗에 나타난 사용자의 감성을 분석하고자 한다. 기계학습 기법을 사용해서 감성 분석 모델을 생성하기 위해서는 각각의 트윗에 긍정 또는 부정을 나타내는 감성 레이블이 필요하다. 그러나 사람이 모든 트윗에 감성 레이블을 붙이는 것은 비용이 많이 소요되고, 실질적으로 불가능하다. 그래서 본 연구에서는 "감성 레이블이 있는 데이터"와 함께 "감성 레이블이 없는 데이터"도 활용하기 위해서 반감독 학습기법인 self-training 알고리즘을 적용하여 감성분석 모델을 생성한다. Self-training 알고리즘은 "레이블이 있는 데이터"의 레이블이 있는 데이터를 활용하여 "레이블이 없는 데이터"의 레이블을 확정하여 "레이블이 있는 데이터"를 확장하는 방식으로, 분류모델을 점진적으로 개선시키는 방식이다. 그러나 데이터의 레이블이 한번 확정되면 향후 학습에서 계속 사용되므로, 초기의 오류가 계속적으로 학습에 영향을 미치게 된다. 그러므로 조금 더 신중하게 "레이블이 없는 데이터"의 레이블을 결정할 필요가 있다. 본 논문에서는 self-training 알고리즘을 이용하여 보다 높은 정확도의 감성 분석 모델을 생성하기 위하여, self-training 중 "감성 레이블이 없는 데이터"의 레이블을 결정하여 "감성 레이블이 있는 데이터"로 확장하기 위한 3가지 정책을 제시하고, 각각의 성능을 비교 분석한다. 첫 번째 정책은 임계치를 고려하는 것이다. 분류 경계로부터 일정거리 이상 떨어져 있는 데이터를 선택하고자 하는 것이다. 두 번째 정책은 같은 개수의 긍/부정 데이터를 추가하는 것이다. 한쪽 감성에 해당하는 데이터에만 국한된 학습을 하는 것을 방지하기 위한 것이다. 세 번째 정책은 최대 개수를 고려하는 것이다. 한 번에 많은 양의 데이터가 "감성 레이블이 있는 데이터"에 추가되는 것을 방지하고 상위 몇%만 선택하기 위해서, 선택되는 데이터의 개수의 상한선을 정한 것이다. 실험은 긍정과 부정으로 분류되어 있는 트위터 데이터 셋인 Stanford data set에 적용하여 실험하였다. 그 결과 학습된 모델은 "감성 레이블이 있는 데이터" 만을 가지고 모델을 생성한 것보다 감성분석의 성능을 향상 시킬 수 있었고 3가지 정책을 적용한 방법의 효과를 입증하였다.