• 제목/요약/키워드: SNS Big Data

검색결과 230건 처리시간 0.027초

대용량 데이터 분석을 위한 맵리듀스 기반 kNN join 질의처리 알고리즘 (A MapReduce-based kNN Join Query Processing Algorithm for Analyzing Large-scale Data)

  • 이현조;김태훈;장재우
    • 정보과학회 논문지
    • /
    • 제42권4호
    • /
    • pp.504-511
    • /
    • 2015
  • 최근 모바일 기술의 발달 및 소셜 네트워크 서비스의 활성화를 통해 사용자 데이터가 급격히 증대되고 있다. 이에 따라 대용량 데이터에 대한 효율적인 데이터 분석 기법에 대한 연구가 활발히 이루어지고 있다. 대표적인 대용량 데이터 분석 기법으로는 맵리듀스 환경에서 보로노이 다이어그램을 이용한 k 최근접점 조인(VkNN-join) 알고리즘이 존재한다. 데이터집합 R, S에 대해, VkNN-join 알고리즘은 부분집합 Ri에 연관된 부분집합 Sj만을 후보탐색 영역으로 선정하여 질의처리를 수행하기 때문에, 대용량 데이터에 대한 join 질의처리 시간을 감소시키는 장점이 존재한다. 그러나 VkNN-join은 보로노이 다이어그램을 사용하기 때문에, 색인 구축 비용이 높은 단점이 존재한다. 아울러 kNN 질의처리를 위한 후보 영역 선정 시 k값에 비례하여 후보영역의 크기가 증가하기 때문에, kNN 연산 오버헤드가 증가하는 문제점이 존재한다. 이를 해결하기 위해 본 논문에서는 대용량 데이터 분석을 위한 맵리듀스 기반 kNN join 질의처리 알고리즘을 제안한다. 제안하는 질의처리 알고리즘은 시드 기반의 동적 분할을 통해 색인구조 구축비용을 절감한다. 또한 시드 간 평균 거리를 기반으로 질의 처리 후보 영역을 선정함으로써, kNN-join 질의를 위한 연산 오버헤드를 감소시킨다. 아울러, 성능 평가를 통해 제안하는 기법이 질의처리 시간 측면에서 기존 기법에 비해 우수함을 보인다.

뉴스기사를 이용한 소비자의 경기심리지수 생성 (Construction of Consumer Confidence index based on Sentiment analysis using News articles)

  • 송민채;신경식
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.1-27
    • /
    • 2017
  • 경제주체들의 경기상황에 대한 판단 및 전망은 경기변동에 영향을 미치므로 경기심리지수와 거시경제지표들 간에는 밀접한 관련성을 나타내는 것으로 알려져 있다. 경기선행지표로 국내에서 많이 사용되는 경기심리지수에는 소비자동향조사, 기업경기조사, 경제심리지수가 있다. 그러나 설문조사를 통해 생성된 지수는 자료의 성격상 속보성이 떨어지는 문제가 있다. 본 연구에서는 이러한 정형데이터의 한계를 보완할 수 있도록 비정형데이터에서 정보를 추출해 경기심리지수를 생성하고, 경제분석에서의 활용 가능성을 검토하였다. 민간소비와 관련된 실물지표에는 소매판매업지수와 서비스업생산지수를 사용하였고, 고용지표에는 고용률과 실업률을, 가격지표에는 소비자물가상승률과 가계의 대출금리를 사용하여 지표들 간의 추이 분석 및 시차구조 파악을 위한 교차상관분석을 수행하였다. 마지막으로 이들 지표들에 대한 예측 가능성을 점검하였다. 분석결과, 다른 지표들의 선행지수로 많이 사용되는 소비자심리지수와 비교해 선택 지표들과 높은 상관관계를 보이며, 1~2개월 선행한 것으로 나타났다. 예측력 또한 향상되어 텍스트데이터에서 생성한 소비자 경기심리지수의 유용성이 확인되었다. 온라인에서 생성되는 뉴스기사나 소셜 SNS 등의 텍스트 데이터는 속보성이 뛰어나고, 커버리지가 넓어 특정 경제적 이슈가 발생할 경우 이것이 경제에 미치는 영향을 빠르게 파악할 수 있다는 점에서 경기판단지표로써의 잠재적 가능성이 클 것으로 보인다. 경제분석에서 비정형데이터를 활용한 국내연구는 초기 단계지만 데이터의 유용성이 확인되면 그 활용도가 크게 높아질 것으로 기대한다.

텍스트 분석을 활용한 정보의 수요 공급 기반 뉴스 가치 평가 방안 (A Method for Evaluating News Value based on Supply and Demand of Information Using Text Analysis)

  • 이동훈;최호창;김남규
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.45-67
    • /
    • 2016
  • 최근 정보 유통의 주요 매체인 인터넷 뉴스와 SNS의 매체 간 특성 차이를 주목한 많은 연구가 있었음에도 불구하고, 양 매체의 차이를 정보의 수요 및 공급 관점에서 파악한 연구는 상대적으로 매우 부족하다. 일반적으로 새로운 정보는 언론사의 뉴스 기사를 통해 대중에게 노출되고, 대중은 이러한 기사에 대한 의견 또는 추가정보를 SNS를 통해 공유함으로써 해당 정보를 수용함과 동시에 확산시킨다. 이러한 측면에서 언론사가 뉴스를 제공하는 행위를 정보의 공급으로 파악할 수 있으며, 대중은 SNS를 통해 이에 대한 관심을 능동적으로 나타냄으로써 해당 정보에 대한 소비 수요를 표출하는 것으로 이해할 수 있다. 이는 상품 및 서비스의 가격이 수요와 공급의 관계에 의해 결정되는 것과 유사한 원리로, 정보의 가치를 정보 수요와 정보 공급의 관계에 기반을 두어 측정할 수 있음을 시사한다. 본 연구에서는 정보 공급의 대표 매체로 인터넷 뉴스 기사를, 정보 수요를 나타내는 대표 매체로 트위터를 선정하고, 특정 이슈에 대한 뉴스의 정보로서의 가치를 이와 관련된 트위터의 양으로 평가하는 뉴스가치지수(NVI, News Value Index)를 고안하여 제시한다. 구체적으로 제안 방법론은 각 이슈별로 NVI를 도출하고 이를 통해 시간의 흐름에 따른 정보 가치의 변화를 시각화하여 나타낸다. 또한 본 연구에서는 제안 방법론의 실무 적용 가능성을 평가하기 위해 인터넷 뉴스 387,018건과 트윗 31,674,795건에 대한 실험을 수행하였다. 그 결과 대부분의 이슈가 전체 정보 시장의 평균 가치에 수렴하는 형태로 변화함을 알 수 있었으며, 꾸준히 평균 이상의 가치를 가지며 정보 시장을 장악하는 등 특이한 양상을 보이는 흥미로운 이슈도 존재함을 파악할 수 있었다.

모국에 자녀를 둔 기혼 여자유학생의 자녀교육 경험에 관한 연구 (A study on the child education experiences of married female students who left their children in their home countries for study abroad)

  • 박미숙;갈라노바 딜노자
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제6권10호
    • /
    • pp.121-129
    • /
    • 2016
  • 본 연구의 목적은 모국에 자녀를 둔 여자 유학생의 자녀교육경험을 탐색하는 것이다. 이를 위해 설정된 연구문제 첫째, 기혼 여자유학생의 유학생활에 모국의 자녀는 어떤 의미를 부여하는가? 둘째, 모국에 있는 자녀교육은 어떤 방식으로 이루어지는가? 이다. 연구는 2016년 3월부터 2016년 5월까지 모국에 자녀들 두고 한국으로 유학 온 기혼 여자 유학생 6명을 대상으로 심층인터뷰를 하여 이들의 사례를 분석하였다. 분석결과 유학생활에서 자녀의 의미는 첫째, 기혼 여자유학생에게 자녀는 모든 생활에서 가장 우선에 두었다. 둘째, 자녀들은 유학생활에 여러가지 동인을 제공하였다. 셋째, 유학생활에서 자녀들은 모든 생활에 모범적이게 하였다. 또한 모국에 있는 자녀교육은 첫째, 모국에서 양육하는 사람에게 일임하였으나 자녀을 위해 내려야하는 큰 결정은 자신이 해주었다. 둘째, 항상 자녀에게 관심을 가지고 있으며 SNS를 통하여 수시로 자녀의 모든 것을 확인하고 있었다. 셋째, 자녀에게 미안한 마음에 자녀의 의견을 적극 반영하였다. 이러한 연구를 통하여 기혼 여자 유학생들의 학교생활에 고충을 덜어주고 유학생활을 잘 마칠 수 있는 자료가 되길 기대한다.

트윗 데이터를 활용한 IT 트렌드 분석 (An Analysis of IT Trends Using Tweet Data)

  • 이진백;이충권;차경진
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.143-159
    • /
    • 2015
  • 불확실한 환경변화에 대처하고 장기적 전략수립을 위해 기업에게 있어서 IT 트렌드에 대한 예측은 오랫동안 중요한 주제였다. IT 트렌드에 대한 예측을 기반으로 새로운 시대에 대한 인식을 하고 예산을 배정하여 빠르게 변화하는 기술의 추세에 대비할 수 있기 때문이다. 해마다 유수의 컨설팅업체들과 조사기관에서 차년도 IT 트렌드에 대해서 발표되고는 있지만, 이러한 예측이 실제로 차년도 비즈니스 현실세계에서 나타났는지에 대한 연구는 거의 없었다. 본 연구는 현존하는 빅데이터 기술을 활용하여 서울지역을 중심으로 지난 8개월동안(2013년 5월1일부터 2013년12월31까지) 정보통신산업진흥원과 한국정보화진흥원에서 2012년 말에 발표한 IT 트렌드 토픽이 언급된 21,589개의 트윗 데이터를 수집하여 분석하였다. 또한 2013년에 나라장터에 올라온 프로젝트들이 IT트렌드 토픽과 관련이 있는지 상관관계분석을 실시하였다. 연구결과, 빅데이터, 클라우드, HTML5, 스마트홈, 테블릿PC, UI/UX와 같은 IT토픽은 시간이 지날수록 매우 빈번하게 언급되어졌으며, 이 같은 토픽들은 2013년 나라장터 공고 프로젝트 데이터와도 매우 유의한 상관관계를 가지고 있는 것을 확인할 수 있었다. 이는 전년도(2012년)에 예측한 트렌드들이 차년도(2013년)에 실제로 트위터와 한국정부의 공공조달사업에 반영되어 나타나고 있는 것을 의미한다. 본 연구는 최신 빅데이터툴을 사용하여, 유수기관의 IT트렌드 예측이 실제로 트위터와 같은 소셜미디에서 생성되는 트윗데이터에서 얼마나 언급되어 나타나는지 추적했다는 점에서 중요한 의의가 있고, 이를 통해 트위터가 사회적 트랜드의 변화를 효율적으로 추적하기에 유용한 도구임을 확인하고자 할 수 있었다.

순차적 추천에서의 RNN, CNN 및 GAN 모델 비교 연구 (A Comparison Study of RNN, CNN, and GAN Models in Sequential Recommendation)

  • 윤지형;정재원;장백철
    • 인터넷정보학회논문지
    • /
    • 제23권4호
    • /
    • pp.21-33
    • /
    • 2022
  • 최근 추천 시스템은 영화, 음악, 온라인 쇼핑 및 SNS 등 다양한 분야들에서 광범위하게 활용되고 있으며, 추천 시스템 분야에서 1세대 모델이라고 할수 있는 Apriori 모델을 통한 연관분석부터 최근 많은 주목을 받는 딥러닝 기반 모델들까지 많은 모델들이 제안되어왔다. 추천 시스템에서 기본 모델들은 협업 필터링(Collaborative filtering) 방법, 콘텐츠 기반 필터링(Content-based filtering) 방법, 그리고 이 두 방법을 통합적으로 사용하는 하이브리드 필터링(Hybrid filtering) 방법으로 분류될 수 있다. 하지만 이러한 모델들은 최근 점점 빠르게 변화하는 사용자-아이템 간의 상호관계와 빅데이터의 발전과 같은 내외 변화 요인들에 적응하지 못하면서 점점 분야 내 방법론으로써의 지위를 잃어가고 있다. 반면, 추천 시스템 내에서 딥러닝 기반 모델들은 비선형 변환, 표현학습, 순차적 모델링, 그리고 유연성과 같은 장점들 때문에 그 비중이 높아지고 있는 추세이다. 본 논문에서는 딥러닝 기반 추천 모델들 중에서도 사용자-아이템 간의 상호작용에 대해 보다 정확하고, 유연성 있게 분석이 가능한 순차적 모델링에 적합한 순환 신경망, 합성곱 신경망, 그리고 생성적 적대 신경망 중심 기반 모델로 분류하여 비교 및 분석한다.

다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 미치는 영향 연구 (The Effect of Meta-Features of Multiclass Datasets on the Performance of Classification Algorithms)

  • 김정훈;김민용;권오병
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.23-45
    • /
    • 2020
  • 기업의 경쟁력 확보를 위해 판별 알고리즘을 활용한 의사결정 역량제고가 필요하다. 하지만 대부분 특정 문제영역에는 적합한 판별 알고리즘이 어떤 것인지에 대한 지식은 많지 않아 대부분 시행착오 형식으로 최적 알고리즘을 탐색한다. 즉, 데이터셋의 특성에 따라 어떠한 분류알고리즘을 채택하는 것이 적합한지를 판단하는 것은 전문성과 노력이 소요되는 과업이었다. 이는 메타특징(Meta-Feature)으로 불리는 데이터셋의 특성과 판별 알고리즘 성능과의 연관성에 대한 연구가 아직 충분히 이루어지지 않았기 때문이며, 더구나 다중 클래스(Multi-Class)의 특성을 반영하는 메타특징에 대한 연구 또한 거의 이루어진 바 없다. 이에 본 연구의 목적은 다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 유의한 영향을 미치는지에 대한 실증 분석을 하는 것이다. 이를 위해 본 연구에서는 다중 클래스 데이터셋의 메타특징을 데이터셋의 구조와 데이터셋의 복잡도라는 두 요인으로 분류하고, 그 안에서 총 7가지 대표 메타특징을 선택하였다. 또한, 본 연구에서는 기존 연구에서 사용하던 IR(Imbalanced Ratio) 대신 시장집중도 측정 지표인 허핀달-허쉬만 지수(Herfindahl-Hirschman Index, HHI)를 메타특징에 포함하였으며, 역ReLU 실루엣 점수(Reverse ReLU Silhouette Score)도 새롭게 제안하였다. UCI Machine Learning Repository에서 제공하는 복수의 벤치마크 데이터셋으로 다양한 변환 데이터셋을 생성한 후에 대표적인 여러 판별 알고리즘에 적용하여 성능 비교 및 가설 검증을 수행하였다. 그 결과 대부분의 메타특징과 판별 성능 사이의 유의한 관련성이 확인되었으며, 일부 예외적인 부분에 대한 고찰을 하였다. 본 연구의 실험 결과는 향후 메타특징에 따른 분류알고리즘 추천 시스템에 활용할 것이다.

비정형 텍스트 분석을 활용한 이슈의 동적 변이과정 고찰 (Investigating Dynamic Mutation Process of Issues Using Unstructured Text Analysis)

  • 임명수;김남규
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.1-18
    • /
    • 2016
  • 최근 가용한 텍스트 데이터 자원이 증가함에 따라 방대한 텍스트 분석을 통해 새로운 가치를 창출하고자 하는 수요가 증가하고 있다. 특히 뉴스, 민원, 블로그, SNS 등을 통해 유통되는 글로부터 다양한 이슈를 발굴해내고 이들 이슈의 추이를 분석하는 이슈 트래킹에 대한 연구가 활발하게 이루어지고 있다. 전통적인 이슈 트래킹은 토픽 모델링을 통해 오랜 기간에 걸쳐 지속된 주요 이슈를 발굴한 후, 각 이슈를 구성하는 문서 수의 세부 기간별 분포를 분석하는 방식으로 이루어진다. 하지만 전통적 이슈 트래킹은 각 이슈를 구성하는 내용이 전체 기간에 걸쳐 변화 없이 유지된다는 가정 하에 수행되기 때문에, 다양한 세부 이슈가 서로 영향을 주며 생성, 병합, 분화, 소멸하는 이슈의 동적 변이과정을 나타내지 못한다. 또한 전체 기간에 걸쳐 지속적으로 출현한 키워드만이 이슈 키워드로 도출되기 때문에, 핵실험, 이산가족 등 세부 기간의 분석에서는 매우 상이한 맥락으로 파악되는 구체적인 이슈가 오랜 기간의 분석에서는 북한이라는 큰 이슈에 함몰되어 가려지는 현상이 발생할 수 있다. 본 연구에서는 이러한 한계를 극복하기 위해 각 세부 기간의 문서에 대한 독립적인 분석을 통해 세부 기간별 주요 이슈를 도출한 후, 각 이슈의 유사도에 기반하여 이슈 흐름도를 도출하고자 한다. 또한 각 문서의 카테고리 정보를 활용하여 카테고리간의 이슈 전이 패턴을 분석하고자 한다. 본 논문에서는 총 53,739건의 신문 기사에 제안 방법론을 적용한 실험을 수행하였으며, 이를 통해 전통적인 이슈 트래킹을 통해 발굴한 주요 이슈의 세부 기간별 구성 내용을 살펴볼 수 있을 뿐 아니라, 특정 이슈의 선행 이슈와 후행 이슈를 파악할 수 있음을 확인하였다. 또한 카테고리간 분석을 통해 단방향 전이와 양방향 전이의 흥미로운 패턴을 발견하였다.

텍스트마이닝을 통한 최고경영자 대상 이러닝 콘텐츠 트렌드 분석 (Text Mining-Based Emerging Trend Analysis for e-Learning Contents Targeting for CEO)

  • 김경훈;채명신;이병태
    • 경영정보학연구
    • /
    • 제19권2호
    • /
    • pp.1-19
    • /
    • 2017
  • 본 연구는 텍스트마이닝 기법 중 토픽 분석을 활용하여 관련 업계 국내 1위 S사(社)의 최고경영자 대상 온라인 교육 콘텐츠 강의 중심으로 원문 스크립트를 분석했다. 지난 5년간(2011~2015)년 서비스된 총 4,824개 콘텐츠를 바탕으로 핵심 키워드를 추출한 다음 주제별 22가지 토픽으로 분류한 후 동향 분석을 수행했다. 이를 통해 최근 콘텐츠 비중이 급증하고 있는 토픽 주제를 확인할 수 있었다. 다음으로 토픽 분석을 통해 분류한 토픽 및 카테고리를 바탕으로 회원 평가 요인을 적용해 카테고리 및 각 토픽별 지적 관심도를 체계화 할 수 있었다. 경영·경제 분야에서는 마케팅전략, 인사/조직, 커뮤니케이션 분야 등이 높은 관심도와 만족도를 나타냈다. 인문 분야에서는 철학, 전쟁사, 역사(서양) 라이프스타일에서는 마음건강 분야가 관심도와 만족도 둘 다 높은 것으로 나타났다. 이와 함께 교육용 콘텐츠가 시대 변화에 민감하게 반응할지라도 회원의 관심과 만족도 제고에는 실패할 수 있다는 사실을 확인할 수 있었다. 최근 콘텐츠 비중은 급증했지만 평균 이하의 만족도를 기록한 IT기술 토픽이 대표적 사례라 할 수 있다. 이를 통해 최고경영자 대상 콘텐츠 제작 시 단순히 기술적 측면의 정보전달에서 끝나는 것이 아닌 기술 적용을 통한 가치혁신에 대한 깊이 있는 시사점을 도출하거나 풍부한 영상 자료를 바탕으로 다양한 볼거리를 제공하는 등 양적인 측면과 함께 질적인 측면을 고려해야 한다는 교훈을 얻을 수 있었다. 본 연구는 포털 사이트 혹은 SNS 자료가 아닌 국내 가장 영향력 있는 이러닝 기업 데이터를 토대로 분석을 진행했기에 보다 심도 있고 실용적인 결과를 도출했다. 또한 이러닝 관련 연구 분야에서 지금까지는 드물었지만 기술의 발달로 점점 연구 조사 방법론으로 기대가 높아진 텍스트마이닝 방법에 대하여 그 적용 가능성을 성공적으로 탐색해 보았다. 기존에는 콘텐츠 운영 현황 분석 시 콘텐츠 프로그램명에 입각, 표면적인 방식으로 분류할 수밖에 없는 한계가 존재했다면 텍스트마이닝 방법론을 활용하면 비정형 데이터 콘텐츠 스크립트를 바탕으로 분석하여 내용을 바탕으로 한 보다 심도 있는 콘텐츠 분류 및 주제 분류를 이끌어 낼 수 있다. 이를 바탕으로 연도에 따른 주제별 콘텐츠 서비스 현황을 도식화한다면 현재 부족한 분야와 필요한 분야에 대한 보다 심도 있는 고찰이 가능하다. 본 연구는 다양한 텍스트마이닝 기법 중에서 이러닝의 상황에서 효과적으로 연구하기 위한 새로운 방법론을 제시했으며 향후 최고경영자 교육 관련 분야별 지적 관심도에 대한 분석에 도움이 될 것으로 기대된다.

오프라인 커뮤니케이션 유무에 따른 네트워크 별 정보전달 방법 비교 분석 (A Comparative Study of Information Delivery Method in Networks According to Off-line Communication)

  • 박원국;최찬;문현실;최일영;김재경
    • 지능정보연구
    • /
    • 제17권4호
    • /
    • pp.131-142
    • /
    • 2011
  • 최근 페이스북, 트위터 등 다양한 소셜 네트워크 서비스(SNS)가 등장하였으며, 많은 사용자들이 SNS를 이용하고 있다. 이러한 사용자의 증가로 인해 많은 조직들은 SNS에 관심을 가지게 되었다. 조직에서 SNS의 사용은 다양한 이점을 지니고 있다. SNS를 통해 조직들은 사용자들의 행위에 신속하고 지속적으로 반응할 수 있고, 다양한 특성을 지닌 사용자에게 쉽게 접근할 수 있으며, 타 매체에 비하여 사용자 특성이 반영된 차별화된 전략을 세울 수 있다. 또한 기업들은 SNS를 통해 상대적으로 저렴한 비용으로 활용이 가능하며, 사용자들과 양방향 소통이 가능하여 친근성과 신뢰성이 있는 관계 구축이 용이하다. 그러나 네트워크의 특성에 따라 SNS의 정보전달의 효과가 다르게 나타남에도 불구하고 조직들은 네트워크의 특성을 고려하지 않고 획일화된 방법으로 SNS를 활용하여 사용자들과 커뮤니케이션하고 있다. 따라서 본 연구에서는 네트워크에 따른 SNS의 정보전달의 효과 차이를 분석하였다. 즉 오프라인에서의 커뮤니케이션 기반으로 형성된 네트워크와 무작위로 형성된 네트워크를 생성하여, 각각의 네트워크들의 특징 차이를 분석하기 위하여 소셜 네트워크 분석을 하였다. 또한, 각각의 네트워크에서 SNS를 이용한 정보 전달 효과의 차이가 있는지 실증적으로 검증하였다. 실증 분석후 네트워크의 특성에 따라 네트워크 내 사용자들은 SNS를 받아들이는 반응이 달랐다. 따라서 조직이 효과적인 마케팅 수단으로 소셜 네트워크를 활용하기 위해서는 그 목적에 따라 네트워크의 특성을 고려하여 적절한 네트워크 형태를 구성해야 함을 도출하였다.