• 제목/요약/키워드: 키워드네트워크 분석

검색결과 468건 처리시간 0.024초

웹검색 트래픽 정보를 활용한 유커 인바운드 여행 수요 예측 모형 및 유커마이닝 시스템 개발 (Development of Yóukè Mining System with Yóukè's Travel Demand and Insight Based on Web Search Traffic Information)

  • 최유지;박도형
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.155-175
    • /
    • 2017
  • 최근 독감 예측이나 당선인 예측, 구매 패턴, 투자 등 다방면에서 웹검색 트래픽 정보. 소셜 네트워크 내용 등 거대한 데이터를 통해 사회적 현상, 소비 패턴을 분석하는 시도가 이전보다 늘어났다. 구글, 네이버, 바이두 등 인터넷 포털 업체들의 웹검색 트래픽 정보 공개 서비스와 함께 웹검색 트래픽 정보를 활용하여 소비자나 사용자와 관련된 연구가 실시되기 시작했다. 웹검색 트래픽 정보를 활용한 사회 현상, 소비 패턴 분석을 연구는 많이 수행되었으나, 그에 비해서 도출된 여행 수요 모델을 토대로 의사결정을 위한 실질적 대책 수립으로 이어지는 연구는 많이 진행되지 않은 실정이다. 관광산업은 상대적으로 많은 고용을 가능하게 하고 외자를 유치하는 등 고부가가치를 창출하여 경제 전체에 선순환 효과를 일으키는 중요한 산업이다. 그 중에서도 국내 입국외래객중 수년간 2위와의 큰 차이로 1위를 차지해왔던 중국 국적의 관광객 '유커' 및 그들이 지출하는 1인당 평균 관광 수지는 한국 경제에 매우 중요한 한 부분이다. 관광 수요의 예측은 효율적인 자원 배분과 합리적인 의사 결정에 있어서 공공부문 및 민간부문 모두 중요하다. 적절한 관광 수요 예측을 통해서 한정된 자원을 더욱 효과적으로 활용하여 더욱 많은 부가가치를 창출하기 위한 것이다. 본 연구는 중국인 인바운드를 예측하는 방법에 있어, 이전보다 더 최신의 트렌드를 즉각적으로 반영하고 개인들의 집합의 관심도가 포함되어 예측 성능이 개선된 방법을 제안한다. 해외여행은 고관여 소비이기 때문에 잠재적 여행객들이 입국하기 전 웹검색을 통해 적극적으로 자신의 여정과 관련된 정보를 취득하기 위한 활동을 한다. 따라서 웹검색 트래픽 수치가 중국인 여행객의 관심정도를 대표할 수 있다고 보았다. 중국인 여행객들이 한국 여행을 준비하는 단계에서 검색할만한 키워드를 선정해 실제 중국인 입국자 수와 상관관계가 있음을 검증하고자 하였다. 중국 웹검색 엔진 시장에서 80%의 점유율을 가지는 중국 최대 웹검색 엔진 '바이두'에서 공개한 웹검색 데이터를 활용하여 그 관심 정도를 대표할 수 있을 것이라 추정했다. 수집에 필요한 키워드의 선정 단계에서는 잠재적 여행객이 여정을 계획하고 구체화하는 단계에서 일반적으로 검색하게 되는 키워드 후보군을 선정하였다. 키워드의 선정에는 중국 국적의 잠재적 여행객 표본과의 인터뷰를 거쳤다. 트래픽 대소 관계 확인 결과에 따라서 최종 선정된 키워드들을 한국여행이라는 주제와 직접적인 연관을 가지는 키워드부터, 간접적인 연관을 가지는 키워드까지 총 세 가지 레벨의 카테고리로 분류하였다. 분류된 카테고리 내의 키워드들은 바이두'가 제공하는 웹검색 트래픽 데이터 제공 서비스 '바이두 인덱스'를 통해 웹검색 트래픽 데이터를 수집했다. 공개된 데이터 페이지 특성을 고려한 웹 크롤러를 직접 설계하여 웹검색 트래픽 데이터를 수집하였고, 분리되어 수집된 변수에는 필요한 변수 변환 과정을 수행했다. 자동화 수집된 웹검색 트래픽 정보들을 투입하여 중국 여행 인바운드에 대한 유의한 영향 관계를 확인하여 중국인 여행객의 한국 인바운드 여행 수요를 예측하는 모형을 개발하고자 하였다. 정책 의사결정 및 관광 경영 의사결정 같은 실무적 활용을 고려하여 각 변수의 영향력을 정량적으로 설명할 수 있고 설득이 명료한 방법인 다중회귀분석방법을 적용해 선형 식을 도출하였다. 수집된 웹검색 트래픽 데이터를 기존 검증된 모형 독립변인들에 추가적으로 투입함으로써 전통적인 독립변인으로만 구성된 연구 모형과 비교하여 가장 뛰어난 성능을 보이는 모형을 확인하였다. 본 연구에서 검증하려는, 웹검색 트래픽으로 대표되는 독립변인을 투입한 최종 도출된 모형을 통해 중국인 관광 수요를 예측할 때 유의한 영향을 끼치는 웹검색 트래픽 변수를 확인할 수 있다. 최적 모형 설명력을 가지는 모형을 기반으로 최종 회귀 식을 만들었고 이를 '유커마이닝' 시스템 내부에 도입하였다. 데이터 분석에서 더 나아가 도출된 모형을 직관적으로 시각화하고, 웹검색 트래픽 정보를 활용하여 도출할 수 있는 인사이트를 함께 보여주는 데이터 분석 기반의 '유커마이닝' 솔루션의 시스템 알고리즘과 UX를 제안하였다. 본 연구가 제안하는 모형과 시스템은 관광수요 예측모형 분야에서 웹검색 트래픽 데이터라는 정보 탐색을 하는 과정에 놓인 개인들의 인터랙티브하고 즉각적인 변수를 활용한 새로운 시도이다. 실무적으로 관련 정책결정자나 관광사, 항공사 등이 활용 가능한 실제적인 가치를 가지고, 정책적으로도 효과적인 관광 정책 수립에 활용될 수 있다.

디지털 뉴딜 정책에 대한 언론 보도량과 주식 시장의 동태적 관계 분석: 4차산업혁명 관련 기업을 중심으로 (An Analysis of the Dynamics between Media Coverage and Stock Market on Digital New Deal Policy: Focusing on Companies Related to the Fourth Industrial Revolution)

  • 손권상;권오병
    • 한국전자거래학회지
    • /
    • 제26권3호
    • /
    • pp.33-53
    • /
    • 2021
  • 제4차 산업혁명의 확산과 코로나 19의 장기화로 인한 사회적 변화의 기로에서 한국 정부는 2020년 7월 디지털 뉴딜 정책을 발표했다. 디지털 뉴딜 정책은 데이터, 네트워크, 인공지능 기술을 중심으로 공공분야 및 산업의 디지털 전환을 가속화함으로써 새로운 비즈니스를 창출하는 것을 주요 과제로 삼고 있다. 그러나 급변하는 사회환경에서 기술의 미래 이익에 대한 정보비대칭은 정책의 방향과 효과에 대한 대중의 분석 능력의 차이를 야기할 수 있으며, 이로 인해 정책의 실질적 효과에 대한 불확실성이 발생하게 된다. 한편, 언론은 정부 정책을 대중에 전파하는 전달자 역할을 통해 담론 형성을 주도하며, 보도를 통해 특정 이슈에 대한 제반 지식을 대중에게 제공하는 역할을 한다. 즉, 특정 정책에 대한 언론의 보도량이 증가할수록 이슈 집중도는 높아지며, 이를 통해 대중의 의사결정에도 영향을 미치게 된다. 따라서 본 연구의 목적은 한국 정부의 디지털 뉴딜 정책에 대한 언론 보도량과 주식 시장의 동태적 관계를 그랜저 인과관계(Granger causality), 충격반응함수, 분산분해분석을 이용하여 검증하는 것이다. 이를 위해 디지털 뉴딜 정책에 대한 언론 보도량, 키워드 검색량과 KOSDAQ 상장 기업 중 디지털 뉴딜 정책과 관련이 있는 디지털 기술 기반 기업들의 일일주식회전율, 일일주가수익률, EWMA 변동성을 변수로 설정하였으며, 정책발표 시점 전후 60 거래일, 총 120 거래일 간의 데이터를 이용했다. 분석 결과, 언론 보도량은 키워드 검색량, 일일주식회전율, EWMA 변동성과 양방향 그랜저 인과관계가 존재하였으며, 언론 보도량의 증가는 디지털 뉴딜 정책에 대한 키워드 검색량에 높은 영향을 미치는 것으로 나타났다. 또한 언론 보도량에 대한 충격반응분석 결과 EWMA 변동성을 큰 폭으로 하락시키는 양상을 보였으며, 시간이 지날수록 영향력이 점차 증가하며 주식 시장의 변동성을 완화시키는 역할을 하는 것으로 나타났다. 본 연구의 분석 결과를 토대로 디지털 뉴딜에 대한 언론 보도량은 주식 시장과 유의한 동태적 관계가 있음을 확인할 수 있었다.

빅데이터 분석을 통한 유명인 모델의 광고효과 예측 모형 개발 (Development of a Prediction Model for Advertising Effects of Celebrity Models using Big data Analysis)

  • 김유나;한상필
    • 한국융합학회논문지
    • /
    • 제11권8호
    • /
    • pp.99-106
    • /
    • 2020
  • 본 연구는 소셜 빅데이터에 기반을 둔 유명인과 브랜드의 이미지 유사도가 광고효과를 예측할 수 있는 결정변수가 될 수 있는지를 파악하기 위해, 광고효과 예측모형을 생성하고 빅데이터 분석기법인 기계학습 방법을 통해 그 타당도를 검증하는 것을 목적으로 하였다. 이를 위해 SNS상의 키워드 네트워크 구조에 기반하여 유명인-브랜드 이미지 유사도를 정량화하고, 학습 데이터를 통해 이미지 유사도를 독립변수로, 광고효과 데이터를 종속변수로 하는 다중회귀모형을 반복 실시하여 광고효과 예측모형을 생성하였다. 이렇게 생성된 예측모형의 정확도를 판단하기 위해 예측 데이터에서 얻은 광고효과 예측값과 비교 기준으로서의 서베이값을 비교한 결과, 타당도를 판단하는 기준치인 75%의 분류 정확도를 보였으므로 본 광고효과 예측 모델링의 타당성은 확보된 것으로 입증되었다. 본 연구는 유명인-브랜드 이미지 유사성 구조를 소셜 네트워크 구조로 설명하고 그 효과를 기계학습을 통한 예측 모델링으로 검증하여 빅데이터 기반 모델링 연구에 새로운 방법론적 대안과 방향을 제시하였다.

빅데이터를 활용한 뉴노멀(New normal)시대의 관광행태 변화에 관한 연구 (A Study on Tourism Behavior in the New normal Era Using Big Data)

  • 유경미;강종천;최연희
    • 문화기술의 융합
    • /
    • 제9권3호
    • /
    • pp.167-181
    • /
    • 2023
  • 본 연구는 코로나 19 발생 후 여행 제재가 완화된 현재의 관광행태 변화를 분석하기 위해 소셜네트워크 분석프로그램인 TEXTOM을 활용하였다. 네이버, 구글, 다음이 제공하는 블로그, 카페, 뉴스 등을 대상으로 '국내여행', '해외여행' 키워드에 대한 데이터를 수집하였다. 사회적 거리두기가 해제된 2022년 4월~12월로 수집 기간을 정하였고, 코로나19 발생 이전인 2019년과 코로나19의 영향이 가장 심각했던 2020년은 각각 1년으로 하여 2022년과 비교 분석하였다. 텍스트 마이닝을 통하여 각각 총 80개의 핵심어를 추출하고 NetDraw를 사용하여 중심성분석을 하였다. 마지막으로 CONCOR분석을 통하여 상관관계가 있는 핵심어들을 4개로 군집화하였다. 연구결과, 2022년도의 관광행태는 코로나 발생 이전으로의 관광 회복, 각자가 선호하는 테마를 중심으로 여행의 세분화, 나라별 코로나 완화정책을 우선적으로 검색해 본 후 관광지를 선택하는 관광행태를 보인다. 코로나19 이후에 새롭게 도래하는 관광생태계에 대한 관광마케팅 전략과 관광상품 개발을 위한 기초자료를 제공할 것으로 기대한다.

RJCC 연구 키워드 네트워크 - 동시출현단어분석과 군집분석 - (Keyword networks in RJCC research - A co-word analysis and clustering -)

  • 서현진;최영현;오승택;이규혜
    • 복식문화연구
    • /
    • 제27권3호
    • /
    • pp.193-205
    • /
    • 2019
  • A trend analysis of research articles in a field of knowledge is significant because it can help in finding out the structural characteristics of the field and the future direction of research through observing change in a time series. We identified the structural characteristics and trends in text data (keywords) gathered from research articles which in itself is an important task in various research areas. The titles and keywords were crawled from research articles published from 2016 to 2018 in the Research Journal of the Costume Culture (RJCC), one of the representative Korean journal in the field of clothing and textile. After we extracted data comprising English titles and keywords from 195 published articles, we transformed it into a 1-mode matrix. We used measures from network analysis (i.e., link, strength, and degree centrality) for evaluating meaningful patterns and trends in the research on clothing and textile. NodeXL was used for visualizing the semantic network. This study observed change in the clothing and textile research trend. In addition to covering the core areas of the field, the subjects of research have been diversifying with every passing year and have evolved onto a developmental direction. The most studied area in articles published by the RJCC was fashion retailing/consumer psychology while aesthetic/historic and fashion industry/policy studies were covered to a more limited extent. We observed that most of the studies reflecting the identity of RJCC share subject keywords to a significant extent.

건설신기술에 대한 토픽 모델링 및 토픽 변화추이 분석 (Topic modeling and topic change trend analysis for advanced construction technologies)

  • 정성윤;김남곤
    • 스마트미디어저널
    • /
    • 제10권4호
    • /
    • pp.102-110
    • /
    • 2021
  • 현재 국내 건설기술의 발전을 도모하기 위해 건설신기술 지정 제도를 운영하고 있다. 이 제도를 통해 지정된 건설신기술과 관련하여 중요도가 높은 출현 어휘와 어휘들 간의 관계를 분석함으로써 건설신기술에 내재된 암묵적인 의미를 살펴보고자 하였다. 이를 위해 918건의 건설신기술정보를 수집하였다. 수집된 건설신기술의 고시연도와 요약 내용을 기초로 하여 건설신기술별로 출현어휘의 중요도를 측정하였다. LDA 모형을 기반으로 한 4개의 토픽별로 연관된 어휘들 간의 영향정도를 평가하였다. 기술적용분야에 따른 토픽을 분석하였다. 1990년부터 2021년까지의 토픽별로 영향력이 높은 어휘들의 변화 추이를 유추하였다. 향후 환경·기계·설비 토픽과 구조물의 보수 보강 토픽의 영향정도 변화와 이에 관련한 적용기술 분야를 예측하였다. 토픽의 개발방향을 예측하였다.

A study on the perception of 3D virtual fashion before and after COVID-19 using textmining

  • Cho, Hyun-Jin
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권12호
    • /
    • pp.111-119
    • /
    • 2022
  • 본 연구는 빅데이터 분석을 이용하여 코로나19 전후의 3D가상패션에 대한 인식의 변화를 알아보기 위하여 코로나19 발생 전인 2017년 1월1일부터 발생 이후인 2022년 10월30일까지 소셜미디어 네이버, 다음, 구글, 유튜브에서 추출한 3D 가상패션 관련 주요 단어들을 대상으로 텍스톰을 이용하여 빅데이터 자료를 수집하였다. 수집된 단어는 정제 과정을 거친 후 워드클라우드, 단어의 빈도, 연결중심성, 네트워크 시각화와 CONCOR 분석을 실시하였다. 3D 가상패션을 키워드로 32,461개의 단어를 추출하여 분석한 결과 패션, 가상, 기술의 출현빈도와 중심성이 가장 높게 나타났으며 디지털, 디자인, 의상, 활용, 제조의 출현빈도도 높게 나타났다. 이를 통해 3D 가상패션이 기술의 발달과 더불어 산업 전반에 활용되고 있음을 알 수 있었다. 특히 코로나19 이후 가장 부각되는 주요 단어는 메타버스와 3D 교육으로서 패션산업에서의 요구도가 높게 나타나고 있다.

정보자원으로서 '밈'의 맥락과 실재 - 국내 연구동향 분석을 중심으로 - (The Context and Reality of Memes as Information Resources: Focused on Analysis of Research Trends in South Korea)

  • 홍소람
    • 한국비블리아학회지
    • /
    • 제34권3호
    • /
    • pp.227-253
    • /
    • 2023
  • 이 연구는 디지털 혁명으로 인해 변화한 정보 환경에서 리터러시 교육을 위한 정보자원으로 밈을 개념화하기 위한 시론적 연구이다. 이 연구의 목적은 정보자원으로서 밈의 활용을 촉진하기 위해 밈의 맥락과 실재를 규명하는 데에 있다. 이를 연구문제로 환원시키면 다음과 같다. 첫째, '밈'은 어떠한 주제들과 함께 연구되는가? 둘째, 어떠한 것들이 '밈'으로 포착되어 연구되는가? 연구문제를 소명하기 위해 국내 밈 연구 145건을 대상으로 빈도분석과 동시출현빈도 네트워크 분석을 실시하였고, 이 중 73건을 대상으로 밈 사례 275개를 추출하여 내용 분석을 실시하였다. 그 결과는 다음과 같다. 첫째, 밈은 인문학, 사회과학, 복합학, 예술체육학 분야에서 주로 연구되고 있었다. 또한 연구 초기에는 Dawkins의 밈 개념을 토대로 한 이론 연구(2012년 전후), 한류 콘텐츠 확산을 설명하기 위한 밈 개념 도입 연구(2015년 전후), 문화사회학의 주요 연구 주제로서 밈 개념의 독자적 연구(2019년 전후)가 이루어졌다. 둘째, 밈은 언어적 특성을 중점적으로 가지고 있었다. 언어 밈(L-meme)(102건, 37%)과 언어·시각 밈(LV-meme)(23건, 8%), 언어·시·청각 밈(LVM-meme)(21건, 8%) 등 언어 양식에 기반한 밈이 다수였고, 동시출현빈도 네트워크의 빈도·연결중심성·매개중심성 상위 노드에도 language meme(언어 밈) 키워드가 등장했다. 즉, 밈은 언어적 특성을 토대로 한 문화사회학의 고유한 정보 현상 개념으로 확장되고 있다. 리터러시 교육을 위한 정보자원으로서뿐만이 아니라 정보 리터러시의 관점에서 밈 리터러시를 개념화할 필요가 있다.

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템 (Twitter Issue Tracking System by Topic Modeling Techniques)

  • 배정환;한남기;송민
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.109-122
    • /
    • 2014
  • 현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.

중고거래 어플리케이션 <당근마켓> 리뷰텍스트에 나타난 소비자의 인성 함축단어 텍스트마이닝 분석 (Analysis of Text Mining of Consumer's Personality Implication Words in Review of Used Transaction Application )

  • 정예린;주영애
    • 한국콘텐츠학회논문지
    • /
    • 제21권11호
    • /
    • pp.1-10
    • /
    • 2021
  • 본 연구는 중고거래 어플리케이션 <당근마켓>의 리뷰텍스트에 나타난 소비자의 인성 함축단어의 사용실태를 분석하였다. 데이터 수집은 2021년 5월로부터 과거 6개월간 서울과 경기권을 대상으로 하였다. 이는 웹 크롤러를 개발하여 무작위 추출 총 1368건을 수집 후, 최종 570건을 전처리하여 사용하였다. 결과는 다음과 같다. 첫째, 제품의 상거래 플랫폼임에도 리뷰텍스트의 48.2%는 소비자의 인성 관련 내용이었다. 둘째, 리뷰 텍스트는 긍정적 반응이 주를 이루며 이는 감사라는 키워드를 기반으로 텍스트 네트워크 구조를 형성하였다. 셋째, 소비자 인성을 함축하는 리뷰 텍스트는 소비자의 '대타적 인성'과' 대내적 인성'으로 그룹화되었고, 이는 플랫폼에서 통합적으로 작용하였다. 결론적으로 인성 관련 요인들이 플랫폼 거래 과정의 상호작용에서 중요한 역할을 함을 확인하였고, 앞으로 플랫폼의 서비스 품질에도 소비자의 인성이 경쟁력으로 작용할 것이므로, 이에 대해 다각도에서 연구되어야 할 것임을 제언하였다.