• 제목/요약/키워드: SNS Big Data

검색결과 230건 처리시간 0.023초

An Efficient Damage Information Extraction from Government Disaster Reports

  • Shin, Sungho;Hong, Seungkyun;Song, Sa-Kwang
    • 인터넷정보학회논문지
    • /
    • 제18권6호
    • /
    • pp.55-63
    • /
    • 2017
  • One of the purposes of Information Technology (IT) is to support human response to natural and social problems such as natural disasters and spread of disease, and to improve the quality of human life. Recent climate change has happened worldwide, natural disasters threaten the quality of life, and human safety is no longer guaranteed. IT must be able to support tasks related to disaster response, and more importantly, it should be used to predict and minimize future damage. In South Korea, the data related to the damage is checked out by each local government and then federal government aggregates it. This data is included in disaster reports that the federal government discloses by disaster case, but it is difficult to obtain raw data of the damage even for research purposes. In order to obtain data, information extraction may be applied to disaster reports. In the field of information extraction, most of the extraction targets are web documents, commercial reports, SNS text, and so on. There is little research on information extraction for government disaster reports. They are mostly text, but the structure of each sentence is very different from that of news articles and commercial reports. The features of the government disaster report should be carefully considered. In this paper, information extraction method for South Korea government reports in the word format is presented. This method is based on patterns and dictionaries and provides some additional ideas for tokenizing the damage representation of the text. The experiment result is F1 score of 80.2 on the test set. This is close to cutting-edge information extraction performance before applying the recent deep learning algorithms.

효율적인 연관규칙 감축을 위한 WT-알고리즘에 관한 연구 (A Study on WT-Algorithm for Effective Reduction of Association Rules)

  • 박진희;피수영
    • 한국산업정보학회논문지
    • /
    • 제20권5호
    • /
    • pp.61-69
    • /
    • 2015
  • 매일 각종 모바일 디바이스와 온라인, 소셜네트워크서비스 등에서 쏟아지는 데이터로 인해 정보의 홍수를 넘어 과부하 상태에 있다. 이미 생성되어 있는 기존 정보들도 있지만 시시각각 새롭게 생겨나고 있는 정보들이 헤아릴 수 없을 정도이다. 연관분석은 이러한 정보들 속에서 나타나는 항목의 발생 빈도수가 최소 지지도보다 큰 빈발항목집합(Frequent Item set)을 찾는 방법이다. 항목의 수가 많아짐에 따라 규칙의 수도 기하급수적으로 늘어나므로 원하는 정보를 찾기가 어려운 단점이 있다. 따라서 본 논문에서는 트랜잭션데이터 집합을 Boolean 변수 아이템으로 나타내었다. 논리함수를 간소화하는데 사용되는 Quine-McKluskey의 방법으로 알고리즘화하여 각 항목에 가중치를 부여한 WT-알고리즘을 제안한다. 제안한 알고리즘은 항목의 개수와 관계없이 간략화가 가능한 장점으로 인하여 불필요한 규칙을 감소시켜 데이터마이닝 효율을 향상시킬 수 있다.

K-Beauty 구전효과가 온라인 매출액에 미치는 영향: 중국 SINA Weibo와 Meipai 중심으로 (Word-of-Mouth Effect for Online Sales of K-Beauty Products: Centered on China SINA Weibo and Meipai)

  • 류미나;임규건
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.197-218
    • /
    • 2019
  • 중국 화장품 전체 교역중 약 67% 정도가 전자상거래로 이루어지고 있는데 특히 한국 화장품인 K-Beauty 제품의 인기가 높다. 기존 연구에 의하면 화장품 같은 소비재의 경우 소비자의 80%는 제품 구매 전 제품정보를 인터넷으로 검색하며 구전정보에 영향을 받는다. 대부분의 중국 소비자들은 화장품과 관련된 정보를 주요 SNS에 다른 소비자들이 올린 댓글을 통해 획득하며 최근에는 뷰티 관련 동영상 채널 정보를 이용하기도 한다. 기존의 온라인 구전 관련 연구는 대부분 Facebook, Twitter, 블로그 등의 매체 자체가 중심이었다. 본 연구에서는 온라인 구전정보의 전달 형태와 정보의 형태를 고려하여 정보유형을 동영상과 사진 및 텍스트로 나누어 연구하고자 한다. 중국의 SNS대표 플랫폼인 SINA Weibo와 동영상 플랫폼 Meipai의 비정형 데이터를 분석하고 온라인 구전정보를 양과 방향성으로 나누어 K-Beauty브랜드 매출액에 미치는 영향을 분석하고자 한다. Meipai에서는 총 약 33만개의 데이터를 수집하였고 SINA Weibo에서는 총 약 11만개의 데이터를 수집하여 화장품의 기본 속성도 고려하여 분석하였다. 본 연구의 의의는 온라인 매출은 K-Beauty화장품에 대해서도 구전에 영향을 받는다는 것을 기본적으로 입증함과 동시에 특히 정보 유형에 대한 구분을 시도 했다는 것이다. 두가지 매체 모두 기존 연구와 같이 양이 매출에 영향을 미치고 있으나 매체풍부성으로 인해 텍스트보다 동영상이 정보를 더 주고 영향이 크다는 것을 입증하였다. 또한, 정보 방향성 측면에서는 색조화장품의 경우 부정 댓글의 영향이 크게 나타났다. 실무적으로는 화장품 판매 전략 및 광고 전략에 기초 및 색조 화장품을 구분하여 중국 K-Beauty화장품 매출증대를 위한 마케팅전략을 구사하는데 도움이 될 것으로 기대된다.

한국관광 실태조사 빅 데이터 분석을 통한 관광산업 활성화 방안 연구 (A Study on the Revitalization of Tourism Industry through Big Data Analysis)

  • 이정미;류미나;임규건
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.149-169
    • /
    • 2018
  • 본 연구에서는 한국문화관광연구원에서 조사된 "2013년~2015년 외래 관광객 실태조사"의 약 36,000개 데이터에 대한 빅 데이터 분석을 통해 관광산업 활성화 방안을 도출해 보고자 한다. 이를 위해서 외래 관광객들의 '전반적 만족도', '재방문 의사', '추천의사' 변수에 가장 많은 영향을 끼치는 요인을 분석하고 해당 요인들의 각각에 대한 영향력에 대해 파악 하였다. 본 연구에서는 SPSS IBM Modeler 16.0의 의사결정나무(C5.0, CART, CHAID, QUEST), 인공신경망, 로지스틱 회귀분석의 데이터마이닝 기법을 이용하여 종속변수에 가장 큰 영향을 미치는 상위 변수 7개씩을 각각 도출하였고, 추가적으로 각 독립변수들의 영향력을 심도 있게 파악하기 위하여 R프로그래밍을 활용하여 SPSS IBM Modeler 16.0을 통해 도출된 각 독립변수들의 영향력을 파악하였다. 데이터 분석 결과 '전반적 만족도'에 가장 영향을 미치는 상위 변수 7개는 관광지매력도, 음식만족도, 숙박만족도, 교통수단만족도, 안내서비스만족도, 방문관광지수, 국가로 나타났으며 가장 큰 영향력을 미친 변수는 음식만족도와 관광지매력도로 분석되었다. '재방문 의사'에 가장 영향을 미치는 상위 변수 7개로는 국가, 여행 동기, 활동, 음식만족도, 제일 좋았던 활동, 관광안내서비스만족도, 관광지매력도로 나타났으며 그중 가장 큰 영향력을 미친 변수는 음식만족도와 여행 동기로 분석되었다. 마지막으로 '추천의사'에 영향을 미치는 상위 변수 7개로는 국가, 관광지매력도, 방문관광지수, 음식만족도, 활동, 관광안내서비스만족도, 비용으로 나타났으며 가장 큰 영향력을 미친 변수는 국가, 관광지매력도, 음식만족도로 분석되었다. 따라서 세 변수에 공통적으로 영향을 끼치는 요인은 음식만족도, 관광지매력도로 분석되었으며 해당 요인들이 공통적으로 한국여행에 대한 전반적 만족도와 재방문 의사, 추천의사에 미치는 영향이 크다는 것을 확인할 수 있었다. 본 연구는 외래 관광객들의 한국관광에 대한 활성화 방안을 "외래 관광객 실태조사" 빅 데이터 분석을 통해 규명함으로써 한국 관광 데이터 분석의 활용과 관광 정책 수립의 기초자료로 활용될 수 있을 것으로 기대되며 향후 기업 및 국가차원에서 한국 관광발전에 기여할 수 있는 활성화 방안을 마련하는 자료로 사용될 수 있을 것으로 기대한다.

빅데이터를 활용한 섬 관광지의 경관 특성 분석 - 신안군 박지·반월도를 대상으로 - (Analysis of the Landscape Characteristics of Island Tourist Site Using Big Data - Based on Bakji and Banwol-do, Shinan-gun -)

  • 도지윤;서주환
    • 한국조경학회지
    • /
    • 제49권2호
    • /
    • pp.61-73
    • /
    • 2021
  • 본 연구는 사용자의 경험에 의해 생성된 SNS 데이터를 활용하여 이용자의 경관 인식과 경관 특성을 파악하고자 하였다. 이에 섬에서 나타나는 주요 장소와 경관은 어떻게 인지하고 있는지, 주요 경관 특성은 무엇인지 온라인상의 텍스트 데이터와 사진 데이터를 활용하여 분석하였다. 텍스트 데이터는 텍스트마이닝과 네트워크 구조분석을 시행하였으며, 사진 데이터는 경관파악모델과 색채분석을 실시하였다. 연구의 결과는 첫째, 박지·반월도 주제어의 빈도분석 결과, 지역 경관 대상 키워드인 '퍼플교', '두리마을'과 장소, 행태, 경관 이미지 키워드를 도출할 수 있었으며, 이 중 경관 이미지는 감성분석을 동시해 수행함으로써 긍정의 키워드와 함께 도출하여 경관 대상 및 인식을 파악할 수 있었다. 둘째, 네트워크 구조 분석 결과, 주요 키워드와 도출되지 않은 키워드간의 연결을 보다 구체적으로 분석할 수 있어 색채를 활용한 경관 조성이 지역 활성화에 영향을 미치고 있음을 알 수 있었다. 셋째, 경관파악모델을 활용하여 분석한 결과, 주대상인 '퍼플교', '두리마을'을 활용한 선호 경관을 조성하기 위해선 인공요소가 배제되고, 원경으로 대상장인 바다와 하늘이 보이는 조망점을 설정하는 것이 효과적일 것으로 파악되었다. 넷째, 박지·반월도는 색채를 테마로 하여 조성한 최초의 섬으로 인공시설물에 사용된 색채는 주변 환경과 유사한 색채 계열, 상반되는 명도, 채도 값으로 주변 환경과 조화를 이루고 있음을 알 수 있었다. 본 연구는 경관분야에서 방문객이 직접 업로드한 온라인 데이터를 활용하여 이용자의 인식과 경관 대상을 파악하였다. 또한, 텍스트 및 사진 데이터를 모두 활용하여 경관 인식 및 특성을 파악한 것은 어떤 경관과 자원을 선호하고 인지하고 있는지 구체적으로 파악할 수 있다는 점에서 큰 의의가 있다. 또한, 지역의 경관에 대해 방문객의 인식을 파악함에 있어 정량적인 빅데이터 분석 방법과 정성적인 경관파악모델을 활용함은 대규모 이용자의 인식을 파악하고, 결과를 바탕으로 이루어지는 논의를 통해 경관을 보다 구체적으로 이해할 수 있을 것이다.

텍스트마이닝을 활용한 정보보호 키워드 기반 소셜미디어 빅데이터 분석 (Social Media Bigdata Analysis Based on Information Security Keyword Using Text Mining)

  • 정진명;박영호
    • 한국산업정보학회논문지
    • /
    • 제27권5호
    • /
    • pp.37-48
    • /
    • 2022
  • 디지털 기술의 발전으로 사회적 이슈들이 SNS와 같은 디지털 기반 플랫폼을 통해서 소통되고 여론을 형성하기도 한다. 본 연구에서는 소셜미디어를 통해서 공유되고 있는 정보보호 이슈관련 여론을 살펴보기 위하여 대표적인 단문 소셜네트워크서비스인 트위터 빅데이터 분석을 진행하였다. 2021년 1년간 14개 정보보호 관련 키워드를 중심으로 데이터를 수집한 후, 데이터마이닝 기술을 활용하여 용어 빈도(TF)분석과 피어슨 계수를 활용한 상관분석을 통해 키워드간의 상관관계를 밝혔다. 또한 잠재적 확률기반 LDA 토픽모델링을 실시하여 정보보호분야에 많은 관심을 받았던 6개의 주요 토픽을 도출하였다. 이러한 결과는 관련 산업의 전략수립이나, 정부 정책수립 시 주요 키워드를 도출하는 기초데이터로 활용될 수 있을 것으로 기대된다.

IoT 서비스를 사용하는 사용자 계층별 차이에 대한 만족도 분석 (User satisfaction analysis for layer-specific differences using the IoT services)

  • 박종운;권창희
    • 한국정보통신학회논문지
    • /
    • 제21권1호
    • /
    • pp.90-98
    • /
    • 2017
  • 2010년 이후 스마트폰의 폭발적 보급이 탄생시킨 SNS가 대중의 광고 플랫폼으로 자리 잡고 있으며, 사물인터넷(IoT)시대의 탄생이 단계적으로 초읽기에 들어간 것이 우리에게 이미 다가와 있다. 이에 위치기반 서비스를 활용한 다양한 IoT 서비스(비콘, O2O)가 활용되고 있는 것에 대한 유 경험 사용자들의 계층별 차이에 대한 만족도를 분석하는데 본 논문의 초점을 둔다. 논문의 내용을 전개하기 위하여 현재 서비스가 이루어지고 있는 대표적 IoT서비스의 종류와 전체적 활용 개념을 고찰한다. 가설은 피터모빌의 User Experience Honeycomp이라고 불리우는 UX벌집모형에서 용이성, 매력성, 신뢰성, 가치성 4가지로 설문을 재구성하였다. 본 연구에서 IoT 서비스를 제공하는 기업은 사용자의 만족도 차이에 따라 보다 정확한 맞춤형 서비스를 제공하는데 도움이 되는 기초자료로 활용이 될 수 있을 것으로 기대된다.

개인정보 자기결정권 확대를 위한 데이터 신탁제도 도입 방안 연구 (A Study on the Introductioin of Data Trusts System to Expand the Rights of Privacy Self-Determination)

  • 장근재;이승용
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.29-43
    • /
    • 2022
  • 데이터 경제는 현대 사회에서 디지털 혁신과 함께 빠르게 성장하고 있다. 기업은 다양한 유형의 데이터를 수집·활용하여 새로운 수익을 창출하길 희망하고, 개인정보를 포함한 데이터의 가치는 더욱 높아지고 있다. 하지만 데이터 산업 정책에 대한 연구 중 정보 주체에 대한 논의는 부족한 상황이다. 개인정보는 보호 가치를 넘어서 높은 유용성을 가지고 있다. 이러한 관점에서 데이터 신탁제도는 개인정보의 안전한 활용을 위한 좋은 해결책이다. 데이터 신탁을 활용한 구글의 토론토 스마트시티 구축 사례, 일본의 정보은행 사례, 국내 최초의 데이터 배당을 시도한 경기도의 사례를 소개한다. 데이터 신탁 사례와 동향 파악을 통해 데이터 신탁 개념을 명확히 하고 제도 활성화에 필요한 기술적 요인을 추출하고 비즈니스 모델을 제안하고자 한다. 이를 시사점으로 하여 데이터 신탁제도를 통해 안전한 데이터의 활용과 새로운 서비스 시장 창출뿐만 아니라 새로운 데이터 경제를 구성하는데 크게 기여할 것으로 기대한다.

모바일 앱 사용에 영향을 미치는 요인에 관한 연구: 앱 카테고리 간 상관관계를 중심으로 (Determinants of Mobile Application Use: A Study Focused on the Correlation between Application Categories)

  • 박상규;이동원
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.157-176
    • /
    • 2016
  • 스마트폰, 태블릿PC와 같은 모바일 기기의 확산과 더불어 앱의 보급도 크게 늘어나면서 우리 일상의 다양한 분야에서 활용되고 있다. 게임, 생활, 엔터테인먼트, 정보, 전자상거래 등 다양한 종류의 수많은 앱이 생겨나고 있으나, 그들 중 대부분이 사용자의 구매 선택조차 받지 못하고 있으며, 구매가 이루어진 이후에도 많은 수는 오랫동안 사용되지 않고 외면당하고 있다. 사용자가 앱을 선택하고 사용하는 데에 영향을 미치는 요인을 찾는 연구는 사용자에게 적합한 앱을 선별적으로 추천하는 데에 활용됨으로써 마케팅 효과를 높일 수 있다는 점에서 앱 개발자나 배포자 및 사용자 모두에게 기여하는 실무적 가치가 크다고 할 수 있을 것이다. 이런 관점에서, 본 연구는 앱의 사용에 영향을 미치는 요인이 앱 유형별로 어떻게 달라지는지를 파악하려는 목적에서 수행되었다. 앱 사용에 영향을 미치는 요인으로서 사용자의 인구통계학적 특성뿐만 아니라 사용자가 앱을 구매하고 사용한 경험, 구매 시 참고한 앱에 대한 객관적 평가인 별점, 마케팅의 수단으로서 상품의 소개 화면에 노출되는 배지(Badge)의 영향을 살펴보았다. 사용자의 앱 선택에 영향을 미치는 요인에 대한 기존 연구들은 대부분 설문에 대한 응답 결과를 분석에 사용함으로써 사용기록이 정확히 반영하지 못하는 한계점을 갖는 반면, 본 연구는 특정한 기간 동안 사용자의 실제 사용기록 전체를 측정하고 수집하여, 이 데이터를 기반으로 분석을 실시했다는 점에서 큰 의의를 갖는다고 할 수 있다. 사용자가 자신의 모바일 기기에 설치된 다양한 앱을 설치해놓고 이들 중 자신의 필요에 적합한 것을 선택하여 사용하게 되는데, 이 선택에 영향을 미치는 요인이 카테고리 별로 다를 것이라는 점을 고려하여, 다변량 프로빗 모형을 활용하여 분석을 실시하였다. 분석결과로 앱 사용에 영향을 미치는 요인이 앱 카테고리 별로 달라지는 것과 앱 카테고리 선택 간의 상관관계를 제시하였으며, 사용자의 앱사용 목적에 따라 쾌락성(Hedonic)과 실용성(Utilitarian)으로 구분지어 설명하였다.

다중 웹 데이터와 LSTM을 사용한 전염병 예측 (Prediction of infectious diseases using multiple web data and LSTM)

  • 김영하;김인환;장백철
    • 인터넷정보학회논문지
    • /
    • 제21권5호
    • /
    • pp.139-148
    • /
    • 2020
  • 전염병은 오래전부터 인류를 괴롭혀 왔으며 이를 예측 하고 예방하는 것은 인류에게 있어 큰 과제였다. 이러한 이유로 지금까지도 전염병을 예측하기 위해 다양한 연구가 진행되고 있다. 초기의 연구 중 대부분은 CDC(Centers for Disease Control and Prevention)의 역학 데이터에 의존한 연구였으며, CDC에서 제공하는 데이터는 일주일에 한 번만 갱신돼 실시간 질병 발생 건수를 예측하기 어렵다는 문제점을 갖고 있었다. 하지만 최근 IT 기술의 발전으로 여러 인터넷 매체들이 등장하면서 웹 데이터를 통해 전염병의 발생을 예측하고자 하는 연구가 진행되었고 이 중 우리가 조사한 연구 중 대부분은 단일 웹 데이터를 사용하여 질병을 예측하는 연구였다. 하지만 단일 웹 데이터를 통한 질병 예측은 "COVID-19" 같이 최근에 등장한 전염병에 대해서는 많은 양의 학습 데이터를 수집하기 어려우며 이러한 모델을 통해 정확한 예측을 하기 어렵다는 단점을 가지고 있다. 이에 우리는 전염병 발생을 LSTM 모델을 통해 예측할 때 여러 개의 웹 데이터를 사용하는 모델이 단일 웹 데이터를 사용하는 모델보다 정확도가 더 높음을 실험을 통해 증명하고 전염병 예측에 적절한 모델을 제안하고자 한다. 본 실험에서는 단일 웹 데이터를 사용하는 모델과 우리가 제안하는 모델을 사용하여 "말라리아"와 "유행성이하선염"의 발생을 예측했다. 우리는 2017년 12월 31 일부터 2019년 12월 28일까지 총 104주 분량의 NEWS, SNS, 검색 쿼리 데이터를 수집했는데, 이 중 75주는 학습 데이터로, 29주는 검증 데이터로 사용됐다. 실험 결과 우리가 제안한 모델의 예측 결과와 단일 웹 데이터를 사용한 모델의 예측 결과를 비교했을 때 검증 데이터에 대해서 피어슨 상관계수가 0.94, 0.86로 가장 높았고 RMSE 또한 0.19, 0.07로 가장 낮은 오차를 보여주었다.