I. Introduction
기상청은 기존의 수치 기준의 날씨 정보 뿐만 아니라 최근 다양한 기상관련 정보를 제공하고 있으며, 유럽과 미국의 경우도 Heat Index와 같이 다양한 지수를 발표하여 재난이나 산업계 관련 지수 서비스를 제공하고 있다 [1]. 비록 이런 날씨 관련 지수들이 관련 기관에서 다양한 통계적 분석법을 통해 대중들에게 제시되고 있으나 날씨 데이터와 다른 산업분야 데이터에 대한 융합 연구는 아직 요원한 상태이다 [2].
한편, 날씨 요소들이 미치는 영향에 대한 연구는 비교적 활발히 진행되어 왔는데, 기상요소의 교통사고 사망률과 관련에 대한 연구와 같이 직접적인 요인으로써 기상 요인들을 분석하는 연구들이 그 대표적인 예시 이다 [3]. 또한 기상 요소들이 의류제품 매출에 미치는 영향과 같이 간접적인 요인으로써 미치는 영향 역시 측정되고 연구되어 왔다 [4].
위와 같은 연구들은 대부분 설문에 의한 통계적 접근법을 주로 사용해 왔으나 최근에는 다양한 분야에서 빅데이터를 활용한 연구 접근법이 이루어지고 있다 [2,5]. 이는 날씨 정보 데이터의 확장이나 획득가능성이 높아짐이 아닌 사회과학 분야와 같이 기존에 설문을 통해 연구되던 분야에 대해 IoT서비스의 발전 등의 이유로 다양한 간접적인 데이터가 획득 가능해 짐으로써 나타나는 경향으로, 날씨 정보를 활용한 연구 분야에 있어 새로운 지평이 열리고 있다 [5].
즉, 기상요소들이 생활이나 산업에 미치는 영향의 이론적 연구와 설문에 의한 실증적 선행 연구들에 대해 데이터 기반으로 보다 과학적인 접근이 가능해 진 것이다. 이에 본 연구에서는 날씨요소들이 다양한 사람들이 만들어내는 사회과학적 현상들에 미치는 영향의 선행 혹은 매개변수로 판단되는 ‘감성(Sensibility)’에 대해 미치는 영향을 최근 많은 사용자들이 사용하는 사회관계서비스의 텍스트 마이닝을 통해 알아보고자 한다.
II. Preliminaries
1.1 Weather
최근 한국기상청(KMA: Korea Meteorological Admi- nistration)은 Table 1와 같이 온도, 습도, 강수확률과 같은 기존의 기상정보를 탈피하여 식중독 지수, 야외활동을 위한 자외선지수, 불쾌지수와 같이 다양한 생활 관련 지수들을 제공하고 있으며, 단순한 예보 중심의 정보 뿐만 아니라 국민 생활과 밀접한 서비스의 일환으로 지수들을 개발하고 있다 [6]. 뿐만 아니라 산업과 관련되어 농약살포를 위한 지수나, 건설을 위한 지수, 물류 지수와 같은 개발은 국내뿐만 아니라 유럽국가와 미국에서도 오랜기간 연구되어 발표되고 있다 [7]. 한편 이런 지수들의 개발에 있어 최근 빅데이터를 활용한 데이터과학적 접근이 활발히 이루어지고 있으며, 이는 건물건설을 위한 새로운 날씨 지수와 같이 건설 사고 데이터와 기상 데이터를 융합하여 접근하는 새로운 방법들의 연구를 도모하고 있다 [5].
Table 1. KMA Life Weather Index Services
1.2 Sensibility
대부분 일반인들은 ‘감성’과 ‘감정’을 혼용하여 사용한다. 아래 Table 2는 선행연구에서 구분한 ‘감성’과 ‘감정’ 으로, 감정은 두뇌의 판단과정을 거쳐서 발생하며, 심리변화의 강도가 높고 생리적 변화를 동반하나, 감성은 반사적, 직관적, 무의식적발생, 개인성, 변화성, 모호성을 가지고 있으며 심리변화의 강도가 낮고 생리적 변화를 관찰 하기 힘들다 [8]. 본 연구에서는 날씨요소의 변화에 따라 본인들이 인지하지 못한 무의식적인 변화를 의미하는 감성(Sensibility)의 변화를 알아보고자 하며, 이는 Howarth, E. & Hoffman M.S.의 선행연구에서도 밝혀진 강수, 온 도, 일조시간이 인간의 ‘기분’에 가장 큰 영향을 발생시키며, 높은 습도는 집중력을 저하시키는 반면 졸음을 증가시킨다는 선행연구와 그 결을 같이 한다 [9].
Table 2. Emotion and Sensibility [4]
이는 날씨 요소들이 교통사고 사망률, 의류쇼핑몰 매출, 범죄율과 같이 다양한 사회현상의 선행변수로써 연구된 선행연구들에 대한 고찰과 통해 [3,4,10], 사회현상들이 인간에 의해 일어나는 인적요소들로 이루어진 점과 Howarth, E. & Hoffman M.S.의 연구에서 밝혀진 기상요소들과 ‘기분(Mood)’의 관계에 의거하여 [9], 사회현상들과 날씨간의 관계를 인간의 ‘감성’이라는 매개요소가 작동하고 있다는 생각의 시발점이기도 하다.
본 연구가 ‘감정(Emotion)’이 아닌 ‘감성(Sensibility)’ 를 사용한 이유 역시 인간이 외부환경에 즉각 반응하고 무의식적으로 발생하는 ‘감성’을 향후 추가 연구를 통한 사회현상과의 연관성을 위해 사용한다.
본 연구에서는 인간의 감성을 측정하는 도구로써 기존 선행연구들의 설문조사 방법이 아닌 사회관계서비스(SNS: Social Network Service)의 텍스트 감성 분석을 사용한다. SNS 콘텐츠의 감성은 사용자의 감정 상태에 영향을 미치게 되는데, 이는 최근 SNS가 이미지, 텍스트 등으로 콘텐츠 작성시 사용자의 감성을 잘 나타내고 있다는 점에서 착안한다 [11]. 본 연구 데이터 분석에 사용된 시스템 사양은 아래 Table 3와 같다.
Table 3. System Environment
III. Research Methodology
본 연구의 절차는 Fig 1에서 살펴볼 수 있다. 첫째, 기상청 기상자료개발포털을 통해 2018년~2021년 4개년의 종관기상관측(AOS)데이터를 파일셋 형태를 통해 csv format으로 확보하였다. 확보한 기상데이터셋에는 95개 국내 기상 관측소와 관측소의 행정 구역상 주소가 존재하 나, 관측 지점의 행정구역상 이동이나 신구 주소 등의 이유로 위도와 경도 좌표를 통해 행정구역을 재 변환 하였 다. 두 번째로, 동일 기간 인스타그램에서 지리정보를 가지고 있는 콘텐츠 중 위 관측소의 위치와 읍/면/동 정보가 일치하는 게시글 중 태그를 포함한 텍스트 길이가 20글자 이상인 콘텐츠를 연도별 5만건 Random 크롤링 하였다. Random 크롤링을 사용한 이유는 해당 SNS의 콘텐츠가 너무 방대하기 때문이다.
Fig. 1. Research Process
다음으로 행정구역 주소를 기반으로 인스타그램 데이터와 기상데이터의 날씨정보를 Merge하였으며, 사용한 기상정보는 일강수량(mm), 최대풍속(m/s), 평균풍속(m/s), 평균 상대습도(%), 평균 증기압(hPa), 합계 일조 시간(hr), 평균 지면온도(섭씨), 일 최심적설(cm)로 총 34개 이상의기상 메타 중, 데이터의 수량과 일상에서 사용 빈도등을 고려하여, 총 8개의 기상정보를 활용했다. 동일 지역에 복수의 관측소가 있거나 읍/면/동 단위에 관측소가 없는 경우 관측소 좌표상 가장 가까운 위치를 매칭하였다.
이후, KoNLPy의 Mecab 형태소 분석기를 활용하여 형태소 분석을 실시하고 불용어를 제거 한뒤, TF-IDF 변환을 실시하고[12], Sentiment analysis를 위해 뉴스기사 감성 분석을 위해 제작된 감성분석 사전을 활용하였다. 본 연구에서 사용된 감성분석 사전은 KOSAC(Korean Sentiment Analysis Corpus)와 뉴스감성분석을 위해 사용된 모형을 혼합하여 사용하였다. KOSAC은 약 8천개의 말뭉치(corpus)를 가지고 있으며 감성과 의견을 구분할 수 있다[13,14]. 텍스트의 형태소를 분석하고 TF-IDF 변환하여 말뭉치화 한 뒤 감성을 분석하는 연구는 쇼핑몰 후기 분석이나 영화의 관람평점과 같이 텍스트와 함께 긍정/ 부정 수준을 별점이나 점수로 나타낼 수 있는 경우는 별도의 사전을 제작할 수 있으나, 본 연구에서 사용된 SNS의 경우 긍정/부정을 판별할 수 있는 별도의 점수기준이 존재하지 않아 외부 사전을 사용하였다. 본 연구는 KOSAC의 게시물 내 말뭉치의 긍정/부정 빈도에 따라 게시글 자체의 긍정/부정을 분류하였으며, 게시글의 긍정/부정 판단은 전체 게시글의 긍정 말뭉치 빈도와 부정 말뭉치 빈도의 차이의 절대 값 평균을 기준으로 게시글의 긍정/부정을 결정 하였으며, 차이가 평균치를 밑도는 경우 중립글로 판별하여 본 분석에 사용하지 않았다. 감성분석 결과를 태깅한 후 사이킷런 Logistic Regression을 통해 모델을 생성하 고[15], Test set을 통해 검증하였다 [16].
IV. Results
20만건의 크롤링된 SNS 콘텐츠에서 불용어를 제외한 말뭉치는 총 2,899,331개 이며, KOSAC과 뉴스를 통해 정제한 Lexicon을 통해 인식된 긍정/부정 말뭉치는 1,109,301개로 콘텐츠 당 약 5.5건이였다. 사전이 인식 못한 말뭉치가 많은 이유는 첫째, SNS 특성상 신조어, 단축어와 같이 Lexicon이 인지 하지 못하는 말뭉치가 많았고 둘째, 최근 SNS 광고가 활성화 되어 감성보다는 상업용 문구가 있는 콘텐츠들이 크롤링 과정에서 필터링 되지 못한 이유로 판단된다.
Table 4에서 살펴볼 수 있듯이, 총 약 20만건의 크롤링콘텐츠 중 기상 관측소 위치정보와 명확히 매칭되지 않는 콘텐츠를 제외한 191,399개 콘텐츠에서 발췌한 말뭉치 중Lexicon이 인지한 긍정 말뭉치는 733,694개, 부정 말뭉치는 375,607개 였으며, 콘텐츠 당 평균 긍정 말뭉치는 3.41 개, 부정 말뭉치는 2.08개 이다. 평균 긍정 말뭉치와 평균부정 말뭉치의 차이인 1.33개를 기준으로 이에 미달되는61,311개의 콘텐츠는 긍정이나 부정을 나눌 수 없는 콘텐츠로 판단하여 학습에 사용되지 않았으며, 최종적으로 긍정으로 판단되는 콘텐츠 81,333건, 부정으로 판단되는 콘텐츠 48,755건을 로지스틱 회귀분석을 통한 Training Set 으로 이용, 모형 개발에 사용하였다.
Table 4. Corpus Characteristics
Training은 8개 기상정보(일강수량(mm), 최대풍속 (m/s), 평균풍속(m/s), 평균 상대습도(%), 평균 증기압 (hPa), 합계 일조 시간(hr), 평균 지면온도(섭씨), 일 최심 적설(cm)) 중 Howarth, E. & Hoffman M.S.의 연구에서 밝혀진 3가지 기상요소 (일강수량, 합계 일조시간, 평균 지면온도)를 [9] 제외한 5개의 요소들을 각각 제가하면서 이루어졌다. 즉, 4개 기상정보 5set, 5개 기상정보 10set, 6 개 기상정보 6set, 7개 기상정보 3set, 8개 기상정보 1set 으로 총 25개의 training set을 통해 25개의 모형이 생성되었으며 각 모형별로 파이썬 Dataframe의 random index 번호로 약 10%의 데이터를 5회에 거쳐 추출 검증하여 총 125회의 검증이 이루어졌다.
이 중 가장 좋은 정확도, 정밀도, 재현율, F1 Score, ROC_AUC결과를 보인 모형은 4개 기상정보 중에서 발견되었으며, 각 모형별 최적의 검증값은 아래 Table 5와 같 으며, 표에서 생략된 5번째 Set는 적설량 데이터가 상대적으로 적은 것으로 판단되지만 나머지 4개 Set 대비 매우 낮은 정확도, 정밀도, 재현율을 나타내는 관계로 생략하였다.
Table 5. Logistic Regression Model result
Table 5에 나타나듯 로지스틱 회귀분석을 각 35개 Set 에 적용하여 생성된 모형을 각 5회씩 검증한 결과, 4개의 기상요소로 만들어진 모형 D가 가장 높은 정확도, 정밀도, 재현율을 보여줬다. 모형D의 경우 일강수량, 합계 일조시간, 평균 지면온도, 평균 상대습도를 사용하였다. 이중 강수량과 상대습도는 상관계수가 0.5이상으로 높은 상관계수를 나타내지만 기본 3개 요소만을 넣은 모형 대비 정확도와 정밀도가 높게 나타나 모형에 적용하였다.
V. Conclusions
본 연구에서는 8가지 기상정보(일강수량(mm), 최대풍속(m/s), 평균풍속(m/s), 평균 상대습도(%), 평균 증기압 (hPa), 합계 일조 시간(hr), 평균 지면온도(섭씨), 일 최심적설(cm))에 따른 인간의 감성(Sensibility)의 변화를 예측하는 모형을 만들기 위해, 2018년부터 2021년까지 4년간기상청의 기상정보(AOS 데이터)와 동 기간 SNS 중 하나인 인스타그램의 콘텐츠중 지리정보가 삽입된 콘텐츠를 약 20만건 크롤링, 텍스트마이닝하여 감성정보를 추출한 뒤 기상정보에 따른 감성정보(긍정/부정)를 예측할 수 있는 모형을 도출하였다.
결과적으로 강수량, 지면온도, 일조량, 습도를 통해 인간의 긍정/부정 감성을 92% 정확도와 96% 정밀도 95% 재현율로 구축할 수 있으며 이는 기존 문헌 연구의 3개 요소를 사용했다는 측면에서 설문에 의한 기존 연구를 강력히 지지할 수 있다.
본 연구 결과는 아래와 같은 응용분야를 고려할 수 있다. 첫째, 문헌 연구로 살펴본 바와 같이[3, 4, 10] ‘범죄율’, ‘의류 쇼핑몰 매출’, ‘교통사고율’과 같은 사회문제나 사회현상 중 인간의 선택에 따른 현상에 대한 다른 측면을 제시하여 기상정보의 변화에 따라 ‘범죄 예방 날씨 지수’, ‘쇼핑몰 날씨 지수’와 같은 다양한 기상 관련 지수를 개발하는 초석이 될 수 있다. 둘째, 추가적인 연구를 통해 다양한 확장연구가 가능하다. 기존 연구에서 살펴볼 수 있듯이 기상정보는 직간접적으로 사고나 사회현상을 발생시키고 있다. 이에 일정 기상요건에서 인간의 감성으로 인해 영향을 받는 다양한 행위, 예를 들어 건물 공사, 일반 사무와 같은 업무 전 인간의 감성에 도움이 되는 음악이나 영상을 통해 업무효율을 올리는 등 다양한 접목 분야를 고려해 볼 수 있다.
위와 같은 다양한 본 연구 결과의 적용가능성에도 불구하고 본 연구는 아래와 같은 한계점을 지니고 있다.
첫째, 크롤링 데이터의 랜덤 추출 방식이다. 본 연구에서 사용된 SNS 크롤링 데이터는 연도별 모든 데이터를 추출하기에는 서비스 제공자의 서버로드에 따른 비접속성 등 다양한 문제가 있는 관계로 연도별로 무작위 5만개의 콘텐츠를 추출하였다. 무작위성을 위해 본 연구에서는 월/일에 Random Value를 넣는 방식으로 추출하였으나 특정 이슈의 콘텐츠가 집중되는 기간, 예를 들어 올림픽, 선거와 같은 전국적인 특정 콘텐츠 집중기간을 제외시키지 못했다.
둘째, 두 가지 Lexicon을 혼합하여 사용하였음에도 불구하고 SNS의 특성상 감성을 표현하는 다양한 비정규 언어들에 대한 말뭉치화가 불가능하였다. 특히 MZ세대 유저가 대다수인 SNS인 인스타그램의 특성상 감성을 표현하는 부분에 있어 유행에 민감한 단축어나 표준어가 아닌 구어체 표현이 굉장히 많이 사용됨에도 불구하고 모두 누락되었으며, 다양한 한국식 영어 표현 역시 한국어 기반 분석툴인 KoNLPY를 사용한 관계로 Regular Expression에서 제외되었다.
셋째, 총 7가지의 감성으로 분석하는 영문의 자연어 감성 분석기와 같이 인간의 감성을 다양하게 분석하지 못하고 긍정/부정이라는 2원적 분석만이 이루어졌다. 이는 한국어의 복잡성과 말뭉치화의 어려움, 그에 따른 Lexicon 의 한계이기도 하지만, 향후 번역을 통한 한국어→영어 전환 후 영문 감성 분석기를 이용한 연구 등의 방식으로 보완할 필요가 있다.
ACKNOWLEDGEMENT
This work was supported by the Ministry of Education of the Republic of Korea and the National Research Foundation of Korea. (NRF-2020S1A5A2A01047073)
References
- I.S. Kim et al, "Weather Information and Industrial Data Analysis Research for Early Warning Service", Korea Occupational Safety & Health Agency, 2015.
- Korea Meteorological Institute, "Fusion method research weather information and other industries in the point of big data", 2013
- Y.N. Lee and K.W. Kim, "A study on the relationships between the fatal traffic accidents and meteorological factors", Journal of Korea Police Studies, Vol.6, No.3, pp.125-164, 2007.
- E.Y. Jang and S.J. Lee, "The Effects of Meteorological Factors on Sales of Apparel Products - focused on apparel sales in the department store -", Journal of the Korean Society of Costume, Vol.52, No.2, 2002
- Hyun-Jin Yeo, "Weather Index for Construction Injury", Journal of Theoretical and Applied Information Technology, Vol.96, No.21, pp.7330-7338, 2018
- Korea Meteorological Administration, http://web.kma.go.kr/eng/
- Catherine B.C and Daniel A.R, "Assessing the effects of Weather Conditions on Physical Activity Partivipation Using Objectives Measures", International Journal of Environment Research and Public Health, 2009, Vol.6, pp.2639-2654. https://doi.org/10.3390/ijerph6102639
- K.H. Lee, "Human Sensibility and Its Measurement and Evaluation", Annual Conference, Korea Society of Sensibility Science, pp.37-42, 1997.
- Howarth, E. & Hoffman, M.S, A multidimensional approach to the relationship between mood and weather, British Journal of Psychology, Vol.75, No.1, pp.15-23, 1984. https://doi.org/10.1111/j.2044-8295.1984.tb02785.x
- Y.H. Lee, and Y.S. Kim, "Weather, the Day of Week, and the Number of Crime: focused on Crime Occurrence in Seoul during the Winter", Korean Criminal Psychology Review, Vol.6, No.1, pp.207-211, 2010.
- S.J. Kim and T.Y, Kim, "How the Emotion of SNS Contents Influence the Users' Affective States : Focused on Facebook Newsfeed Pages", Journal of Cybercommunication, Vol.29, No.1, pp.5-47, 2012.
- Salton G. and McGill, M. J. 1983 Introduction to modern information retrieval. McGraw-Hill, ISBN 0-07-054484-0.
- Korean Setiment Analysis Corpus, http://word.snu.ac.kr/kosac/corpus.php
- H.P. Shin, M.H. Kim, Y.M. Jo, H.J. Jang and Andrew Cattle, "Annotation Scheme for Constructing Sentiment Corpus in Korean", 26 th Pacific Asia Conference on Language, Information and Computation, pp.181-190, 2012.
- Cox, DR, "The regression analysis of binary sequences (with discussion)", J Roy Stat Soc B, pp.215-242, 1958.
- Ron Kohavi; Foster Provost, "Glossary of terms", Machine Learning, pp.271-274. doi:10.1023/A:1007411609915, 1998.