DOI QR코드

DOI QR Code

텍스트마이닝 수집 및 분석 방법 비교에 관한 연구: 텍스톰과 파이썬을 활용한 국가숲길 선자령 구간을 중심으로

A Study on Comparing Text Mining Collection and Analysis Techniques: Focusing on the Seonjaryeong Section of the National Forest Trail Using Textom and Python

  • 류도현 (국립산림과학원 산림휴먼서비스연구과 ) ;
  • 이수광 (국립산림과학원 산림휴먼서비스연구과)
  • Do-Hyun Ryu (Dept. of Forest Human Service Research, National Institute of Forest Science) ;
  • Sugwang Lee (Dept. of Forest Human Service Research, National Institute of Forest Science)
  • 투고 : 2024.11.12
  • 심사 : 2024.11.28
  • 발행 : 2024.12.31

초록

This study was conducted to propose suitable data collection and analysis methods for analyzing tourist behavior using social big data text mining. The Seonjaeryeong section of the Daegwallyeong National Forest Trail was selected as the research site, and two data collection methods (Textom and Python) and two morphological analysis methods (Mecab and Okt) were applied to generate a total of four datasets. Naver blog posts written throughout the year 2020 were collected, and analysis techniques such as word frequency, TF-IDF, N-gram, and CONCOR were applied. The results of the study indicate that collecting the entire dataset is suitable for accurately understanding tourist behavior at tourist destinations. However, depending on the research duration and objectives, focusing on the introductory part of blog posts, where the main topics are often discussed, can also be an effective approach. Regarding the characteristics of the morphological analyzers, Mecab was found to be more suitable for noun-focused morphological analysis, while Okt was more appropriate for balanced analysis across different parts of speech. The analysis of tourist behavior at Seonjaeryeong showed that the verb "to eat" ranked highly across all four analyses. Therefore, it is suggested that revitalizing the restaurant industry in the Seonjaeryeong area could contribute to increasing tourist inflows and promoting local development.

키워드

1. 서론

힐링, 친환경을 중요시하는 사회적 분위기와 함께 건강의 관심도 증가하면서 걷기 여행 시장이 커지고 있다[1]. 2021년 걷기 여행 실태조사 결과에 따르면 평소 즐기는 야외여가활동으로 1순위가 ‘걷기’로 가장 많은 응답률을 나타냈으며[2], 2021년 산림휴양⋅복지 활동 조사에 따르면 산림복지시설 중 ‘숲길’을 가장 많은 사람이 이용한 것으로 나타났다[3]. 걷기에 대한 수요 증가와 함께 제주 올레길(2007)과 지리산둘레길(2009)을 시작으로 걷기여행길 조성이 확대되었으며, 2020년에는 「산림문화⋅휴양에 관한 법률」에 의해 산림생태, 역사문화적 가치가 높은 대표적인 숲길을 국가숲길로 지정할 수 있게 되었다. 국가숲길은 2021년 지리산둘레길, 백두대간트레일, DMZ펀치볼둘레길, 대관령숲길, 내포문화숲길, 울진금강소나무숲길[4]을 시작으로 2022년 대전둘레산길과 한라산둘레길, 2023년 속리산둘레길이 지정 고시되었다[5]. 숲길에 대한 국민의 수요와 걷기에 대한 관심은 꾸준히 증가 되는 한편[3], 숲길 방문객 행태에 대한 연구는 다소 부족한 실정이다. 숲길이 자연관광지로서 중요성을 가지고 있는 만큼, 수요자 입장의 맞춤형 숲길 매력 요인과 이용 및 관광행태에 대한 연구가 필수적인 시점이다.

한편, 최근 여러 분야에 걸쳐 빅데이터를 활용한 연구가 매년 증가하고 있다. 빅데이터란 규모(volume), 다양성(variety), 복잡성(complexity), 속도(velocity)를 특징으로 하는 대용량 데이터를 뜻한다[6]. 빅데이터는 일상에서 생산되는 소셜미디어의 여행 후기, 뉴스 기사, 블로그 등의 단순한 텍스트 정보를 넘어 그동안 파악하지 못했던 이용객의 의견이나 새로운 사실 등을 확인할 수 있는 유용한 정보로써 활용되고 있다[7]. 특히, 관광 분야에서는 관광을 다녀온 후 특정 장소나 경험을 소셜미디어를 통해 공유하는 경우가 많아 소셜미디어의 텍스트를 수집하여 트렌드를 분석하거나 방문객 요구도를 분석하는 연구가 활발하게 진행되고 있다[1, 8-11]. 하지만 대부분의 연구는 검색어를 통해 일부 텍스트만 수집하는 텍스톰을 주로 활용해 왔으며, 이로 인해 관광 행태와 트렌드를 종합적으로 분석하는 데 한계가 존재하였다. 따라서 데이터 수집 범위를 확장하고 이를 비교하는 연구가 필요한 시점이다.

소셜미디어의 텍스트 빅데이터 분석을 위해 컴퓨터가 언어를 분석할 수 있도록 처리하는 단계인 자연어처리(NLP, Natural Language Processing)를 수행해야 하며[12], 한글 자연어처리는 주로 한국어 정보처리 파이썬 패키지인 KoNLPy의 형태소 분석기를 통해 수행된다[13]. KoNLPy의 형태소 분석기 활용에 대한 선행연구는 주로 그 속도에 대한 비교와 성능에 대한 비교로 제한되어 진행됐으며 분석 데이터의 양 또한 간단한 문장을 통한 비교가 실시되었다[14-16]. 현재, 방대한 양의 텍스트를 대상으로 형태소 분석기별 성능을 비교한 연구는 미비하며, 데이터의 정확도를 높이기 위해서는 빅데이터에 대한 형태소 분석기의 성능 비교를 통해 정확한 분석 기술 발굴이 필요한 시점이다.

이에 본 연구의 목적은 다음과 같다. 첫째, 텍스트마이닝 분석에서 텍스톰과 파이썬으로 텍스트 수집 방법을 달리하여 그에 따른 차이를 구명하고자 한다. 둘째, 형태소 분석기 중 우수한 성능이 보고된 Mecab과 Okt 두 개의 형태소 분석기를 적용하여 관광객의 전체적인 행태를 비교 분석하여 보다 적절한 분석기법을 제시하고자 한다. 셋째, 국가숲길 중 대관령숲길의 선자령을 키워드로 선자령과 관련된 전체적인 관광행태와 매력 요인을 분석하고자 한다.

2. 이론적 배경

2.1 텍스트 마이닝

텍스트 마이닝(Text mining)은 빅데이터 분석 기법에 해당하는 자연어처리 기술 중 하나로, 비정형 데이터인 텍스트 데이터에서 관계나 패턴을 추출하여 유의미한 정보와 가치를 찾아내는 데이터 분석 기법이다[17]. 텍스트 마이닝은 데이터의 근원이 문서에 있고, 단어를 기반으로 대상을 추출하고 분석하는 방법에 보편화되어 있다는 특징이 있다[18].

본 연구에서 사용된 분석 방법은 단어빈도, TF-IDF, N-gram, CONCOR 등 총 4가지이다. 단어빈도 분석은 전체 텍스트 데이터에 있는 각 단어의 출현 빈도를 합산하여 그 빈도수를 기준으로 상위 단어를 분석하는 방법이다. 데이터 내에서 단어가 많이 등장할수록 단어의 출현 빈도수도 크기 때문에, 단어빈도 분석은 문서에서 중요한 단어를 빠르고 단순하게 파악할 때 유용하다[19]. TF-IDF 분석은 문서에 쓰인 단어의 빈도(TF, Term Frequency)와 역문서 빈도(IDF, Inverse Document Frequency)값의 역수를 취하여 문서 단어행렬(DTM, Document Term Matrix)내의 단어에 중요도를 가중치로 부여하는 자연어 분석 방법이다[20]. 단순 단어빈도수에 따라 해당 단어가 중요 키워드라고 판단할 수 없으므로[21], 출현 빈도수에 의해 가중치 값이 결정되어 단어의 중요도가 결정되는 것을 방지할 수 있다[22]. N-gram 모델은 각각의 단어가 어떤 단어와 동시에 연결되었는지 그 빈도를 통해 전체 맥락과 관련된 중요한 정보를 얻는 분석 기법이다[23]. 이는 확률적 언어모델에 해당하며, n개의 어절이나 n개의 음절이 연속적으로 쓰이는 확률을 구하고 이를 바탕으로 그 이후에 어떤 단어나 표현이 나타나는지 예측할 때 쓰인다. CONCOR 분석은 가장 흔하게 사용되는 구조적 등위성 측정 방법으로, 상관계수를 사용하여 군집을 나눈다. 구조적 등위성은 하나의 네트워크 내에 존재하는 단어들이 구조적 지위와 그 역할이 동일한 관계패턴을 맺고 있음을 의미한다. 이를 분석하는 방법으로는 유사한 지위를 가진 단어들을 그룹으로 나누고 각 그룹들의 관계를 묘사하는 방법이 있다. 다만, 소셜 빅데이터를 분석하는 경우 추출된 단어의 수가 너무 많아 전체 단어의 관계를 시각적으로 표현하기에 어려움이 있으므로 출현 빈도 상위 50위 내외로 지정하는 것이 일반적이다[24].

2.2 빅데이터를 활용한 관광 분야 선행연구

휴대용 스마트 기기의 발전과 함께 소셜미디어가 급속도로 확산됨에 따라 위치 정보, 소비내역 등의 가치 있는 개인 정보가 포함된 방대한 양의 정형⋅비정형 데이터가 축적되고 있다. 이러한 데이터를 빅데이터라고 칭하며, 이를 수집하고 가치있는 정보를 발굴하여 새로운 인사이트를 만들어 내는 빅데이터 분석이 여러 산업에서 요구되고 있다[25]. 이렇듯 빅데이터 연구가 여러 산업에 걸쳐 활발하게 진행된 이래로 관광 분야에서도 대량의 데이터 분석 결과를 활용할 수 있는 방법과 그 지침을 제공하는 연구가 진행되고 있다[26].

관광학에서 빅데이터가 주로 연구된 분야는 텍스트 마이닝을 활용한 관광객의 인식 혹은 행태에 관한 분석이다. 노희경(2022)[9]은 텍스톰으로 수집한 소셜 빅데이터를 텍스트 분석 프로그램 넷마이너(Netminer)를 이용하여 분석하였는데, 그 결과 세계유산 등재를 전후로 하여 공산성 방문객들의 인식 변화를 파악하고 공주 지역 관광 서비스의 발전 방향을 제시하였다. 최상수(2022)[27]는 텍스톰으로 수집한 포털사이트 글의 변화를 분석하여 코로나19 발병 전에 비해 지역 축제 관련 글이 줄어든 것을 파악하였고, 지역 축제의 배경은 비대면을 선호하는 사회 변화로 인해 그 장소가 오프라인에서 온라인으로 변화하였음을 밝혔다. 김근현과 이수광(2021)[28]은 숲길 정책이 추진된 이후 10년 동안(2011∼2020) 작성된 sns 글을 수집하여 관광객들이 숲길을 향유 하는 방법과 숲길이 가벼운 운동을 즐기는 여가활동으로 인식되고 있다는 점, 그리고 코로나19 발병 이후 ‘사람이 없는’ 공간으로 인식하여 찾는다는 시사점 등을 밝혀 향후 숲길 정책 수립에 기초 자료를 제공하였다. 송성진 등(2020)[29]은 내추럴 와인을 키워드로 텍스톰을 이용하여 수집한 빅데이터 분석 결과 기존의 연구 결과와 흡사하되 발전적인 결과를 도출했다. 내추럴 와인이 한정적인 공간에서만 소비되고 있다는 학문적 시사점과, 활성화를 위해서는 와인샵과 호텔, 레스토랑 등 소비자가 쉽게 와인을 접할 수 있는 곳에서 내추럴 와인을 경험할 수 있는 기회를 제공해야 한다는 실무적 시사점을 제시하였다. 홍충선과 위주연(2019)[30]은 ‘전주한옥마을’이 언급된 sns 데이터를 수집, 분석하여 관광지 재생 이후 변화된 관광지에 대한 긍정적⋅부정적 이미지를 파악하고 이를 통해 향후 관광지 재생 사업에서 유용하게 사용가능한 자료를 제공하였다. 전주한옥마을은 재생 사업 이후 단순 관광 장소에서 먹거리, 즐길거리, 숙박 업소 등이 결합된 체류형 관광 장소로 변화되었다는 결론을 도출하였다. 또한, 단어빈도수와 CONCOR 분석 결과 관광 요소 중 음식에 관한 것이 주요 키워드로 등장한 것으로 보아 전주시에서는 이에 대한 관광객의 만족도를 향상 시킬 수 있는 식도락 여행을 추진할 것을 시사하였다.

텍스트 이외의 비정형 데이터 분석기법이 발달하고 개선된 분석 모델이 등장하면서 관광 분야에서도 다양한 유형의 빅데이터 분석 연구가 활발하게 진행되고 있다. 김혜연(2020)[31]은 문화 이미지 프레임망을 사용한 이미지 분석과 문화예술추출시스템을 사용한 텍스트 분석 이상 두 개의 데이터 분석을 통해 한국의 ‘여관’과 일본의 ‘료칸’의 이미지와 텍스트를 연계한 분석 결과와 이를 바탕으로 하여 학술적 시사점에 더불어 실무적 활용 방안을 제시하였다. 오희균과 강재완(2023)[32]은 이동통신 및 신용카드 빅데이터를 활용한 고차 확인적 요인분석을 통해 지역 관광 활성화 진단 모형을 개발하고, 핵심 인자를 구명하였으며 진단 모형에 기초한 지역 관광 활성화 지표에 의거 하여 예측 결과의 타당성을 검토하였다.

3. 연구 방법

3.1 데이터 수집 및 정제

3.1.1 데이터 수집

연구에 사용된 데이터는 2020년 1월 1일부터 2020년 12월 31일의 1년 동안 ‘선자령’ 키워드가 포함된 네이버 블로그 게시글을 대상으로 수집하였다. 텍스톰 데이터는 텍스톰 데이터 수집 기능을 이용해 수집하였다. 텍스톰은 소셜 매트릭스 프로그램으로 포털사이트에서 제공하는 블로그, 뉴스 등의 자료뿐만 아니라 트위터까지 수집 가능하며 수집, 분석, 시각화 등이 가능해 텍스트 데이터 분석에 유용하게 활용 가능한 플랫폼으로 알려져 있다. 수집 대상 데이터는 키워드 검색 화면에 노출되는 제목 및 문장이며, 문장 노출 범위는 해당 키워드가 포함된 문장의 어두부터 2∼3줄이다. 파이썬 수집 방법(이하 파이썬)은 파이썬 패키지인 Selenium으로 수집 과정을 자동화하였다. 1차로 ‘선자령’ 검색 결과 나오는 모든 블로그의 제목, 링크를 수집한 후에, 2차로 각각의 게시글 링크에 접속하여 본문 전체를 수집하는 코드를 구현하여 데이터를 수집하였다. 텍스톰과 파이썬의 게시글별 자료 수집 범위는 Fig. 1과 같다.

SOOOB6_2024_v27n6_3_1657_5_f0001.png 이미지

Fig. 1 Comparison of Data Collection Methods: Textom and Python

3.1.2 데이터 정제

분석에 앞서 수집한 데이터를 살펴본 결과, 블로그 게시글에는 한글 텍스트 외에 이모티콘이나 기호 등이 많이 포함 되어있고, 신조어나 맞춤법이 틀린 텍스트가 많아 분석의 정확도를 높이기 위해 아래 세 단계의 텍스트 데이터 정제 과정을 거쳤다.

첫째, 한글, 영어, 숫자 외의 다른 문자들을 모두 삭제하였다.

둘째, 맞춤법 검사 정확도 향상을 위해 게시글 본문을 문장으로 분리하였다. 블로그는 인터넷 사용자가 자신의 생각이나 느낌을 글로 쓰는 공간으로, 문장이 제대로 완결되지 않거나 맞춤법이 틀린 경우가 많기에 맞춤법 검사를 통한 수정이 필요하다. 현재까지 많이 활용되고 있는 부산대 맞춤법 검사기를 사용하여 문장을 수정하였다.

셋째 TF-IDF와 N-gram을 만들 때는 문서와 문장을 형태소로 분리한 후, 문서와 문장에서 조사와 의미가 없다고 판단된 단어들로 구성된 불용어들(예: [은, 는, 이, 가, 을, 를, 에서] 등의 조사와 [곳, 것, 뿐, 데] 등의 불필요한 단어)을 제거한 후에 분석을 진행하였다.

3.2 텍스트마이닝 분석

3.2.1 형태소 분석

수집된 데이터는 형태소 분석기 종류(Mecab, Okt)를 달리하여 분석하였다. Mecab과 Okt 모두 한국어 정보처리를 위한 파이썬 패키지 KoNLPy에서 사용 가능한 형태소 분석기이다[13]. Mecab 형태소 분석기(이하 Mecab)는 형태소를 43개로 분리하는 등 아주 세밀하게 분석하고[33], 다수의 형태소들의 결합까지 품사로 나타내지만, 형태소의 어간을 추출하도록 설정하는 파라미터가 없으며 과거 시제 등으로 변형된 형태소는 원형을 추출할 수가 없는 특징이 있다[34]. Okt(구 Twitter) 형태소 분석기(이하 Okt)는 형태소를 19개로 분리하는 등 비교적 단순하게 형태소를 분석하지만[33], 변형된 유형의 형태소도 정규화 설정을 통해 원형에 매우 가깝게 형태소를 분석할 수 있다. 또한, 신조어나 줄임말 등을 사용자 사전에 등록하면 국어사전에 없는 단어라도 맞는 단어로 인식 및 분류하여 한글 왜곡이 많은 SNS 텍스트 분석에 적합하다. 같은 맥락에서 Mecab은 동사와 형용사의 경우 통일성이 낮지만, Okt는 모든 형태소 목록의 통일성이 높다. Mecab은 형태소가 결합하여 만들어진 단어를 분석할 때 변형된 형태소는 그 상태 그대로 분석하고 품사를 태그하는데, 그 결과 명사를 제외한 형태소의 결과 해석이 어렵기 때문이다.

3.2.2 단어빈도 분석

단어빈도는 단순히 전체 문서에 존재하는 형태소들을 품사로 추출하여 그 빈도를 계산하였다. 형태소 분석기로 형태소와 품사까지 추출하고, 그 중에서 품사가 명사, 동사, 형태소인 것을 선택하여 각각 따로 데이터프레임으로 저장하였다. 명사 형태소는 Mecab과 Okt 모두 ‘.nouns()’라는 명사 추출 기능을 사용하여 명사를 추출하였다. 동사 형태소는 Mecab은 자체 동사 품사에 해당하는 ‘VV’ 품사인 형태소들을 추출하였고, Okt는 자체 동사 품사에 해당하는 ‘Verb’ 품사인 형태소들을 추출하였다. 형용사 형태소는 Mecab의 자체 동사 품사에 해당하는 ‘VA’ 품사인 형태소들을 추출하였고, Okt의 자체 형용사 품사에 해당하는 ‘Adjective’ 품사인 형태소들을 추출하였다. 각 품사에 해당하는 형태소들로 구성된 리스트는 파이썬을 사용하여 개별 형태소들의 전체 문서에서의 등장 빈도수를 구해서 데이터프레임으로 변환, 엑셀 파일로 저장하였다.

3.2.3 TF-IDF 분석

Term Frequency-Inverse Document Frequency(이하 TF-IDF) 분석은 SNS나 뉴스 기사에서 자주 언급 되는 문제들을 분석하는데에 유용하며[35], 텍스트마이닝에서 자주 활용되는 분석 중 하나이다. TF-IDF 값은 단어빈도(TF)와 특정 단어를 가진 문서의 개수(DF)에 역수를 취한 역문서 빈도(IDF)를 곱한 값을 의미하며 <TF–IDF=TFX1/DF>의 계산식을 가진다[36]. TF-IDF 가중치 값은 문서 내 단어의 출현 빈도가 많을 수록, 전체 문서 중 해당 단어가 출현하는 문서들의 수가 적을 수록 크게 나타나므로 TF-IDF값이 클 수록 중요한 단어로 해석하였다[35].

3.2.4 N-gram 분석

N-gram 분석은 기준이 되는 단어의 앞, 뒤 단어를 모두 포함하기 때문에 단어가 사용된 맥락과 그 안에서 가지는 특정한 의미를 파악할 수 있다. 김수현 외(2020)[37]는 한 개의 단어는 분석 과정에서 모호함과 상황에 따라 다른 의미로의 해석이 가능하며 이런 이유로 하나의 단어 단위(Unigram)로 분석하기보다는 여러 단어를 묶어 한 개의 단위(N-gram)으로 분석을 진행하는 것의 타당성을 주장하였다. Gendron(2015)[38]에 따르면 하나의 단어 단위(Unigram)는 문맥 정보를 제공하지 않는 문제가 있으며, 세 개의 단어 단위(Trigram)부터 높은 계산 복잡도와 심각한 희소성 문제가 있으며 두 개의 단어 단위(Bigram)는 많은 문맥 정보 제공과 계산 복잡도 및 희소성 문제의 완화를 통해 N-gram모델 중 Bigram의 우수성을 주장하였다. 따라서, 본 연구는 Bigram을 사용해서 텍스트를 분석하였다. 문서를 문장으로 분리한 다음, 문장들을 형태소로 변환하였고, 최종적으로 형태소로 구성된 문장을 기준으로 Bigram을 구성하였다.

3.2.5 CONCOR 분석

CONCOR 분석은 구조적 등위성(Structural Equivalence) 분석 방법의 하나로, 단어 동시 출현 행렬의 피어슨 상관계수를 기준으로 하여 상관 행렬의 열(Column)간 유사도를 측정하는 분석기법이다. Ucinet 6.0을 활용하여 CONCOR 분석을 시각화 하였으며, 단어빈도와 노드의 크기는 양의 상관관계를 가지며, 단어 간 연결강도와 노드를 연결하는 선의 굵기도 양의 상관관계를 가진다. 본 연구에서는 두 개의 수집 데이터에 대하여 각각 두 가지 형태소 분석기를 사용해서 총 4개의 CONCOR 분석 그래프를 도출하였다.

4. 결과 및 고찰

4.1 단어빈도

분석을 위해 수집된 블로그 게시글 건수는 텍스톰은 3,381개, 파이썬은 3,389개로 유사한 개수의 데이터가 수집되었지만, 분석에 사용된 문장의 경우 텍스톰은 5,631개, 파이썬은 71,893개로 약 13배의 차이가 나타났다(Table 1). 단어 출현 빈도수에서도 큰 차이가 나타났으며 Okt의 동사의 텍스톰에서 2,104회, 파이썬은 56,238회로 약 27배의 차이로 가장 큰 차이를 보였다. 또한, 동사와 형용사의 상위권 형태소들은 각각 약 20배, 30배의 차이를 보이는 등 파이썬 수집 데이터의 양이 텍스톰 수집 데이터에 비해 현저히 많은 것을 확인할 수 있었다. 이러한 차이는 텍스톰과 파이썬의 데이터 수집 범위가 다르기 때문에 발생한 것으로 판단된다.

Table 1. Number of Data Collection

SOOOB6_2024_v27n6_3_1657_7_t0001.png 이미지

형태소 분석기별 단어빈도는 핵심 주제의 명확한 분석과 시각적 표현의 효과성을 위해, 대표성을 갖춘 상위 20위 단어만을 해석에 활용하였다(Table 2, Table 3). 분석 결과, 명사는 텍스톰과 파이썬 공통적으로 선자령의 지리적 정보와 관광 요소와 관련된 단어가 상위권에 나타났다. 텍스톰은 ‘대관령’, ‘강원’, ‘평창’, ‘백두대간’ 등 선자령의 지리적 정보에 해당하는 단어와 ‘눈’, ‘산행’, ‘등산’, ‘백패킹’, ‘목장’ 등 선자령의 관광 요소와 관련된 단어들이 주로 나타났으며 파이썬 역시 마찬가지로 두 개의 형태소 분석기 모두 ‘대관령’, ‘강원’, ‘평창’의 지리적 정보와 ‘눈’, ‘산행’, ‘봉’, ‘목장’ 등 관광 요소와 관련된 단어가 주로 나타났다. 이는 김근현 등(2022)[39]의 블로그 내 DMZ펀치볼 둘레길 대상 워드 클라우드 분석 결과, 위치 정보를 나타내는 단어가 다수 발견되었다는 연구 결과 및 이진규 등(2020)[40]의 블로그와 카페 내 인제 자작나무 숲 대상 텍스트 마이닝 분석 결과, 장소와 지역, 방문 목적(관광 요소)의 출현빈도가 높게 나타났다는 연구 결과와 유사하게 나타났다. 이는 텍스톰과 파이썬 분석 결과 모두 선자령과 관련된 블로그 게시글에서 지리적 정보와 관광 요소가 주요 주제로 다루어지며, 이는 기존 연구와 유사하게 블로그가 여행 정보를 제공하는 중요한 매체임을 시사한다. 반면, 텍스톰과 파이썬의 명사 단어 수집 중 가장 큰 차이는 ‘백패킹’이다. 백패킹은 야영 장비를 갖춘 등짐을 지고 1박 이상의 여행을 떠나는 레포츠를 뜻하며 많은 운동량과 신체 부담을 요구하는 레포츠를 의미한다[41]. 인근의 다른 산에 비해 비교적 고도가 낮고, 차량으로 정상 근처까지 접근이 용이한 선자령[42]이 백패킹에 유리한 환경을 제공하여 활발한 백패킹이 이루어지고 있다고 판단된다. 또한, 인터넷상에서 정보 전달 목적 글 작성 시 두괄식 구성을 자주 사용한다는 점에서[43], 텍스톰에서 ‘백패킹’이 주요 주제로 언급된 것은 해당 활동의 중요성을 반영하는 것으로 생각된다.

Table 2. Word Frequency Analysis of Textom-Collected Data

SOOOB6_2024_v27n6_3_1657_8_t0001.png 이미지

Table 3. Word Frequency Analysis of Python-Collected Data

SOOOB6_2024_v27n6_3_1657_9_t0001.png 이미지

동사와 형용사는 텍스톰과 파이썬 모두 등산/산행과 관련된 단어가 주로 등장하였으며 이는 선자령이라는 장소의 특성에서 비롯된 것으로 판단된다. 동사 상위 5위 단어 중 등산/산행과 관련되어 공통으로 등장하는 단어는 ‘가다’, ‘하다’, ‘보다’, ‘되다’로 나타났으며, 형용사 상위 5위 단어 중 공통으로 등장하는 단어는 ‘없다’, ‘좋다’, ‘있다’, ‘같다’로 5개 중 4개가 동일하게 나타나며 비슷한 경향을 보였다. 동사와 형용사의 상위 빈도 단어들과 선자령이라는 특정 장소와의 연관성은 해당 장소가 사람들에게 미치는 심리적, 정서적 영향이 크며, 등산과 산행 활동이 이용자들의 인식 속에 강하게 자리 잡고 있음을 시사한다[44]. 동사 ‘가다’, ‘하다’, ‘보다’, ‘되다’는 등산의 주요 활동에 대한 서술을 반영한다. ‘가다’는 목적지를 향한다는 의미로, ‘하다’와 ‘되다’는 현재 선자령의 자연상태를, ‘보다’는 주변 요인을 눈으로 본다는 의미로 활용되었으며, 자연에 대한 묘사와 자연 속 활동에 관한 긍정적인 내용이 중심이었다. 형용사 ‘없다’, ‘좋다’, ‘있다’, ‘같다’의 높은 빈도는 등산 경험에 대한 이용자들의 감정적 반응을 반영한다. ‘좋다’는 주로 선자령에 대한 긍정적인 감상평으로 활용되었으며, ‘없다’는 눈이나 바람이 없다는 내용을, ‘있다’는 해당 장소에 존재하는 사물에 관한 설명과 ‘같다’는 다른 것과 비교하여 다르지 않음을 나타내는 의미로 활용되었다. 결론적으로, 동사와 형용사의 상위 빈도 표현들은 주로 선자령의 자연에 대한 긍정적인 표현들이 주로 나타났으며 이는 등산의 주목적이 경관감상이라는 결과[45] 및 온라인에서 숲길에 대한 긍정단어 사용률이 높다는 보고한 연구결과[39,40,46]와 유사하였다. 자연 경관에 대한 긍정적 이미지는 방문 동기를 강화하고 재방문 의사를 높일 수 있는 중요한 요소이다[47]. 선자령의 자연경관에 관해 공통적으로 언급되는 긍정적인 표현은 선자령의 자연경관이 방문자들에게 깊은 인상을 남기고, 긍정적인 감정을 유발하는 것으로 판단된다.

텍스톰과 파이썬의 형태소 분석기별 분석 결과, 두드러진 차이점은 ‘있다’와 동사 및 형용사의 빈도수이다. ‘있다’는 텍스톰의 Mecab(이하 텍스톰-Mecab)분석 결과, 동사 317개, 형용사 194개의 빈도를 보였지만 텍스톰-Okt분석 결과, 형용사에서만 901개의 빈도를 보였다. 파이썬-Mecab분석 결과, 동사 11,538개, 형용사 5,258개의 빈도를 보였지만, 파이썬-Okt분석 결과, 형용사에서만 26,644개의 빈도를 보이는 등 Okt의 ‘있다’의 품사는 오직 형용사로 구별되는 것으로 분석되었다. ‘있다’의 품사는 동사[48,49], 형용사[50,51] 및 동사와 형용사를 겸하는 단어[52-54] 등 최근까지 정확한 품사에 관한 논의가 이어지고 있으며[55], Mecab과 Okt의 ‘있다’에 대한 차이는 이로 인한 것으로 판단된다. 또한, Okt는 서술어의 어간과 어미를 분리하지 않아 교착어적인 특성으로 어간과 어미의 품사가 각각 존재하는 한국어의 서술어 분석에 제한이 존재하여[56], ‘있다’를 동사와 형용사의 구별이 아닌 일괄적인 형용사로의 분류가 이루어진 것으로 생각된다.

품사별 출현빈도 비율을 비교 분석한 결과, 형태소 분석기별 동사 및 형용사 빈도 차이가 나타났다. 텍스톰은 Mecab 빈도 12,729건 중 명사 8,090건으로 63%, 동사 3,014건으로 24%, 형용사 1,625건으로 13%의 비율을, Okt 빈도 16,977건 중 명사 8,144건으로 48%, 동사 5,992건으로 35%, 형용사 2,841건으로 17%의 비율을 차지하며 텍스톰의 품사별 비율은 Mecab에 비해 Okt가 비교적 고르게 나타난 것으로 분석되었다(Table 4). 파이썬은 Mecab 빈도 215,692건 중 명사 107,586건으로 50%, 동사 69,736건으로 32%, 형용사 38,370건으로 18%의 비율을 차지하였으며, Okt 빈도 320,486건 중 명사 106,902건으로 33%, 동사 140,372건으로 44%, 형용사 73,212건으로 23%를 차지하며 파이썬도 마찬가지로 Mecab에 비해 Okt의 품사별 비율이 비교적 고르게 나타난 것으로 분석되었다(Table 5).

Table 4. Word Class Frequency Analysis by A Morpheme Analyzer(Textom)

SOOOB6_2024_v27n6_3_1657_10_t0001.png 이미지

Table 5. Word Class Frequency Analysis by A Morpheme Analyzer(Python)

SOOOB6_2024_v27n6_3_1657_10_t0002.png 이미지

이는 Okt가 Mecab에 비해 동사, 형용사 분석에 뛰어난 성능을 보이며, 품사별 개수를 고르게 분석하는 것으로 판단되며, 빈도의 차이는 Mecab과 Okt의 분석 방법 차이로 인한 결과로 생각된다. Mecab과 Okt는 서로 다른 형태소 분석 알고리즘을 사용하기 때문에, 동일한 텍스트를 분석하더라도 명사, 동사, 형용사 등의 빈도가 다르게 나타나는 경향이 있다. Mecab은 일본어와 한국어에 특화된 형태소 분석기로, 규칙 기반의 분석 방법을 사용하여 신속하고 정확한 분석을 제공하며[57], 특히, 명사를 ‘일반명사, 고유명사, 의존명사, 단위를 나타내는 명사, 수사, 대명사’로 태깅을 따로 하는 등 명사 분석을 세부적으로 진행한다[33]. 반면, Okt는 정규화, 토큰화, 어간 추출, 구 추출 기능을 제공하며, 정규화를 통해 줄임말과 같은 비정형 데이터를 처리하고[34], 명사, 동사, 형용사를 단일 태깅하는 등 Mecab에 비해 포괄적으로 품사를 분석한다[33]. 블로그를 비롯한 소셜미디어의 텍스트에는 약어, 속어 등이 다수 존재하며 줄임말과 같은 비정형 데이터가 다수 나타난다[58]. 이와 같은 블로그의 특성으로 인해 Okt의 비정형 데이터에 대한 정규화를 통해 정확하고 고른 품사 비율이 나타난 것으로 생각된다.

결론적으로, 형태소 분석기의 특성에 따라 ‘있다’와 같이 정확한 품사에 대한 논의가 존재하는 단어는 ‘품사 몰림 현상’이 존재할 수 있으며, 분석 대상 유형에 따라 품사 비율 등의 결과 차이가 유발됨을 확인하였다. 이는 연구자 혹은 실무자가 텍스트마이닝 분석을 수행할 때, 분석기의 특성과 분석 결과의 차이를 충분히 이해하고 적절한 분석기를 선택하는 것의 중요성을 시사한다.

4.2 TF-IDF

자료 수집 방식 및 형태소 분석기별 비교분석 결과, 단어 순위에는 큰 차이가 없었으나 상위 20위 내 단어 출현 여부에서는 차이가 발생하였다(Table 6). 자료 수집 방식에 따른 분석 결과, 텍스톰에만 출현한 단어는 ‘백패킹, 코스, 백두대간, 휴게소, 평창, 강릉’이었으며, 파이썬에만 출현한 단어는 ‘없다, 강원, 글, 먹다, 되다, 좋다, 않다, 정상’으로 나타났다. 텍스톰의 경우, 주로 선자령과 관련된 주요 활동을 나타내는 키워드가 나타난 반면, 파이썬은 텍스톰에 비해 세부적인 활동 및 서술적 표현이 나타났다. 형태소 분석기별 분석 결과, Mecab에만 출현한 단어는 ‘좋다, 정상, 시간, 휴게소, 글, 먹다, 강릉’ 등 주로 명사가 나타난 반면, Okt에만 출현한 단어는 ‘강원, 이다, 오다, 평창, 되다, 않다’ 등 동사 및 형용사 중심 단어들이 주요하게 나타났다. 텍스톰과 파이썬의 TF-IDF 결과 차이는 제목과 문장의 앞부분에 쓰이는 텍스톰의 데이터와 활동에 대한 내용을 세부적으로 서술하는 파이썬의 데이터에서 기인한 것으로 판단된다. 최성자 등(2016)[59]은 블로그의 특성상 키워드의 위치에 따라 각 키워드의 중요도가 다르게 판단될 수 있다고 보고하였으며, 한승민 등(2017)[60]은 이와 같은 블로그의 특징을 반영하여 가중치를 부여하는 방법을 통해 블로그 게시글 대상 TF -IDF 분석을 실시하는 등 TF -IDF의 분석 범위 설정에 의한 결과의 변동성을 뒷받침하였다. 형태소 분석기별 분석 결과는 전술한 Mecab과 Okt의 형태소 태깅 방법의 차이로 인한 차이로 판단된다[33,34].

Table 6. TF-IDF Analysis

SOOOB6_2024_v27n6_3_1657_11_t0001.png 이미지

4.3 N-gram

N-gram 4개 분석 결과 모두 (양떼, 목장)이 출현 빈도 1위로 분석되었다. 선자령을 방문하는, 혹은 선자령에 관련된 글을 쓰는 사람들에게 ‘양떼 목장’이 선자령의 최상위 연관 단어인 것으로 보인다. 4개 분석 모두 공통으로 등장하는 단어 쌍은 총 7개로 (양떼, 목장), (대관령, 휴게소), (강원, 평창), (하늘, 목장), (풍력, 발전기), (대관령, 양떼), (평창, 대관령)으로 나타났다(Table 7).

Table 7. Bigram Analysis

SOOOB6_2024_v27n6_3_1657_13_t0001.png 이미지

Okt는 단어에서 형태소를 원형화하고 정규화하여 추출할 수 있어 명사뿐만 아니라 동사와 형용사도 추가적인 수정 없이 분석할 수 있지만, Mecab은 속도 면에서 뛰어난 성능을 보이는 반면, 문맥을 고려하지 않고 단어를 분석하는 한계로 인해 복합적이고 미묘한 의미를 완전히 파악하기 어려울 수 있다[34]. 형태소별로 분석할 때 본문에 대한 정확도가 떨어질 가능성이 높으며, 이는 동일한 데이터를 대상으로 Mecab과 Okt를 사용했을 때 Okt 분석 결과에서 동사와 형용사가 더 많이 추출된 것으로 확인할 수 있었다(Table 5).

텍스톰 수집 데이터에서 상위 빈도에 위치한 단어인 (눈꽃-산행), (등산-코스), (풍차-길) 3개의 단어 쌍은 파이썬 수집 데이터의 상위 20개에는 속하지 않은 반면, 파이썬 수집 데이터 상위 등장 단어 쌍은 대부분 텍스톰 수집 데이터에 위치하였다. 이는 텍스톰 수집 데이터 범위인 글의 제목과 선자령이 포함된 문장의 2∼3줄에 쓴 단어 조합은 게시글이 전체적으로 반복되지 않음을 의미한다. 또한, 텍스톰 데이터는 수집 범위가 제한적이므로 특정 문장에서 자주 쓰이는 단어 조합이 부각 된다. 데이터 수집 범위가 게시글 전체인 파이썬이 전체적인 관광행태를 정확하게 파악할 수 있음을 시사한다. 텍스톰에는 나타나지 않은 (하산-하다)가 파이썬-Okt의 17위에 위치하여 선자령 내 활동의 마무리격인 하산에 관한 내용까지 파이썬에서 기술된 점이 이를 뒷받침 한다. 이러한 결과는 데이터 분석에 있어 수집 범위와 방법의 중요성을 강조한다[61,62]. 형태소 분석기별 구성 단어의 차이를 분석한 결과, Mecab은 주로[명사-명사]의 조합이, Okt는 [명사-명사]와 [명사-용언(동사, 형용사)]의 결과가 나타났다. 이는 전술한 Mecab과 Okt의 품사 분포 비율 특징과 마찬가지로 Mecab의 명사 구분 강점과 Okt의 고른 품사 비율에서 기인한 것 으로 판단된다. 이와 같은 차이는 단순 단어빈도뿐 아니라, 단어 간 관계와 맥락 구성 방식에도 영향을 미치며, 데이터의 특성과 분석 목표에 따라 최적의 분석기를 선택하는 것이 성공적인 분석의 핵심임을 시사한다[63].

4.4 CONCOR

형태소 분석기별 CONCOR분석 결과, Mecab과 Okt의 군집 종류와 특정 단어의 독립적인 군집 형성의 차이가 나타났다. 각 특징적인 군집은 Mecab에서의 ‘풍력발전기’, ‘글’, ‘녹지’ 군집과 Okt에서의 ‘양떼목장’과 ‘꽃’ 군집이다. ‘풍력발전기’ 군집은 ‘풍력’과 ‘발전기’로만 이루어진 구조를 보였으며 ‘녹지’ 군집은 ‘숲’, ‘공원’, ‘꽃’으로의 구성을, ‘글’ 군집은 단독으로 군집을 이루었다. ‘양떼목장’ 군집의 경우 텍스톰-Okt는 ‘양떼’, ‘목장’, ‘국내’, ‘하늘’로, 파이썬-Okt는 ‘양떼’와 ‘목장’으로 구성되었으며 ‘꽃’ 군집은 단독으로 군집을 이루고 있는 특징을 보였다. 특히, ‘양떼목장’ 군집의 경우 Okt에서 하나의 군집으로 나타난 반면, Mecab에서는 ‘관광지’ 군집의 일부 항목으로 포함되는 등의 차이를 보였으며, ‘꽃’은 Okt에서 단독으로 군집을 형성한 반면, Mecab에서는 ‘백패킹’과 ‘녹지’의 구성 항목 중 하나로 나타나는 등의 독립적인 군집 형성의 차이를 보였다(Fig. 2). 이와 같은 차이는 Mecab과 Okt의 분석과정의 차이로 인한 결과로 판단된다. Mecab은 Conditional Random Field(이하 CRF)모델을 사용하며 빠른 처리속도와 명사 세분화의 장점을 가지고 있으며[64], CRF 모델은 여러 사건은 서로 독립적이라는 독립성 가정을 완화하는 특징이 있다[65]. 한글은 조사와 어미가 발달한 교착어로서 형태소별 의존 특성이 강하므로[66], Meacb의 CRF모델은 한글의 교착어적인 특성에 적합한 분석기로 판단된다. 또한, Okt는 경우 비정형 데이터를 정형화하는 정규화에 특화된 형태소 분석기로[34], 위에 언급한 군집의 구성 명사 모두 정형화된 명사로서 정규화 과정이 별도로 필요하지 않았다는 점 또한 결과에 영향을 미친 것으로 판단된다. 또한, 동일한 데이터를 대상으로 Mecab과 Okt를 사용하여 명사 출현 빈도를 분석했을 때, 형태소 분석 결과의 상위 20위 명사 출현 빈도 결과가 다른 점 또한 이를 뒷받침한다.

SOOOB6_2024_v27n6_3_1657_14_f0001.png 이미지

Fig. 2 CONCOR Analysis

이와 같은 차이는 형태소 분석기와 분석 방법의 차이가 데이터 군집화 결과 및 형태소 간 구조적 등위성 정도에 중대한 영향을 미치는 것을 시사한다. 이를 통해 텍스트 데이터의 특성과 분석 목적에 맞는 형태소 분석기를 선택하는 것이 중요하다는 점을 강조한다.

5. 결론

텍스톰 수집 데이터와 파이썬 수집 데이터를 분석한 결과 다음과 같은 결론을 얻을 수 있었다.

첫째, 연구의 목적에 따라 데이터 수집 범위와 수집 방법을 달리해야 한다. 특정 주제어에 대한 대략적인 경향을 단기간에 파악하는 것이 목적이라면 원본 데이터의 일부만을 분석 대상으로 선택할 수 있다. 텍스톰 수집 데이터는 전체 데이터의 표본을 추출하여 분석한 결과를 나타내는 반면, 파이썬 수집 데이터는 모집단을 분석한 결과를 나타낸다. 텍스톰은 제목과 키워드가 포함된 문장의 2∼3줄 정도가 데이터 수집 범위이고 이 부분은 블로그의 독자가 게시글의 내용을 알 수 있도록 주제에 대하여 서술하는 영역이기 때문이다. 파이썬 수집 방법은 게시글 전문의 텍스트를 수집한다. 본 연구에서 동일한 키워드에 대해 텍스톰과 파이썬 수집 데이터의 분석 결과를 비교한 결과, 빈도 분석에서 단어들의 순위에는 차이가 있었지만 전체 단어 목록은 두 개가 유사 하게 구성된 결과를 얻을 수 있었다. 그러므로 한정된 시간 내에 효율적인 분석이 필요할 때는 텍스톰 수집 데이터를 이용하는 것이 효과적이라고 판단된다.

둘째, 형태소 분석기 선택이 텍스트 분석의 결과에 중요한 영향을 미치며 특히, 명사 중심의 형태소 분석을 위해서는 Mecab 형태소 분석기를, 명사, 동사 및 형용사 등의 품사의 고른 형태소 분석 및 비정형 데이터가 다수 존재하는 데이터의 분석을 위해서는 Okt 형태소 분석기 사용이 적합하였다. Mecab 형태소 분석기는 명사 세분화와 빠른 처리 속도에서 우수한 성능을 보이며[34,57,64], Okt 형태소 분석기는 명사 뿐 아니라 동사와 형용사의 비율이 비교적 높게 나타나 품사 별 고른 비율의 결과가 나타났다. 또한, 소셜 미디어 및 블로그와 같이 비정형 데이터가 많은 텍스트를 대상으로는 Okt 형태소 분석기의 정규화 기능이 데이터의 변형을 방지하고 고른 품사 비율을 유지하는 데 기여한다[58]. 즉, 데이터의 특성과 분석 목표에 따른 최적의 분석기를 선택하는 것이 텍스트 분석의 성과를 좌우할 수 있으며, 분석기의 선택은 단순히 기술적 결정이 아니라, 데이터의 특성과 목표에 부합하는 전략적 결정이다. 전술한 데이터 수집 방법과 더불어 수집된 데이터의 형태소 분석 방법을 달리하여 더욱 신뢰성 있고 풍부한 결과를 제공할 수 있음을 시사한다.

셋째, 특정 관광지에 방문한 관광객의 행태를 파악하기 위해서는 블로그 데이터 전체를 수집해야 한다. 블로그라는 SNS의 특성상 글 작성자는 특정 관광지를 방문하여 보낸 하루를 시간 순서에 따라 작성한다. 그러므로 게시글 일부가 아닌 전문을 수집하는 파이썬 수집 방식이 방문객의 이용 행태 및 인식 연구에 효과적인 데이터 수집 방법이라고 판단된다. 본 연구의 단어 빈도 분석에서 동사의 빈도수를 살펴보면 파이썬 수집 데이터의 동사 빈도수가 텍스톰 수집 데이터의 동사 빈도수에 비해 10배부터 25배까지의 차이가 있었다. 보편적으로 쓰이는 ‘하다’, ‘가다’, ‘보다’, 등의 동사 외에 파이썬의 ‘먹다’, ‘찍다’, ‘짧다’, ‘하산하다’, 등의 단어의 빈도 수와 순위를 통해 관광객들이 선자령에서 어떤 행위를 주로 하는지 알 수 있었다. 특히, (하산-하다)는 파이썬-Okt의 N-gram 분석에만 존재하였으며, 이는 일기나 일지 형식으로 시간의 흐름에 따라 작성되는 블로그의 특성상 산에 올라간다는 내용은 글 앞부분에 있고, 산을 내려가는 내용을 글 뒷부분에 작성되었기 때문으로 판단된다. 결론적으로, 관광객의 관광지 내 행태에 대한 정보의 전체를 정확하게 파악하기 위해서는 글 전체를 수집해야 가능할 것으로 생각된다.

본 연구의 한계점으로는 첫째, 연구자의 주관이 반영되는 텍스트마이닝의 활용이다. 텍스트마이닝의 정제 과정은 연구자가 직접 수행해야 하며 이 과정에서 주관이 개입될 수 있다는 점이다. 이를 극복하기 위하여 본 연구에서는 정제 과정을 제시하였으며 게시글 원문과의 반복적인 교차 비교를 통해 단어 의미를 보존하여 객관성을 확보하고자 하였다. 들째, 사진과 영상을 통한 소통이 활발하게 이루어지는 블로그에서 텍스트만을 대상으로 데이터 수집 및 분석이 이루어졌다는 점이다. 본 연구는 텍스트마이닝 수집 및 분석 방법의 비교가 목적이기 때문에 언어적 표현인 텍스트만을 대상으로 연구를 진행하였다. 하지만 블로그는 비언어적 표현인 사진과 동영상을 통해 다수의 메세지를 전달한다. 비언어적인 표현은 게시글 작성자가 언어적 표현에 표현하지 않은 의미가 다수 포함되어 있을 것으로 판단되며 향후 연구에서는 비언어적 표현에 대한 추가적인 분석이 필요할 것으로 생각된다.

본 연구는 텍스톰과 파이썬의 데이터 수집 범위 및 형태소분석기별 분석 결과를 비교하여 데이터 수집 범위와 방법이 연구 목적에 따라 달라져야 함을 제안하고, 형태소 분석기의 선택이 텍스트 분석의 결과에 큰 영향을 미친다는 점을 확인하였다. 이를 통해 관광 데이터 분석에서 더욱 신뢰성 있고 효율적인 방법론의 필요성을 강조하며, 향후, 관광과 빅데이터 융합 연구는 기술 교류와 네트워크 구축을 통해 데이터 분석의 깊이와 정확성을 더욱 높일 수 있을 것으로 기대된다.

참고문헌

  1. 이태숙, 전채남, 이태환, 국내 주요 걷기여행길의 이용행태에 대한 시멘틱 네트워크(Semantic Network) 분석. 관광학연구, 44(4), 14-167, (2020).
  2. 한국관광공사, 2021 걷기여행 실태조사, (2022).
  3. 산림청, 2021 산림휴양⋅복지활동 조사, (2021).
  4. 산림청, 산림 문화⋅휴양에 관한 법률 제23조의3, (2021).
  5. 산림청, 산림 문화⋅휴양에 관한 법률 제23조의3, (2023).
  6. 정지선, 新가치창출 엔진, 빅 데이터의 새로운 가능성과 대응 전략. 한국지능정보사회진흥원 IT, Future Strategy, 18, 2, (2011).
  7. 박경열, 안희자, 텍스트 마이닝을 활용한 DMZ 관광 이슈의 토픽 모델링 분석. 관광레저연구, 31(4), 143-159, (2019). https://doi.org/10.31336/JTLR.2019.4.31.4.143
  8. 김예림, 성종상, SNS 텍스트마이닝을 통한 부산 영도의 관광객 핫플레이스 도출 및 유형분석. 한국지역개발학회지, 35(1), 121-142, (2023).
  9. 노희경, 소셜 빅데이터를 활용한 문화유산관광 인식 연구: 공주시 공산성을 중심으로. 호텔관광연구, 243(1), 115-125, (2022).
  10. 박득희, 코로나19 발병 전⋅후로 나타난 안동관광에 대한 변화된 여론 및 관광 니즈의 분석: 소셜미디어 빅데이터를 활용한 텍스트 마이닝과 의미연결망 분석. 호텔경영학연구, 30(5), 231-246, (2021).
  11. 홍민정, 치유관광 체험에 대한 여가심리학적 접근: 텍스트마이닝 기법과 감성분석을 중심으로, 관광학연구, 45(6), 91-114, (2021).
  12. 김철희, 정지호, 한혜정, 김동현, 신명선, “한국어 교육을 위한 형태소 분석기의 조건과 향후 과제.” 한국국어교육학회 -.129(2021): 635-672, (2021).
  13. 박은정, 조성준, KoNLPy: 쉽고 간결한 한국어 정보처리 파이썬 패키지. 한국정보과학회언어공학연구회 제 26회 한글 및 한국어 정보처리 학술대회 논문집, 133-136, (2014).
  14. 우경진, 정수현, 문장 유형에 따른 한글 형태소 분석기 비교. 한국정보과학회 학술발표논문집, 1388-1390, (2019).
  15. 이유진, 김세빈, 홍현석, 김장원, 특허 문서를 위한 형태소 분석기 비교 평가. In Proceedings of KIIT Conference, 264-265, (2019).
  16. 원혜진, 이현영, 강승식, '대규모 텍스트 분석을 위한 한국어 형태소 분석기의 실행 성능 비교.' 한국정보과학회 학술발표논문집 (2020): 401-403, (2020).
  17. 김현정, 조남옥, 신경식, 항공산업 미래유망분야 선정을 위한 텍스트 마이닝 기반의 트렌드 분석. 지능정보연구, 21(1), 65-82, (2015). https://doi.org/10.13088/JIIS.2015.21.1.65
  18. 서대호, 잡아라! 텍스트마이닝 with 파이썬. 서울: 비제이퍼블릭, (2019).
  19. 텍스톰 공식 홈페이지, https://www.textom.co.kr/, (2024.09.20. 검색)
  20. 안상준, 유원준, 딥 러닝을 이용한 자연어 처리 입문. 위키독스, (2022).
  21. 이지혜, 이정학, 이재문, 빅데이터 분석을 활용한 골프의류 인식에 관한 연구. 한국체육과학회지, 27(6), 403-417, (2018). https://doi.org/10.35159/kjss.2018.12.27.6.403
  22. 김건아, 김철기, 빅 데이터를 이용한 제품디자인의 감성반응 분석: 스마트폰을 대상으로: 스마트폰을 대상으로. 한국과학예술융합학회, 27, 31-48, (2017).
  23. 고민환, 박윤미, 빅데이터 기반의 텍스트 마이닝을 활용한 포스트 코로나 시대의 미래관광 탐색 연구: 랜선투어를 중심으로. 관광연구저널, 36(5), 79-92, (2022).
  24. 이수상, 네트워크 분석 방법론. 서울: 논형, (2013).
  25. 한국데이터베이스진흥원, 빅데이터 분석동향, 데이터베이스백서, (2013).
  26. 이영진, 윤진환, 관광분야에서 SNS 빅데이터의 활용 방법 모색. 관광연구저널, 28(3), 5-14, (2014).
  27. 최상수, 지역축제에 관한 포털 사이트 글 변화 분석: 코로나19 이전(2018∼2019년)과 코로나19 이후(2020∼2021년)의 텍스트 비교를 중심으로. 호텔관광연구, 243(1), 105-114, (2022).
  28. 김근현, 이수광, 빅데이터를 활용한 10년간의 숲길 관련 블로그⋅카페 이용자 인식분석. 호텔관광연구, 23(3), 34-52, (2021). https://doi.org/10.31667/jhts.2021.9.88.34
  29. 송성진, 안해연, 정연국, 빅데이터 분석기법을 활용한 내추럴 와인의 언어네트워크 분석 연구. 호텔관광연구, 22(4), 98-111, (2020). https://doi.org/10.31667/jhts.2020.12.85.98
  30. 홍충선, 위주연, 관광지재생과 관광지이미지 변화 연구: 텍스트마이닝을 중심으로. 관광경영연구, 23(2), 631-648, (2019).
  31. 김혜연, 빅데이터를 활용한 한국의 “여관”과 일본의 “료칸”의 이미지 비교분석. 호텔관광연구, 22(4), 43-55, (2020). https://doi.org/10.31667/jhts.2020.12.85.43
  32. 오희균, 강재완, 고차 확인적 요인분석을 활용한 지역 관광활성화 진단모형 및 지표 개발: 이동통신 및 신용카드 빅데이터의 적용. 호텔관광연구, 25(1), 77-94, (2023).
  33. KoNLPy 공식 홈페이지, https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit?gid=0#gid=0, (2024.09.20. 검색)
  34. Ahn, S, Experimental Study of Morphological Analyzers for Topic Categorization in News Articles. Applied Sciences, 13(19), 10572, (2023).
  35. 박종영, 서충원, TF-IDF 가중치 모델을 이용한 주택시장의 변화특성 분석. 부동산학보, 63(63), 46-58, (2015).
  36. 텍스톰, Textom 사용자매뉴얼, (2020).
  37. 김수현, 이영준, 신진영, 박기영, 거시경제 분석을 위한 텍스트 마이닝. 한국경제의 분석, 26(1), 1-85, (2020).
  38. Gendron, G. R., Gendron, G. R., Natural language processing: a model to predict a sequence of words. MODSIM World, 2015, 1-10, (2015).
  39. 김근현, 이정희, 이수광, DMZ 펀치볼둘레길 이용객 인식분석을 통한 활성화 방안: 설문조사와 텍스트마이닝 비교분석을 중심으로. 관광레저연구, 34(8), 47-66, (2022).
  40. 이진규, 이수광, 김성학, 산림관광지로서 인제자작나무 숲에 대한 소셜미디어 이용자 인식 연구. 한국산림휴양학회지, 24(3), 65-81, (2020). https://doi.org/10.34272/FOREST.2020.24.3.006
  41. 최성욱, 진성모, 김경아, 캠퍼 (Camper) 를 위한 가변형 백팩 (Backpack) 디자인 개발에 관한 연구. 기초조형학연구, 14(3), 325-333, (2013).
  42. 평창 문화관광 공식 홈페이지, https://tour.pc.go.kr/Home/index, (2024.09.20. 검색).
  43. 황성근, 글쓰기에서 말하기의 영향-의사소통 측면을 중심으로-. 사고와표현 4.1 (2011): 183-210, (2011). https://doi.org/10.19042/KSTC.2011.4.1.183
  44. 등산트레킹지원센터, 등산⋅트레킹 국민의식 실태조사, (2021).
  45. 산림청, 등산 등 숲길체험 국민의식 실태조사, 44, (2022).
  46. 이정수, 이수광, 서정원, 안기완, 국내 주요 숲길의 소셜미디어 이용자 인식분석. 산림경제연구, 27(2), 51-67, (2020). https://doi.org/10.31541/KJFE.27.2.5
  47. Liu, W. Y., Tsao, C., Lin, C. C.,Tourists’ preference for colors of forest landscapes and its implications for forest landscape planning policies. Forest Policy and Economics, 147, 102887, (2023).
  48. 정인승, (인문계 고등학교)표준문법, 계몽사, (1968).
  49. 구본관, “중세국어 형태”, 국어의 시대별 변천 연구 2, 국립국어연구원, 56-113, (1996).
  50. 최현배, 우리말본(세번째 고침), 정음문화사,(1961).
  51. 유현경, “형용사”, 왜 다시 품사론인가(남기심 외 12인, 커뮤니케이션북스), 147-196, (2006).
  52. 배주채, '있다'와 '계시다'의 품사에 대한 사전 기술', 「성심어문논집」22, 성심어문학회, 223-246, (2000).
  53. 김정남, 국어 형용사의 연구. 도서출판 역락, (2005).
  54. 황화상, ‘있다’의 의미 특성과 품사, 그리고 활용. 한말연구, (33), 379-403, (2013). https://doi.org/10.16876/KLRC.2013..33.379
  55. 이성우, ‘있다’의 품사에 대한 재고찰. 한국어의미학, 79, 28-55, (2023). https://doi.org/10.19033/sks.2023.03.79.2
  56. 구혜승, 한국어 에세이 자연어 처리를 위한 한국어 형태소 분석기 개선 방안 연구. 한국교원대학교 대학원 국어교육전공, 석사학위논문 68-69, (2024).
  57. Kudo, T., MeCab: Yet Another Part-of-Speech and Morphological Analyzer. Conference on Empirical Methods in Natural Language Processing (EMNLP). Retrieved from https://arxiv.org/abs/1612.01187, (2006).
  58. 이성희, 손용훈, 블로그 데이터 감성분석을 통한 북한산둘레길 구간별 선호도 평가. 한국조경학회지, 49(3), 1-10, (2021). https://doi.org/10.9715/KILA.2021.49.3.001
  59. 최성자, 손민영, 김영학, 키워드 기반 블로그 마케팅을 위한 연관 키워드 추천시스템. 정보과학회 컴퓨팅의 실제 논문지, 22(5), 246-25, (2016).
  60. 한승민, 이은지, 김판구, 블로그 특징정보를 활용한 클러스터 레이블 선정에 관한 연구. 교육과학연구, 19(1), 39-59, (2017).
  61. 김성근, 조혁준, 강주영, 학술연구에서의 텍스트 마이닝 활용 현황 및 주요분석기법. 정보화연구 (구 정보기술아키텍처연구), 13(2), 317-329, (2016).
  62. 김주영, 김동수, 텍스트 마이닝 기반의 온라인 상품 리뷰 추출을 통한 목적별 맞춤화 정보 도출 방법론 연구. 한국전자거래학회지, 21(2), 151-161, (2016). https://doi.org/10.7838/jsebs.2016.21.2.151
  63. 강형석, 양장훈, 한국어 Word2vec 모델을 위한 최적의 형태소 분석기 선정. 한국정보처리학회지, 25(2), 376-379, (2018).
  64. Wumaier, A., Yibulayin, T., Kadeer, Z., Tian, S., Conditional random fields combined fsm stemming method for uyghur. In 2009 2nd IEEE International Conference on Computer Science and Information Technology, 295-299, IEEE, (2009).
  65. Yu, B., Fan, Z., A comprehensive review of conditional random fields: variants, hybrids and applications. Artificial Intelligence Review, 53(6), 4289-4333, (2020).
  66. 안정국, 김희웅, 집단지성을 이용한 한글 감성어 사전 구축. 지능정보연구, 21(2), 49-67, (2015). https://doi.org/10.13088/JIIS.2015.21.2.49