Ⅰ. 서론
최근 행정정보의 디지털화가 가속화되면서 공공기관이 생산하는 텍스트 데이터의 활용 가능성에 대한 관심이 높아지고 있다[1-3]. 특히 지방정부는 주민에게 정책을 전달하고 정부 의도를 소통하는 수단으로 보도자료를 적극적으로 활용하고 있으며, 이러한 보도자료는 지방정부의 정책 의제와 행정적 우선순위를 간접적으로 반영하는 텍스트 자원으로 간주될 수 있다[4-6]. 그럼에도 불구하고, 지금까지 보도자료는 단순한 정보 전달 수단으로만 활용되어 왔으며, 해당 데이터를 기반으로 한 체계적인 분석 시도는 제한적으로 이루어져 왔다. 이는 곧 보도자료가 담고 있는 정책적 함의가 충분히 활용되지 못하고 있음을 의미한다[7, 8].
지방정부는 중앙정부와는 구별되는 정책 환경 속에서 지역 주민의 수요를 반영한 다양한 행정 활동을 수행한다. 이에 따라 지방정부의 보도자료에는 지역 맞춤형 정책 의제와 현장 중심의 행정 실행 내용이 다수 포함되어 있으며, 이는 지역 수준에서의 정책 변화와 담론 흐름을 분석할 수 있는 유용한 행정 자료가 된다. 특히 최근에는 텍스트 마이닝과 자연어처리(NLP) 기술의 발전으로 인해 비정형 텍스트 문서로 구성된 보도자료에 대한 정량적 분석이 가능해지면서, 지방정부의 정책 경향과 커뮤니케이션 특성을 구조적으로 파악하려는 시도가 주목받고 있다[2, 4, 6, 9].
정책 텍스트 분석 분야에서는 그동안 LDA(Latent Dirichlet Allocation)와 같은 확률 기반 토픽 모델이 주로 활용되어 왔다[4, 6]. LDA는 대규모 문서 집합에서 토픽을 자동 추출할 수 있는 장점이 있으나, 단어 간 순서를 고려하지 않기 때문에 문맥의 의미를 충분히 반영하지 못하는 한계가 있다. 특히 한국어처럼 어순이 유연하고 조사 및 어미의 역할이 중요한 언어의 경우, 이러한 한계는 더욱 두드러질 수 있다. 최근에는 이러한 문제를 보완하기 위해 문맥 정보를 반영한 임베딩 기반 토픽 모델들이 제안되고 있으며, 그중 하나인 BERTopic(Bidirectional Encoder Representations from Transformers for Topic Modeling)은 BERT 기반 문장 임베딩과 클러스터링 알고리즘을 결합하여 보다 정밀한 의미 기반 토픽 구조를 도출할 수 있는 방법으로 주목받고 있다[10, 11].
본 연구는 경상남도를 사례 지역으로 설정하여 해당 지방정부가 발행한 보도자료 중 복지 분야에 해당하는 문서를 분석 대상으로 삼는다. 특히 코로나바이러스감염증-19(코로나19)라는 대형 사회적 위기를 기준으로 복지정책의 주제 구성과 메시지 전달 방식에 어떠한 변화가 나타났는지를 살펴보고자 한다. 이를 위해 전체 기간을 코로나19 발생 이전, 확산기, 이후의 세 시기로 구분하고, 각 시기별 복지 관련 보도자료에 대해 토픽 모델링을 적용하여 주제 변화 및 정책 커뮤니케이션 양상의 차이를 비교 분석한다.
이를 위해 본 연구는 확률 기반의 대표적인 토픽 모델인 LDA와 문맥 기반의 BERTopic을 병행하여 활용한다. LDA는 단어-문서 간 확률 분포를 기반으로 주제를 구성하는 전통적인 방식이며, BERTopic은 문장 임베딩 기반 유사도를 바탕으로 클러스터링과 TF-IDF를 결합해 토픽을 도출하는 방식이다. 동일한 복지 보도자료에 대해 두 가지 상이한 접근법을 병행 적용함으로써, 각 모델이 포착하는 토픽의 특징을 비교하고 시기별 정책 메시지 구성의 차이를 구조적으로 파악하며, 복지정책 커뮤니케이션의 흐름 및 위기 대응 전략에 대한 시사점을 도출하고자 한다. 이에 본 연구에서는 다음 두 가지 연구 질문(RQ)을 제시하고자 한다.
⦁ RQ1: 복지 보도자료의 주제 구성은 코로나19 발생 이전, 확산기, 이후기의 시기 구분에 따라 의미 있는 차이를 보이는가?
⦁ RQ2: 동일한 데이터에 서로 다른 토픽 모델링 기법(LDA와 BERTopic)을 적용할 경우 도출되는 정책 토픽은 어떻게 달라지는가?
본 연구를 통해 기대할 수 있는 독창적 의의는 다음과 같다. 첫째, 기존 연구들이 주로 중앙정부 정책문서, 학술논문, 또는 소셜미디어 데이터에 집중한 반면, 본 연구는 한국 지방정부의 복지 보도자료를 대상으로 LDA와 BERTopic을 체계적으로 비교 적용한 연구이다. 둘째, 코로나19라는 특정 사회적 위기를 기점으로 한 시계열적 정책 커뮤니케이션 변화 분석을 통해 위기 상황에서의 지방정부 복지 담론 특성을 실증적으로 탐구한다. 셋째, 동일한 정책 텍스트에 대해 확률 기반과 문맥 기반 토픽 모델의 비교 분석을 통해 각 방법론이 포착하는 정책 주제의 차이점과 보완적 활용 가능성을 제시한다.
본 연구의 구성은 다음과 같다. 2장에서는 토픽 모델링 관련 국내외 선행연구를 검토하고, 3장에서는 본 연구에서 사용한 데이터와 분석방법을 설명한다. 4장에서는 두 기법을 적용한 시기별 복지 보도자료의 주제 구조를 비교 및 분석하고, 5장에서는 연구의 결론과 시사점을 제시하며, 연구의 한계와 향후 과제를 논의한다.
Ⅱ. 문헌 연구
본 연구와 관련된 토픽 분석에 관한 문헌들은 분석 방법에 따라 세 가지로 구분해 볼 수 있다. LDA 기반 연구, BERTopic 기반 연구, 그리고 LDA와 BERTopic 결합 연구이다. 각각의 접근 방식은 정책 문서, 공공데이터, 소셜미디어 등 다양한 유형의 자료에 대해 주제 탐색 및 시각화를 시도하고 있으며, 최근에는 두 방법을 결합하여 보완적 장점을 활용하는 시도도 늘고 있다.
먼저, LDA는 정책 문서나 공공데이터 분석에서 널리 사용되는 기법이다. 미국 백악관의 전자 청원 데이터를 분석한 연구에서는 LDA가 효율적이고 유효한 도구임을 확인하였다[7]. 이에 더해 미국 전자 청원 데이터를 LDA를 통해 주제를 자동으로 분류한 뒤 시각화 기반 분석 도구를 제안하며 정책 활용성을 높인 연구도 있다[1]. 기후변화 관련 분석에서도 LDA가 사용되고 있다. 예를 들어 유엔기후변화 협약 연설문과 캐나다 지방정부 문서를 비교한 연구에서는 기후 적응이라는 주제가 국제 문서와 지역 문서 간에 어떻게 다르게 나타나는지를 밝혔다[4]. 또한, 중국 정부의 과학 정책 브리핑 내용을 분석하여 코로나19 기간 동안 정책 담론의 흐름을 파악한 연구[5]와, 중국 중앙정부 및 지방정부 정책 간 유사성과 연계성 여부를 분석한 연구[14]에서도 LDA 기반 분석이 활용되었다.
다음으로, 인공지능 기법인 BERTopic을 활용한 정책 연구가 주목받고 있으며, 특히 소셜 미디어 및 뉴스 등 비정형 텍스트 분석에 강점을 보인다. 예를 들어, 미국 의원들의 공식 트위터에서 BERTopic을 통해 정당별 정치적 관심 주제를 비교한 연구가 있다[10]. 다른 연구는 코로나19 백신과 관련한 뉴스 기사와 트위터의 데이터를 비교하여 두 매체 간 주제의 일치여부를 분석하였다[8]. 중국 정부의 금융 정책 문서를 BERTopic과 GPT-3.5 기반으로 분석한 연구는 대규모 문서 구조화 및 의미 추출에 효과적이라는 것을 확인하였다[11]. 또 다른 연구에서는 중국 민원 플랫폼에 게시된 다양한 민원을 BERTopic으로 구조화하여 요구를 파악하였다[3]. 미국 바이든 대통령의 연설문을 분석하여 주요 주제와 의제를 추출한 연구도 있다[12].
또한, 최근에는 LDA와 BERTopic을 결합하거나 비교하여 분석하는 연구도 증가하고 있다. 예를 들어 중국 지방정부 정책 문서에 대해 두 기법을 비교 분석한 연구에서는 BERTopic이 해석력 측면에서 우수하다는 결론을 제시하였다[9]. 또한 인도의 비즈니스 뉴스에서 기후변화 관련 주제를 추출한 연구에서는 BERTopic이 LDA 및 NMF보다 주제 일관성과 다양성 측면에서 우수한 성능을 보였다[13]. 감염병과 소셜미디어의 관계를 분석한 연구에서는 LDA를 보완적으로 사용하였는데, BERTopic이 분석의 신뢰성과 해석력에서 LDA보다 뛰어난 결과를 보였다[14]. 반면, 중국 지방정부의 기술정책 데이터를 분석한 연구에서는 LDA가 BERTopic보다 더 효과적으로 정책 간 수요와 공급의 불일치를 밝혀 냈다는 결과도 존재한다[2]. 지금까지의 내용을 요약하면 <표 1>과 같다.
<표 1> 기존 문헌 연구

정리하자면, 기존 연구들은 LDA와 BERTopic을 비교하거나 각 기법을 활용하여 특정 정책 이슈나 사회적 담론을 분석하는 데 집중해 왔다. 특히, 뉴스 기사나 공공문서, 학술 초록 등 다양한 텍스트를 분석 대상으로 삼아 시기별 이슈 흐름과 구조를 파악하고 있다. 다만 대부분의 연구는 단일 시점 혹은 특정 분야(코로나19 등)에 국한되며, 정책 커뮤니케이션의 시계열적 차이와 문맥적 구조를 동시에 비교 분석한 연구는 드물다.
이에 본 연구는 복지정책을 중심으로 하는 보도자료 데이터를 대상으로, LDA와 BERTopic이라는 서로 다른 접근의 토픽모델링 기법을 병렬적으로 적용함으로써 방법론적 차이가 정책 이슈 도출에 어떤 영향을 미치는지를 검토하고자 한다. 특히, 코로나19 이전-확산기-이후로 나누어진 시기 구분은 정책 담론의 변화를 시계열적으로 해석하는 데 중요한 토대를 제공할 것이다.
Ⅲ. 연구 방법
3.1 분석 진행 과정
본 연구는 경상남도 보도자료 중 복지 관련 문서를 대상으로, 코로나19 발생 이전·확산 시기·이후의 세 시기로 구분한 후, 확률 기반(LDA)과 문맥 기반(BERTopic)의 토픽 모델링 기법을 각각 적용하였다. 전체 분석 절차는 데이터 수집 및 구축, 전처리, LDA 및 BERTopic 모델 적용, 토픽 수 결정 및 분석, 그리고 시각화 및 해석의 단계로 구성된다.
우선, 원자료의 부서명, 제목, 부제목, 내용 항목을 결합하여 하나의 분석용 텍스트 컬럼으로 구성하였으며, 약 60여 개의 복지 관련 키워드를 사전 정의하여 해당 키워드가 포함된 문서만을 선별하였다. 이후 전처리 과정은 두 모델의 분석 특성에 맞게 구분하여 수행하였다. LDA의 경우, 형태소 기반 토큰화를 적용하고 한글 외 문자 및 특수기호 제거, 불용어 제거, 단어 수 기준 필터링(3단어 미만 제거) 등 정형적 정제 과정을 수행하였다. 반면 BERTopic은 문맥 정보를 최대한 보존하기 위해 한글 문장 유지하고, 최소한의 정제만을 적용하여 원문 중심의 분석이 가능하도록 처리하였다.
이와 같이 구축된 데이터셋을 바탕으로, LDA는 Coherence Score를 활용하여 각 시기별로 최적 토픽 수를 2개 이상 10개 미만의 범위에서 도출하였으며, BERTopic은 비교 가능성을 확보하기 위해 동일한 토픽 수를 설정하여 분석을 수행하였다. <그림 1>은 이러한 전체 분석 흐름을 나타낸 것이다.

<그림 1> 분석 진행 과정
3.2 데이터 수집 및 구축
본 연구는 경상남도청에서 발행한 2016년 1월부터 2024년 12월까지의 모든 보도자료 약 3만 건을 수집하여 활용하였다. 각 보도자료에는 작성자, 부서명, 제목, 부제목, 본문 내용, 담당자명 등 다양한 메타정보가 포함되어 있으며, 분석을 위해 각 문서의 부서명·제목·부제목·본문을 하나의 텍스트로 통합하였다. 이 중 사전에 정의한 약 60개의 복지 관련 키워드를 하나 이상 포함하는 문서들을 선별하여 복지 보도자료 데이터셋을 구축하였으며, 그 결과 약 9,800여 건의 복지 분야 보도자료가 최종 분석 대상이 되었다. 한편, 코로나19 팬데믹을 기준으로 정책 메시지 변화를 살펴보기 위해 전체 기간을 코로나19 발생 이전 시기(2016.01.01.~2020.01.19.), 확산 시기(2020.01.20.~2023.06.01.), 발생 이후 시기(2023.06.02.~2024.12. 31.)의 세 구간으로 구분하였다. 이러한 기간 구분은 국내 첫 확진자 발생일과 정부의 위기 단계 변경 시점을 토대로 설정하였으며, 이후 시기별로 복지 보도자료의 주요 주제 변화를 비교 분석하였다.
3.3 텍스트 전처리
분석에 앞서 텍스트 전처리 단계는 분석에 활용하는 토픽 모델의 특성에 따라 각각 다르게 적용하였다. LDA(Latent Dirichlet Allocation)는 확률 기반의 토픽 모델로서, 원문 텍스트를 숫자 행렬로 정형화하는 사전 처리가 필요하다. 이를 위해 본 연구에서는 형태소 분석을 통해 텍스트를 단어 단위로 분할하고 정규 표현식을 사용하여 한글 이외의 문자(영문, 숫자, 특수기호 등)를 모두 제거하였다. 또한 ‘경남도’, ‘계획이다’, ‘밝혔다’와 같이 의미 분석에 방해가 되는 불용어들을 사전에 선정하여 삭제하고 단어 수가 3개 미만인 매우 짧은 문장도 유의미한 정보를 담고 있지 않다고 판단하여 분석 대상에서 제외하였다. 전처리된 텍스트는 띄어쓰기를 기준으로 토큰화한 후, Python의 Gensim 라이브러리를 활용하여 단어사전(dictionary)과 문서-단어 행렬(corpus)로 변환하고 LDA 모델 학습에 입력하였다.
반면, BERTopic은 사전 학습된 BERT 언어모델로 문장의 의미 벡터를 생성하고 이를 클러스터링하여 토픽을 도출하는 문맥 기반 토픽 모델이다. 문장의 문맥과 흐름을 최대한 보존하는 것이 성능에 중요하므로, BERTopic의 전처리는 가능한 최소한의 정제만 거친 원문 위주로 진행하였다. 구체적으로, 불필요한 특수문자나 한글 이외 문자를 제거하는 정도의 처리만 수행하고 형태소 분석이나 토큰화 등은 수행하지 않았다. 다만, 보도자료 특성상 ‘굴림’, ‘굴림체’, ‘주무관에게’와 같은 서식적 표현이나 반복문구가 빈번하게 포함되어 있었으며, 이는 토픽 식별에 불필요한 영향을 주는 경우가 확인되었다. 이에 따라 해당 표현들은 분석 정확도를 높이기 위해 선별적으로 제거하였다. 이처럼 전체 문장을 하나의 의미 단위로 간주하는 BERTopic의 특성을 고려하여, 의미 기반 군집화의 왜곡을 최소화하는 범위 내에서만 정제를 수행하였다.
이처럼 모델별로 상이한 전처리 전략을 취함으로써 각 기법의 장점을 극대화하면서도, 동일한 원자료에 대한 LDA와 BERTopic 결과를 동일 기준에서 비교할 수 있도록 하였다.
3.4 토픽 수 결정
시기별 최적의 토픽 개수(k)를 결정하기 위해 토픽 일관성(coherence) 점수를 활용하였다. LDA의 경우, 앞서 구축한 전처리 완료 데이터셋을 대상으로 토픽 개수를 2부터 9까지 변화시키며 각각 모델을 학습한 후 토픽 일관성 점수를 측정하였다. Coherence 점수는 하나의 토픽 내 주요 단어들의 의미가 서로 얼마나 밀접하게 관련되어 있는지를 나타내는 지표로서, 값이 높을 수록 해당 토픽이 해석 가능하고 응집력이 높음을 의미한다. 특히 토픽 수가 지나치게 많아지면 주제가 불필요하게 세분화되어 해석이 어려워질 수 있으므로, 본 연구에서는 토픽 후보 수를 2 ≤ k < 10 범위로 제한하였다. 각 시기별 Coherence 점수를 분석한 결과, 코로나19 이전은 4개, 확산 시기는 3개, 이후 시기는 8개에서 점수가 가장 높게 나타났으며, 이를 각 기간의 최적 토픽 수로 선정하였다. 그 결과는 <그림 2>와 같다.

<그림 2> 시기별 최적의 토픽 수 분석
한편 BERTopic은 문장 임베딩 기반으로 동작하므로 LDA와 전처리 방식이 상이하고, Coherence Score를 활용한 토픽 자동 선정 기능을 제공하지 않는다. 이에 따라 두 모델 결과를 엄밀히 비교하기 위해, BERTopic에도 각 시기별로 LDA에서 산출된 최적 토픽수와 동일한 토픽 수를 선험적으로 적용하여 클러스터링 결과로 도출되도록 파라미터(nr_topics)를 수동 조정하여 분석을 수행하였다. 이러한 설계를 통해 각 시기별 복지 이슈에 대한 주제 구성이 LDA와 BERTopic 간 분석 조건의 차이를 최소화한 상태에서 비교 가능하도록 하였다.
3.5 토픽 분석
본 연구에서는 확률 기반 토픽 모델인 LDA와 문맥 임베딩 기반 토픽 모델인 BERTopic을 활용하여 경상남도 복지 보도자료의 시기별 주제 구조를 분석하였다. 코로나19를 기준으로 전체 분석 기간을 발생 이전, 확산 시기, 이후 시기로 구분하고, 각 시기별 복지 관련 문서에 두 모델을 각각 적용하였다.
3.5.1 LDA 기반 토픽 모델링
LDA(Latent Dirichlet Allocation)는 문서가 다수의 주제에 속할 수 있다는 전제 하에, 각 주제가 특정 단어들의 분포로 구성된다고 가정하는 확률 기반 모델이다. 본 연구에서는 전처리 과정을 거쳐 구축된 형태소 기반의 텍스트 데이터를 입력으로 사용하였으며, 각 시기별로 Coherence Score를 기준으로 최적 토픽 수를 2개 이상 10개 미만 범위에서 조정하여 분석을 수행하였다. 그 결과, 코로나19 발생 이전 시기에는 총 4개, 확산 시기에는 3개, 이후 시기에는 8개의 토픽이 도출되었다.
각 토픽은 주요 키워드를 중심으로 주제명을 지정하였으며, 예를 들어 코로나19 확산 시기에는 코로나19 대응 및 복지 안전망 구축(Topic 0), 엑스포 및 청소년 참여 프로그램(Topic 1), 청년·기업 일자리 정책(Topic 2) 등의 주제가 확인되었다. 이후 시기에는 복지서비스 확대 및 맞춤형 돌봄사업(Topic 0), 청소년 진로 및 디지털 역량강화(Topic 1), 보건의료 정책과 응급 대응체계(Topic 3), 경제 피해 대응 및 에너지 절감 지원(Topic 5) 등 보다 세분화된 정책 영역으로 분화되는 양상을 보였다.
3.5.2 BERTopic 기반 토픽 모델링
BERTopic은 사전 학습된 언어모델(BERT 등)을 활용하여 문서 간 의미 유사도를 계산하고, 군집화 알고리즘을 통해 주제를 도출하는 문맥 기반 토픽 모델이다. 본 연구에서는 원문의 문장 구조를 가능한 한 보존하기 위해 최소한의 정제만을 수행한 상태에서 BERTopic을 적용하였으며, 시기별로 LDA에서 산출된 최적 토픽 수에 맞춰 BERTopic 또한 동일한 수의 토픽을 도출하도록 설정하였다.
코로나19 확산 시기에는 총 3개의 BERTopic 토픽이 도출되었으며, 지역복지 및 청년지원 정책 추진(Topic 0), 엑스포 및 대규모 홍보 행사 운영(Topic 1), 코로나19 대응 및 확진자 방역 조치(Topic 2) 등이 주요 주제로 확인되었다. 이후 시기에는 총 8개의 토픽이 도출되었고, 이 중 청년·여성 대상 지역경제 활성화 지원(Topic 0), 취약계층 복지정책 및 돌봄서비스(Topic 1), 공공보건 예방관리 및 생활안전 점검(Topic 4), 청소년 유해환경 예방 및 약물중독 대응(Topic 7) 등 LDA와 유사한 방향의 주제가 나타나면서도 키워드 구성과 문맥 분포에서는 상이한 특징을 보였다.
이처럼 두 모델을 병행적으로 적용함으로써, 문서 기반의 확률적 주제 분포와 문맥 기반의 의미 유사성에 따른 주제 군집을 비교할 수 있었으며, 각 시기별 정책 메시지 구성의 변화뿐만 아니라 모델 간 주제 포착 방식의 차이를 보다 정교하게 해석할 수 있었다.
IV. 연구 결과
4.1 시기별 토픽 분석 결과
본 장에서는 LDA 및 BERTopic 기법을 통해 도출된 복지 보도자료의 시기별 주제 구조를 비교·분석하고, 각 시기별 정책 메시지의 특성과 변화 양상을 고찰하였다. 분석 대상은 코로나19 발생 이전 시기, 확산 시기, 발생 이후 시기로 구분되며, 각 시기별로 LDA와 BERTopic을 각각 적용한 결과를 종합적으로 제시한 결과를 <표 2>와 <표 3>에서 확인할 수 있다.
<표 2> LDA 분석 결과

<표 3> BERTopic 분석 결과

4.1.1 코로나19 발생 이전
LDA 결과, 복지 보도자료는 스마트농업 및 먹거리 산업 육성 정책(Topic 0), 청년 일자리 정책(Topic 1), 명절 돌봄 및 취약계층 복지 당부(Topic 2), 시설 및 안전 대응(Topic 3) 등 총 4개 주제로 도출되었다. 이 시기에는 김경수 도지사 재임기 동안 스마트팜, 혁신밸리 등 농업복지 기반 조성과 함께, 청년 정책·일자리 확대를 중심으로 한 복지 메시지가 강조되었으며, 계절별 취약계층 돌봄 등 생활 밀착형 복지정책도 확인되었다.
BERTopic 결과는 도민 대상 지역복지사업 운영(Topic 0), 농업 재해 및 여성농업인 지원(Topic 1), 토지거래·지가 관련 행정정보(Topic 2), 다문화가족 국제교류 및 명절지원(Topic 3) 등 총 4개의 주제로 구성되었다. 해당 시기에는 지역 대상 행정서비스 제공, 여성농업인 등 소외 계층 지원, 다문화 가정 명절사업 등 실질적 생활 지원 중심의 메시지가 나타났으며, 이는 코로나 이전 복지정책이 전통적인 사회복지뿐 아니라 농업·문화·행정까지 포괄하는 성격을 띠고 있었음을 보여준다.
4.1.2 코로나19 확산
LDA 분석 결과, 코로나 대응 및 복지 안전망 구축(Topic 0), 엑스포 및 청소년 참여 프로그램(Topic 1), 청년·기업 일자리 정책(Topic 2) 등 3개의 토픽이 도출되었다. 감염병 대응, 방역 안전망 구축과 더불어 청년을 대상으로 한 일자리 지원, 지역 경제활성화 프로그램(엑스포 등)이 주요 정책 메시지로 나타났으며, 이는 팬데믹 상황 속에서도 지역경제 회복과 청년 맞춤형 정책 추진이 병행되었음을 시사한다.
BERTopic 분석에서도 총 3개의 주제가 도출되었으며, 지역복지 및 청년지원 정책 추진(Topic 0), 엑스포 및 대규모 홍보 행사 운영(Topic 1), 코로나19 대응 및 확진자 방역 조치(Topic 2) 등이 확인되었다. 특히 BERTopic은 감염병 관련 문서를 백신 접종, 브리핑 등 세부 행정 단위로 군집화하여 보다 구체적인 맥락을 반영하였으며, LDA 대비 문서의 의미적 흐름을 보다 정밀하게 포착하는 특성을 보였다.
4.1.3 코로나19 발생 이후
코로나19 이후에는 복지정책의 이슈가 보다 다층적으로 분화되는 양상이 나타났다. LDA는 총 8개의 주제를 도출하였으며, 복지서비스 확대 및 맞춤형 돌봄사업(Topic 0), 청소년 진로 및 디지털 역량강화(Topic 1), 보건의료 정책과 응급 대응체계(Topic 3), 취약계층·장애인 대상 복지 관광 지원(Topic 4), 경제 피해 대응 및 에너지 절감 지원(Topic 5), 복지 확산 및 기여자 격려(Topic 6), 여성·청소년 창업 및 국비사업 지원(Topic 7) 등이 주요 주제로 확인되었다. 이 시기에는 청년, 고령층, 장애인 등 대상별 맞춤형 복지정책과 함께, 디지털 창업, 의료 대응, 에너지 절감 등 새로운 사회 이슈를 반영한 정책 메시지가 두드러졌다.
BERTopic 또한 동일하게 8개의 주제를 도출하였으며, 청년·여성 대상 지역경제 활성화 지원(Topic 0), 취약계층 복지정책 및 돌봄서비스(Topic 1), 엑스포·대규모 행사 유치 및 지역홍보(Topic 2), 공공보건 예방관리 및 생활안전 점검(Topic 4), 자연재난·재해 예방 및 안전 대응(Topic 5), 미세먼지 대응 및 대기환경 개선 대책(Topic 6), 청소년 유해환경 예방 및 약물중독 대응(Topic 7) 등 사회안전망 전반에 걸친 복지 주제가 도출되었다. 특히 BERTopic은 응급의료, 약물중독, 환경오염 등 주제를 세분화하여, 문맥 기반 분석의 특성을 통해 LDA보다 더 정밀하게 행정 메시지를 포착한 것으로 나타났다.
4.2 시각화
본 연구에서는 앞서 살펴본 결과를 보다 입체적으로 해석하기 위해, 두 토픽 모델의 시각화 및 특성을 종합적으로 비교·논의하였다. UMAP 기반의 3차원 시각화(<그림 3> 참조)를 통해 본 연구의 토픽 모델링 결과를 시기별로 살펴보면 다음과 같은 특징이 나타난다.

<그림 3> 분석 방법에 따른 시기별 토픽 분포 시각화
코로나19 발생 이전 시기에는 LDA에서는 토픽별로 비교적 응집된 클러스터가 형성되어 있어 주제 간 구분이 일정 수준 나타났다. BERTopic의 경우에도 일부 토픽이 군집을 이루는 경향이 관찰되었으나, 전체적으로는 연속적 분포 양상이 남아 있었다. 이는 해당 시기 복지정책 메시지가 전통적인 정책 영역 중심으로 분화되어 있었음을 시사한다.
코로나19 확산 시기에는 LDA 결과에서 토픽들이 이전 시기보다 상대적으로 근접 분포하는 경향이 관찰되었다. 특히 ‘코로나19 대응’ 관련 토픽과 ‘청년 지원’ 관련 토픽이 일부 중첩되는 모습이 나타나, 팬데믹 상황에서 정책 영역 간 메시지가 분리되지 않고 일정 부분 연계되는 양상을 시사한다. 다만 이러한 결과는 토픽 간 완전한 통합을 의미하기보다는, 정책 영역 경계가 다소 모호해지는 경향을 시각적으로 보여주는 수준으로 해석할 수 있다.
코로나19 발생 이후 시기에는 LDA 결과에서 다수의 문서들이 여러 토픽 영역에 걸쳐 분포하는 경향이 관찰되었으며, BERTopic에서도 일부 토픽 간 인접성이 나타났다. 이러한 양상은 복지정책 메시지가 위기 대응 일변도에서 벗어나 다양한 주제로 확산되는 흐름을 시사한다. 이는 복지정책 의제가 점차 복합화되는 경향을 간접적으로 보여주는 것으로 해석할 수 있다.
이를 통해, 코로나19 초기의 위기 대응 중심 메시지는 이후 시기로 갈수록 다원적이고 참여적인 정책 담론으로 확산되는 흐름을 보였음을 시각적으로 확인할 수 있었다.
4.3 논의
본 연구는 경상남도 복지 보도자료에 대해 확률 기반 LDA와 문맥 기반 BERTopic을 적용하여 시기별 주제 구성을 비교 분석하였다. 분석 결과를 바탕으로 각 모델의 특성과 시기별 주제 변화 양상을 중심으로 다음과 같은 논의점을 도출하였다.
4.3.1 LDA 기반 시기별 주제 변화
LDA 분석 결과를 통해 시기별 복지 보도자료의 정책 메시지 구성 변화를 확인할 수 있었다.
코로나19 발생 이전에는 청년 일자리 정책, 스마트 농업 기반 복지시설 구축, 취약계층 돌봄 당부, 안전·환경 대응 안내 등 총 4개 주제가 도출되었으며, 이는 전통적인 복지정책 전달 및 인프라 구축 중심의 보도자료 특성을 반영한다. 해당 시기 보도자료는 김경수 지사의 도정 기조와 관련된 정책 홍보 및 인식 제고에 중점을 둔 일방향 커뮤니케이션 양상이 강하게 나타났다.
코로나19 확산 시기에는 감염병 대응 및 복지 안전망 구축, 청년·기업 일자리 정책, 엑스포 및 청소년 참여 프로그램 등 총 3개의 주제가 확인되었다. 감염병 예방과 방역 복지정책, 청년층에 대한 경제·사회적 지원, 지역 대외행사 재개가 병행되며, 정책 커뮤니케이션이 위기 대응과 일상 회복 사이에서 조정되는 흐름을 보였다.
코로나19 이후에는 총 8개의 주제가 도출되었고, 복지서비스 확대, 청소년 진로, 보건의료 및 응급 대응, 취약계층 관광복지, 기여자 격려, 여성·청소년 창업 등 보다 세분화된 메시지가 확인되었다. 이는 복지정책의 대상과 영역이 다양화되고, 단기 위기 대응에서 지속 가능한 지원체계 확대로의 전환이 이뤄졌음을 시사한다.
4.3.2 BERTopic 기반 시기별 주제 구조
BERTopic은 문장 수준의 의미를 보존하며 주제를 도출하는 문맥 기반 모델로, 시기별로 행정 메시지의 맥락적 구조를 보다 정밀하게 파악할 수 있었다.
코로나19 이전 시기에는 도민 대상 지역복지사업 운영, 농업 재해 및 여성농업인 지원, 토지거래·지가 관련 행정정보, 다문화가족 국제교류 및 명절지원 등 총 4개의 주제가 도출되었다. 전반적으로 정책 전달보다는 행정정보 안내나 생활 밀착형 공지 중심의 실무 커뮤니케이션 양상이 강하게 나타났다.
코로나19 확산 시기에는 지역복지 및 청년지원 정책 추진, 엑스포 및 대규모 홍보 행사 운영, 코로나19 대응 및 확진자 방역 조치 등 총 3개의 주제가 도출되었으며, 특히 엑스포 행사나 감염병 브리핑과 같은 구체적인 메시지가 단일 토픽으로 묶이며 문서 표현의 실제 흐름이 분석에 반영되었다. 이는 위기관리와 지역행사 중심의 커뮤니케이션이 병행되었음을 보여준다.
코로나19 이후에는 총 8개의 주제가 도출되었으며, 청년·여성 지역경제 활성화, 복지정책 및 돌봄서비스, 공공보건·생활안전 점검, 자연재난 대응, 미세먼지·대기환경 대책, 청소년 약물중독 예방 등 보다 구체화된 복지 메시지가 확인되었다. 특히 BERTopic은 응급의료, 청소년 유해환경, 환경위생 등 미시적 정책 단위까지 군집화함으로써, LDA보다 현실 행정문서의 구체적 표현과 상황 맥락을 효과적으로 반영하는 특징을 보였다.
이러한 분석을 통해, RQ1에 대한 결과로 보도자료의 주제 구성은 코로나19 발생 이전, 확산기, 이후로 구분되는 시기에 따라 상이한 토픽들이 도출됨을 확인할 수 있었다.
도출된 토픽들은 해당 시기 경상남도의 주요 복지정책과 구체적인 연관성을 보인다. 코로나19 확산 시기의 코로나19 대응 및 복지 안전망 구축 토픽은 2020년 경상남도가 시행한 경남형 긴급재난소득 정책과 연결되며, 이후 시기의 청소년 진로 및 디지털 역량강화 토픽은 청년 대상 디지털 역량 강화 사업의 확대와 부합하는 경향을 보인다. 이는 토픽 분석 결과가 실제 정책 방향의 변화를 반영하고 있음을 시사한다.
4.3.3 시기별 LDA와 BERTopic 결과 비교
코로나19 발생 이전 시기에는 LDA가 청년 일자리 정책, 스마트농업 및 복지시설 구축, 명절 돌봄, 시설 점검 및 환경 안전 등 전통적인 정책 단위의 주제를 중심으로 도출한 반면, BERTopic은 도민 대상 지역복지 사업 운영, 농업 재해 및 여성농업인 지원, 토지거래 및 지가 행정정보, 다문화가족 명절지원 등 실무적 행정 기능과 생활 안내 중심의 주제를 구성하였다. 이는 해당 시기 보도자료가 정책보다는 공공정보 전달과 행정 공지에 집중되었음을 보여주며, BERTopic이 문맥보다는 반복되는 행정 표현과 실용적 메시지에 더 민감하게 반응했음을 시사한다.
코로나19 확산 시기에는 두 모델 모두 코로나19 대응, 청년 및 일자리 정책, 엑스포 등 대외행사와 같은 공통 주제를 도출했으나 접근 방식에는 차이를 보였다. LDA는 코로나 대응 및 복지 안전망 구축, 청년·기업 일자리 정책 등 정책 범주의 키워드 중심으로 구성된 반면, BERTopic은 백신 접종, 확진자 브리핑, 입장권 홍보 등 문서 내 실제 문맥 흐름과 구체적 사례를 중심으로 군집화되었다. 이를 통해 BERTopic은 행정 커뮤니케이션의 실제 표현과 상황적 맥락을 보다 세밀하게 반영하고 있음이 확인되었다.
코로나19 이후 시기에는 주제 분화가 더욱 뚜렷하게 나타났다. LDA는 복지서비스 확대, 청소년 디지털 진로, 응급의료 대응, 취약계층 복지관광, 에너지 절감 정책 등 정책 단위의 전통적인 분류에 기반한 주제를 제시한 반면, BERTopic은 고립청소년 약물 중독 예방, 미세먼지 대응, 소상공인 응급의료 지원, 여성 창업, 산청 엑스포 관람 홍보 등 개별 이슈와 문서 맥락에 기반한 구체적 주제를 포착하였다. 이처럼 BERTopic은 실제 행정 문서 내 표현 구조를 반영한 분화된 커뮤니케이션 흐름을 제공하며, 정책 이슈의 미시적 구분과 실무적 맥락을 보다 효과적으로 드러냈다.
이를 통해, RQ2에 대한 분석 결과로 동일한 데이터를 대상으로 서로 다른 토픽 모델링 기법을 적용할 경우, 방법론의 차이로 인해 도출되는 정책 토픽이 달라지지만 이를 통해 다양한 관점에서 정책 주제를 확인할 수 있음을 알 수 있다.
4.3.4 시사점
LDA는 키워드 빈도에 기반한 전통적인 주제 분류 기법으로, 시기별 복지정책 흐름과 주요 정책 범주를 구조적으로 파악하는 데 강점을 보였다. 특히 시계열에 따른 주제의 등장·소멸을 분석하고, 공공문서 내 일관된 정책 메시지 패턴을 추출하는 데 효과적인 도구로 활용될 수 있다.
반면, BERTopic은 문맥 기반 언어모델과 군집 알고리즘을 활용함으로써, 문서 내 표현 방식과 실제 메시지 구성 흐름을 반영한 정밀한 토픽 구조를 제시하였다. 특히 단일 문서 안에서도 다양한 이슈가 혼재되어 있는 복지 보도자료의 특성을 고려할 때, BERTopic은 실무 중심 행정 메시지의 세부적 의미 단위를 효과적으로 포착하는 데 유리하였다.
두 모델의 상호 보완적 적용은 지방정부의 복지 커뮤니케이션 구조를 입체적으로 분석하고, 시기별 메시지 구성 전략의 변화를 다각도에서 해석하는 데 기여하였다. 특히 코로나19와 같은 위기 상황에서는 정보 제공 중심에서 참여·설득형 메시지로의 전환이 나타났으며, 이는 향후 정책 커뮤니케이션 전략 수립에 있어 대상별 맞춤화, 문맥 기반 전달력 강화의 필요성을 시사한다.
V. 결론
본 연구는 2016년부터 2024년까지 경상남도에서 발행한 복지 관련 보도자료를 대상으로, 코로나19 발생 시점을 기준으로 발생 이전, 확산 시기, 이후 시기로 구분한 뒤, LDA와 BERTopic 기법을 적용하여 시기별 정책 주제 구조의 변화를 분석하였다. LDA는 확률 기반 토픽 모델로서 정책 키워드 중심의 전통적인 주제 흐름을 효과적으로 포착하였으며, BERTopic은 문맥 기반 의미군의 흐름을 반영하여 행정 메시지의 구체성과 실질적 맥락을 드러내는 데 기여하였다. 두 모델의 결과를 비교함으로써, 사회적 위기 상황 전후 지방정부 정책 커뮤니케이션의 방향성과 구조적 특성을 입체적으로 이해할 수 있었다.
본 연구의 학문적 기여는 다음과 같다. 첫째, 확률 기반(LDA)과 문맥 기반(BERTopic)이라는 서로 다른 접근 방식을 병행 적용하여, 복지 보도자료 내 시기별 정책 주제를 다각도로 비교·분석하고, 공공 커뮤니케이션 분석의 방법론적 확장 가능성을 제시하였다. 둘째, 코로나19라는 사회적 위기를 경계로 복지정책 메시지의 구성 방식이 어떻게 변화했는지를 실증적으로 분석하여, 시기별 담론 변화를 파악할 수 있는 분석 틀을 제안하였다. 셋째, 복지 분야에 특화된 키워드를 기반으로 텍스트를 선별하고 분석함으로써, 주제 중심 텍스트 마이닝의 정밀성과 적용 가능성을 높였다.
실무적 측면에서 본 연구는 지방정부의 보도자료 작성 및 정책 커뮤니케이션 전략 수립에 다음과 같은 함의를 제공한다. 첫째, 시기별 보도자료의 주제 흐름을 체계적으로 분석함으로써, 정책 메시지 구성 방식의 변화와 주요 이슈의 부상·전환 과정을 파악할 수 있어 향후 홍보 전략 개선에 유용한 참고자료가 될 수 있다. 둘째, 청년, 고령자, 취약계층 등 정책 대상별 주요 주제를 분류함으로써, 대상 맞춤형 커뮤니케이션 전략 수립에 경험적 기반을 제공한다. 셋째, 코로나19 이후 다층적으로 분화된 복지 주제 구조는 정책 기획 및 보도자료 작성자에게 다중 메시지 조율 및 분야 간 연계 설계의 중요성을 시사한다.
그러나 본 연구는 다음과 같은 한계를 가진다. 첫째, 복지정책 관련 기존 연구와의 비교 및 차별성 분석이 부족하여, 본 연구의 결과를 보다 넓은 학술 담론 속에 위치시키는 데 한계가 있었다. 둘째, BERTopic 분석 과정에서 문서 형식상 반복되거나 비정형적 표현이 포함된 경우, 토픽 간 군집 경계가 모호해지거나 의미성이 낮은 주제가 도출되는 경향이 있어, 전처리 정교화의 필요성이 제기된다. 셋째, 분석 결과가 실제 경상남도 복지정책의 추진 방향이나 예산, 정책성과 등과 어떻게 연결되는지를 실증적으로 검증하지 못한 점은 정책 분석 연구로서의 제약이다.
따라서 향후 연구에서는 정책 문서 유형별 분석 및 타 지역과의 비교 연구를 통해 분석 결과의 일반화 가능성을 탐색할 필요가 있다. 또한 문장 구조나 반복 표현에 영향을 덜 받는 전처리 커스터마이징 기법 도입을 통해 BERTopic 분석의 신뢰도를 높일 수 있을 것이다. 마지막으로, 보도자료 외에 예산안, 정책계획서, 지역의회 문서 등 다양한 커뮤니케이션 자료와의 비교 분석을 통해, 보도자료가 실질적인 정책 의도 및 실행과 어떻게 연결되는지를 검토하는 통합적 정책 커뮤니케이션 연구가 요구된다.
References
- Hagen, L., Keller, T. E., Yerden, X., and Luna-Reyes, L. F., "Open data visualizations and analytics as tools for policy-making," Government Information Quarterly, Vol. 36, No. 4, 2019, 101387. https://doi.org/10.1016/j.giq.2019.06.004
- Jin, X., Zhou, W., Zhu, Q., Wang, W., and Xu, G., "Research on the analysis and application of technological supply and demand structure based on LDA and BERTopic models," Cognitive Robotics, Vol. 5, 2025, pp. 260-275. https://doi.org/10.1016/j.cogr.2025.07.001
- Tang, Z., Pan, X., and Gu, Z., "Analyzing public demands on China's online government inquiry platform: A BERTopic-based topic modeling study," PLOS ONE, Vol. 19, No. 2, 2024, e0296855. https://doi.org/10.1371/journal.pone.0296855
- Lesnikowski, A., Belfer, E., Rodman, E., Smith, J., Biesbroek, R., Wilkerson, J. D., Ford, J. D., and Berrang-Ford, L., "Frontiers in data analytics for adaptation research: Topic modeling," Wiley Interdisciplinary Reviews: Climate Change, Vol. 10, No. 3, 2019, e576. https://doi.org/10.1002/wcc.576
- Xie, Q., Xue, Y., and Zhao, Z., "Understanding the scientific topics in the Chinese Government's communication about COVID-19: An LDA approach," Sustainability, Vol. 14, No. 15, 2022, 9614. https://doi.org/10.3390/su14159614
- Zhang, J., Gui, W., and Wen, J., "China's policy similarity evaluation using LDA model: An experimental analysis in Hebei province," Journal of Information Science, Vol. 50, No. 2, 2024, pp. 515-530. https://doi.org/10.1177/01655515221097858
- Hagen, L., "Content analysis of e-petitions with topic modeling: How to train and evaluate LDA models?," Information Processing & Management, Vol. 54, No. 6, 2018, pp. 1292-1307. https://doi.org/10.1016/j.ipm.2018.05.006
- Son, H., and Park, Y. E., "Agenda-setting effects for COVID-19 vaccination: Insights from 10 million textual data from social media and news articles using BERTopic," International Journal of Information Management, Vol. 83, 2025, 102907. https://doi.org/10.1016/j.ijinfomgt.2025.102907
- Huang, H., Zhang, J., Wei, S., and Huang, F., "Quantitative research on regional large language models policy texts based on BERTopic," In Proc. of 2024 IEEE First International Conference on Data Intelligence and Innovative Application (DIIA), 2024, pp. 1-5.
- Mendonca, M., and Figueira, A., "Topic extraction: BERTopic's insight into the 117th Congress's Twitterverse," Informatics, Vol. 11, No. 1, 2024, p. 8. https://doi.org/10.3390/informatics11010008
- Ningpeng, J., Tian, H., Haibo, W., Ruzhi, X., and Shiyu, M., "A study on structured text parsing for policies based on BERTopic," In Proc. of 2024 IEEE 6th Advanced Information Management, Communicates, Electronic and Automation Control Conference (IMCEC), Vol. 6, 2024, pp. 16-22.
- Zain, R. M., Anggai, S., Musyafa, A., and Waskita, A. A., "Revealing a country's government discourse through BERT-based topic modeling in the US presidential speeches," In Proc. of 2024 International Conference on Computer, Control, Informatics and its Applications (IC3INA), 2024, pp. 191-196.
- Umamaheswaran, S., Dar, V., Sharma, E., and Kurian, J. S., "Mapping climate themes from 2008–2021—An analysis of business news using topic models," IEEE Access, Vol. 11, 2023, pp. 26554-26565. https://doi.org/10.1109/ACCESS.2023.3256530
- Lopreite, M., Misuraca, M., and Puliga, M., "Outbreak and integration of social media in public health surveillance systems: A policy review through BERT embedding technique," Socio-Economic Planning Sciences, Vol. 95, 2024, 101995. https://doi.org/10.1016/j.seps.2024.101995