• 제목/요약/키워드: 군집지능

검색결과 261건 처리시간 0.023초

추천시스템의 효과적 도입을 위한 소셜네트워크 분석 (Social Network Analysis for the Effective Adoption of Recommender Systems)

  • 박종학;조윤호
    • 지능정보연구
    • /
    • 제17권4호
    • /
    • pp.305-316
    • /
    • 2011
  • 협업필터링은 다양한 분야에서 널리 활용되고 있지만 협업필터링의 추천 성능은 적용하는 기업의 비즈니스 형태나 발생하는 거래 데이터의 특성에 따라 다르게 나타나고 있다. 기업에서 협업필터링 추천시스템을 구축하려면 상당한 시간과 비용이 소요되기 때문에 구축된 추천시스템의 성과가 높지 않다면 기업 자원의 낭비를 초래할 뿐만 아니라 부정확한 추천서비스를 받는 고객들의 불만을 살 수 있다. 따라서 추천시스템 도입을 검토할 때 기업이 갖고 있는 데이터의 특성을 파악하고 이를 통해 추천시스템을 도입하는 것이 타당한지 사전에 예측할 수 있다면 불필요한 도입으로 인한 경제적 손실과 고객 만족도 저하를 막을 수 있을 것이다. 기존 연구에서는 협업필터링 추천 성과에 희박성, 우연성, 커버리지 등이 영향을 미칠 수 있다고 설명하고 있지만 이러한 요인들이 어떻게 얼마나 추천 성과에 영향을 미치는지, 요인들 간에 어떠한 상관관계가 있는지는 현재까지 구체적으로 밝혀진 바가 없다. 본 연구에서는 구매 트랜잭션으로부터 생성된 소셜네트워크로부터 밀도, 군집화계수, 집중도 등의 구조적 지표를 측정한 후 이들이 추천성과에 어떻게 영향을 미치는지 통계적 분석을 통해 실증적으로 규명한다. 이를 통해 협업필터링 추천시스템에 대한 도입 여부를 결정하고자 할 때 유용하게 사용될 수 있는 지침을 제공하고자 한다.

시각적 특징을 기반한 샷 클러스터링을 통한 비디오 씬 탐지 기법 (Video Scene Detection using Shot Clustering based on Visual Features)

  • 신동욱;김태환;최중민
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.47-60
    • /
    • 2012
  • 비디오 데이터는 구조화되지 않은 복합 데이터의 형태를 지닌다. 이러한 비디오 데이터의 효율적인 관리 및 검색을 위한 비디오 데이터 구조화의 중요성이 대두되면서 콘텐츠 내 시각적 특징을 기반으로 비디오 씬(scene)을 탐지하고자 하는 연구가 활발히 진행되었다. 기존의 연구들은 주로 색상 정보만을 이용하여 샷(shot) 간의 유사도 평가를 기반한 클러스터링(clustering)을 통해 비디오 씬을 탐지하고자 하였다. 하지만 비디오 데이터의 색상 정보는 노이즈(noise)를 포함하고, 특정 사물의 개입 등으로 인해 급격하게 변화하기 때문에 색상만을 특징으로 고려할 경우, 비디오 샷 혹은 씬에 대한 올바른 식별과 디졸브(dissolve), 페이드(fade), 와이프(wipe)와 같은 화면의 점진적인 전환(gradual transitions) 탐지는 어렵다. 이러한 문제점을 해결하기 위해, 본 논문에서는 프레임(frame)의 컬러 히스토그램과 코너 에지, 그리고 객체 컬러 히스토그램에 해당하는 시각적 특징을 기반으로 동일한 이벤트를 구성하는 의미적으로 유사한 샷의 클러스터링을 통해 비디오 씬을 탐지하는 방법(Scene Detector by using Color histogram, corner Edge and Object color histogram, SDCEO)을 제안한다. SDCEO는 샷 바운더리 식별을 위해 컬러 히스토그램 분석 단계에서 각 프레임의 컬러 히스토그램 정보를 이용하여 1차적으로 연관성 있는 연속된 프레임을 샷 바운더리로 병합한 후, 코너 에지 분석 단계에서 병합된 샷 내 처음과 마지막 프레임의 코너 에지 특징 비교를 통하여 샷 바운더리를 정제하여 최종 샷을 식별한다. 키프레임 추출 단계에서는 샷 내 프레임간 유사도 비교를 통해 모든 프레임과 가장 유사한 프레임을 각 샷을 대표하는 키프레임으로 추출한다. 그 후, 비디오 씬 탐지를 위해, 컬러 히스토그램과 객체 컬러 히스토 그램에 해당하는 프레임의 시각적 특징을 기반으로 상향식 계층 클러스터링 방법을 이용하여 의미적인 연관성을 지니는 샷의 군집화를 통해 비디오 씬을 탐지하는 방법이다. 본 논문에서는 SDCEO의 프로토 타입을 구축하고 3개의 비디오 데이터를 이용한 실험을 통하여 SDCEO의 효율성을 평가하였고 샷 바운더리 식별의 성능의 정확도는 평균 93.3%, 비디오 씬 탐지 성능의 정확도는 평균 83.3%로 만족할만한 성능을 보였다.

가족유사성 접근을 통한 과학 PCK 변화 탐색 (Exploring Changes in Science PCK Characteristics through a Family Resemblance Approach)

  • 곽영순
    • 대한지구과학교육학회지
    • /
    • 제15권2호
    • /
    • pp.235-248
    • /
    • 2022
  • 학령인구의 급격한 감소, 학생의 교육과정 선택권 확대 등과 같은 미래 교육환경 변화에 따라 과학교사의 전문성인 PCK에도 변화가 요청된다. 즉, 기존 합의-PCK를 구성하는 범주 및 과학 PCK의 특성은 고정된 것이 아니어서 새로운 범주와 특성이 추가될 수 있다. 본 연구의 목적은 비트겐슈타인의 가족유사성 접근을 통해 미래 교육환경 변화에 대처하기 위해 요구되는 과학 PCK의 잠재성의 영역을 '가족유사성 과학 PCK'의 형태로 탐구하려는 것이다. 이를 위해 3개의 초점집단을 대상으로 심층면담을 진행하였다. 초점집단 심층면담에서는 미래사회와 교육환경 변화로 인해 2030년-2045년의 가까운 미래 학교의 과학교사에게 요구되는 과학 PCK가 어떻게 달라질 것인지를 논의하였다. 심층면담을 토대로 질적 분석을 실시함과 동시에 기존 합의-PCK와 차별화되는 가족유사성-PCK의 특성을 분석하기 위해 심층면담 텍스트에 대한 언어네트워크(semantic network) 분석을 시행하였다. 연구결과에서 미래사회 교사의 역할기대가 변함에 따라 새롭게 요청되는 과학교사의 가족유사성-PCK의 특징을 PCK 구성 영역별로 살펴보았다. 미래학교 과학교사에게 요구되는 가족유사성-PCK에 대한 언어 네트워크 분석결과를 살펴보면, 가족유사성-PCK는 출발점에 해당하는 기존 합의-PCK로부터 그 외연이 확장되면서 새로운 PCK요소가 추가되는 것으로 나타났다. 가족유사성-PCK의 양태를 살펴보면, [인공지능-융복합지식-콘텐츠-디지털], [지역사회-네트워크-인적자원-관계], [기술-탐구-가상현실-연구], [자기주도학습-협업-공동체] 등이 뚜렷한 네트워크 군집을 형성하면서 미래학교의 과학교사의 전문성을 형성, 강화되고 있는 것으로 나타났다. 연구결과를 토대로 미래학교 과학교사 전문성의 변화 동향과 대처 방안을 결론으로 제안하였다.

인구통계특성 기반 디지털 마케팅을 위한 클릭스트림 빅데이터 마이닝 (Clickstream Big Data Mining for Demographics based Digital Marketing)

  • 박지애;조윤호
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.143-163
    • /
    • 2016
  • 인구통계학적 정보는 디지털 마케팅의 핵심이라 할 수 있는 인터넷 사용자에 대한 타겟 마케팅 및 개인화된 광고를 위해 고려되는 가장 기초적이고 중요한 정보이다. 하지만 인터넷 사용자의 온라인 활동은 익명으로 행해지는 경우가 많기 때문에 인구통계특성 정보를 수집하는 것은 쉬운 일이 아니다. 정기적인 설문 조사를 통해 사용자들의 인구통계특성 정보를 수집할 수도 있지만 많은 비용이 들며 허위 기재 등과 같은 위험성이 존재한다. 특히, 모바일 환경에서는 대부분의 사용자들이 익명으로 활동하기 때문에 인구통계특성 정보를 수집하는 것은 더욱 더 어려워지고 있다. 반면, 인터넷 사용자의 온라인 활동을 기록한 클릭스트림 데이터는 해당 사용자의 인구통계학적 정보에 활용될 수 있다. 특히, 인터넷 사용자의 온라인 행위 특성 중 하나인 페이지뷰는 인구통계학적 정보 예측에 있어서 중요한 요인이 된다. 본 연구에서는 기존 선행 연구를 토대로 클릭스트림 데이터 분석을 통해 인터넷 사용자의 온라인 행위 특성을 추출하고 이를 해당 사용자의 인구통계학적 정보 예측에 사용한다. 또한, 1)의사결정나무를 이용한 변수 축소, 2)주성분분석을 활용한 차원축소, 3)군집분석을 활용한 변수축소의 방법을 제안하고 실험에 적용함으로써 많은 설명변수를 이용하여 예측 모델 생성 시 발생하는 차원의 저주와 과적합 문제를 해결하고 예측 모델의 정확도를 높이고자 하였다. 실험 결과, 범주의 수가 많은 다분형 종속변수에 대한 예측 모델은 모든 설명변수를 사용하여 예측 모델을 생성했을 때보다 본 연구에서 제안한 방법론들을 적용했을 때 예측 모델에 대한 정확도가 향상됨을 알 수 있었다. 본 연구는 클릭스트림 분석을 통해 추출된 인터넷 사용자의 온라인 행위는 해당 사용자의 인구통계학적 정보 예측에 활용 가능하며, 예측된 익명의 인터넷 사용자들에 대한 인구통계학적 정보를 디지털 마케팅에 활용 할 수 있다는데 의의가 있다. 또한, 제안 방법론들을 통해 어느 종속변수에 대해 어떤 방법론들이 예측 모델의 정확도를 개선하는지 확인하였다. 이는 추후 클릭스트림 분석을 활용하여 인구통계학적 정보를 예측할 때, 본 연구에서 제안한 방법론을 사용하여 보다 높은 정확도를 가지는 예측 모델을 생성 할 수 있다는데 의의가 있다.

스마트 전시 환경에서 프로모션 적용 사례 및 분석 (Case Analysis of the Promotion Methodologies in the Smart Exhibition Environment)

  • 문현실;김남희;김재경
    • 지능정보연구
    • /
    • 제18권3호
    • /
    • pp.171-183
    • /
    • 2012
  • 세계가 급변하고 시시각각 발전하는 기술 속에서 전시 산업은 국가와 기업의 중요한 홍보 수단으로 부각되고 있다. 특히, 전시회에 참여하는 참여업체는 상품 또는 서비스를 전시하고 메시지를 전달하기 위해 마련된 개별 전시공간을 통해 기업들과 소비자들에게 단기간에 신제품과 신기술에 대한 정보를 제공할 수 있으며 국내외 시장의 욕구와 추세변화 및 경쟁업체들에 대한 정보를 파악할 수 있다. 참여업체들은 이러한 참가 목적의 달성을 위해 다양한 프로모션을 계획하고 실행하며 프로모션 정보를 참관객에게 실시간으로 제공할 수 있는 스마트 전시 환경의 구축은 이전보다 다양한 프로모션 기법의 적용 및 실행을 가능하게 하였다. 하지만, 이러한 스마트 전시 환경의 발전에도 불구하고 현재 실행되고 있는 프로모션은 참관객의 욕구나 목표에 대한 이해가 부족한 상태에서 무차별적인 매스마케팅 형태로 진행되어 그 본래의 목적을 상실하고 있다. 따라서, 본 연구에서는 참여업체의 차별화된 프로모션의 계획과 실행을 위해 기존에 널리 사용되는 마케팅 기법인 STP 전략의 프로세스를 도입하여 스마트 전시 환경에서 프로모션에 적합한 참관객을 자동적으로 선정하여 프로모션 정보를 제공하는 시스템을 제안하였다. 특히, 본 연구에서는 다음과 같은 스마트 전시회의 특성을 고려한다. 먼저, 전시회는 전시업체가 관람객과 상호작용하기 위해 모인 일시적이고 시간에 민감한 시장이다. 따라서, 불충분한 기존 참관객의 정보를 이용하는 것이 아닌 신규 참관객 분석의 관점에서 서비스를 제공할 수 있어야 한다. 두 번째로, 스마트 전시 환경에서는 참관객의 정보를 실시간으로 획득할 수 있다는 장점이 있는 반면에 데이터의 분석 및 서비스의 제공이 실시간으로 이루어져야 한다. 마지막으로, 참관객이 스마트 전시 환경에서 만들어 내는 데이터를 활용하는 기법이 필요하다. 스마트 전시 환경에서는 유용한 데이터를 실시간으로 획득할 수 있어 참관객이 전시회 내에서 하는 활동을 분석하는 행위적 세분화에 근거한 접근방식이 필요하다. 이러한 특성을 고려하여 본 연구에서는 제안한 시스템을 실제 전시회에 파일럿 시스템 형태로 적용하여 참관객을 실시간으로 분류 및 분석하고 각 메시지에 대한 성과를 측정하는 실험을 진행하였다. 그 결과, 전시 참관객의 행동 패턴을 4가지로 분류하여 각 군집별 특성을 프로모션 메시지의 성과로 측정하여 그에 적합한 프로모션 전략을 도출하였다. 이러한 프로모션 전략은 실제 전시 참여업체의 프로모션 기획 및 실행에 중요한 전략적 도구로 사용되어 프로모션 성과를 높일 수 있을 것으로 기대된다.

법령정보 검색을 위한 생활용어와 법률용어 간의 대응관계 탐색 방법론 (Term Mapping Methodology between Everyday Words and Legal Terms for Law Information Search System)

  • 김지현;이종서;이명진;김우주;홍준석
    • 지능정보연구
    • /
    • 제18권3호
    • /
    • pp.137-152
    • /
    • 2012
  • 인터넷 환경에서 월드 와이드 웹이 등장한 이후 웹을 통해 수많은 웹 페이지들이 생산됨에 따라 사용자가 원하는 정보를 검색하기 위한 다양한 형태의 검색 서비스가 여러 분야에서 개발되어 활용되고 있다. 특히 법령 검색은 사용자가 현재 자신이 처한 상황에 필요한 법령을 검색하여 법령에 대한 지식을 얻기 위한 창구로써 국민의 편의를 제공하기 위해 반드시 필요한 서비스 중 하나이다. 이에 법제처는 2009년부터 국민 누구나 편리하게 법령에 관련된 정보를 검색할 수 있도록 국가의 법령뿐만 아니라 행정규칙이나 판례 등 모든 법령정보를 검색할 수 있는 검색 서비스를 제공하고 있다. 하지만 현재까지의 검색엔진 기술은 기본적으로 사용자가 입력한 질의어를 문서에 포함하고 있는지의 여부에 따라 해당 문서를 검색 결과로 제시한다. 법령 검색 서비스 또한 해당 법령에 등장하는 키워드를 활용하여 사용자에게 검색 결과를 제공해주고 있다. 따라서 법제처의 이런 노력에도 불구하고 법령이 전문가의 시각에서 작성되었기 때문에 법에 익숙하지 않은 일반 사용자는 자신이 필요한 법령을 검색하기 어려운 한계점을 가지고 있다. 이는 일반적으로 법령에 사용되는 용어들과 일반 사용자가 실생활에 사용하는 단어가 서로 상이하기 때문에 단순히 키워드의 단순 매칭 형태의 검색엔진에서는 사용자들이 주로 사용하는 생활용어를 이용해서 원하는 법령을 검색할 수 없다. 본 연구에서는 법률용어에 관한 사전지식이 부족한 일반 사용자가 일상에서 주로 사용되는 생활용어를 이용하여 키워드 기반의 법령정보 검색 사이트에서 정확한 법령정보 검색이 가능하도록 생활용어와 법률용어 간의 대응관계를 탐색하고 이를 이용하여 법령을 검색할 수 있는 방법론을 제안하고자 한다. 우선 생활용어와 법률용어 간의 대응관계를 발견하기 위해 본 논문에서는 사용자들의 집단지성을 활용한다. 이를 위해 사용자들이 블로그의 분류 및 관리, 검색에 활용하기 위해 작성한 태그 정보를 이용하여 질의어인 생활용어와 관련된 태그들을 수집한다. 수집된 태그들은 K-means 군집분석 기법을 통해 태그들을 클러스터링하고, 생활용어와 가장 가까운 법률용어를 찾기 위한 평가 방법을 통해 생활용어에 대응될 수 있는 적절한 법률용어를 선택한다. 선택된 법률용어는 해당 생활용어와 명시적인 관계성이 부여되며, 이러한 생활용어와 법률용어와의 관계는 온톨로지 기반의 시소러스를 기술하기 위한 SKOS를 이용하여 표현된다. 이렇게 구축된 온톨로지는 사용자가 생활용어를 이용하여 검색을 수행할 경우 생활용어에 대응되는 적절한 법률용어를 찾아 법령 검색을 수행하고 그 결과를 사용자에게 제시한다. 본 논문에서 제시하고자 하는 방법론을 통해 법령 및 법률용어에 관련된 사전 지식이 없는 일반 사용자도 편리하고 효율적으로 법령을 검색할 수 있는 서비스를 제공할 것으로 기대한다.

국내 프로축구 팬들의 유니폼 소비 분석: 손흥민의 토트넘 홋스퍼 FC 이적 전후 비교 (Analysis of Football Fans' Uniform Consumption: Before and After Son Heung-Min's Transfer to Tottenham Hotspur FC)

  • 최영현;이규혜
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.91-108
    • /
    • 2020
  • 박지성 선수의 2005년 맨체스터 유나이티드 FC 입단 이후로, 국내에서 프로축구 유니폼 시장이 본격적으로 성장하기 시작했다. 이후, 국내 선수들의 해외 리그에서 활약이 계속되면서 국내에서도 잉글랜드 프리미어리그에 대한 대중의 관심이 지속되고 있다. 이러한 시점에서 본 연구는 국내 프로축구 팬들의 유니폼 소비에 전반적인 소비자 인식을 알아보고, 선수의 영입에 따른 소비자 인식 변화를 비교하고자 했다. EPL의 토트넘에서 활동하고 있는 손흥민 선수의 영입 전후를 중심으로 소셜 미디어에 나타난 프로축구 팬들의 소비자 인식과 구매 요인을 알아보았다. 'EPL 유니폼'을 키워드로, 국내 포털사이트와 소셜 미디어의 게시글을 수집하고, 텍스트 마이닝, SNA, 회귀분석을 사용하여 분석했다. 연구 결과, 첫째, 선수의 소속 팀, 실적, 포지션과 구단의 실적, 순위, 리그의 우승 여부가 프로축구 유니폼의 구매와 탐색에 있어 주요 요인으로 확인되었다. 가격, 디자인, 사이즈, 로고 등과 같은 항목보다 유니폼의 형태, 마킹, 정품 여부, 스폰서와 더 중요하게 작용하고 있었다. 둘째, 구조적 등위성 분석과 군집분석을 통해 국내 프로축구 팬들 사이에서 유니폼과 관련되어 언급되고 있는 주요 주제를 알아본 결과, EPL에 소속된 구단과 유명 선수들이 가장 핵심적인 주제로 나타났다. 셋째, 프로축구 유니폼에 대한 시기별 주제는 월드컵과 EPL 리그에 대한 관심에서 EPL에서 활동하는 다양한 국내외 선수들에 대한 관심으로, 2015년 이후에는 유니폼 자체에 대한 것으로 주제가 변화했다. 이를 통해, 선수들의 이적에 따라 선수가 소속된 해당 구단의 유니폼이 관심을 받고 있음을 알 수 있었다. 넷째, 남녀 소비자 모두 손흥민에 대한 관심이 증가함에 따라서 토트넘이 소속된 리그인 EPL에 대한 관심도 증가하는 것으로 나타났다. 여성의 경우 손흥민에 대한 관심이 증가함에 따라 축구 유니폼에 대해서도 관심을 가지는 것으로 나타난 반면, 남성의 경우 손흥민 선수에 대한 관심과 축구 유니폼에 대한 관심 사이의 관계가 유의하게 나타나지 않았다. 각 구단은 선수와 구단의 성적과 이미지 관리, 스폰서 브랜드 관리에 집중하고, 선수의 이적이 결정되면 선수의 자국에 해당 물량의 공급을 늘리며, 인기를 끌고 있는 선수의 등번호가 부착된 유니폼의 경우에는 여성을 위한 다양한 사이즈를 제공해야 할 필요가 있다.

이미지 감성분류를 위한 CNN과 K-means RGB Cluster 이-단계 학습 방안 (A Two-Stage Learning Method of CNN and K-means RGB Cluster for Sentiment Classification of Images)

  • 김정태;박은비;한기웅;이정현;이홍주
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.139-156
    • /
    • 2021
  • 이미지 분류에서 딥러닝 모형을 사용하는 가장 큰 이유는 이미지의 전체적인 정보에서 각 지역 특징을 추출하여 서로의 관계를 고려할 수 있기 때문이다. 하지만 이미지의 지역 특징이 없는 감정 이미지 데이터는 CNN 모델이 적합하지 않을 수 있다. 이러한 감정 이미지 분류의 어려움을 해결하기 위하여 매년 많은 연구자들이 감정 이미지에 적합한 CNN기반 아키텍처를 제시하고 있다. 색깔과 사람 감정간의 관계에 대한 연구들도 수행되었으며, 색깔에 따라 다른 감정이 유도된다는 결과들이 도출되었다. 딥러닝을 활용한 연구에서도 색깔정보를 활용하여 이미지 감성분류에 적용하는 연구들이 있어왔으며, 이미지만을 가지고 분류 모형을 학습한 경우보다 이미지의 색깔 정보를 추가로 활용한 경우가 이미지 감성 분류 정확도를 더 높일 수 있었다. 본 연구는 사람이 이미지의 감정을 분류하는 기준 중 많은 부분을 차지하는 색감을 이용하여 이미지 감성 분류 정확도를 향상시키는 방안을 제안한다. 이미지의 RGB 값에 K 평균 군집화 방안을 적용하여 이미지를 대표하는 색을 추출하여, 각 감성 클래스 별 해당 색깔이 나올 확률을 가중치 식으로 변형 후 CNN 모델의 최종 Layer에 적용하는 이-단계 학습방안을 구현하였다. 이미지 데이터는 6가지 감정으로 분류되는 Emotion6와 8가지 감정으로 분류되는 Artphoto를 사용하였다. 학습에 사용한 CNN 모델은 Densenet169, Mnasnet, Resnet101, Resnet152, Vgg19를 사용하였으며, 성능 평가는 5겹 교차검증으로 CNN 모델에 이-단계 학습 방안을 적용하여 전후 성과를 비교하였다. CNN 아키텍처만을 활용한 경우보다 색 속성에서 추출한 정보를 함께 사용하였을 때 더 좋은 분류 정확도를 보였다.

코로나 19 하에서 재난문자 내의 정보유형 및 특성: 서울특별시 재난문자를 중심으로 (Information types and characteristics within the Wireless Emergency Alert in COVID-19: Focusing on Wireless Emergency Alerts in Seoul)

  • 윤성욱;남기환
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.45-68
    • /
    • 2022
  • 대한민국 중앙부처, 지방자치단체는 코로나 19가 급속도로 확산하는 팬데믹 상황에서 재난상황 극복을 위해 재난대응에 필요한 정보를 재난문자를 통해 제공하였다. 재난문자는 국민들이 가장 많이 접하는 재난정보 전달수단으로서, 휴대폰에 직접 방송하는 CBS(Cell Broadcast Service) 방식을 채택하고 있어 직접 찾아보는 수고스러움 없이 휴대폰을 통해 쉽게 정보를 접할 수 있다는 장점이 있다. 본 연구는 지난 1년 1개월간(2020년 1월~2021년 1월) 서울특별시에 발송된 재난문자의 특성을 다양한 텍스트마이닝 방법론 등을 통해 도출하고 재난문자에 포함된 다양한 유형의 정보가 국민들의 이동 행태에 어떠한 영향을 미쳤는지를 서울특별시 지역구의 연령별 유동인구의 이동성을 통해 확인하였다. 각 문자에 포함된 주요 단어와 포함된 정보를 분류하는 과정을 거치고 포함된 단어를 기반으로 하는 문서 군집 분석 기법을 적용해 개별 발송 문자를 분석 단위로써 활용할 수 있도록 텍스트 분석을 시행하였다. 이후, 텍스트마이닝을 통해 추출한 재난문자의 특성이 지역별, 연령별 인구이동성에 미친 영향을 규명하였다. 구조화된 모형을 활용하여 재난정보가 인구이동성에 미치는 영향을 기본효과, 누적효과로 구분하여 측정하였다. 지자체가 보유한 재난문자 발송권한으로 인해 재난문자 발송 특성은 지자체별로 상이함을 계량 분석에 활용하였다. 분석 결과 인구이동성에 변화를 유발하는 정보유형은 연령별로 상이함을 확인할 수 있었다. 날짜와 순서에 관련된 정보는 60-70대의 인구이동성을 유의미하게 감소시키는 것을 확인할 수 있었다. 온라인 정보는 20대의 이동성을 감소시켰고, 증상과 관련된 정보는 30대의 인구이동성을 감소시켰다. 한편, 방역 정책 준수를 당부하는 의미를 포함하는 규범적 단어 등은 전 연령의 인구이동성에 유의미한 변화를 불러일으키지 못함을 확인할 수 있었다. 이는 재난대응에 도움이 되는 유의미한 정보들만 재난문자에 포함되어야 함을 의미한다. 한편, 인구이동성에 유의미한 변화를 불러일으키는 정보유형 또한 재난문자가 반복됨에 따라 효과가 상쇄함을 음의 누적효과 추정 결과를 통해 확인할 수 있었다.

토픽모델링을 활용한 COVID-19 학술 연구 기반 연구 주제 분류에 관한 연구 (A study on the classification of research topics based on COVID-19 academic research using Topic modeling)

  • 유소연;임규건
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.155-174
    • /
    • 2022
  • 2020년 1월부터 2021년 10월 현재까지 COVID-19(치명적인 호흡기 증후군인 코로나바이러스-2)와 관련된 학술 연구가 500,000편 이상 발표되었다. COVID-19와 관련된 논문의 수가 급격하게 증가함에 따라 의료 전문가와 정책 담당자들이 중요한 연구를 신속하게 찾는 것에 시간적·기술적 제약이 따르고 있다. 따라서 본 연구에서는 LDA와 Word2vec 알고리즘을 사용하여 방대한 문헌의 텍스트 자료로부터 유용한 정보를 추출하는 방안을 제시한다. COVID-19와 관련된 논문에서 검색하고자 하는 키워드와 관련된 논문을 추출하고, 이를 대상으로 세부 주제를 파악하였다. 자료는 Kaggle에 있는 CORD-19 데이터 세트를 활용하였는데, COVID-19 전염병에 대응하기 위해 주요 연구 그룹과 백악관이 준비한 무료 학술 자료로서 매주 자료가 업데이트되고 있다. 연구 방법은 크게 두 가지로 나뉜다. 먼저, 47,110편의 학술 논문의 초록을 대상으로 LDA 토픽 모델링과 Word2vec 연관어 분석을 수행한 후, 도출된 토픽 중 'vaccine'과 관련된 논문 4,555편, 'treatment'와 관련된 논문 5,791편을 추출한다. 두 번째로 추출된 논문을 대상으로 LDA, PCA 차원 축소 후 t-SNE 기법을 사용하여 비슷한 주제를 가진 논문을 군집화하고 산점도로 시각화하였다. 전체 논문을 대상으로 찾을 수 없었던 숨겨진 주제를 키워드에 따라 문헌을 분류하여 토픽 모델링을 수행한 결과 세부 주제를 찾을 수 있었다. 본 연구의 목표는 대량의 문헌에서 키워드를 입력하여 특정 정보에 대한 문헌을 분류할 수 있는 방안을 제시하는 것이다. 본 연구의 목표는 의료 전문가와 정책 담당자들의 소중한 시간과 노력을 줄이고, 신속하게 정보를 얻을 수 있는 방법을 제안하는 것이다. 학술 논문의 초록에서 COVID-19와 관련된 토픽을 발견하고, COVID-19에 대한 새로운 연구 방향을 탐구하도록 도움을 주는 기초자료로 활용될 것으로 기대한다.