• 제목/요약/키워드: 텍스트분류

검색결과 680건 처리시간 0.027초

국내 연구자 커뮤니티 구성원의 부실 학술지 인식에 대한 연구 (A Study on the Perception of Predatory Journals among Members of the Korea Researcher Communities)

  • 홍명아;심원식
    • 정보관리학회지
    • /
    • 제41권2호
    • /
    • pp.97-130
    • /
    • 2024
  • 최근 학술 생태계의 새로운 이슈 중 하나인 부실 학술지를 두고 판별 기준의 모호성에 대한 논쟁이 불거지고 있다. 이러한 논란은 연구자들에게 부실 학술지의 부실성이 무엇인지에 대해 혼란을 주고 있다. 이에 본 연구는 국내 연구자들이 부실 학술지를 어떻게 인식하고, 또 어떻게 판별하고 있는지를 파악하고자 했다. 이를 위해 한국의 대표적인 연구자 커뮤니티인 생물학연구정보센터(BRIC), 하이브레인넷, 김박사넷, 건전학술활동지원시스템(SAFE)을 대상으로, 2023년 11월까지 작성된 관련 게시글과 댓글 총 2,484건을 수집하였다. 수집된 텍스트 데이터에 대한 주제 분석을 위해 먼저 데이터를 3개의 큰 범주인 학술지, 출판사, 연구자로 구분하였고, 해당 범주에 따라 11가지의 세부 주제 태그로 분류하였다. 이후 세부 주제 태그의 조합에 근거하여 다음과 같은 부실학술지 관련 6개의 주요 논쟁점을 도출하였다. 첫째, 부실 학술지에 대한 연구자들의 혼란과 연구 실적에 대한 논란이다. 둘째, 부실 학술지에 대해 부정적인 인식을 가진 연구자들의 견해이다. 셋째, 부실 학술지에 대해 긍정적인 인식을 가진 연구자들의 견해이다. 넷째, 학술지 수준에 대한 평가 기준과 국내 학술지 수준에 대한 문제 제기이다. 다섯째, OA 확산에 따른 출판 관행의 변화와 이에 따른 문제 제기이다. 여섯째, 학술 생태계의 전반적인 문제에 대한 논의이다. 본 연구는 국내의 연구자들의 부실 학술지에 대한 인식을 정성적 측면에서 고려한 연구로서, 국내의 부실 학술지 논란에 대한 근본적인 이해를 형성하는 데 도움이 될 것으로 기대한다.

마켓 인사이트를 위한 상품 리뷰의 다차원 분석 방안 (Multi-Dimensional Analysis Method of Product Reviews for Market Insight)

  • 박정현;이서호;임규진;여운영;김종우
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.57-78
    • /
    • 2020
  • 인터넷의 발달로, 소비자들은 이커머스에서 손쉽게 상품 정보를 확인한다. 이때 활용되는 상품 리뷰는 사용자 경험을 토대로 작성되어 구매의사결정의 효율성을 높일 뿐만 아니라 상품 개발에 도움을 주기도 한다. 하지만, 방대한 양의 상품 리뷰에서 관심있는 평가차원의 세부내용을 파악하는 데에는 많은 시간과 노력이 소비된다. 예를 들어, 노트북을 구매하려는 소비자들은 성능, 무게, 디자인과 같은 평가차원에 대해 각 차원별로 비교 상품의 평가를 확인하고자 한다. 따라서 본 논문에서는 상품 리뷰에서 다차원 상품평가 점수를 자동적으로 생성하는 방안을 제안하고자 한다. 본 연구에서 제시하는 방안은 크게 2단계로 구성된다. 사전준비 단계와 개별상품평가 단계로, 대분류 상품군 리뷰를 토대로 사전에 생성된 차원분류모델과 감성분석모델이 개별상품의 리뷰를 분석하게 된다. 차원분류모델은 워드임베딩과 연관분석을 결합함으로써 기존 연구에서 차원과 단어들의 관련성을 찾기 위한 워드임베딩 방식이 문장 내 단어의 위치만을 본다는 한계를 보완한다. 감성분석모델은 정확한 극성 판단을 위해 구(phrase) 단위로 긍부정이 태깅된 학습데이터를 구성하여 CNN 모델을 생성한다. 이를 통해, 개별상품평가 단계에서는 구 단위의 리뷰에 준비된 모델들을 적용하고 평가차원별로 종합함으로써 다차원 평가점수를 얻을 수 있다. 본 논문의 실험에서는 대분류 상품군 리뷰 약 260,000건으로 평가모델을 구성하고, S사와 L사의 노트북 리뷰 각 1,011건과 1,062건을 실험데이터로 활용한다. 차원분류모델은 구로 분해한 개별상품 리뷰를 6개 평가차원으로 분류했고, 기존 워드임베딩 방식보다 연관분석을 결합한 모델의 정확도가 13.7% 증가했음을 볼 수 있었다. 감성분석모델은 문장보다 구 단위로 학습한 모델이 평가차원을 면밀히 분석함으로써 29.4% 더 높은 정확도를 보임을 확인했다. 본 연구를 통해 판매자, 소비자 모두가 상품의 다차원적 비교가 가능하다는 점에서 구매 및 상품 개발에 효율적인 의사결정을 기대할 수 있다.

독일 유전자검사법의 규율 구조 이해 - 의료 목적 유전자검사의 문제를 중심으로 - (Understanding the Legal Structure of German Human Gene Testing Act (GenDG))

  • 김나경
    • 의료법학
    • /
    • 제17권2호
    • /
    • pp.85-124
    • /
    • 2016
  • 독일 유전자검사법은 분석과 해석이라는 유전자검사의 이원적 구조에 대한 이해에 기초하여 법문언을 의미론적으로 차별화한다. 동법은 우선 유전자 "검사", "분석" 및 검사결과에 대한 "판단"을 언어적으로 구별한다. 법 제3조의 정의 규정을 보면 '분석'은 각 유형의 분석 기술을 표상하는 용어로 그리고 '판단'은 가능성에 대한 예견을 함축하는 용어로 사용하고 있음을 확인할 수 있다. 아울러 동법은 정보적 자기결정권을 법의 이념적 목표로 상정하는데 이에 기초하여, 한편으로는 유전정보가 갖는 의미에 대한 올바른 인식에 기초하여 개인이 자신의 삶을 새롭게 기획하는 과정의 합리성을 확보하고 다른 한편 타인의 유전정보를 합리적으로 이해하는 것을 도모하는 장치를 마련하라는 정언명령이 도출된다. 이러한 규범텍스트의 설정과 이념은 유전자검사법에서 검사의 유형을 분류하는 기초가 된다. 특히 의료 목적 유전자검사의 경우에는 그 목적에 따라 진단적 검사와 예견적 검사로 분류되는데, 검사가 갖는 예견적 가치는 어느 검사에서든 보편적으로 인정된다는 점에서 양자가 분명히 구별되기는 어렵다고 보인다. 이러한 점에 비추어볼 때, 유전자검사에 대한 법적 규율에서 중요한 것은 무엇보다 유전자검사를 구성하는 분석과 판단 행위에 내재된 불확실성과 주관성을 합리적으로 관리하는 것이다. 동법은 한편으로는 분석 행위의 정확성을 도모하기 위해 제5조에서 분석의 질을 보장하기 위한 장치를 마련하고 있으며, 제23조에 설치 근거를 둔 유전자진단위원회(GEKO)에서는 가이드라인을 통해 분석의 타당성을 확보하기 위한 구체적인 기준을 제시하고 있다. 다른 한편 해석의 스펙트럼이 넓은 의료 목적 유전자검사의 경우 해석의 절차적 합리성을 보장하기 위한 장치를 마련하고 있다. 특히 GEKO는 가이드라인을 통해 의료 목적 유전자검사에서 유전적 특징이 갖는 의미에 대한 가치평가의 기준으로 임상적 타당성, 유전자변형의 병인론적 의미, 임상적 유용성 등을 제시한다. 다만 이러한 가치평가 기준의 구체적 내용들은 과학 기술의 발전에 따라 늘 새롭게 변화될 수 있고 더 나아가 연구 주체나 의료 행위의 주체에 따라 그 의미에 대한 이해가 달라질 수 있다. 그렇기 때문에 유전자검사에서 다른 한편 중요한 것은 피검사자가 유전자검사의 구조적 특징 및 검사와 검사결과의 의미를 이해하고 유전자를 둘러싼 개인적 불안과 기대를 조율하면서 자신의 삶을 기획할 수 있도록 하는 합리적 절차를 마련하는 것이다. 이를 위해 유전자검사법은 - 우리나라의 생명윤리안전법은 마련하고 있지 않은 - 유전상담의 절차를 제도화하고 있다. 이러한 이해를 종합해볼 때, 독일 유전자검사법 역시 아직 개선되어야 할 문제들을 안고 있지만, 유전자검사의 고유한 특징을 인식하는 데에서 출발하여 검사의 이념적 목표를 분명히 하고 규율 영역을 설정하는 기본 구상, 커뮤니케이션의 이상을 실현하고 임상적 적용을 위한 다양한 가이드라인을 전문 기구에서 지속적으로 고민하고 제정하는 시스템 등은 우리 생명윤리안전법의 올바른 정책적 방향을 모색하는 데에 시사하는 바가 크다.

  • PDF

국내 인터넷 웹사이트에 소개된 소아 및 청소년 비만치료의 실태 및 문제점 (Evaluation of Web Sites on Treatment of Childhood and Adolescent Obesity)

  • 신상원;김은영;노영일;양은석;박상기;박영봉;문경래
    • Pediatric Gastroenterology, Hepatology & Nutrition
    • /
    • 제8권1호
    • /
    • pp.49-55
    • /
    • 2005
  • 목 적: 검증되지 않는 방법이나 성인비만치료 방법을 성장과 발달을 과정에 있는 소아에게 그대로 적용하게 되면, 건강에 악영향을 주게 된다. 여과 없이 무제한적으로 노출되고, 최근 급격히 이용률이 증가하고 있는 정보전달 매체인 인터넷 웹사이트에 소개된 소아 및 청소년 비만치료의 실태 및 문제점에 대해 알아보고자 한다. 방 법: 2004년 7월1일부터 8월1일까지 1개월 동안 야후 코리아의 검색엔진을 사용하여 '소아비만'이라는 검색어로 검색된 203개의 웹 사이트를 대상으로 하였다. 실제 하이퍼텍스트로 접근할 수 없거나 중복된 경우를 제외한 203개의 웹 사이트를 최종분석 대상으로 선별하였다. 각 분석 대상은 의료기관, 피부미용실, 단식원 및 그 외 사설 정보센터로 분류하여, 현재 실행되고 있는 치료 행태의 종류 및 성인비만과는 구분된 소아비만치료의 특수성을 고려하 고 있는지의 여부에 대해 분류하였다. 결 과: 비만치료에 대한 구체적인 항목을 표방한 경우가 157곳(77.3%)였고, 단순한 정보만 제공한 경우가 46곳(22.7%)이었다. '소아비만' 치료를 표방한 사이트의 구성은 한의원(52.2%), 의원 및 병원(35.0%), 그 외 다이어트식품회사, 피부 관리소 등 기타 순이었다. 의원 및 병원 중, 소아과 의원 및 병원은 35곳(22%)에 불과하였으며, 성형외과 7곳, 가정의학과와 내과가 각각 6곳, 정신과와 신경과 2곳 순이었다. 성인과는 구분된 올바른 소아비만 치료를 하고 있는 사이트의 구성은 한의원 중 19곳(23%), 소아과 병원 및 의원 중 26곳(93%), 내과 및 가정의학 과 등 타과 의원 중 7곳(25%)이었으며, 한의원 63곳 (77%), 소아과 이외의 타과 의원 21곳(75%)에서 성인비만치료를 그대로 여과없이 소아비만에 적응하여 치료하고 있었다. 결 론: 소아 비만에 대한 잘못되거나 부정확한 정보가 인터넷 정보로 무분별하게 제공되고 있으므로 소아과 의사의 더 많은 관심과 인터넷을 통한 홍보 관리 시스템의 적극적인 개발이 필요하다.

  • PDF

텍스트 분석을 통한 이종 매체 카테고리 다중 매핑 방법론 (Mapping Categories of Heterogeneous Sources Using Text Analytics)

  • 김다솜;김남규
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.193-215
    • /
    • 2016
  • 최근 다양한 소셜 네트워크 서비스의 증가로 인해 사용자들은 각자의 목적 및 취향에 따라 여러 매체를 동시에 이용하는 경향을 보이고 있다. 또한 특정 주제에 대한 정보를 수집할 때에도 소셜 네트워크 서비스, 인터넷 뉴스, 블로그 등 여러 매체를 동시에 활용하는 것이 일반적이다. 하지만 다양한 매체를 통해 유통되는 문서들은 서로 유사한 주제, 심지어는 동일한 내용을 다루더라도 각 매체 별 정책 및 기준에 따라 각기 다른 카테고리로 관리되고 있으며, 이는 이종 매체를 아우르는 범위에서 특정 카테고리에 대한 탐색을 수행하고자 하는 시도에 걸림돌로 작용하고 있다. 이러한 제약을 극복하기 위해, 본 연구에서는 기존 매체 고유의 카테고리 체계는 그대로 유지하면서 이종 매체 간 카테고리 매핑을 수행하는 방법을 제시한다. 즉, 개별 문서를 다양한 매체의 관점에서 재분류하고 이러한 결과를 문서에 2차원 레이블로 저장함으로써, 이종 매체에 속한 다양한 문서들을 마치한 매체에 속한 것과 같이 동일한 카테고리 기준으로 탐색할 수 있는 논리적 장치를 제안한다. 본 논문에서는 국내 인터넷 뉴스 포털 사이트 두 곳의 뉴스 기사 6,000건에 대해 제안 방법론을 적용한 실험을 통해 각 기사에 매체와 카테고리 정보로 구성된 2차원 레이블을 부여하였으며, 매체 간, 지도 학습과 준지도 학습 간, 동질 학습 데이터와 이질학습 데이터 간의 정확도 비교 실험을 수행하였다. 특히 매우 흥미롭게도, 일부 카테고리에서 이질 학습 데이터를 사용한 준지도 학습의 분류 정확도가 지도 학습 및 동질 학습 데이터를 사용한 준지도 학습의 분류 정확도보다 높게 나타나는 현상을 발견하였다.

중국소설의 위상 변천으로 본 과도기 지식 장(場)의 변화 - 양계초(梁啓超)의 소설계혁명(小說界革命)을 중심으로 - (The Change of the Knowledge Field in a Transition Period based on the Transition of the Status of Chinese Novels - Focusing Liang Qichao's Assertion, the Revolution of the Novel World)

  • 정선경
    • 동양고전연구
    • /
    • 제55호
    • /
    • pp.115-145
    • /
    • 2014
  • 본고에서는 19세기 말 20세기 초, 전통과 근대의 전환기 양계초(梁啓超)의 소설계혁명을 중심으로 중국 소설의 위상 변천과 근대 지식 장의 변화를 살펴보고자 했다. 전통소설은 어떻게 평가되어 왔는지, 근대소설은 어떻게 국민을 계몽시키고 어떻게 정치사회를 변혁시킬 수 있었는지, 또 소설은 지식 장의 변화에서 어떤 역할을 추동하고 있었는지 고찰하고자 했다. 특히 서구문화의 충격과 유입에 중점을 맞춰온 그 간의 연구경향에서 간과되기 쉬웠던 중국 자체 내 지적(知的) 축적과 변화를 아울러 조명하고자 했다. 먼저 전통시기 소설에 대한 평가와 분류 방식을 검토했다. 소설을 지식장의 변화를 살펴보는 하나의 텍스트라고 상정할 때 시대마다 변화된 인식과 목록서의 분류방식은 학문적 위상을 반영하는 근거이기 때문이다. 이후 소설과 정치사회의 관계, 소설과 글쓰기 문체의 두 가지 방면에서 양계초의 소설계혁명을 고찰해 보고, 근대 지식사회의 변화에 대해 논의함으로써 근대를 사유하는 한 방식으로 소설을 이해하고자 했다. 양계초는 소설을 문학의 최상층으로 부각시켰다. 수천 년간 유지되어온 정통문학 시가의 위상을 밀어내고 주변부에 위치해 있던 통속문학소설을 위치시켰다. 서구 문명의 외래적 충격은 중국소설을 우민(愚民)을 계몽시키는 도구이자 지식을 전파하는 매개체로 만들었고 이전 어느 시기에도 부여받지 못했던 최고의 위상으로 격상시켰다. 소설 자체의 심미적 예술성에서 근거한 것이 아닌, 정치 사회적 효용성에서 기인한 평가라는 한계점이 있지만, 소설은 구국을 위한 생존의 담론이었고, 국민의 정신을 개조하고 망국의 위기를 전환시켜줄 지식의 담지체였다.

시스템적인 군집 확인과 뉴스를 이용한 주가 예측 (Predicting stock movements based on financial news with systematic group identification)

  • 성노윤;남기환
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.1-17
    • /
    • 2019
  • 빅데이터 시대에 정보의 양이 급증하고, 그중 많은 부분을 차지하는 문자열 정보를 정량화하여 의미를 찾아 낼 수 있는 인공지능 방법론이 함께 발전하면서, 텍스트 마이닝을 통해 주가 예측에 적용해 온라인 뉴스로 주가를 예측하려는 시도가 다양해지고 있다. 이러한 주가 예측의 방법은 대개 예측하고자 하는 기업의 뉴스로 주가를 예측하는 방식이다. 하지만 특정 회사의 뉴스만이 그 회사의 주가에 영향을 주는 것이 아니라, 그 회사와 관련성이 높은 회사들의 뉴스 또한 주가에 영향을 줄 수 있다. 그러나 관련성이 높은 기업을 찾는 것은 시장 전반의 공통적인 영향과 무작위 신호 때문에 쉽지 않다. 따라서 기존 연구들은 주로 미리 정해진 국제 산업 분류 표준에 기반을 둬 관련성이 높은 기업을 찾았다. 하지만 최근 연구에 따르면, 국제 산업 분류 표준은 섹터에 따라 동질성이 다르며, 동질성이 낮은 섹터는 그들을 모두 함께 고려하여 주가를 예측하는 것이 성능에 악영향을 줄 수 있다는 한계점을 가진다. 이러한 한계점을 극복하기 위해, 본 논문에서는 주가 예측 연구에서 처음으로 경제물리학에서 주로 사용되는 무작위 행렬 이론을 사용하여 시장 전반 효과와 무작위 신호를 제거하고 군집 분석을 시행하여 관련성이 높은 회사를 찾는 방법을 제시하였다. 또한, 이를 기반으로 관련성이 높은 회사의 뉴스를 함께 고려하며 다중 커널 학습을 사용하는 인공지능 모형을 제시한다. 본 논문의 결과는 무작위 행렬 이론을 통해 시장 전반의 효과와 무작위 신호를 제거하여 정확한 상관 계수를 찾아 군집 분석을 시행한다면 기존 연구보다 더 좋은 성능을 보여 준다는 것을 보여준다.

지식베이스 구축을 위한 한국어 위키피디아의 학습 기반 지식추출 방법론 및 플랫폼 연구 (Knowledge Extraction Methodology and Framework from Wikipedia Articles for Construction of Knowledge-Base)

  • 김재헌;이명진
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.43-61
    • /
    • 2019
  • 최근 4차 산업혁명과 함께 인공지능 기술에 대한 연구가 활발히 진행되고 있으며, 이전의 그 어느 때보다도 기술의 발전이 빠르게 진행되고 있는 추세이다. 이러한 인공지능 환경에서 양질의 지식베이스는 인공지능 기술의 향상 및 사용자 경험을 높이기 위한 기반 기술로써 중요한 역할을 하고 있다. 특히 최근에는 인공지능 스피커를 통한 질의응답과 같은 서비스의 기반 지식으로 활용되고 있다. 하지만 지식베이스를 구축하는 것은 사람의 많은 노력을 요하며, 이로 인해 지식을 구축하는데 많은 시간과 비용이 소모된다. 이러한 문제를 해결하기 위해 본 연구에서는 기계학습을 이용하여 지식베이스의 구조에 따라 학습을 수행하고, 이를 통해 자연어 문서로부터 지식을 추출하여 지식화하는 방법에 대해 제안하고자 한다. 이러한 방법의 적절성을 보이기 위해 DBpedia 온톨로지의 구조를 기반으로 학습을 수행하여 지식을 구축할 것이다. 즉, DBpedia의 온톨로지 구조에 따라 위키피디아 문서에 기술되어 있는 인포박스를 이용하여 학습을 수행하고 이를 바탕으로 자연어 텍스트로부터 지식을 추출하여 온톨로지화하기 위한 방법론을 제안하고자 한다. 학습을 바탕으로 지식을 추출하기 위한 과정은 문서 분류, 적합 문장 분류, 그리고 지식 추출 및 지식베이스 변환의 과정으로 이루어진다. 이와 같은 방법론에 따라 실제 지식 추출을 위한 플랫폼을 구축하였으며, 실험을 통해 본 연구에서 제안하고자 하는 방법론이 지식을 확장하는데 있어 유용하게 활용될 수 있음을 증명하였다. 이러한 방법을 통해 구축된 지식은 향후 지식베이스를 기반으로 한 인공지능을 위해 활용될 수 있을 것으로 판단된다.

Bi-LSTM 기반의 한국어 감성사전 구축 방안 (KNU Korean Sentiment Lexicon: Bi-LSTM-based Method for Building a Korean Sentiment Lexicon)

  • 박상민;나철원;최민성;이다희;온병원
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.219-240
    • /
    • 2018
  • 감성사전은 감성 어휘에 대한 사전으로 감성 분석(Sentiment Analysis)을 위한 기초 자료로 활용된다. 이와 같은 감성사전을 구성하는 감성 어휘는 특정 도메인에 따라 감성의 종류나 정도가 달라질 수 있다. 예를 들면, '슬프다'라는 감성 어휘는 일반적으로 부정의 의미를 나타내지만 영화 도메인에 적용되었을 경우 부정의 의미를 나타내지 않는다. 그렇기 때문에 정확한 감성 분석을 수행하기 위해서는 특정 도메인에 알맞은 감성사전을 구축하는 것이 중요하다. 최근 특정 도메인에 알맞은 감성사전을 구축하기 위해 범용 감성 사전인 오픈한글, SentiWordNet 등을 활용한 연구가 진행되어 왔으나 오픈한글은 현재 서비스가 종료되어 활용이 불가능하며, SentiWordNet은 번역 간에 한국 감성 어휘들의 특징이 잘 반영되지 않는다는 문제점으로 인해 특정 도메인의 감성사전 구축을 위한 기초 자료로써 제약이 존재한다. 이 논문에서는 기존의 범용 감성사전의 문제점을 해결하기 위해 한국어 기반의 새로운 범용 감성사전을 구축하고 이를 KNU 한국어 감성사전이라 명명한다. KNU 한국어 감성사전은 표준국어대사전의 뜻풀이의 감성을 Bi-LSTM을 활용하여 89.45%의 정확도로 분류하였으며 긍정으로 분류된 뜻풀이에서는 긍정에 대한 감성 어휘를, 부정으로 분류된 뜻풀이에서는 부정에 대한 감성 어휘를 1-gram, 2-gram, 어구 그리고 문형 등 다양한 형태로 추출한다. 또한 다양한 외부 소스(SentiWordNet, SenticNet, 감정동사, 감성사전0603)를 활용하여 감성 어휘를 확장하였으며 온라인 텍스트 데이터에서 사용되는 신조어, 이모티콘에 대한 감성 어휘도 포함하고 있다. 이 논문에서 구축한 KNU 한국어 감성사전은 특정 도메인에 영향을 받지 않는 14,843개의 감성 어휘로 구성되어 있으며 특정 도메인에 대한 감성사전을 효율적이고 빠르게 구축하기 위한 기초 자료로 활용될 수 있다. 또한 딥러닝의 성능을 높이기 위한 입력 자질로써 활용될 수 있으며, 기본적인 감성 분석의 수행이나 기계 학습을 위한 대량의 학습 데이터 세트를 빠르게 구축에 활용될 수 있다.

토픽모델링을 활용한 COVID-19 학술 연구 기반 연구 주제 분류에 관한 연구 (A study on the classification of research topics based on COVID-19 academic research using Topic modeling)

  • 유소연;임규건
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.155-174
    • /
    • 2022
  • 2020년 1월부터 2021년 10월 현재까지 COVID-19(치명적인 호흡기 증후군인 코로나바이러스-2)와 관련된 학술 연구가 500,000편 이상 발표되었다. COVID-19와 관련된 논문의 수가 급격하게 증가함에 따라 의료 전문가와 정책 담당자들이 중요한 연구를 신속하게 찾는 것에 시간적·기술적 제약이 따르고 있다. 따라서 본 연구에서는 LDA와 Word2vec 알고리즘을 사용하여 방대한 문헌의 텍스트 자료로부터 유용한 정보를 추출하는 방안을 제시한다. COVID-19와 관련된 논문에서 검색하고자 하는 키워드와 관련된 논문을 추출하고, 이를 대상으로 세부 주제를 파악하였다. 자료는 Kaggle에 있는 CORD-19 데이터 세트를 활용하였는데, COVID-19 전염병에 대응하기 위해 주요 연구 그룹과 백악관이 준비한 무료 학술 자료로서 매주 자료가 업데이트되고 있다. 연구 방법은 크게 두 가지로 나뉜다. 먼저, 47,110편의 학술 논문의 초록을 대상으로 LDA 토픽 모델링과 Word2vec 연관어 분석을 수행한 후, 도출된 토픽 중 'vaccine'과 관련된 논문 4,555편, 'treatment'와 관련된 논문 5,791편을 추출한다. 두 번째로 추출된 논문을 대상으로 LDA, PCA 차원 축소 후 t-SNE 기법을 사용하여 비슷한 주제를 가진 논문을 군집화하고 산점도로 시각화하였다. 전체 논문을 대상으로 찾을 수 없었던 숨겨진 주제를 키워드에 따라 문헌을 분류하여 토픽 모델링을 수행한 결과 세부 주제를 찾을 수 있었다. 본 연구의 목표는 대량의 문헌에서 키워드를 입력하여 특정 정보에 대한 문헌을 분류할 수 있는 방안을 제시하는 것이다. 본 연구의 목표는 의료 전문가와 정책 담당자들의 소중한 시간과 노력을 줄이고, 신속하게 정보를 얻을 수 있는 방법을 제안하는 것이다. 학술 논문의 초록에서 COVID-19와 관련된 토픽을 발견하고, COVID-19에 대한 새로운 연구 방향을 탐구하도록 도움을 주는 기초자료로 활용될 것으로 기대한다.