• 제목/요약/키워드: 검색 키워드 추출

검색결과 293건 처리시간 0.025초

토픽모델링을 활용한 COVID-19 학술 연구 기반 연구 주제 분류에 관한 연구 (A study on the classification of research topics based on COVID-19 academic research using Topic modeling)

  • 유소연;임규건
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.155-174
    • /
    • 2022
  • 2020년 1월부터 2021년 10월 현재까지 COVID-19(치명적인 호흡기 증후군인 코로나바이러스-2)와 관련된 학술 연구가 500,000편 이상 발표되었다. COVID-19와 관련된 논문의 수가 급격하게 증가함에 따라 의료 전문가와 정책 담당자들이 중요한 연구를 신속하게 찾는 것에 시간적·기술적 제약이 따르고 있다. 따라서 본 연구에서는 LDA와 Word2vec 알고리즘을 사용하여 방대한 문헌의 텍스트 자료로부터 유용한 정보를 추출하는 방안을 제시한다. COVID-19와 관련된 논문에서 검색하고자 하는 키워드와 관련된 논문을 추출하고, 이를 대상으로 세부 주제를 파악하였다. 자료는 Kaggle에 있는 CORD-19 데이터 세트를 활용하였는데, COVID-19 전염병에 대응하기 위해 주요 연구 그룹과 백악관이 준비한 무료 학술 자료로서 매주 자료가 업데이트되고 있다. 연구 방법은 크게 두 가지로 나뉜다. 먼저, 47,110편의 학술 논문의 초록을 대상으로 LDA 토픽 모델링과 Word2vec 연관어 분석을 수행한 후, 도출된 토픽 중 'vaccine'과 관련된 논문 4,555편, 'treatment'와 관련된 논문 5,791편을 추출한다. 두 번째로 추출된 논문을 대상으로 LDA, PCA 차원 축소 후 t-SNE 기법을 사용하여 비슷한 주제를 가진 논문을 군집화하고 산점도로 시각화하였다. 전체 논문을 대상으로 찾을 수 없었던 숨겨진 주제를 키워드에 따라 문헌을 분류하여 토픽 모델링을 수행한 결과 세부 주제를 찾을 수 있었다. 본 연구의 목표는 대량의 문헌에서 키워드를 입력하여 특정 정보에 대한 문헌을 분류할 수 있는 방안을 제시하는 것이다. 본 연구의 목표는 의료 전문가와 정책 담당자들의 소중한 시간과 노력을 줄이고, 신속하게 정보를 얻을 수 있는 방법을 제안하는 것이다. 학술 논문의 초록에서 COVID-19와 관련된 토픽을 발견하고, COVID-19에 대한 새로운 연구 방향을 탐구하도록 도움을 주는 기초자료로 활용될 것으로 기대한다.

문서분류를 위한 의미적 주제선정방법 (Semantic Topic Selection Method of Document for Classification)

  • 고광섭;김판구;이창훈;황명권
    • 한국정보통신학회논문지
    • /
    • 제11권1호
    • /
    • pp.163-172
    • /
    • 2007
  • 웹은 전세계 규모의 네트워크로써 문자, 화상, 음성 등의 미디어 정보들을 페이지 단위로 관리되며, 링크를 이용하여 분산된 정보들을 연결하고 있다. 이러한 웹의 지속적인 발전으로 무수한 정보들을 축적하고 있으며, 그 중 텍스트로 구성된 문서들이 주를 이룬다. 사용자는 이렇게 많은 정보들 중에서 자신이 원하는 특정 정보를 찾기 위해 웹을 사용한다. 그래서 웹은 사용자 요구에 적합한 정보를 검색해 주기 위해 계속적인 시도와 많은 연구들로 발전되고 있다. 확률을 이용한 방법, 통계적인 기법을 이용한 방법, 벡터 유사도를 이용한 방법, 베이지안 자동문서 분류 방법 등 기존의 방법들은 문서의 의미적인 주제나 특징을 정확하게 처리 할 수 없어 사용자는 재검색을 해야 하는 문제점을 갖는다. 특히, 국내 문서 분류를 위한 연구는 많이 이루어지지 않아 검색에 더욱 어렵다. 이러한 문제점을 보완하기 위해 본 논문에서는 국내문서의 효율적이고 의미적인 분류를 위해 출현 개념의 TF(Term Frequency)와 주변 개념들과의 관계된 정도(RV : Relation Value)를 추출한다. 그리고 추출된 키워드들을 국내 어휘 사전인 U-WIN에 매핑하여 문서의 주제를 선택하고 본문에서 제 시하는 분류방법에 의해 웹 문서를 분류한다. 이는 문서 내 개념들의 관계를 이용하여 문서의 주제를 선정하고 문서의 의미적인 분류를 가능하게 한다.

제주도 카페 입지의 특성과 변화: 오프라인과 온라인의 영향 (Locational Characteristics of Cafes in Jeju Island and the Changes: Offline and Online Influences)

  • 함유희;박소현;이금숙
    • 한국경제지리학회지
    • /
    • 제25권1호
    • /
    • pp.131-146
    • /
    • 2022
  • 본 연구의 목적은 제주도 지역 카페를 중심으로 점포 입지분포의 변화를 살펴보고, 그에 작용하는 요인을 분석하는 것이다. 이를 위하여 먼저 제주도에 카페가 처음 입지한 시점부터 현재까지 시기별 개점과 폐점의 공간적 분포 양상을 파악한다. 특히 신규 입점이 많이 증가한 COVID-19 발발 이후의 개업 및 폐업한 카페의 입지에서 발견되는 공간적 분포 특성을 분석한다. 또한, 현재 영업 중인 카페와 COVID-19 확산 기간에 개업하거나 폐업한 카페의 분포에 영향을 끼친 지역 속성과 온라인의 영향력을 파악한다. 실증분석 결과, 제주도는 정보검색을 통해 주요 목적지가 정해지는 특성을 갖는 관광지이자 도서 지역으로 내륙도시 지역의 카페 입지와 다른 분포 형태를 나타냈다. 특히 제주도 카페에 관한 키워드 검색량을 추출하여 빈도 분석한 결과 COVID-19 이후 제주도의 새로운 지역과 장소에 대한 정보검색 등 온라인 접근성은 더욱 다양해지고 확대되었다. 또한, 도로 규모별 카페 점포와의 거리를 산정한 결과 전통적으로 중요한 속성으로 작용해온 물리적 입지요인과 도로 접근성은 상대적으로 연관성이 낮았다. 본 연구는 제주도 지역 카페 입지의 분포 형태와 특성을 온·오프라인의 영향력을 반영하여 밝혔다는 점에서 의미가 있다.

주경로 분석과 연관어 네트워크 분석을 통한 '구전(WoM)' 관련 연구동향 분석 (Analysis of Research Trends of 'Word of Mouth (WoM)' through Main Path and Word Co-occurrence Network)

  • 신현보;김혜진
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.179-200
    • /
    • 2019
  • 구전(Word-of-Mouth) 활동은 오래 전부터 기업의 마케팅 과정에서 중요성을 인식하고 특히 마케팅 분야에서 많은 주목을 받아왔다. 최근에는 인터넷의 발달에 따라 온라인 뉴스, 온라인 커뮤니티 등에서 사람들이 지식과 정보를 주고 받는 방식이 다양해지면서 구전은 후기, 평점, 좋아요 등으로 입소문의 양상이 다각화되고 있다. 이러한 현상에 따라 구전에 관한 다양한 연구들이 선행되어왔으나, 이들을 종합적으로 분석한 메타 분석 연구는 부재하다. 본 연구는 학술 빅데이터를 활용해 구전 관련 연구동향을 알아내기 위해서 텍스트 마이닝 기법을 적용하여 주요 연구들을 추출하고 시기별로 연구들의 주요 쟁점을 파악하는 기법을 제안하였다. 이를 위해서 1941년부터 2018년까지 인용 데이터베이스인 Scopus에서 'Word-of-Mouth'라는 키워드로 검색되는 총 4389건의 문헌을 수집하였고, 영어 형태소 분석과 불용어 제거 등 전처리 과정을 통해 데이터를 정제하였다. 본 연구는 학문 분야의 발전 궤적을 추적하는 데 활용되는 주경로 분석기법을 적용해 구전과 관련된 핵심 연구들을 추출하여 연구동향을 거시적 관점에서 제시하였고, 단어동시출현 정보를 추출하여 키워드 간 네트워크를 구축하여 시기별로 구전과 관련된 연관어들이 어떻게 변화되었는지 살펴봄으로써 연구동향을 미시적 관점에서 제시하였다. 수집된 문헌 데이터를 기반으로 인용 네트워크를 구축하고 SPC 가중치를 적용하여 키루트 주경로를 추출한 결과 30개의 문헌으로 구성된 주경로가 추출되었고, 연관어 네트워크 분석을 통해서는 시기별로 온라인 시대, 관광 산업 등 다양한 산업군 등 산업 변화가 반영돼 시대적 변화와 더불어 발전하고 있는 학술적 영역의 변화를 확인할 수 있었다.

빅데이터 분석 기반의 메타스터디를 통해 본 공유경제에 대한 학술연구 동향 분석 (Trends Analysis on Research Articles of the Sharing Economy through a Meta Study Based on Big Data Analytics)

  • 김기연
    • 인터넷정보학회논문지
    • /
    • 제21권4호
    • /
    • pp.97-107
    • /
    • 2020
  • 본 연구의 목적은 빅데이터 분석기법을 활용하여 공유경제 관련 국내 학술연구 동향을 탐색하기 위해 내용분석 관점에서 종합적 메타스터디를 수행하는데 있다. 종합적 메타분석 연구방법론은 일련의 전체 연구결과물들을 역사적으로 그리고 포괄적으로 살펴봄으로써 전체 연구동향의 규칙성이나 특성을 조명하여, 이를 통해 향후 연구에 대해 방향성을 제시할 수 있다. 공유경제를 주제로 하는 국내 학술연구는 Lawrence Lessig 교수가 2008년에 공유경제의 개념을 세상에 소개한 해에 등장하였으나, 본격적인 연구는 2013년부터 진행되었다. 특히, 2006~2008년 사이에 국내 공유경제 관련 학술연구는 양적으로 급격히 증가하였다. 본 연구는 2013년부터 현재까지 약 8년간의 논문들을 분석 논문으로 선정하고, 전자저널의 학술논문검색 및 원문서비스를 이용하여 제목, 키워드, 초록을 중심으로 텍스트 데이터를 수집하였다. 수집된 데이터를 정제, 분석, 시각화의 순서로 빅데이터 분석을 실시하여, 추출된 핵심어들을 통해 연도별 및 문헌 유형별 연구동향 및 인사이트를 도출하였다. 데이터 전처리 및 텍스트 마이닝, 메트릭스 빈도분석을 위해 Python3.7과 Textom 분석도구를 활용하였고, 핵심어 노드 간의 구조적 연관성을 파악하기 위해 UCINET6/NetDraw, Textom 프로그램 기반의 N-gram 차트, 중심성 및 소셜네트워크 분석, 그리고 CONCOR 클러스터링 시각화를 통해 8개로 군집화 한 키워드들을 토대로 연구동향의 유형별 특성을 발견하였다. 아직까지 사회과학적 관점에서 공유경제 관련 학술연구 동향에 관한 조사가 이루어진 바가 없기 때문에, 본 연구의 결과물은 선행연구로서 후속 연구들에게 이론적 고찰 및 향후 연구방향에 대해 유용한 정보를 제공하는 초석의 역할을 기대할 수 있다.

한의학 연구동향 분석시스템 구현을 위한 모형개발 (Design of Models for the Korean Traditional Medicine Research Trend Analysis System)

  • 예상준;장현철;김진현;김철;김상균;송미영
    • 한국콘텐츠학회논문지
    • /
    • 제9권12호
    • /
    • pp.710-717
    • /
    • 2009
  • 연구동향을 분석하기 위해서 일반적으로 연구자와 기획자는 특허맵/논문맵 분석을 이용하고 있으나, 한의학계의 특수성으로 기존 시스템을 이용할 수 없는 상황이다. 그래서 선행연구와 선행시스템을 파악하여 적용 가능한 분석모델을 도출하여 한의학 관련 연구동향을 체계적으로 분석할 수 있는 기본분석, 상세분석, 복합분석의 14개 모델을 설계하였다. 약 16,000건의 한의학 논문이 수록되어 있는 오아시스 데이터베이스에 '경락'의 키워드를 사용하여 103건의 논문을 검색하였다. 추출된 논문에 제안된 분석모델을 적용하여 한의학의 경락 연구는 성숙기에 접어들고 있으며 생리학 등 타 분야와 밀접한 관련이 있는 결과를 얻었으며, 선행 시스템의 분석모델과의 비교를 통해서 제안된 분석모델을 검증하였다. 개발된 분석모델은 한의학 논문맵 분석 시스템을 위한 서비스 시나리오 개발 및 시스템 구현에 이용될 수 있을 것으로 기대된다.

패싯 분석을 이용한 웹 자원의 조직 (A Study on Organizing the Web Using Facet Analysis)

  • 유영준
    • 한국비블리아학회지
    • /
    • 제15권1호
    • /
    • pp.23-41
    • /
    • 2004
  • 웹 자원을 색인 및 조직하는 데에는 키워드 추출에 기반한 자동색인에 의한 방법과 기존의 분류 체계나 주제별 디렉토리를 이용하는 방법이 있다. 그러나 두 방법은 각각 표준적인 방식이 없거나 분류 구조상의 불합리성으로 인하여 이용자의 정보 요구에 제대로 대처하지 못하고 있다. 따라서 이 논문에서는 기존 분류 체계의 구조상의 한계와 특정성과 망라성과 같은 웹 자원의 특성과 관련된 문제를 지적함과 더불어 패싯 분석에 의한 웹 자원 조직의 타당성과 그 장단점을 기술하였다. 그리고 패싯 분석을 이용 한 구체적인 방법론 세 가지를 제시하였다. 첫째, 패싯 분석을 기반으로 한 색인 시스템, 둘째, 열거형 분류 체계를 패싯 분류 체계로 구조를 수정한 대안, 셋째, 국내 검색 엔진의 주제별 디렉토리의 패싯 모형 등이다. 이러한 방법론들을 검토한 결과, 패싯 분석에 의한 통제어휘 구축이 웹 자원을 조직하는 수단으로 활용될 수 있는 가능성을 제시하였다.

  • PDF

언어네트워크 분석을 통한 재난안전정보와 관련한 국내 연구동향 분석 (Analysis of Trends on Disaster Safety Information based on Language Network Analysis Methods)

  • 정지나;정힘찬;김용
    • 한국비블리아학회지
    • /
    • 제28권3호
    • /
    • pp.67-93
    • /
    • 2017
  • 본 연구는 언어 네트워크 분석을 통해 재난정보와 관련한 국내 연구동향 분석을 목적으로 한다. 이를 위하여 학술연구정보서비스(RISS)를 검색하여 2008년부터 2017년 사이에 발간된 재난정보와 관련한 국내 학위논문 및 학술지논문 312건을 수집하였다. 그리고 논문들의 서지사항을 토대로 통계분석을 실시하였다. 뿐만 아니라 연구논문들의 논문명을 대상으로 키워드를 추출하여 빈도분석 및 언어 네트워크 분석을 실시하였다. 분석 결과, 최근 재난분야에서 빅데이터와 관련한 연구가 급증하였으며, 재난정보 공유 및 활용의 중요성이 증대되고 있다. 또한 재난대응을 위하여 공간정보, 실시간정보, 지리정보 등 다양한 유형의 재난정보가 활용되고 있었다.

사용자 프로파일에 기초한 유즈넷 뉴스그룹 자동 결정 방법 (Automatic Determination of Usenet News Groups from User Profile)

  • 김종완;조규철;김희재;김병만
    • 한국지능시스템학회논문지
    • /
    • 제14권2호
    • /
    • pp.142-149
    • /
    • 2004
  • 많은 양의 유즈넷 뉴스 중에서 사용자가 찾고자 하는 정확한 정보를 빠른 시간 안에 검색하고, 원하는 정보만 필터링 하는 것은 중요하다. 그러나 뉴스 문서는 이메일과 달라서 미리 자신에게 맞는 뉴스그룹을 등록해 주어야만 정보를 얻을 수 있다. 하지만, 초보자인 경우는 어떤 뉴스그룹이 자신의 관심사와 관련이 있는지를 판단하기가 용이치 않다. 따라서, 본 연구에서는 다양한 뉴스그룹들 중에서 사용자의 취향과 유사한 뉴스그룹들을 코호넨 신경망을 이용하여 추천해주는 방법을 제공한다. 신경망을 학습시키기 위한 뉴스 문서의 키워드들을 선택하기 위해 예제 문서들로부터 후보 용어들을 추출하고 퍼지 추론을 적용하여 대표 용어들을 선택한다. 하지만 신경망의 학습패턴을 관찰해 보면, 많은 부분이 비어있는 희소성 문제를 발견할 수 있다. 이에 본 연구에서는 통계적인 결정계수를 도입하여 불필요한 차원을 제거한 후 신경망을 학습시키는 새로운 방법을 제안한다. 제안된 방법은 모든 차원을 활용할 때 보다 클러스터내 거리와 클러스터간 거리의 척도를 이용한 클러스터 중첩도 면에서 우수한 분류 성능을 보여줌을 확인하였다.

해외 CS 교육 게이미피케이션 사례 분석 (An Analysis of Global Gamification Cases in CS Education)

  • 강승헌;박성진;김상균
    • 한국게임학회 논문지
    • /
    • 제17권6호
    • /
    • pp.39-50
    • /
    • 2017
  • 교육 게이미피케이션은 컴퓨터 과학(Computer Science, CS)분야에 많이 활용되고 있다. 본 연구는 CS 교육 게이미피케이션 선행 연구를 분석하고, 이를 통해 국내 CS 교육의 방향을 제언하는 것이 목적이다. 연구 진행을 위해서 경험적연구 방법을 적용했다. 키워드 검색을 통해 1220개의 선행연구를 수집했고, 그중에서 1차, 2차 추출과정을 통해 55개로 압축했다. 선행 연구 분석 결과 년도별 발표 현황, 적용 교과, 교육 대상, 게이미피케이션 요소, 결과 및 한계점에 대해 해석했다. 추후 연구에서 국내 CS 교육 게이미피케이션 사례를 분석하고, 본 연구와 비교분석할 예정이다. 그리고 국내 CS 교육 게이미피케이션의 발전 방향에 대해서 제언할 것이다.