• 제목/요약/키워드: 키워드빈도분석

검색결과 352건 처리시간 0.281초

범죄 발생 빈도수와 웹 검색 빈도수의 관계 분석 연구 (Analysis of relationship between frequency of crime occurrence and frequency of web search)

  • 박정민;박구락;정영석
    • 한국융합학회논문지
    • /
    • 제9권5호
    • /
    • pp.15-20
    • /
    • 2018
  • 현대사회에서 범죄는 큰 사회문제 중의 하나이다. 범죄는 피해자뿐만 아니라 피해자 주변인들에게도 큰 영향을 미친다. 범죄는 발생하기 전에 예측하여 범죄 발생을 막는 것이 중요하다. 범죄를 예측하기 위한 다양한 연구가 진행되었다. 범죄 예측에 중요한 요소 중에 하나가 범죄 발생 빈도수 이다. 범죄 발생 빈도수는 범죄를 예측하는 분야의 기본 데이터로 많이 사용되고 있다. 그러나 범죄 발생 빈도수는 통계처리기간을 거쳐 약 2년 뒤에 발표된다. 본 논문은 범죄 발생 빈도수를 간접적으로 파악할 수 있는 방법으로 웹에서 검색되는 범죄 관련 키워드의 빈도수 분석을 제안한다. 범죄 발생 빈도수의 키워드와 실제 범죄 발생빈도수의 관계를 상관 계수로 분석하여 관련이 있음을 확인하였다.

Covid 19 News Data Analysis and Visualization

  • Hur, Tai-Sung;Hwang, In-Yong
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권4호
    • /
    • pp.37-43
    • /
    • 2022
  • 본 논문에서는 2019년 12월부터 2020년 7월까지 약 8개월간 유통되었던 코로나19와 관련된 뉴스데이터를 이용하여 일자 및 지역별로 단어에 대한 빈도를 구하고, 결과를 활용하여 코로나19 환자에 대한 현황 데이터와의 상관관계를 시각화하였다. 뉴스데이터는 한국언론진흥재단에서 운영하고 있는 뉴스 빅데이터 시스템 '빅카인즈'에서 수집된 데이터를 활용하였다. 본 논문에서 제안하는 시각화 시스템은 지역과 기간을 선택하면 분석한 결과를 이용하여 전체 지역 대비 선택한 지역의 뉴스 빈도수, 선택한 지역의 주요 키워드, 주요 키워드의 지역별, 일자별 변화 등을 보여 주고 있다. 이러한 시각화를 통하여 이전에 발생하였던 사건에 대해 주요 키워드와 코로나19 확진자 및 감염자 추이를 확인할 수 있다.

토픽모델링을 활용한 조세순응 연구 동향 분석 (Analysis of Research Trends in Tax Compliance using Topic Modeling)

  • 강민조;백평구
    • 한국콘텐츠학회논문지
    • /
    • 제22권1호
    • /
    • pp.99-115
    • /
    • 2022
  • 본 연구의 목적은 사회과학 전반에 걸쳐서 수행되고 있는 조세 분야의 대표적인 연구주제로서 조세순응, 납세의식, 성실납세(이하 "조세순응")에 관한 연구의 흐름을 정리함으로써 융합학문으로서 세무학의 지평을 확장하는 것이다. 이에 조세순응에 관한 국내 학술지 논문을 학제적 관점에서 종합적으로 분석하기 위하여 텍스트마이닝의 일환으로 토픽모델링 기법을 적용하였다. 데이터 수집-키워드 전처리-토픽모델 분석의 흐름으로 총 347편의 논문에 연구자가 등록한 조세순응 관련 키워드들로부터 잠재적인 연구주제를 제시하고자 하였다. 본 연구의 분석 결과로 첫째, 키워드 분석에서는 세무조사, 조세회피, 성실신고확인제도 등의 키워드가 단순 빈도 기준으로 상위 5개 키워드에 포함되었고, 키워드의 상대적 중요도를 감안한 TF-IDF 값에서도 상위 5개 키워드에 포함되었다. 한편 탈세라는 키워드는 단순빈도에서 부각되지 않은 것에 비해 TF-IDF 값 기준으로 상위 키워드에 포함되었다. 둘째, 토픽모델링을 통해 잠재적인 8개의 연구주제를 도출하였다. 해당 주제는 (1) 조세공정성과 조세범칙행위의 억제, (2) 조세법의 이념과 조세정책의 타당성, (3) 실질과세원칙과 조세채권의 담보 (4) 납세협력비용과 세무행정 서비스, (5) 신고납세제도와 세무전문가, (6) 조세풍토와 전략적 조세행동, (7) 조세행동의 다면성과 차별적 순응의도, (8) 과세정보시스템과 효율적 세원관리와 같다. 본 연구는 학문 간의 경계를 넘어 조세순응이라는 주제어를 바라보는 다양한 관점을 포괄적으로 조망함으로써 학제간 소통의 기회를 마련하고 합리적인 조세제도를 구축하는데 실천적 시사점을 제시하고자 하였다.

키워드 네트워크 분석을 통한 세계 해운경제의 연구 주제와 동향에 대한 연구 (A Study of Themes and Trends in Research of Global Maritime Economics through Keyword Network Analysis)

  • 장세은;이수호
    • 한국항만경제학회지
    • /
    • 제32권1호
    • /
    • pp.79-95
    • /
    • 2016
  • 본 연구에서는 세계 해운경제관련 국제저널에 게재된 논문을 대상으로 5년 주기의 연도 기간별로 2000년~2004년, 2005년~2009년, 2010년~2014년 세 단계로 나누고 저자키워드를 추출하여 네트워크 분석방법인 연결중심성과 매개중심성 방법론을 활용하여 세계 해운경제의 연구동향을 양적인 관점에서 살펴본다. 빈도로 추출한 본 연구의 자료는 Zipf's의 법칙을 따르고 있으며, 키워드 노드들이 멱함수 분포를 가지므로 해운경제 키워드가 네트워크분석에 적합하다는 것을 보여주었다. 연도시기별로 공유되는 키워드 분석에 설명력을 더해 주기 위하여 Delta-C 알고리즘을 만들어서 시간에 따른 키워드의 변화 경향을 설명하고자 하였다. 본 연구의 결과는 다음과 같다. 해운경제 키워드를 세 개의 연도시기별로 분석한 결과 두 개의 서로 다른 패턴을 발견하였다. 첫 번째 패턴은 세 개의 모든 기간에 공유되는 키워드이고 두 번째 패턴은 두 개 시기에 연속적으로 혹은 불연속적으로 나타나는 키워드였다. 모든 시기에 연속적으로 사용된 키워드는 연결중심성 값이 불규칙하게 변화하는 양상을 보인다. 주기가 연속인 경우는 세 가지이다. 첫 번째 경우는 2000년~2004년과 2005년~2009년 연속으로 걸쳐서 사용된 키워드의 특징은 처음에 사용된 키워드의 중심성이 다음 연도기간에 사용될 때에는 낮은 연결중심성을 가졌다. 두 번째 경우는 2005년~2009년과 2010년~2014년 연속으로 걸쳐서 나타난 키워드에서는 후반기에 사용된 키워드가 더 높은 연결중심성을 보였다. 세 번째 경우는 2000년~2004년과 2010년~2014년의 불연속으로 나타난 경우인데 과거에 사용된 모든 키워드의 연결중심성은 가장 최근에는 모두가 낮은 연결 중심성 값을 가졌다. 매개중심성을 사용한 연도시기별 키워드분석결과 이 방법은 연결중심성에 비해서 더 많은 비공유 키워드를 상위에 나타났다. 이러한 연구의 결과의 의의는 네트워크분석을 통하여 향후 연구동향 예측의 기초 자료로 활용할 수 있다는 점이다. 즉, 연결중심성은 연도 기간별 주요 연구주제를 파악할 수 있는데 도움을 줄 수 있고 매개중심성은 특정기간에 등장하는 특이한 주제 파악에 도움이 된다는 것이다.

키워드 네트워크 분석을 활용한 창업분야 지속가능발전목표(SDGs) 연구동향 분석 (A Bibliometric Study on Sustainable Development Goals (SDGs) Research Trends in Entrepreneurship)

  • 안승권;최민정
    • 벤처창업연구
    • /
    • 제18권2호
    • /
    • pp.21-34
    • /
    • 2023
  • 본 연구의 목적은 지속가능발전목표(SDGs)가 유엔총회에서 결의된 이후 전 세계적으로 창업분야에서 SDGs 연구가 얼마나 수행되었는지 살펴보고, 해외 및 국내 연구동향을 비교하여 국내 SDGs 이행을 위한 창업분야의 연구 방향성을 모색하는 데 있다. 이를 위해 검색어를 선정한 후 Web of Science(Wos), KCI, DBpia 등 세 개의 데이터베이스를 활용하여 창업분야의 SDGs 연구물을 추출하였다. 데이터 정제를 거쳐 해외는 총 356편의 연구물을, 국내는 총 4편의 연구물을 분석에 활용하였다. 국내 연구물은 숫자가 너무 적어 해외 연구물만 빈도분석과 키워드 네트워크 분석을 실시하여 연구동향을 살펴보았다. 연구 결과 빈도분석에서는 창업분야 SDGs 연구가 지속가능성과 관련된 용어들을 중심으로 비즈니스 모델, 혁신, 창업교육, 전략 등과 함께 연구되는 것으로 나타났다. 또한 연도별 빈도분석을 통해 창업분야 SDGs 정책, SDGs 이행에 있어 여성 창업가들의 역할, 에너지 창업분야의 SDGs, 경영대학원의 SDGs 이행 방향성과 SDGs 교육, SDGs 이행과 평가를 위한 지표, 지속가능성을 위한 기술 등으로 매년 주제가 다양하게 확장되는 것으로 나타났다. 키워드 네트워크 분석에서는 연구제목과 저자 키워드, 초록을 모두 포함하여 분석한 결과, 비즈니스, 지속가능성, SDGs, 혁신, 창업가정신, 비즈니스 모델, 교육 등의 핵심 키워드를 중심으로 연구범위가 창업생태계, 변화와 전략, 윤리, 기후 등으로 확장되는 것이 확인되었다. 본 연구는 해외 창업분야의 SDGs 연구동향을 제시함으로써 불모지에 가까운 국내 창업분야 SDGs 연구의 발판을 마련하였다는 점에 의의가 있다.

  • PDF

카카오톡에서의 텍스트 데이터 마이닝 기반의 사용자별 적합 광고 키워드 도출 (Extracting User-Specific Advertising Keywords Based on Textual Data Mining from KakaoTalk)

  • 전예림;소다영 ;이지민 ;조은진;문지훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.368-369
    • /
    • 2023
  • 대화 데이터 기반 광고 추천은 광고 마케팅에서 고객 맞춤형 광고 제공, 마케팅 효과 극대화 등을 위한 중요한 기술로 주목받고 있다. 본 논문에서는 모바일 인스턴스 메신저인 카카오톡 대화창에서 발생한 텍스트 데이터를 기반으로 대화 내용을 분석하여 대화 주제별 적절한 광고 키워드를 제안한다. 이를 위해 주제별 대화 내용을 미용, 식음료, 상거래로 세분하고 KoNLPy 의 Okt 를 이용하여 텍스트 전처리를 수행하고 키워드별로 빈도수를 뽑아 워드 클라우드를 제시한다. 또한, 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)을 기반으로 대화 주제를 세분화한 뒤 라벨링을 통해 주제별 대화 키워드를 분석한다. 실험 결과, 대화 주제를 온라인 쇼핑, 헤어, 뷰티 관리, 음식으로 나눌 수 있었으며, 토픽별 상위 키워드를 Word2Vec 을 통해 특정 단어와 유사한 키워드를 도출하여 적절한 광고 키워드를 제시할 수 있었다.

키워드 네트워크 분석을 활용한 연구데이터 분야 동향 분석 - SCOPUS DB를 중심으로 - (Analyzing Trends in Research Data Using Keyword Network Analysis: Focusig on SCOPUS DB)

  • 금효진;김선태
    • 한국비블리아학회지
    • /
    • 제35권2호
    • /
    • pp.85-108
    • /
    • 2024
  • 본 연구는 최근 15년간의 연구데이터 관련 연구 현황을 파악하기 위하여 2010년부터 2024년까지의 연구데이터 학술논문의 연구 동향을 분석하고자 하였다. 목적을 달성하고자 Scopus DB에 게재된 학술논문 14,921편을 대상으로 키워드 빈도 분석 및 네트워크 중심성 분석을 수행하였다. 학술지 게재 시기에 따라 1기(2010-2014년), 2기(2015-2019년), 3기(2020-2024년)로 구분하여 UCINET을 활용한 키워드 네트워크 분석을 수행한 결과, 시기에 상관없이 연구되는 주요 키워드와 기간별로 주목받는 키워드, 시간이 지나면서 관심이 줄어드는 키워드를 도출하였다. 최근 15년간 연구데이터 관련 연구가 가장 활발히 이루어진 주제는 데이터 공유인 것으로 확인되었으며, 연결 중심성이 높은 키워드들이 대부분 매개 중심성 또한 높은 것으로 나타났다. 본 연구의 결과는 향후 국내 연구데이터 분야의 연구 방향성을 제시하는 기초자료로서 활용될 수 있을 것으로 판단된다.

사용자 의도 트리를 사용한 동적 카테고리 재구성 (Dynamic recomposition of document category using user intention tree)

  • 김효래;장영철;이창훈
    • 정보처리학회논문지B
    • /
    • 제8B권6호
    • /
    • pp.657-668
    • /
    • 2001
  • 기존에 단어의 빈도수를 근간으로 하는 문서 분류 시스템에서는 단일 키워드를 사용하기 때문에 사용자의 의도를 충분히 반영한 문서 분류가 어려웠다. 이러한 단점을 개선하기 위하여 우선 기존의 설명에 근거한 학습방법(explanation based learning)에서 한 예제만 있어도 지식베이스 정보와 함께 개념을 학습할 수 있다는 점에 착안하여 먼저 사용자 질의를 분석, 확장한 후 사용자 의도 트리를 생성한다. 이 의도 트리의 정보를 기존의 키워드 빈도 수에 근거한 문서분류 과정에 제약 및 보충 정보로 사용하여 사용자의 의도에 더욱더 근접한 웹 문서를 분류할 수 있다. 문서를 분류하는 측면에서 볼 때 구조화된 사용자 의도 정보는 단순한 키워드의 한계를 극복하여 문서 분류 과정에서 특정 키워드 빈도수의 임계값을 결정함으로서 잃게되는 문서 및 정보를 좀더 보유하고 재적용할 수 있게 된다. 질의에서 분석, 추출된 사용자 의도 트리는 기존의 통계 및 확률을 사용한 문서 분류기법들과 조합하여 사용자 의도정보를 제공함으로서 카테고리의 형성 방향과 범위를 결정하는데 높은 효율성을 보인다.

  • PDF

문서의 의미론적 분석에 기반한 키워드 추출에 관한 연구 (A Study on Keywords Extraction based on Semantic Analysis of Document)

  • 송민규;배일주;이수홍;박지형
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2007년도 추계학술대회
    • /
    • pp.586-591
    • /
    • 2007
  • 지식 관리 시스템, 정보 검색 시스템, 그리고 전자 도서관 시스템 등의 문서를 다루는 시스템에서는 문서의 구조화 및 문서의 저장이 필요하다. 문서에 담겨있는 정보를 추출하기 위해 가장 우선시되어야 하는 것은 키워드의 선별이다. 기존 연구에서 가장 널리 사용된 알고리즘은 단어의 사용 빈도를 체크하는 TF(Term Frequency)와 IDF(Inverted Document Frequency)를 활용하는 TF-IDF 방법이다. 그러나 TF-IDF 방법은 문서의 의미를 반영하지 못하는 한계가 존재한다. 이를 보완하기 위하여 본 연구에서는 세 가지 방법을 활용한다. 첫 번째는 문헌 속에서의 단어의 위치 및 서론, 결론 등의 특정 부분에 사용된 단어의 활용도를 체크하는 문헌구조적 기법이고, 두 번째는 강조 표현, 비교 표현 등의 특정 사용 문구를 통제 어휘로 지정하여 활용하는 방법이다. 마지막으로 어휘의 사전적 의미를 분석하여 이를 메타데이터로 활용하는 방법인 언어학적 기법이 해당된다. 이를 통하여 키워드 추출 과정에서 문서의 의미 분석도 수행하여 키워드 추출의 효율을 높일 수 있다.

  • PDF

A Method for Compound Noun Extraction to Improve Accuracy of Keyword Analysis of Social Big Data

  • Kim, Hyeon Gyu
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권8호
    • /
    • pp.55-63
    • /
    • 2021
  • 소셜 빅데이터는 신조어나 고유명사를 포함하는 경우가 많으며, 이들을 처리하기 위해 단어별 출현 빈도수를 기반으로 한 통계적인 형태소 분석 방법이 많이 활용되고 있다. 그러나 이들 방법에서는 복합 명사를 제대로 인지하지 못해, 키워드 추출의 정확도가 떨어지는 문제점이 지적되고 있다. 본 논문에서는 소셜 빅데이터의 키워드 분석에 있어 복합 명사를 추출하기 위한 방법을 제안한다. 제안 방법은 형태소 분석 단계를 통해 얻어진 단어를 조합하여 복합 명사 후보군을 만들고, 주어진 리뷰에서 이들의 출현 빈도를 조사하여 얻어진 빈도수를 기반으로 복합 명사를 추출한다. 복합 명사 후보군을 구성하는 방법에 따라 두 가지 알고리즘을 제안하였으며, 각 알고리즘의 성능을 수식으로 표현하고 비교한다. 그리고 온라인에서 수집된 실제 데이터를 대상으로 실험을 통해 비교 결과를 검증하는 동시에, 제안 방법이 실시간 처리에도 적합함을 보여준다.