• 제목/요약/키워드: 단어 빈도-역문서 빈도

검색결과 17건 처리시간 0.019초

단어-역문서 빈도 벡터화를 통한 한국 걸그룹의 음반 메타 정보 군집화 (Clustering Meta Information of K-Pop Girl Groups Using Term Frequency-inverse Document Frequency Vectorization)

  • 현준서;조재혁
    • Journal of Platform Technology
    • /
    • 제11권3호
    • /
    • pp.12-23
    • /
    • 2023
  • 2020 년대 K-Pop 시장은 보이그룹보다 걸그룹이, 3 세대보다 4 세대가 전반에서 주목받았다. 해당 논문은 걸그룹의 세대가 바뀌기 시작했는지 알아보고자 가사 군집화에 대한 방법과 결과를 제시한다. 2013 년부터 2022 년까지 발표된 47 개 그룹의 1469 곡에 대한 메타정보를 수집하여 가사 정보와 가사 외 메타정보로 분류하여 각각 수치화했다. 가사 정보는 선행연구를 기반으로 단어역문서 빈도 벡터화를 적용한 뒤 상위 벡터 값만 선정하는 전처리를 하였다. 가사 외 메타정보는 가사 정보만 사용했을 때의 편향성을 줄이고 더 좋은 군집화 결과를 보여주기 위해 One-Hot Encoding 으로 전처리하여 적용했다. 전처리된 데이터에 대한 군집화 성능은 Spherical K-Means 의 Silhouette Coefficient, Calinski-Harabasz Score 가 Hierarchical Clustering 에 비해 각각 129%, 45% 더 높았다. 본 연구는 한국 대중가요 발전사와 걸그룹 가사 분석 및 군집화 연구에 기여할 수 있을 것으로 기대된다.

  • PDF

A Comparative Study on Requirements Analysis Techniques using Natural Language Processing and Machine Learning

  • Cho, Byung-Sun;Lee, Seok-Won
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권7호
    • /
    • pp.27-37
    • /
    • 2020
  • 본 연구의 목적은 다양한 도메인에 대한 소프트웨어 요구사항 명세서로부터 수집된 요구사항을 데이터로 활용하여 데이터 중심적 접근법(Data-driven Approach)의 연구를 통해 요구사항을 분류한다. 이 과정에서 기존 요구사항의 특징과 정보를 바탕으로 다양한 자연어처리를 이용한 데이터 전처리와 기계학습 모델을 통해 요구사항을 기능적 요구사항과 비기능적 요구사항으로 분류하고 각 조합의 결과를 제시한다. 그 결과로, 요구사항을 분류하는 과정에서, 자연어처리를 이용한 데이터 전처리에서는 어간 추출과 불용어제거와 같은 토큰의 개수와 종류를 감소하여 데이터의 희소성을 좀 더 밀집형태로 변형하는 데이터 전처리보다는 단어 빈도수와 역문서 빈도수를 기반으로 단어의 가중치를 계산하는 데이터 전처리가 다른 전처리보다 좋은 결과를 도출할 수 있었다. 이를 통해, 모든 단어를 고려하여 가중치 값은 기계학습에서 긍정적인 요인을 볼 수 있고 오히려 문장에서 의미 없는 단어를 제거하는 불용어 제거는 부정적인 요소로 확인할 수 있었다.

키워드 군집화를 이용한 연구 논문 분류에 관한 연구 (A Study on Research Paper Classification Using Keyword Clustering)

  • 이윤수;;이종혁;길준민
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권12호
    • /
    • pp.477-484
    • /
    • 2018
  • 컴퓨터 기술의 발전으로 힘입어 수많은 논문이 출판되고 있으며, 새로운 분야들도 계속 생기면서 사용자들은 방대한 논문들 중 자신이 필요로 하는 논문을 검색하거나 분류하기에 많은 어려움을 겪고 있다. 사용자의 이러한 어려움을 완화하기 위해 본 논문에서는 유사 내용의 논문을 분류하고 이를 군집화하는 방법을 제한한다. 본 논문의 제안 방법은 TF-IDF를 이용하여 각 논문의 초록으로부터 주요 주제어를 추출하고, K-평균 클러스터링 알고리즘을 이용하여 추출한 TF-IDF 값을 근거로 논문들을 유사 내용의 논문으로 군집화한다. 제안 방법의 실효성을 검증하기 위해 실제 데이터인 FGCS 저널의 논문 데이터를 사용하였으며, 엘보우 기법을 적용하여 클러스터 개수를 도출하고 실루엣 기법을 이용하여 클러스터링 성능을 검증하였다.

로컬 특징 기반 글로벌 이미지를 사용한 CNN 기반의 악성코드 분류 방법 (Convolutional Neural Network-based Malware Classification Method utilizing Local Feature-based Global Image)

  • 장세준;성연식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.222-223
    • /
    • 2020
  • 최근 악성코드로 인한 피해가 증가하고 있다. 악성코드는 악성코드가 속한 종류에 따라서 대응하는 방법도 다르기 때문에 악성코드를 종류별로 분류하는 연구도 중요하다. 기존에는 악성코드 시각화 과정을 통해서 생성된 악성코드의 글로벌 이미지를 사용해 악성코드를 각 종류별로 분류한다. 글로벌 이미지를 악성코드로부터 추출한 바이너리 정보를 사용해서 생성한다. 하지만, 글로벌 이미지만을 사용해서 악성코드를 각 종류별로 분류하는 경우 악성코드의 종류별로 중요한 특징을 고려하기 않기 때문에 분류 정확도가 떨어진다. 본 논문에서는 악성코드의 글로벌 이미지에 악성코드의 종류별 특징을 나타내기 위한 로컬 특징 기반 글로벌 이미지를 사용한 악성코드 분류 방법을 제안한다. 첫 번째, 악성 코드로부터 바이너리를 추출하고 추출된 바이너리를 사용해서 글로벌 이미지를 생성한다. 두 번째, 악성 코드로부터 로컬 특징을 추출하고 악성코드의 종류별 핵심 로컬 특징을 단어-역문서 빈도(Term Frequency Inverse Document Frequency, TFIDF) 알고리즘을 사용해 선택한다. 세 번째, 생성된 글로벌 이미지에 악성코드의 패밀리별 핵심 특징을 픽셀화해서 적용한다. 네 번째, 생성된 로컬 특징 기반 글로벌 이미지를 사용해서 컨볼루션 모델을 학습하고, 학습된 컨볼루션 모델을 사용해서 악성코드를 각 종류별로 분류한다.

감염병 확산에 따른 레스토랑 선택속성 변화 분석: 텍스트마이닝 기법 적용 (Analysis of Changes in Restaurant Attributes According to the Spread of Infectious Diseases: Application of Text Mining Techniques)

  • 유준일;이은지;구철모
    • 경영정보학연구
    • /
    • 제25권4호
    • /
    • pp.89-112
    • /
    • 2023
  • 2020년 3월, 코로나바이러스 팬데믹으로 선포되면서, 다양한 방역 조치가 취해져 왔다. 이에 따라, 관광 및 환대 산업 내의 많은 변화들이 야기되었다. 특히 레스토랑 산업에서는 비대면 서비스 및 좌석 간 거리두기 등 방역 지침이 시행되었다. 전통적으로 레스토랑 선택속성에 대한 연구는 분위기, 서비스 품질, 음식의 품질을 포함한 3가지 속성의 중요성이 강조해 온 데 반해, 코로나19 이후 레스토랑 이용자를 대상으로 레스토랑 선택속성을 탐색한 연구는 미비한 실정이다. 이에 따라, 본 연구에서는 코로나19라는 환대 산업 내의 환경적 변화에 대한 이해에 기반하여, 국내 온라인 리뷰 데이터 상에서 새로운 레스토랑 경험적 속성을 확인하기 위한 탐색적인 접근을 시도하였다. 본 연구는 서울 을지로 지역에 위치한 일반음식점 및 휴게음식점 475개로 네이버 플레이스에 등록된 총 31,115개의 온라인 리뷰를 분석 단위로 고려하였다. 분석 방법은 단어 빈도와 역문서 빈도의 곱으로 산출된 TF-IDF와 잠재적 토픽들을 추출하는 확률적 모델 알고리즘인 LDA 토픽모델링 기법을 통해 온라인 리뷰 내에서 단어들의 군집화를 통해 레스토랑 선택속성을 재분류하고자 하였다. 분석 결과, 분위기, 서비스 품질, 음식 품질과 함께 코로나19 이후 레스토랑의 새로운 속성으로 "감염병 예방"요인이 도출되었다. 본 연구는 기존 레스토랑 선택속성에서 제시하는 세 가지 속성들을 범주화하고, 나아가 새로운 속성을 제시하였다는 점에서 기존 레스토랑 선택속성 문헌을 확장하여 학술적 의의가 있다. 나아가, 분석 결과에 기반하여 레스토랑 운영의 측면 및 정책적 관점에서의 실무적 제언을 시도하였다.

빅데이터 마이닝에 의한 공시지가 민원의 시공간적 분석모델 제시 (A Suggestion for Spatiotemporal Analysis Model of Complaints on Officially Assessed Land Price by Big Data Mining)

  • 조태인;최병길;나영우;문영섭;김세훈
    • 지적과 국토정보
    • /
    • 제48권2호
    • /
    • pp.79-98
    • /
    • 2018
  • 이 연구는 빅데이터 마이닝에 기초하여 공시지가 민원에 대한 시공간적 특성을 분석하는 모델을 제시하는 데 목적이 있다. 특히 이 연구는 행정 민원이 제기되는 원인을 학술적 요인보다는 시공간적 측면에서 찾았고, 그러한 민원 발생의 경향을 시공간적으로 모니터링하는 모델을 제시하였다. 2006년부터 2015년까지 인천광역시 중구의 공시지가에 대한 6,481개의 민원정보가 시간 및 공간적 특성을 고려해 수집되었고 분석을 위해 사용되었다. 텍스트 마이닝 기법을 이용해 주요 키워드의 빈도수를 도출했으며, 소셜 네트워크 분석을 통해 주요 키워드 간의 관계를 분석하였다. 키워드의 가중치와 연관되는 TF(term frequency)와 TF-IDF(term frequency-inverse document frequency)를 산출함으로써, 공시지가의 민원 발생에 대한 주요 키워드를 식별하였다. 마지막으로 Getis-Ord의 $Gi^*$의 통계량에 기초한 핫스팟 분석을 통해 공시지가 민원의 시공간적 특성을 분석하였다. 연구 결과, 공시지가 민원의 특성은 시공간적으로 연계된 군집 형태를 형성하면서 변화하고 있음을 알 수 있었다. 텍스트 마이닝과 소셜 네트워크 분석 방법을 이용하여 자연어 기반의 공시지가 민원에 대한 발생 원인을 정량적으로 규명할 수 있음을 알 수 있었으며, 키워드 가중치인 단어 빈도(TF) 및 단어 빈도와 역문서 빈도의 조합값(TF-IDF)의 상대적인 차이가 있어 시공간적인 민원 특성을 분석하기 위한 주요 설명변수로 활용될 수 있음을 알 수 있었다.

미세먼지 저감을 위한 그린인프라 계획요소 도출 - 텍스트 마이닝을 활용하여 - (Derivation of Green Infrastructure Planning Factors for Reducing Particulate Matter - Using Text Mining -)

  • 석영선;송기환;한효주;이정아
    • 한국조경학회지
    • /
    • 제49권5호
    • /
    • pp.79-96
    • /
    • 2021
  • 그린인프라 계획은 미세먼지 저감을 위한 대표적인 조경 계획 방안 중 하나이다. 이에, 본 연구에서는 미세먼지 저감을 위한 그린인프라 계획 시 활용될 수 있는 요소를 텍스트 마이닝 기법을 활용하여 도출하고자 하였다. 미세먼지 저감계획, 그린인프라 계획 요소 등의 키워드를 중심으로 관련 선행연구, 정책보고서 및 법률 등을 수집하여 텍스트 마이닝을 통해 단어 빈도-역 문서 빈도(Term Frequency-Inverse Document Frequency, 이하 TF-IDF) 분석, 중심성 분석, 연관어 분석, 토픽 모델링 분석을 실시하였다. 연구결과, 첫째, TF-IDF 분석을 통해 미세먼지 및 그린인프라와 관련된 주요 주제어는 크게 환경문제(미세먼지, 환경, 탄소, 대기 등), 대상 공간(도시, 공원, 지역, 녹지 등), 그리고 적용 방법(분석, 계획, 평가, 개발, 생태적 측면, 정책적 관리, 기술, 리질리언스 등)으로 구분할 수 있었다. 둘째, 중심성 분석 결과, TF-IDF와 유사한 결과가 도출되었으며, 주요 키워드들을 연결하는 중심단어는 '그린뉴딜', '유휴부지'임을 확인할 수 있었다. 셋째, 연관어 분석 결과, 미세먼지 저감을 위한 그린인프라 계획 시, 숲과 바람길의 계획이 필요하며, 미기후 조절의 측면에서 수분에 대한 고려가 반드시 필요한 것으로 확인되었다. 또한, 유휴공간의 활용 및 혼효림의 조성, 미세먼지 저감 기술의 도입과 시스템의 이해가 그린인프라 계획 시 중요한 요소가 될 수 있음을 확인할 수 있었다. 넷째, 토픽 모델링 분석을 통해 그린인프라의 계획요소를 생태적·기술적·사회적 기능을 중심으로 분류하였다. 생태적 기능의 계획요소는 그린인프라의 형태적 부분(도시림, 녹지, 벽면녹화 등)과 기능적 부분(기후 조절, 탄소저장 및 흡수, 야생동물의 서식처와 생물 다양성 제공 등), 기술적 기능의 계획요소는 그린인프라의 방재 기능, 완충 효과, 우수관리 및 수질정화, 에너지 저감 등, 사회적 기능의 계획요소는 지역사회 커뮤니티 기능, 이용객의 건강성 회복, 경관 향상 등의 기능으로 분류되었다. 이와 같은 결과는 미세먼지 저감을 위한 그린인프라 계획 시 리질리언스 및 지속가능성과 같은 개념적 키워드 중심의 접근이 필요하며, 특히, 미세먼지 노출 저감의 측면에서 그린인프라 계획요소의 적용이 필요함을 시사한다고 볼 수 있다.