• 제목/요약/키워드: Topic Modeling(LDA)

검색결과 292건 처리시간 0.024초

딥러닝 기반 소셜미디어 한글 텍스트 우울 경향 분석 (A Deep Learning-based Depression Trend Analysis of Korean on Social Media)

  • 박서정;이수빈;김우정;송민
    • 정보관리학회지
    • /
    • 제39권1호
    • /
    • pp.91-117
    • /
    • 2022
  • 국내를 비롯하여 전 세계적으로 우울증 환자 수가 매년 증가하는 추세이다. 그러나 대다수의 정신질환 환자들은 자신이 질병을 앓고 있다는 사실을 인식하지 못해서 적절한 치료가 이루어지지 않고 있다. 우울 증상이 방치되면 자살과 불안, 기타 심리적인 문제로 발전될 수 있기에 우울증의 조기 발견과 치료는 정신건강 증진에 있어 매우 중요하다. 이러한 문제점을 개선하기 위해 본 연구에서는 한국어 소셜 미디어 텍스트를 활용한 딥러닝 기반의 우울 경향 모델을 제시하였다. 네이버 지식인, 네이버 블로그, 하이닥, 트위터에서 데이터수집을 한 뒤 DSM-5 주요 우울 장애 진단 기준을 활용하여 우울 증상 개수에 따라 클래스를 구분하여 주석을 달았다. 이후 구축한 말뭉치의 클래스 별 특성을 살펴보고자 TF-IDF 분석과 동시 출현 단어 분석을 실시하였다. 또한, 다양한 텍스트 특징을 활용하여 우울 경향 분류 모델을 생성하기 위해 단어 임베딩과 사전 기반 감성 분석, LDA 토픽 모델링을 수행하였다. 이를 통해 문헌 별로 임베딩된 텍스트와 감성 점수, 토픽 번호를 산출하여 텍스트 특징으로 사용하였다. 그 결과 임베딩된 텍스트에 문서의 감성 점수와 토픽을 모두 결합하여 KorBERT 알고리즘을 기반으로 우울 경향을 분류하였을 때 가장 높은 정확률인 83.28%를 달성하는 것을 확인하였다. 본 연구는 다양한 텍스트 특징을 활용하여 보다 성능이 개선된 한국어 우울 경향 분류 모델을 구축함에 따라, 한국 온라인 커뮤니티 이용자 중 잠재적인 우울증 환자를 조기에 발견해 빠른 치료 및 예방이 가능하도록 하여 한국 사회의 정신건강 증진에 도움을 줄 수 있는 기반을 마련했다는 점에서 의의를 지닌다.

토픽모델링을 활용한 국내 문헌정보학 연구동향 분석 (A Study on the Research Trends in Library & Information Science in Korea using Topic Modeling)

  • 박자현;송민
    • 정보관리학회지
    • /
    • 제30권1호
    • /
    • pp.7-32
    • /
    • 2013
  • 본 연구는 국내 문헌정보학 분야의 연구동향을 규명하기 위하여 문헌정보학 주요 학술지인, 정보관리학회지, 한국문헌정보학회지, 한국도서관 정보학회지, 한국비블리아학회지의 1970년도부터 2012년도까지 발표 논문 초록을 수집하여 LDA(Latent Dirichlet Allocation)기반의 토픽 모델링 실험을 수행하였다. 그 결과를 종합하면 다음과 같다. 첫째, 토픽모델링 실험에서 도출된 연구주제를 문헌정보학 주제분류표와 비교 분석한 결과, '정보학'영역의 디지털도서관, 이용연구, 인터넷, 전문가시스템, 계량정보학, 자동화, 정보검색, 정보시스템, '도서관 서비스'영역의 정보서비스, 도서관 유형별 서비스, 이용자 교육/정보리터러시, 서비스 평가, '문헌정보학 기초'영역의 도서관과 사회, 전문성, '자료조직'영역의 분류, 편목, 메타데이터, '도서관 경영'영역의 도서관 평가, 장서개발/관리, '서지학'영역의 고서지, '도서관 체제'영역의 도서관 및 정보정책, '출판'영역의 도서/출판, '기록관리학'영역의 하위주제 등과 연결할 수 있었다. 또한 가장 많은 연구주제가 발견된 학문영역은 정보학과 도서관서비스로 나타났다. 둘째, 문헌정보학의 주요 연구주제에서 도서관 유형별 서비스 및 평가, 인터넷, 메타데이터의 연구주제는 상승세를 보였으나, 도서, 분류, 편목, 고서지에 관한 연구주제는 하강세를 보였다. 셋째, 학술지를 구분하여 비교 분석한 결과, 정보관리학회지는 도서관에 관한 연구주제보다 정보학에 관한 연구주제가 많이 출현하였고, 한국문헌정보학회지와 한국도서관 정보학회지, 한국비블리아학회지는 도서관에 관한 연구주제가 정보학에 관한 주제보다 많이 나타났다.

토핑 모델링을 활용한 동해안 관광의 변화 분석 (The Analysis of Changes in East Coast Tourism using Topic Modeling)

  • 정은희
    • 한국정보전자통신기술학회논문지
    • /
    • 제13권6호
    • /
    • pp.489-495
    • /
    • 2020
  • 4차혁명이 진행되고 있는 초연결사회에선 다양한 IT기기를 통해 데이터량이 증가하고 있고, 이렇게 생산된 데이터를 분석하여 새로운 가치를 창출 할 수 있다. 본 연구에서는 빅카인즈에서 2017년부터 2019년까지 중앙지, 경제지, 지역조합지, 주요방송사 등에서 "(동해안 관광 또는 동해안 여행) 그리고 강원도"라는 키워드로 기사를 총 1,526건을 수집하였다. 수집된 1,526건의 기사를 분석하기 위해 R언어로 구현된 LDA 알고리즘을 이용하여 토픽 모델링을 수행하였다. 2017년부터 2019년까지 각각의 년도별 키워드를 추출하고, 각 년도별로 빈도수가 높은 키워드를 분류하여 비교하였다. Log Likelihood와 Perplexity를 이용하여 최적의 토픽 수를 8로 설정한 후, 깁스 샘플링 방법으로 8가지의 토픽을 추론하였다. 추론된 토픽들은 강릉과 해변, 고성과 금강산, KTX와 동해북부선, 주말바다여행, 속초와 통일전망대, 양양과 서핑, 체험관광, 교통망 인프라이다. 추론된 8개의 토픽의 비중을 이용해 동해안 관광에 대한 기사들의 변화를 분석하였다. 그 결과, 통일전망대와 금강산의 비중은 큰 변화가 없는 것으로 나타났고, KTX와 체험관광의 비중은 증가하였고, 그 외의 토픽들의 비중은 2017년에 비해 2018년에 감소하였다. 2019년에는 KTX와 체험관광의 비중은 감소하였으나, 나머지 토픽들의 비중은 큰 변화가 없는 것으로 나타났다.

토픽 모델링을 활용한 한국 영어교육 학술지에 나타난 연구동향 분석 (Analysis of Research Trends in Korean English Education Journals Using Topic Modeling)

  • 원용국;김영우
    • 한국콘텐츠학회논문지
    • /
    • 제21권4호
    • /
    • pp.50-59
    • /
    • 2021
  • 본 연구는 2000년 이후 최근 20년간 우리나라 영어교육의 연구동향을 파악해보는 것을 목적으로 한다. 이를 위해 영어교육 관련 주요 학술지 12개를 선정하여 해당 기간 동안에 게재된 논문 7,329편의 서지정보를 수집하여 분석하였다. 분석 대상이 된 영어교육 학술지의 논문 게재 현황은 2000년대부터 2010년대 전반기까지 계속 증가하였다가 2010년대 후반기에 다소 감소하였다. 그리고 2010년대 후반기에 학술지별 논문 게재 수도 비슷해졌다. 이와 같은 결과는 양적인 측면에서 영어교육 학술지의 영향력이 전반적으로 감소하면서 평준화된 것이라고 볼 수 있다. 다음으로 논문의 영문 초록을 데이터로 잠재 디리클레 할당(LDA) 토픽 모델링을 적용한 결과 34개 토픽(주제)이 추출되었다. 영어교육 분야에서 많이 연구된 토픽은 교사, 단어, 문화/미디어, 문법 등이었다. 단어, 어휘, 평가 등의 주제는 독특한 키워드를 통해 나타났고, 학습자요인 관련하여 여러 토픽들이 나타나면서 영어교육 연구의 관심 주제가 되었다. 다음으로, 상승 및 하강 토픽을 분석한 결과 상승 토픽으로 질적 연구, 어휘, 학습자요인, 평가요소 등이 있었고, 하강 토픽으로 CALL, 언어, 교수, 문법 등이 있었다. 이런 연구 주제의 변화는 영어교육 분야의 연구 관심사가 정적인 연구 주제에서 데이터 중심적이고 동적인 연구 주제로 이동하고 있음을 보여주는 것이다.

정보활용교육 주요 토픽과 교원능력개발평가 사서교사 평가지표 비교 연구 (Comparative Study of Information Literacy Education and Librarian Teacher Evaluation Index in Teachers' Competency Development Evaluation)

  • 이민수;김혜진
    • 한국도서관정보학회지
    • /
    • 제53권3호
    • /
    • pp.455-477
    • /
    • 2022
  • 본 연구는 정보활용교육의 주요 토픽과 사서교사 역량 강화를 위해 실시되고 있는 교원능력개발 평가지표의 비교·분석을 통해서 사서교사가 적절한 요소를 통해 평가가 이루어지고 있는지 분석하였다. 이를 위해 1995년부터 2022년 5월까지 문헌정보학 분야 4대 학술지에서 출판된 정보활용교육 관련 논문들을 수집하여 LDA 토픽모델링을 실시하였다. 토픽모델링 결과 20개의 토픽 중 정보활용교육(T10)이 12.0%로 가장 활발하게 논의되고 있음을 알 수 있으며, 도서관 활용수업(T2) 10.4%, 이용자 서비스(T3) 8.8%가 그다음 순으로 나타났다. 반면 독서토론(T7) 3.3%, 독서교육(T19) 2.9%, 인력 관리(T13) 2.1%, 사서교사 직무 만족도(T17) 2.1% 등은 정보활용교육 토픽모델링에서 저조한 토픽들로 나타났다. 또한 학교도서관 사서교사의 수업모형개발(T1)과 교육과정 개발(T20)은 사서교사가 협업수업과 정보활용교육을 진행함에 있어서 필수적으로 수행하는 과정임에도 불구하고 현행 교원능력개발 평가지표에는 고유한 평가지표로 반영되어 있지 않는 것으로 나타났다. 이에 본 연구에서는 교원능력개발평가 사서교사 평가지표 '교육 및 수업 지원' 요소에 '수업모형 및 교육과정 개발'을 추가 평가지표로 제안하였다.

CVE 동향을 반영한 3-Step 보안 취약점 위험도 스코어링 (3-Step Security Vulnerability Risk Scoring considering CVE Trends)

  • 임지혜;이재우
    • 한국정보통신학회논문지
    • /
    • 제27권1호
    • /
    • pp.87-96
    • /
    • 2023
  • 보안 취약점 수가 해마다 증가함에 따라 보안 위협이 지속해서 발생하고 있으며 취약점 위험도의 중요성이 대두되고 있다. 본 논문에서는 보안 취약점 위험도 판단을 위해 동향을 반영한 보안 위협 스코어링 산출식을 고안하였다. 세 단계에 따라 공격 유형과 공급업체, 취약점 동향, 최근 공격 방식과 기법 등의 핵심 항목 요소를 고려하였다. 첫째로는 공격 유형, 공급업체와 CVE 데이터의 관련성 확인 결과를 반영한다. 둘째로는 LDA 알고리즘으로 확인된 토픽 그룹과 CVE 데이터 간 유사성 확인을 위해 자카드 유사도 기법을 사용한다. 셋째로는 최신 버전 MITRE ATT&CK 프레임워크의 공격 방법, 기술 항목 동향과 CVE 간의 관련성 확인 결과를 반영한다. 최종 보안 취약점 위협 산출식 CTRS의 활용성 검토를 위해 공신력 높은 취약점 정보 제공 해외 사이트 내 데이터에 제안한 스코어링 방식을 적용하였다. 본 연구에서 제안한 산출식을 통하여 취약점과 관련된 일부 설명만으로도 관련성과 위험도가 높은 취약점을 확인하여 신속하게 관련 정보를 인지하고 대응할 수 있다.

토픽 모델링을 활용한 한국콘텐츠학회 논문지 연구 동향 탐색 (An Exploratory Research Trends Analysis in Journal of the Korea Contents Association using Topic Modeling)

  • 석혜은;김수영;이연수;조현영;이수경;김경화
    • 한국콘텐츠학회논문지
    • /
    • 제21권12호
    • /
    • pp.95-106
    • /
    • 2021
  • 본 연구의 목적은 한국콘텐츠학회 논문지에 게재된 9,858건의 논문을 대상으로 토픽 모델링을 활용하여 지난 20년간 연구동향을 탐색함으로써 콘텐츠 연구개발에서의 주요 토픽을 도출하고 학술적 발전방향을 제공하는데 있다. 추출된 토픽의 신뢰성과 타당성을 확보하기 위해 양적 평가기법 뿐만 아니라 정성적 기법을 단계적으로 적용하여 연구자들이 합의한 수준의 말뭉치가 생성될 때까지 이를 반복적으로 수행하였으며 이에 따른 구체적인 분석 절차를 제시하였다. 분석 결과 8개의 핵심 토픽이 추출되었다. 이는 한국콘텐츠학회가 특정 학문 분야를 한정하지 않고 다양한 분야의 융·복합 연구 논문을 발간하고 있음을 보여준다. 또한 2012년 이전 상반기에는 공학기술 분야 토픽 비중이 상대적으로 높게 나타난 반면, 2012년 이후 하반기에는 사회과학 분야 토픽 출현 비중이 상대적으로 높게 나타났다. 구체적으로 '사회복지' 토픽은 상반기 대비 하반기에 약 4배수 증가세가 나타났다. 토픽별 추세분석을 통해 추세선의 변곡점이 나타난 특정 시점에 주목하여 해당 토픽의 연구동향에 영향을 미친 외적 변인을 탐색하였고 토픽과 외적 변인 간 관련성을 파악하였다. 본 연구결과가 국내 콘텐츠 관련 연구 개발 및 산업 분야에서 진행되고 있는 활발한 논의를 진행하는데 시사점을 제공할 수 있기를 기대한다.

토픽 모델링을 활용한 상담 성과 연구동향 분석 - 「상담학연구」 학술지를 중심으로 (Counseling Outcomes Research Trend Analysis Using Topic Modeling - Focus on 「Korean Journal of Counseling」)

  • 박귀화;이은영;윤소정
    • 디지털융복합연구
    • /
    • 제19권11호
    • /
    • pp.517-523
    • /
    • 2021
  • 상담의 성과는 상담자와 연구자 모두에게 중요하다. 지금까지 진행되어온 상담의 성과에 대한 연구의 동향을 분석하는 것은 상담의 성과를 종합적으로 구조화하는데 도움을 준다. 본 연구의 목적은 2011~2021년에 국내 상담분야의 저명 학회지 중 하나인 「상담학연구」에 게재된 상담 성과 관련 연구를 중심으로 연구 동향을 분석하여, 국내 상담성과 연구의 지식 구조를 탐색하고 향후 연구방향을 모색하는 것이다. 텍스트 마이닝 기법 중 중심성분석과 토픽 모델링을 활용하였다. 분석에 활용된 연구는 197개로 노드 추출 과정을 거쳐 최종 339개의 키워드가 분석에 활용되었다. LDA 알고리즘을 활용하여 잠재 토픽을 추출한 결과 '상담 성과의 측정과 평가', '대인관계에 영향을 주는 정서와 매개요인', '진로에 대한 스트레스와 대처'가 주요 토픽으로 나타났다. 상담학 연구에 게재된 상담성과 연구의 동향 분석을 통해 주요 토픽을 밝힌 것은 상담성과 연구를 보다 구조화하는 데 기여하였으며, 이후에도 이러한 주제들에 대한 심층적 연구가 지속되어야 할 필요가 있다.

텍스트마이닝 기법을 활용한 교육관점에서의 메타버스 관련 이슈 탐색 - 뉴스 빅데이터를 중심으로 (Exploring Issues Related to the Metaverse from the Educational Perspective Using Text Mining Techniques - Focusing on News Big Data)

  • 박주연;정도헌
    • 산업융합연구
    • /
    • 제20권6호
    • /
    • pp.27-35
    • /
    • 2022
  • 본 연구는 뉴스 빅데이터에 나타난 메타버스 관련 이슈들을 교육관점에서 분석하여 그 특징을 탐색하고, 메타버스의 교육적 활용가능성 및 미래교육에 대한 시사점을 제공하는데 목적이 있다. 이를 위해 포털사이트에서 검색되는 메타버스 관련 뉴스 데이터를 41,366건 수집하였고, 대표적인 용어 가중치 모델인 TF-IDF를 이용하여 추출된 모든 키워드의 가중치 값을 계산하여 순위화한 후, 워드클라우드로 시각화 분석을 수행하였다. 또한 정교한 확률기반 텍스트마이닝 기법인 토픽모델링(LDA)을 활용하여 주요 토픽들을 분석하였다. 연구결과 교육관점에서 메타버스의 핵심 이슈로는 플랫폼 산업, 미래인재, 기술의 확산 등과 같은 주제가 도출되었다. 또한, 기술, 직업, 교육이라는 세 개의 핵심 주제로 2차 데이터 분석을 실시한 결과 미래교육에서 메타버스는 교육플랫폼의 혁신, 미래 직업의 혁신, 미래 역량의 혁신과 관련한 이슈를 갖는 것으로 나타났다. 본 연구는 방대한 양의 뉴스 빅데이터를 단계적으로 분석하여 교육관점에서 이슈를 도출하고 미래교육에 대한 시사점을 제공하였다는 데 의의가 있다.

스마트 관광 활성화를 위한 트립어드바이저 애플리케이션 리뷰 분석 : 토픽 모델링을 중심으로 (Analyzing TripAdvisor application reviews to enable smart tourism : focusing on topic modeling)

  • 이유나;한무명초;유선영;소미기;노미진
    • 스마트미디어저널
    • /
    • 제12권8호
    • /
    • pp.9-17
    • /
    • 2023
  • 정보통신의 발달과 스마트 기기의 발전 및 보급 향상은 관광 형태의 변화를 야기하였고, 이후 스마트 관광이라는 개념이 등장하였다. 이에 스마트 관광 정책 및 설문에 관한 연구가 진행되고 있으나 애플리케이션 리뷰에 관한 연구는 미비한 편이다. 본 연구는 구글 플레이 스토어 내 스마트 관광 분야의 대표적인 애플리케이션인 트립어드바이저 애플리케이션 리뷰 데이터를 수집하여 LDA(Latent Dirichlet Allocation) 토픽 모델링을 통해 사용 용도와 사용자 만족을 파악하고자 한다. 분석 결과 4개의 토픽이 도출되었으며 2개의 토픽에서는 긍정적인 평가를 나머지 2개의 토픽에서는 부정적인 평가를 하고 있었다. 사용자들은 해당 애플리케이션의 숙박 및 관광 명소 추천 시스템에 만족하고 있음을 알 수 있었으며 검색 시 설정한 필터가 적용되지 않거나 업데이트 후 리뷰가 게시되지 않음에 불편을 겪고 있음을 알 수 있었다. 이에 다양한 추천 카테고리를 애플리케이션에 추가하여 사용자에게 다양한 경험을 제공하는 것이 만족도 향상에 도움이 될 것으로 기대된다. 또한 필터 기능을 포함한 애플리케이션 문제를 파악하여 애플리케이션 환경 점검과 해당 기능 오류 개선을 한다면 사용자 만족도를 향상시킬 수 있을 것으로 기대된다.