• 제목/요약/키워드: Text mining analysis

검색결과 1,187건 처리시간 0.028초

토픽 모델링을 활용한 코로나19 초기 생활체육 이슈 분석 (Trend Analysis of Sports for All-Related Issues in Early Stage of COVID-19 Using Topic Modeling)

  • 정연길;서수민;강현민
    • 지능정보연구
    • /
    • 제28권3호
    • /
    • pp.57-79
    • /
    • 2022
  • 지난 2019년 12월 시작된 코로나19는 정치, 경제, 사회, 문화 등 우리 삶의 전반에 많은 영향을 끼쳐 왔으며, 스포츠, 공연 예술 등의 분야 역시 이로 인해 큰 폭으로 활동이 위축되었다. 스포츠 분야의 경우 참여스포츠를 대표하는 생활체육 분야에서의 변화가 특히 크게 나타났으며, 헬스장, 탁구장, 배드민턴 동호회 등 국민 삶과 밀접한 장소에서의 확진자 발생은 코로나19의 확산에 대한 사회적 공포감을 증폭시키는 원인이 되기도 하였다. 이에 본 연구에서는 코로나19가 최초 확산한 시기의 생활체육 관련 국내 언론 기사를 분석하여, 코로나19 사태로 인해 생활체육 분야에서 어떤 이슈들이 현장에서 등장하고 있으며 어떠한 논의들이 이루어지고 있는지 살펴본다. 구체적으로 본 연구는 국내 대표적인 포털 뉴스 사이트로부터 생활체육과 관련된 코로나19 이슈를 다루고 있는 뉴스 기사를 수집한 후, 이에 대한 토픽 모델링(Topic Modeling) 분석을 통해 코로나19 환경에서의 주요 생활체육 이슈를 파악하였다. 분석을 통해 체육시설 코로나 발생, 체육활동 지원, 생활체육활동 변화 등의 의미있는 이슈를 발견하였으며, 이들 주요 이슈에 대한 워드 클라우드(Wordcloud) 분석을 통해 이슈를 시각적으로 이해하고 시간의 흐름에 따라 이러한 이슈가 변화하는 양상을 확인하였다.

토픽모델링 기반의 국내외 미래 자동차 연구동향 비교 분석: CASE 키워드 중심으로 (Analysis of domestic and foreign future automobile research trends based on topic modeling)

  • 정호정;김건욱;김나경;장원준;정원웅;박대영
    • 디지털융복합연구
    • /
    • 제20권5호
    • /
    • pp.463-476
    • /
    • 2022
  • 과거 산업화 이후 자동차 산업은 내연기관 중심의 지속적인 성장을 하였으나, 최근 4차 산업혁명으로 큰 변화를 맞이하고 있다. 대다수의 기업들이 전기 자동차, 자율주행으로의 전환을 준비하고 있으며, 현시점에서 국내와 국외의 미래 자동차 연구동향을 비교 분석할 필요가 있다. 이에 본 연구에서는 미래 자동차 트렌드를 대표하는 CASE(Connectivity, Autonomous, Sharing, Electrification)와 관련된 키워드가 포함된 국내 4,002건, 국외 68,372건 논문을 수집하여 LDA 알고리즘 기반의 토픽모델링을 수행하였으며, 국내외 미래 자동차 연구동향을 비교 분석하여 정책적 시사점을 제시하였다. 분석 결과 국내의 경우 교통 인프라, 도시 내 교통효율, 교통정책 등과 같은 거시적인 측면에서의 연구가 주를 이루는 것으로 나타났으며, 국외는 객체인식, 사물인터넷, 전기자동차 소음 등의 차량기술과 관련된 연구가 활성화되고 있음을 확인할 수 있었다. 이를 통해 국내 공유자동차 부문에 있어 MaaS(Mobility-as-a-Service)와 관련한 정부의 기술지원이 필요하고 교통수단별 데이터 개방 필요성 등에 대하여 제시하였고, 이러한 분석결과는 미래 자동차 산업을 위한 기초자료로 활용될 수 있을 것으로 판단된다.

빅데이터를 활용한 요양보호사의 서비스질 인식에 관한 연구 (A Study on the Perception of Quality of Care Services by Care Workers using Big Data)

  • 조한아
    • 대한치위생과학회지
    • /
    • 제6권1호
    • /
    • pp.13-25
    • /
    • 2023
  • 연구배경: 본 연구는 비정형 빅데이터를 활용하여 노인장기요양보험의 직접적 서비스 인력인 요양보호사의 서비스질 관리를 확인하고자 수행되었다. 연구방법: 요양보호사의 서비스질과 관련된 소셜 비정형 데이터를 텍스톰을 사용하여 수집·분석하였다. 데이터를 크롤링하여 수집된 상위 50개 키워드들 간의 빈도분석, TF-IDF, 중심성 분석, 의미연결망분석과 CONCOR 분석을 실시하였다. 연구결과: 빈도분석 결과 상위권에 속한 키워드는 '요양서비스' '요양보호사', '서비스질', '요양보호', '장기요양기관', '향상', '어르신', '처우', '개선', '필요' 였으며, 연결중심성과 위세중심성 분석결과도 거의 동일한 순위로 확인되었다. CONCOR 분석결과 4개의 그룹으로, 요양서비스질 개선, 요양서비스 운영, 요양서비스 제도, 요양보호사의 심리적인 부분에 대한 인식이 높은 것으로 나타났다. 결론: 본 연구는 요양보호사의 서비스질과 관련한 인식을 의미있는 그룹으로 제시하였으며 이는 요양보호사 서비스질 향상을 위한 다각적인 방향성 수립에 기여할 것으로 판단된다.

6G의 기술경쟁력 및 네트워크 분석: GaN 집적회로 특허 데이터 중심 (6G Technology Competitiveness and Network Analysis: Focusing on GaN Integrated Circuit Patent Data)

  • 최우석;김진용;이정환;최상현
    • 산업융합연구
    • /
    • 제21권3호
    • /
    • pp.1-15
    • /
    • 2023
  • 무선통신 기술은 통신서비스 자체에만 활용되는 단계를 넘어 21세기 디지털 전환이라는 패러다임과 맞물려 다양한 산업의 혁신을 촉진하는 기반 기술로써 기대가 높아지고 있다. 본 연구에서는 우리나라와 주요 선도국가의 6G 기술경쟁력을 비교하기 위해 GaN(갈륨나이트라이드) 특허 정보를 기반으로 시장확보 지수(PFS), 피인용도 지수(CPP) 그리고 네트워크 분석을 통해 6G 기술경쟁력을 분석하였다. 우리나라의 6G 기술경쟁력은 PFS가 0.62로, CPP가 3.93으로 나타났으며, 각각 선도국가 대비 32.8%, 19.9% 수준인 것으로 확인되었다. 그다음 네트워크 분석 결과, 6G 분야의 특허 협업 비율은 7.2%로 대부분 국가에서 모두 협업 생태계가 미흡한 것으로 분석되었다. 다만, 우리나라는 선도국가와 달리 산업계와 학계가 연계한 소규모 협업 관계가 구축되어 있음을 확인할 수 있었다. 따라서, 소규모 협업 생태계를 기반으로 통신 기술 고도화를 할 수 있는 국가 차원의 6G 통합 R&D 전략을 마련할 필요가 있겠다.

토픽 모델링을 활용한 대학 강의평가 개방형 응답분석 (Open-Ended Response Analysis for University Course Evaluations using Topic Modeling)

  • 안수현;이상준
    • 실천공학교육논문지
    • /
    • 제15권3호
    • /
    • pp.539-547
    • /
    • 2023
  • 최근 대학교육은 교육 패러다임의 변화와 함께 학습자 중심의 교육 모델을 강조하고 있다. 본 연구는 대학 강의평가의 개방형 응답을 토픽 모델링으로 분석하여 학생들의 다양한 의견을 탐색하고 교육의 질을 향상시키는데 목적이 있다. 이를 위해 비수도권 대학의 2017년부터 2022년까지 강의평가 결과를 바탕으로 총 45,001개의 개방형 응답을 전공과 교양으로 구분하여 단문에 최적화된 BTM(Biterm Topic Modeling) 분석을 진행하였다. 분석 결과 전공 강의는 "비대면 수업경험에 대한 태도", "질문과 토론에 대한 태도", "출석과 성적평가에 대한 태도", "실습활동 및 발표에 대한 태도", "소통과 협업에 대한 태도"로 구분되었고, 교양 강의는 "비대면 수업경험에 대한 태도", "성적 및 평가에 대한 태도", "출석 및 수업계획서에 대한 태도", "학문적 지식과 흥미에 대한 태도", "소통과 질문에 대한 태도"로 구분되었다. 학생들의 다양한 피드백을 분석한 본 연구결과를 토대로 전공과 교양 강의의 특성을 비교하고 강의개선 및 학습경험을 향상시키는데 도움이 될 수 있는 인사이트를 얻을 수 있을 것이다.

SentenceBERT 모델을 활용한 해양안전심판 재결서 분석 방법에 대한 연구 (Maritime Safety Tribunal Ruling Analysis using SentenceBERT)

  • 윤보리;박세길;배혜림;심성현
    • 해양환경안전학회지
    • /
    • 제29권7호
    • /
    • pp.843-856
    • /
    • 2023
  • 전 세계 선박 통행량의 증가에 따른 선박 충돌 사고의 증가는 큰 경제적, 환경적, 물리적 및 인간적 손해를 가져왔다. 선박 사고의 원인은 선원의 판단 오류나 부주의, 항로의 복잡성, 기상 조건, 선박의 기술적 결함 등 다양한 요인이 겹쳐 작용하여 사고를 유발하기 때문에 문장의 깊은 의미와 문맥 정보를 고려할 수 있는 방법론이 필요하다. 따라서, 본 연구는 부산해심 지역에서의 최근 20년 동안의 선박 충돌사고 데이터를 포함하고 있는 해양안전심판 재결서를 SentenceBERT 모델을 활용해 분석하였다. 분석 결과 사고의 주요 원인이 될 수 있는 키워드가 도출되었으며, 특정 키워드 출현 빈도를 바탕으로 군집 분석을 시행하고 시각화하였다. 추후 사고의 원인을 미리 파악함으로써, 이를 통해 선박 충돌 사고의 예방 및 사고 대응 전략 개발의 기초 자료로써 활용하고자 한다.

ChatGPT는 우리에게 어떤 우려를 초래하는가?: 유튜브 영상 뉴스 댓글의 CTM(Correlated Topic Modeling) 분석을 중심으로 (What Concerns Does ChatGPT Raise for Us?: An Analysis Centered on CTM (Correlated Topic Modeling) of YouTube Video News Comments)

  • 송민호;이수범
    • 정보화정책
    • /
    • 제31권1호
    • /
    • pp.3-31
    • /
    • 2024
  • 본 연구는 ChatGPT로부터 촉박된 생성형 인공지능에 대해 국내의 특수성을 고려한 대중의 우려를 살펴보고자 하였다. 이를 위해 유튜브에서 102개의 윤리 관련 뉴스 영상에 포함된 댓글을 파이썬 스크래퍼를 개발하여 수집하였으며, 텍스톰을 통해 형태소 분석 및 전처리를 통해 15,735개 댓글을 대상으로 상관토픽모델(CTM)을 통해 분석하였다. 분석 결과, 뉴스 영상에 포함된 댓글의 주요 토픽은 '법적 및 윤리적 고려 사항', '지적 재산권 및 기술', '기술 발전과 인류 미래, 정보 처리에서 인공지능의 잠재력', 'AI에서의 감정 지능 및 윤리적 규제', '인간모방' 등 6개로 확인되었다. 또한 6개의 토픽을 10% 이상의 상관계수 값을 보이는 관계로 구조화한 결과 '법적 및 윤리적 고려 사항', 'ChatGPT의 데이터 생성 관련 이슈(지적 재산권 및 기술, 정보 처리에서의 인공지능의 잠재력, 인간모방', '인류 미래에 대한 두려움(기술 발전과 인류 미래, AI에서의 감정 지능 및 윤리적 규제)' 등 3개로 구조화할 수 있었다. 이를 바탕으로 ChatGPT로 인해 촉발된 생성형 인공지능에 관한 관심과 더불어 다양한 우려가 공존하고 있는 것을 확인하였고, 국내의 역사적 및 사회적 맥락을 반영한 특수성을 가진 우려도 존재하고 있음을 확인하였다. 이러한 결과를 통해 데이터 공정성에 대한 국가 주도의 노력이 필요함을 제안하였다.

인공지능 문장 분류 모델 Sentence-BERT 기반 학교 맞춤형 고등학교 통합과학 질문-답변 챗봇 -개발 및 1년간 사용 분석- (A School-tailored High School Integrated Science Q&A Chatbot with Sentence-BERT: Development and One-Year Usage Analysis)

  • 민경모;유준희
    • 한국과학교육학회지
    • /
    • 제44권3호
    • /
    • pp.231-248
    • /
    • 2024
  • 본 연구에서는 오픈소스 소프트웨어와 인공지능 문서 분류 모델인 한국어 Sentence-BERT로 고등학교 1학년 통합과학 질문-답변 챗봇을 제작하고 2023학년도 1년 동안 독립형 서버에서 운영했다. 챗봇은 Sentence-BERT 모델로 학생의 질문과 가장 유사한 질문-답변 쌍 6개를 찾아 캐러셀 형태로 출력한다. 질문-답변 데이터셋은 인터넷에 공개된 자료를 수집하여 초기 버전을 구축하였고, 챗봇을 1년 동안 운영하면서 학생의 의견과 사용성을 고려하여 자료를 정제하고 새로운 질문-답변 쌍을 추가했다. 2023학년도 말에는 총 30,819개의 데이터셋을 챗봇에 통합하였다. 학생은 챗봇을 1년 동안 총 3,457건 이용했다. 챗봇 사용 기록을 빈도분석 및 시계열 분석한 결과 학생은 수업 중 교사가 챗봇 사용을 유도할 때 챗봇을 이용했고 평소에는 방과 후에 자습하면서 챗봇을 활용했다. 학생은 챗봇에 한 번 접속하여 평균적으로 2.1~2.2회 정도 질문했고, 주로 사용한 기기는 휴대폰이었다. 학생이 챗봇에 입력한 용어를 추출하고자 한국어 형태소 분석기로 명사와 용언을 추출하여 텍스트 마이닝을 진행한 결과 학생은 과학 질문 외에도 시험 범위 등의 학교생활과 관련된 용어를 자주 입력했다. 학생이 챗봇에 자주 물어본 주제를 추출하고자 Sentence-BERT 기반의 BERTopic으로 학생의 질문을 두 차례 범주화하여 토픽 모델링을 진행했다. 전체 질문 중 88%가 35가지 주제로 수렴되었고, 학생이 챗봇에 주로 물어보는 주제를 추출할 수 있었다. 학년말에 학생을 대상으로 한 설문에서 챗봇이 캐러셀 형태로 결과를 출력하는 형태가 학습에 효과적이었고, 통합과학 학습과 학습 목적 이외의 궁금증이나 학교생활과 관련된 물음에 답해주는 역할을 수행했음을 확인할 수 있었다. 본 연구는 공교육 현장에서 학생이 실제로 활용하기에 적합한 챗봇을 개발하여 학생이 장기간에 걸쳐 챗봇을 사용하는 과정에서 얻은 데이터를 분석함으로써 학생의 요구를 충족할 수 있는 챗봇의 교육적 활용 가능성을 확인했다는 점에 의의가 있다.

텍스트 분석을 활용한 정보의 수요 공급 기반 뉴스 가치 평가 방안 (A Method for Evaluating News Value based on Supply and Demand of Information Using Text Analysis)

  • 이동훈;최호창;김남규
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.45-67
    • /
    • 2016
  • 최근 정보 유통의 주요 매체인 인터넷 뉴스와 SNS의 매체 간 특성 차이를 주목한 많은 연구가 있었음에도 불구하고, 양 매체의 차이를 정보의 수요 및 공급 관점에서 파악한 연구는 상대적으로 매우 부족하다. 일반적으로 새로운 정보는 언론사의 뉴스 기사를 통해 대중에게 노출되고, 대중은 이러한 기사에 대한 의견 또는 추가정보를 SNS를 통해 공유함으로써 해당 정보를 수용함과 동시에 확산시킨다. 이러한 측면에서 언론사가 뉴스를 제공하는 행위를 정보의 공급으로 파악할 수 있으며, 대중은 SNS를 통해 이에 대한 관심을 능동적으로 나타냄으로써 해당 정보에 대한 소비 수요를 표출하는 것으로 이해할 수 있다. 이는 상품 및 서비스의 가격이 수요와 공급의 관계에 의해 결정되는 것과 유사한 원리로, 정보의 가치를 정보 수요와 정보 공급의 관계에 기반을 두어 측정할 수 있음을 시사한다. 본 연구에서는 정보 공급의 대표 매체로 인터넷 뉴스 기사를, 정보 수요를 나타내는 대표 매체로 트위터를 선정하고, 특정 이슈에 대한 뉴스의 정보로서의 가치를 이와 관련된 트위터의 양으로 평가하는 뉴스가치지수(NVI, News Value Index)를 고안하여 제시한다. 구체적으로 제안 방법론은 각 이슈별로 NVI를 도출하고 이를 통해 시간의 흐름에 따른 정보 가치의 변화를 시각화하여 나타낸다. 또한 본 연구에서는 제안 방법론의 실무 적용 가능성을 평가하기 위해 인터넷 뉴스 387,018건과 트윗 31,674,795건에 대한 실험을 수행하였다. 그 결과 대부분의 이슈가 전체 정보 시장의 평균 가치에 수렴하는 형태로 변화함을 알 수 있었으며, 꾸준히 평균 이상의 가치를 가지며 정보 시장을 장악하는 등 특이한 양상을 보이는 흥미로운 이슈도 존재함을 파악할 수 있었다.

소셜미디어 데이터를 활용한 태안해안국립공원 방문객의 경관인식 파악 - 꽃지해수욕장·신두리해안사구·만리포해수욕장을 대상으로 - (Identifying Landscape Perceptions of Visitors' to the Taean Coast National Park Using Social Media Data - Focused on Kkotji Beach, Sinduri Coastal Sand Dune, and Manlipo Beach -)

  • 이성희;손용훈
    • 한국조경학회지
    • /
    • 제46권5호
    • /
    • pp.10-21
    • /
    • 2018
  • 실제 이용자의 경험을 파악하는 것은 경관관리에 있어서 중요한 관점 중 하나이다. 본 연구는 이점에서 착안하여 블로그 글을 대상으로 텍스트마이닝을 활용하여 이용자들이 자발적으로 올린 글을 바탕으로 그 안에 담긴 경관인식을 파악하였다. 연구 대상지는 태안해안국립공원으로 하였다. '태안 여행'으로 검색하여 나타난 장소는 대부분 태안해안국립공원에 해당되는 곳이었고, 도출된 장소 중 상위 세 곳을 대상으로 에고네트워크 분석을 실시하고, 각 장소 명칭과 연결된 경관인식에 관련한 키워드(장소, 이미지, 활동, 경관대상물)를 추출하였다. 마지막으로, 중심성 분석과 응집성 분석을 통해 각 장소에 대한 사람들의 경관인식과 주요이슈를 도출하고 의미를 해석하였다. 연구결과로 태안 여행에서 인지되는 주요 장소, 그리고 구체적인 장소에서의 개별적인 경관체험과 경관인식을 파악할 수 있었다. 꽃지해수욕장은 장소 관련 키워드가, 신두리해안사구는 경관이미지에 대한 키워드가, 그리고 만리포해수욕장은 경관요소와 관련된 키워드가 주로 나타나고 있어, 방문객이 인식하는 세 장소의 경관 특성이 상이함을 유추할 수 있다. 구체적으로는 꽃지해수욕장은 일몰경관 감상의 명소이자 태안해안국립공원 트래킹 코스의 거점으로서 인식되고 있으며, 신두리해안사구는 비일상적 경관을 보유한 곳이자 생태적으로 가치가 높은 공간으로 보존의 대상으로 인식되고 있는 것으로 나타났다. 마지막으로 만리포해수욕장은 천리포수목원과 인접하고 있어 높은 방문이 이루어지며, 해변 자체의 모습이 인상적인 곳으로 인식되고 있었다. 소셜미디어 데이터는 이용자 관점에서의 분석자료이므로, 전문가의 관점에서 미처 보지 못했던 다양한 내용을 분석할 수 있어서 매우 유용한 자료이다. 본 연구에서는 경관인식 연구에 소셜미디어 데이터를 활용하여 경관대상, 경관이미지, 활동 등의 여러 내용을 종합하여 사람들이 어떻게 경관을 인식하고 향유하는지를 다각적으로 분석하였다. 다만 소셜미디어 데이터는 작성자의 기억과 인식이 증폭되거나 왜곡될 가능성이 있기 때문에, 보다 정확한 분석을 위해서는 추후 현장에서 설문조사 등을 실시하여 본 연구의 결과와 비교, 검증하는 후속 연구가 필요하다.