• 제목/요약/키워드: topic modelling analysis

검색결과 39건 처리시간 0.029초

지반공학적 재해 및 산사태 위험도 분석에 관한 연구 (International Research on Geotechnical Risk & Landslide Hazards)

  • 윤길림;윤여원;김홍연
    • 한국지반공학회:학술대회논문집
    • /
    • 한국지반공학회 2009년도 춘계 학술발표회
    • /
    • pp.444-455
    • /
    • 2009
  • Great concerns on geotechnical risk & hazard assessment have been increased due to human and economic damage by natural disasters with recent global climate changes. In this paper, geotechnical problems in particular, landslides which is interested in European countries and North America, were mainly discussed. For these, 18 key topics on geotechnical risk and hazards which had been discussed at the LARAM 2008 workshop in Italy were analyzed after grouping by subjects. Main topic contents consisted of applications such as field measurement, early warning systems, uncertainty analysis of parameters using radar, optical data and statistical theory and so on. And the problems related to analysis of vulnerability and deformation due to earthquakes, investigation of gas zone using seismic reflection data in a landslide area, risk quantification and hazard assessment of landslide movements and multi-dimensional analysis for stability of complex slopes were attracted. Also, there were studies on risk matters of cultural heritage, the blockglide of clayey ground, simulations of debris flows based on GIS, quantification of the failure processes of rock slopes, a meshless method for 3D crack modelling, and finally risk assessment for cryological processes due to global warming.

  • PDF

빅데이터 토픽모델링과 감성분석을 활용한 물공급과정에서의 수질사고 기사 분석 (Analysis of articles on water quality accidents in the water distribution networks using big data topic modelling and sentiment analysis)

  • 홍성진;유도근
    • 한국수자원학회논문집
    • /
    • 제55권spc1호
    • /
    • pp.1235-1249
    • /
    • 2022
  • 본 연구에서는 웹 크롤링 방법을 이용한 자료수집, 텍스트 마이닝을 활용한 데이터 분석과 같은 빅데이터 분석기법을 이용하여 국내 상수도 수질사고에 대한 전개양상 분석을 수행하였다. 상수도 시스템의 수질사고 빅데이터 뉴스의 추출을 위한 웹크롤링 기법을 적용하고 정확한 수질사고 뉴스를 획득하고자 알고리즘을 절차화하여 제시하였다. 또한 대규모 수질사고의 경우 사고발생에 따른 사고인지, 사고확산, 사고대응, 사고해결 등과 같은 전개양상이 나타나므로, 각 단계에 따른 적절한 뉴스기사를 추출하고, 이에 따른 정보분석을 실시하였다. 즉, 각 단계 별 주요 키워드, 감성분석을 통한 수질사고 전개양상분석을 사례기반으로 상세히 실시하고 그 의미를 분석, 도출하였다. 제안된 방법론을 2020년 발생한 인천광역시 유충사고기간에 적용하여 분석하였다. 그 결과, 수질사고와 같은 소비자에게 직접적인 영향을 미치는 정보의 공개가 제한된 상황에서 사고발생시 장기간의 피해 지속성이 있는 수질사고에 대한 뉴스 기사 언론보도의 논조 및 소비자의 긍부정도가 시간에 따라 명확히 변화됨을 확인할 수 있었다. 이것은 공급자 입장에서의 수질사고의 전개양상은 시설물의 빠른 복구도 매우 중요하지만 소비자의 긍정도를 높이기 위한 소비자 중심의 정책마련의 필요성을 제시하고 있다.

Detection of Depression Trends in Literary Cyber Writers Using Sentiment Analysis and Machine Learning

  • Faiza Nasir;Haseeb Ahmad;CM Nadeem Faisal;Qaisar Abbas;Mubarak Albathan;Ayyaz Hussain
    • International Journal of Computer Science & Network Security
    • /
    • 제23권3호
    • /
    • pp.67-80
    • /
    • 2023
  • Rice is an important food crop for most of the population in Nowadays, psychologists consider social media an important tool to examine mental disorders. Among these disorders, depression is one of the most common yet least cured disease Since abundant of writers having extensive followers express their feelings on social media and depression is significantly increasing, thus, exploring the literary text shared on social media may provide multidimensional features of depressive behaviors: (1) Background: Several studies observed that depressive data contains certain language styles and self-expressing pronouns, but current study provides the evidence that posts appearing with self-expressing pronouns and depressive language styles contain high emotional temperatures. Therefore, the main objective of this study is to examine the literary cyber writers' posts for discovering the symptomatic signs of depression. For this purpose, our research emphases on extracting the data from writers' public social media pages, blogs, and communities; (3) Results: To examine the emotional temperatures and sentences usage between depressive and not depressive groups, we employed the SentiStrength algorithm as a psycholinguistic method, TF-IDF and N-Gram for ranked phrases extraction, and Latent Dirichlet Allocation for topic modelling of the extracted phrases. The results unearth the strong connection between depression and negative emotional temperatures in writer's posts. Moreover, we used Naïve Bayes, Support Vector Machines, Random Forest, and Decision Tree algorithms to validate the classification of depressive and not depressive in terms of sentences, phrases and topics. The results reveal that comparing with others, Support Vectors Machines algorithm validates the classification while attaining highest 79% f-score; (4) Conclusions: Experimental results show that the proposed system outperformed for detection of depression trends in literary cyber writers using sentiment analysis.

텍스트 임베딩을 이용한 자율주행자동차 교통사고 분석에 관한 연구 (Study of Analysis for Autonomous Vehicle Collision Using Text Embedding)

  • 박상민;이환필;소재현;윤일수
    • 한국ITS학회 논문지
    • /
    • 제20권1호
    • /
    • pp.160-173
    • /
    • 2021
  • 최근 전 세계적으로 자율주행자동차 개발을 위한 연구가 증가하고 있으며, 자율주행자동차의 실도로 도입이 증가되고 있는 추세이다. 하지만, 자율주행자동차의 교통사고 발생으로 인해 자율주행자동차 안전성에 대한 관심이 높아지고 있다. 또한, 자율주행자동차 교통사고에 대한 특성 파악 및 분석 방법론 개발의 필요성이 대두되고 있다. 특히 미국 캘리포니아 차량관리국(California Department of Motor Vehicles, DMV)에서는 자율주행자동차의 교통사고 데이터를 수집하여 리포트 형태로 제공하고 있다. 본 연구에서는 DMV에서 제공하는 자율주행자동차 교통사고를 분석하는 방법론을 제시하였다. 또한, 텍스트 임베딩 기법을 이용하여 주요 키워드 및 주요 토픽 도출을 통해 개발된 방법론의 활용도를 검토하였다. 본 연구에서 개발된 방법론은 향후 자율주행자동차 교통사고 데이터가 충분히 수집된다면 자율주행자동차 교통사고 분석 및 자율주행자동차 개발시 활용될 수 있을 것으로 기대된다.

트위터에서의 COVID-19와 관련된 반시민성 주제 탐색: 혐오 대상 및 키워드 분석 (Investigating Topics of Incivility Related to COVID-19 on Twitter: Analysis of Targets and Keywords of Hate Speech)

  • 김규리;오찬희;주영준
    • 정보관리학회지
    • /
    • 제39권1호
    • /
    • pp.331-350
    • /
    • 2022
  • 본 연구는 코로나바이러스감염증-19 (이하 코로나19)로 인해 생겨난 코로나19 반시민성 주제와 코로나19 혐오 정서를 파악하기 위해 소셜미디어 중 하나인 트위터의 코로나19 관련 게시물을 분석하였다. 2019년 12월 1일부터 2021년 8월 31일까지 21개월 동안 작성된 코로나19 관련 혐오 대상별(지역, 공공시설 혐오, 특정 인구 집단 혐오, 종교 혐오) 게시물 수집 및 전처리를 진행하여 총 63,802개의 게시물을 분석하였다. 혐오 대상별 빈도 분석, 다이나믹 토픽 모델링, 키워드 동시 출현 네트워크 분석 기법을 통하여 혐오 대상별 반시민성 주제와 혐오 키워드를 파악하였다. 첫째, 빈도 분석 결과, 지역, 공공시설 혐오는 상대적으로 증가하는 추세를 보이고 특정 인구 집단과 종교 혐오는 상대적으로 감소하는 추세를 확인할 수 있었다. 둘째, 다이나믹 토픽 모델링 분석 결과, 지역, 공공시설 혐오는 '대구, 경북지방 혐오', '지역 간 혐오', '공공시설 혐오'로 나타났고, 특정 인구 집단 혐오는 '중국 혐오', '바이러스 전파자', '실외(야외)활동 제재'로 나타났으며, 종교 혐오는 '신천지', '기독교', '종교 내 감염', '방역 의무 거부', '확진자 동선 비난'으로 나타났다. 셋째, 키워드 동시 출현 네트워크 분석 결과, 지역, 공공시설 혐오(코로나, 대구, 확진자, 신천지, 경북, 지역), 특정 인구 집단 혐오(코로나바이러스, 우한폐렴, 우한, 중국, 중국인, 사람, 입국, 금지), 종교 혐오(신천지, 코로나, 교회, 대구, 확진자, 감염) 등을 핵심 키워드로 확인할 수 있었다. 본 연구는 소셜 미디어를 활용한 국내 코로나19 혐오 대상 및 키워드 파악을 통해 코로나19 관련한 대중의 반시민성 여론을 파악하고자 하였다. 특히 기존의 선행연구에서 시도하지 않았던 주제인 코로나19 관련 혐오에 데이터 마이닝기법을 이용하여 소셜 미디어에서 표출하는 대중의 반시민성 주제와 혐오 정서 탐색은 대중들의 여론을 파악하는 것이 의의가 있다. 더불어 본 연구 결과는 포스트 코로나 시대를 대비하는 문화적 소통 방안의 제도 및 정책 수립 기여를 위한 기본 자료에 기초할 수 있다는 점에서 실질적 함의를 시사한다.

국내 지역대표도서관 소수자서비스의 현황과 과제 (Current Status and Agenda for Regional Central Library Social Minority Service)

  • 정철
    • 한국도서관정보학회지
    • /
    • 제53권4호
    • /
    • pp.233-266
    • /
    • 2022
  • 본 연구의 목적은 정보격차가 심화되는 현시점에서 지역대표도서관에서 제공되는 소수자서비스의 질적 제고를 위한 과제를 도출하고 제언함에 있다. 이를 위해 먼저 소수자를 둘러싼 도서관계의 관심과 논의점을 구체적으로 살펴보기 위하여 소수자를 주제로 다룬 문헌정보학 분야 연구 144편을 대상으로 텍스트마이닝과 토픽모델링을 수행하였다. 다음으로 지역대표도서관의 소수자서비스의 실제를 구체적으로 살펴보고, 지역대표 도서관의 소수자서비스 기획 및 운영에 있어 논의가 필요한 과제를 도출하고자 하였다. 구체적으로 12개의 지역대표도서관에서 소수자서비스를 담당하는 실무자를 대상으로 인터뷰를 진행하였으며, 1) 실무자의 소수자에 대한 인식, 2) 소수자서비스의 현황, 그리고 3) 지역대표도서관의 지역 소수자서비스 계획과 운영에 대한 책임 및 역할과 필요한 지원에 대한 분석을 수행하였다. 분석 결과를 바탕으로 논의를 도출하였으며, 논의를 바탕으로 1) 소수자 집단의 재범주화, 2) 소수자서비스관련 참고정보원 구축, 3) 소수자관련 교육의 강화, 그리고 4) 지역대표도서관과 단위도서관의 협력 지원으로 과제를 도출하고 제언하였다.

RFE-SHAP을 활용한 온라인 리뷰를 통한 고객 만족도 예측 (Prediction of Customer Satisfaction Using RFE-SHAP Feature Selection Method)

  • 체르냐예바 올가;홍태호
    • 지능정보연구
    • /
    • 제29권4호
    • /
    • pp.325-345
    • /
    • 2023
  • 본 연구는 온라인 리뷰를 이용하여 고객 만족도를 예측하는 새로운 접근 방식을 제안한다. LDA 주제 모델링과 결합된 RFE-SHAP 기능 선택 방법을 활용하여 고객 만족도에 큰 영향을 미치는 주요 기능을 식별하여 예측 분석을 개선했다. 먼저 Random Forest 알고리즘의 경우, 초기 28개 입력변수에서 14개의 변수를 최적 하위 집합으로 추출했다. 제안된 방법에서 Random Forest 모델의 성과는 84%로 확인 되었으며 변수가 많은 모델에서 흔히 발생하는 과적합을 방지하였다. 또한 품질, 착용감, 내구성 등과 같은 리뷰의 특정 요소들이 패션 산업 내에서 소비자 만족도를 증진시키는 중요한 역할을 한다는 사실을 밝혀냈다. 본 연구는 예측 결과를 설명할 때 선택한 각 기능이 고객 만족도에 어떻게 영향을 미치는지에 대한 자세한 설명을 제공하고 고객이 가장 중요하게 생각하는 측면에 대한 세부적인 보기를 제공한다. 본 연구의 공헌도는 다음과 같다. 첫째, 전자상거래 분석 분야 내에서 예측 모델링을 강화하고 특성 중심적인 접근법을 소개함으로써 방법론을 개선하였다. 이는 고객 만족도 예측의 정확도를 높일 뿐만 아니라 예측 모델에서의 변수 선택에 대한 새로운 접근을 제시한다. 둘째, 특히 의류 부문에서 전자상거래 플랫폼에 구체적인 통찰력을 제공한다. 품질, 사이즈, 내구성 등 고객 리뷰의 어떤 부분이 만족도에 가장 큰 영향을 미치는지 강조함으로써, 기업들이 제품과 서비스를 맞춤화 할 수 있는 전략적 방향을 제시한다. 이러한 목표 지향적인 개선은 고객의 쇼핑 경험을 개선하고, 만족도를 향상시키면서 충성도를 이끌어낼 수 있을 것으로 기대한다.

Efficient Data Management for Hull Condition Assessment

  • Jaramillo, David;Cabos, Christian;Renard, Philippe
    • International Journal of CAD/CAM
    • /
    • 제6권1호
    • /
    • pp.9-17
    • /
    • 2006
  • Performing inspections for Hull Condition Monitoring and Assessment as stipulated in IACS unified requirements and IMO's Condition Assessment Scheme (CAS) IMO Resolution MEPC.94(46), 2001, Condition Assessment Scheme, IMO Resolution MEPC.111(50), 2003, Amendments to regulation 13G, addition of new regulation 13H involves a huge amount of measurement data to be collected, processed, analysed and maintained. Information to be recorded consists of thickness measurements and visual assessment of coating and cracks. The amount of data and increasing requirements with respect to condition assessment demand efficient computer support. Currently, due to the lack of standardization for this kind of data, the thickness measurements are recorded manually on ship drawings or tables. In this form, handling of the measurements is tedious and error-prone and assessment is difficult. Data reporting and analysis takes a long time, leading to some repairs being performed only at the next docking of the ship or making an additional docking necessary. The recently started ED funded project CAS addresses this topic and develops-as a first step-a data model for Hull Condition Monitoring and Assessment (HCMA) based on XML-technology. The model includes simple geometry representation to facilitate a graphically supported data collection as well as an easy visualisation of the measurement results. In order to ensure compatibility with the current way of working, the content of the data model is strictly confined to the requirements of the measurement process. Appropriate data interfaces to classification software will enable rapid assessment by the classification societies, thus improving the process in terms of time and cost savings. In particular, decision-making can be done while the ship is still in the dock for maintenance.

Covid-19에 따른 글로벌 창업 트렌드 분석: Crunchbase를 중심으로 (Analysis of Global Entrepreneurship Trends Due to COVID-19: Focusing on Crunchbase)

  • 김신호;금영정
    • 벤처창업연구
    • /
    • 제18권3호
    • /
    • pp.141-156
    • /
    • 2023
  • 전 세계적으로 유례없는 Covid-19 팬데믹으로 인해 기업의 비즈니스 방식 및 내용이 크게 변화됐다. 따라서 Covid-19 이후 산업 전반에서 일어나고 있는 혁신 양상을 면밀히 모니터링하고, 이를 바탕으로 미래 비즈니스를 기획/설계하는 것이 산업현장에서 크게 요구되고 있다. 다수 연구에서 펜데믹 이후 비즈니스 동향 분석이 시도됐으나 특정 산업에 국한된 분석을 수행하는 점, 설문 및 문헌 연구 중심으로 수행되어 객관적 데이터의 활용이 부족한 점에서 한계점이 존재하고 있다. 이에 본 연구에서는 글로벌 스타트업 데이터인 Crunchbase를 활용하여 Covid-19 이후 비즈니스 산업의 트렌드를 분석하고자 한다. 트렌드 분석을 위해 Crunchbase에서 2018년부터 2021년까지 2년 단위로 데이터를 수집 및 전처리를 진행하였다. 산업 변화를 확인하기 위해 네트워크 분석, LDA 기반 토픽 분석, Doc2vec 클러스터링 분석을 결합한 접근 방식을 사용하여 비즈니스 콘텐츠의 변화를 분석하였다. 연구 결과 각 분야에서 비대면/온라인 기술들이 훨씬 전문성을 갖추며 성장하고 있으며, 기술융합에 초점을 두고 많은 산업들이 성장하고 있는 것으로 파악되었다. 본 연구는 Covid-19의 영향으로 기업투자자 및 예비 창업자들에게 급속도로 변화하는 산업의 흐름을 파악할 수 있게 하고 투자 의사결정에 많은 도움을 줄 것으로 기대된다.

  • PDF