• 제목/요약/키워드: LDA model

검색결과 161건 처리시간 0.025초

기계학습 분류모델을 이용한 하천퇴적물의 중금속 오염원 식별 (Identifying sources of heavy metal contamination in stream sediments using machine learning classifiers)

  • 반민정;신상욱;이동훈;김정규;이호식;김영;박정훈;이순화;김선영;강주현
    • 한국습지학회지
    • /
    • 제25권4호
    • /
    • pp.306-314
    • /
    • 2023
  • 하천퇴적물은 유역내 다양한 오염원으로부터 발생하는 중금속, 유기물 등 오염물질의 수용체일 뿐만 아니라 수질 오염 및 수생태 악영향을 유발할 수 있는 2차적 오염원이기에 중요한 관리대상이라고 할 수 있다. 오염된 하천퇴적물의 효과적인 관리를 위해서는 오염원에 대한 식별과 이와 연계된 관리대책의 수립이 우선되어야 한다. 본 연구는 하천퇴적물내 측정된 다양한 이화학적 오염항목 분포 특성에 기반하여 퇴적물의 주요 오염원을 식별하기 위한 방법으로서 기계학습모델의 적용성을 평가하였다. 기계학습 모델의 성능 평가를 위해 전국 4대강 수계내 주요 폐금속광산 및 산업단지 인근에서 수집된 총 356개의 하천퇴적물에 대한 중금속 10개 항목(Cd, Cu, Pb, Ni, As, Zn, Cr, Hg, Li, Al)과 토양항목 3개(모래, 실트, 점토 비율) 수질항목 5개(함수율, 강열감량, 총유기탄소, 총질소, 총인)를 포함한 총 18개 오염항목에 대한 분석자료를 활용하였다. 기계학습 분류 모델로서 선형판별분석(linear discriminant analysis, LDA)과 서포트벡터머신(support vector machine, SVM) 분류기를 사용하여 폐금속광산('광산')과 산업단지('산단') 인근에서의 하천퇴적물 시료의 분류 성능을 평가한 결과, 채취 지점 및 시기별 4가지 경우(비강우시 광산, 강우시 광산, 비강우시 산단, 및 강우시 산단)에 대한 퇴적물 시료의 분류 성능이 우수하였으며, 특히 비선형 모델인 SVM(88.1%)이 선형모델인 LDA(79.5%) 보다 퇴적물을 분류하는데 있어 보다 우수한 성능을 나타냈다. SVM 앙상블 기반 비배타적 다중라벨분류기 모델을 이용하여 각 시료채취 지점 상류 유역 1km 반경 내 지배적인 토지이용 및 오염원을 다중 타겟값으로 다중분류 예측을 수행한 결과, 폐금속광산과 산업단지의 분류는 비교적 높은 정확도로 수행하였으나, 도시와 농업지역 등 다른 비점오염원에 대한 분류정확도는 56~60%범위로 비교적 낮게 나타났다. 이는 다중라벨 분류모델의 복잡성에 비해 데이터셋의 크기가 상대적으로 작아서 발생한 과적합에 기인한 것으로 향후 보다 많은 측정자료가 확보될 경우 기계학습 모델을 적용한 오염원 분류의 정확도를 보다 향상시킬 수 있을 것으로 판단된다.

텍스트마이닝을 활용한 공개데이터 기반 기업 및 산업 토픽추이분석 모델 제안 (Development of Topic Trend Analysis Model for Industrial Intelligence using Public Data)

  • 박선영;이진무;김유일;서진이
    • 기술혁신연구
    • /
    • 제26권4호
    • /
    • pp.199-232
    • /
    • 2018
  • 빅데이터 분석을 통한 기업 경영환경에 대한 이해와 통찰을 구하고자 하는 요구가 산업 및 기업 경영 전반에 증가하고 있다. 이러한 사회적 요구에 따라 산업의 이해와 기업 경영의 이해를 위하여 기업의 경영실적 및 향후 계획을 포괄적으로 담고 있는 기업공시정보를 활용한 연구가 주목을 받고 있다. 이러한 기업공시정보는 대표적인 비정형 데이터로써 텍스트마이닝 방법론을 적용하여 그 범위와 수준에 대한 다양한 접근을 통하여 산업 수준 및 기업 수준에서 다양한 활용이 가능하다. 그러나 아직은 이러한 기업공시자료를 활용한 산업 및 기업 레벨에서 적용가능한 수준의 분석모델이 부족한 것으로 파악된다. 따라서 본 연구에서는 실제 활용 가능한 공개데이터를 활용한 산업 및 기업 수준의 분석모델을 제안하고자 한다. 미국상장기업의 공시자료인 미국 SEC EDGAR 자료를 기반으로 텍스트마이닝 알고리즘을 적용하여 산업 및 기업 수준의 경영주제(토픽)에 대한 추이분석이 가능한 모델을 제안하고자한다. SEC EDGAR의 10-K 문서를 대상으로 LDA 토픽 모델링을 통하여 산업 수준에서 전체 산업의 주제분야 분류를 파악하였고, 산업간 비교 측면에서 소프트웨어 산업과 하드웨어 산업 분야의 사례를 통해 최근 20년간의 토픽추이를 비교분석 하였다. 또한 최근 20년간의 기업의 경영주제 변화를 소프트웨어 산업에 속한 2개 기업을 중심으로 살펴보았다. 이를 통해 산업 및 기업 수준에서의 경영주제의 추이 변화를 파악하여 쇠퇴 및 성장 추세에 있는 경영주제를 확인 할 수 있었다. 한편 word2vec 워드 임베딩 모델과 주성분분석을 통한 차원 축약을 통해 소프트웨어 산업분야의 기업 및 특정 제품(혹은 서비스)에 대한 매핑을 통해 유사한 경영주제(토픽)를 가지는 기업 및 제품(서비스)을 사례를 통해 파악하였으며, 이를 시간적 흐름에 따른 변화 양상도 관찰할 수 있었다. 본 연구의 목적이 공개데이터를 활용한 산업 및 기업 수준의 분석모델을 개발하기 위한 방법론을 제안한 측면에서, 해외 데이터를 사용하여 산업의 경영주제 변화 추이, 기업의 경영주제 변화 추이를 거시적으로 조망할 수 있는 실무적인 방법론의 제안에서 의의가 있을 수 있다. 한편 기업의 기술경영전략 측면에서 기업의 경영토픽의 잦은 변화, 경영주제의 변화의 속도 등 다양한 변화 양상의 차이에 따른 기업의 매출 등의 경영성과와의 연관성 분석, 실제 기업의 제품포트폴리오의 구성에 따른 기업 간의 경쟁상황 등을 파악하는 미시적 모델 제안을 위한 추가 연구가 요구된다.

Variational Expectation-Maximization Algorithm in Posterior Distribution of a Latent Dirichlet Allocation Model for Research Topic Analysis

  • Kim, Jong Nam
    • 한국멀티미디어학회논문지
    • /
    • 제23권7호
    • /
    • pp.883-890
    • /
    • 2020
  • In this paper, we propose a variational expectation-maximization algorithm that computes posterior probabilities from Latent Dirichlet Allocation (LDA) model. The algorithm approximates the intractable posterior distribution of a document term matrix generated from a corpus made up by 50 papers. It approximates the posterior by searching the local optima using lower bound of the true posterior distribution. Moreover, it maximizes the lower bound of the log-likelihood of the true posterior by minimizing the relative entropy of the prior and the posterior distribution known as KL-Divergence. The experimental results indicate that documents clustered to image classification and segmentation are correlated at 0.79 while those clustered to object detection and image segmentation are highly correlated at 0.96. The proposed variational inference algorithm performs efficiently and faster than Gibbs sampling at a computational time of 0.029s.

혼합탱크 내의 임펠라 형태에 따른 유동 특성에 관한 수칙해석 (Numerical Study on Flow Patterns of Impeller's Type in a Stirred Tank)

  • 오석영;송길섭
    • 유체기계공업학회:학술대회논문집
    • /
    • 유체기계공업학회 2001년도 유체기계 연구개발 발표회 논문집
    • /
    • pp.454-459
    • /
    • 2001
  • The present study is concerned with the flow patterns induced by other impellers in a rectangular tank Impellers are FBT(Flat blade turbine), PBT(Pitched blade turbine), Shroud turbine, Rushton Turbine, and Helical ribbon turbine. The solution of flows in moving reference frames requires the use of 'moving' cell zone. The moving zone approaches are MRF(Multiple reference frame), which is a steady-state approximation and Sliding method, which is a unsteady-state approximation. Numerical results using two moving zone approaches are compared with experiments by Ranade & Joshi, which have done extensive LDA measurements of the flow generated by a standard six-bladed Rushton turbine in a cylindrical baffled vessel. In this paper we simulated the flow patterns with above mentioned moving zone approaches and impellers. Turbulence model is RNG k-$\epsilon$ model.

  • PDF

혼합탱크 내의 임펠라 형태에 따른 유동 특성에 관한 수치해석 (Numerical Study on Flow Patterns in a Stirred Tank with Impeller Types)

  • 송길섭;오석영;오정진
    • 한국유체기계학회 논문집
    • /
    • 제5권2호
    • /
    • pp.29-35
    • /
    • 2002
  • The present study is concerned with the flow patterns induced by various impellers in a rectangular tank. Impellers are FBT (Flat blade turbine), PBT (Pitched blade turbine), Shroud turbine, Rushton turbine, and Helical ribbon turbine types. The solutions of flows in moving reference frames require the use of 'moving' cell zone. The moving zone approaches are based on MRF (Multiple reference frame), which is a steady-state approximation and sliding method, which is an unsteady-state approximation. Numerical results using two moving zone approaches we compared with experiments by Ranade & Joshi, which have done extensive LDA measurements of the flow generated by a standard six-bladed Rushton turbine in a cylindrical baffled vessel. In this paper, we simulated the flow patterns with above-mentioned moving zone approaches and impellers. Turbulence model used is RNG $k-{\epsilon}$ model. Sliding-mesh method is more effective than MRF for simulating the rectangular tank with inlet and outlet. RNG $k-{\epsilon}$ model strongly underestimates the velocity of experimental data and velocity by Chen & Kim's model, but it seems to be correctly predicted in overall distribution.

Development of Big Data-based Cardiovascular Disease Prediction Analysis Algorithm

  • Kyung-A KIM;Dong-Hun HAN;Myung-Ae CHUNG
    • 한국인공지능학회지
    • /
    • 제11권3호
    • /
    • pp.29-34
    • /
    • 2023
  • Recently, the rapid development of artificial intelligence technology, many studies are being conducted to predict the risk of heart disease in order to lower the mortality rate of cardiovascular diseases worldwide. This study presents exercise or dietary improvement contents in the form of a software app or web to patients with cardiovascular disease, and cardiovascular disease through digital devices such as mobile phones and PCs. LR, LDA, SVM, XGBoost for the purpose of developing "Life style Improvement Contents (Digital Therapy)" for cardiovascular disease care to help with management or treatment We compared and analyzed cardiovascular disease prediction models using machine learning algorithms. Research Results XGBoost. The algorithm model showed the best predictive model performance with overall accuracy of 80% before and after. Overall, accuracy was 80.0%, F1 Score was 0.77~0.79, and ROC-AUC was 80%~84%, resulting in predictive model performance. Therefore, it was found that the algorithm used in this study can be used as a reference model necessary to verify the validity and accuracy of cardiovascular disease prediction. A cardiovascular disease prediction analysis algorithm that can enter accurate biometric data collected in future clinical trials, add lifestyle management (exercise, eating habits, etc.) elements, and verify the effect and efficacy on cardiovascular-related bio-signals and disease risk. development, ultimately suggesting that it is possible to develop lifestyle improvement contents (Digital Therapy).

주파수에 따른 감쇠계수 변화량을 이용한 해저 퇴적물 특징 추출 알고리즘 (Seabed Sediment Feature Extraction Algorithm using Attenuation Coefficient Variation According to Frequency)

  • 이기배;김주호;이종현;배진호;이재일;조정홍
    • 전자공학회논문지
    • /
    • 제54권1호
    • /
    • pp.111-120
    • /
    • 2017
  • 본 논문에서는 해저 퇴적물 분류를 위한 특징 추출 기법을 제안하고 검증한다. 기존 연구에서는 주파수의 영향이 없는 반사계수를 이용하여 퇴적물을 분류해 왔다. 그러나 해저 퇴적물의 음향 감쇠계수는 주파수의 함수이며 퇴적 성분에 따라 서로 다른 특성을 나타낸다. 따라서 주파수에 따른 감쇠계수 변화량을 이용하여 특징벡터를 생성하였다. 감쇠계수 변화량은 Chirp 신호에 의해 생성된 두 번째 층 반사신호를 이용하여 추정한다. Chirp 신호의 다중대역 특징이 다차원 벡터를 형성하기 때문에 기존의 방법에 비해 우수한 특성을 갖는다. 반사계수에 의한 분류 성능과 비교하기 위해 선형 판별 분석법 (LDA, Linear Discriminant Analysis)를 이용하여 차원을 축소하였다. Biot 모델을 이용하여 모의실험 환경을 구축하고 Fisher score와 MLD(Maximum Likelihood Decision)를 기반의 분류 정확도를 이용해 제안된 특징을 평가하였다. 그 결과, 제안된 특징은 반사계수에 비해 높은 변별력을 보이며, 측정 및 깊이 추정오차에도 강인한 특성을 보였다.

SNS 데이터를 이용한 공공시설 매력도지수에 따른 접근성 분석기법 (Accessibility Analysis Method based on Public Facility Attraction Index Using SNS Data)

  • 이지원;유기윤;김지영
    • 한국측량학회지
    • /
    • 제37권1호
    • /
    • pp.29-42
    • /
    • 2019
  • 본 연구는 공공시설의 질적인 측면의 확대를 위해 SNS (Social Network Service) 데이터를 활용하여 이용자 중심의 공공시설 선호요인을 도출하고, 이를 공급측면과 수요측면에서 정량화시키는 방법을 제안하였다. 선호요인 도출을 위해 토픽모델링 중 하나인 LDA (Latent Dirichlet Allocation)를 활용하였으며, 공급요인인 개별시설별로 매력도지수를 산출하였다. 또한 수요자 입장에서 서비스체감 정도를 측정하기 위해 공간접근성을 분석하였는데, 2SFCA (2-Step Floating Catchment Area) 방법을 활용하여 앞서 제안한 공공시설 매력도지수를 적용할 수 있도록 하였다. 실험은 서울시 공공도서관을 대상으로 진행하였다. 연구결과 공공도서관에 대한 선호요인으로 주변 환경, 시설 및 이용규모, 문화 프로그램, 육아, 장서 및 자료현황의 5가지 주제가 추출되었으며, 주변 환경이나 육아관련 주제는 새롭게 도출된 선호요인으로 선행연구와 차별성이 있다. 각 도서관별로 매력도지수를 산출한 결과 송파도서관, 정독도서관, 남산도서관의 매력도지수가 높게 나타났으며, 송파도서관은 육아요인에서 정독도서관과 남산도서관은 주변 환경요인에서 좋은 평가를 받고 있는 것으로 나타났다. 각 동별 공간접근성은 공공도서관이 많이 몰려있는 서울 중심부의 접근성이 좋은 편이며, 외곽지역으로 갈수록 줄어드는 것으로 보였다. 본 연구에 제안한 기법을 통해 이용자 중심의 공공시설 평가 및 정책의사 결정에 도움을 줄 것으로 기대한다.

텍스트마이닝 기법을 활용한 교육관점에서의 메타버스 관련 이슈 탐색 - 뉴스 빅데이터를 중심으로 (Exploring Issues Related to the Metaverse from the Educational Perspective Using Text Mining Techniques - Focusing on News Big Data)

  • 박주연;정도헌
    • 산업융합연구
    • /
    • 제20권6호
    • /
    • pp.27-35
    • /
    • 2022
  • 본 연구는 뉴스 빅데이터에 나타난 메타버스 관련 이슈들을 교육관점에서 분석하여 그 특징을 탐색하고, 메타버스의 교육적 활용가능성 및 미래교육에 대한 시사점을 제공하는데 목적이 있다. 이를 위해 포털사이트에서 검색되는 메타버스 관련 뉴스 데이터를 41,366건 수집하였고, 대표적인 용어 가중치 모델인 TF-IDF를 이용하여 추출된 모든 키워드의 가중치 값을 계산하여 순위화한 후, 워드클라우드로 시각화 분석을 수행하였다. 또한 정교한 확률기반 텍스트마이닝 기법인 토픽모델링(LDA)을 활용하여 주요 토픽들을 분석하였다. 연구결과 교육관점에서 메타버스의 핵심 이슈로는 플랫폼 산업, 미래인재, 기술의 확산 등과 같은 주제가 도출되었다. 또한, 기술, 직업, 교육이라는 세 개의 핵심 주제로 2차 데이터 분석을 실시한 결과 미래교육에서 메타버스는 교육플랫폼의 혁신, 미래 직업의 혁신, 미래 역량의 혁신과 관련한 이슈를 갖는 것으로 나타났다. 본 연구는 방대한 양의 뉴스 빅데이터를 단계적으로 분석하여 교육관점에서 이슈를 도출하고 미래교육에 대한 시사점을 제공하였다는 데 의의가 있다.

Discriminant analysis of grain flours for rice paper using fluorescence hyperspectral imaging system and chemometric methods

  • Seo, Youngwook;Lee, Ahyeong;Kim, Bal-Geum;Lim, Jongguk
    • 농업과학연구
    • /
    • 제47권3호
    • /
    • pp.633-644
    • /
    • 2020
  • Rice paper is an element of Vietnamese cuisine that can be used to wrap vegetables and meat. Rice and starch are the main ingredients of rice paper and their mixing ratio is important for quality control. In a commercial factory, assessment of food safety and quantitative supply is a challenging issue. A rapid and non-destructive monitoring system is therefore necessary in commercial production systems to ensure the food safety of rice and starch flour for the rice paper wrap. In this study, fluorescence hyperspectral imaging technology was applied to classify grain flours. Using the 3D hyper cube of fluorescence hyperspectral imaging (fHSI, 420 - 730 nm), spectral and spatial data and chemometric methods were applied to detect and classify flours. Eight flours (rice: 4, starch: 4) were prepared and hyperspectral images were acquired in a 5 (L) × 5 (W) × 1.5 (H) cm container. Linear discriminant analysis (LDA), partial least square discriminant analysis (PLSDA), support vector machine (SVM), classification and regression tree (CART), and random forest (RF) with a few preprocessing methods (multivariate scatter correction [MSC], 1st and 2nd derivative and moving average) were applied to classify grain flours and the accuracy was compared using a confusion matrix (accuracy and kappa coefficient). LDA with moving average showed the highest accuracy at A = 0.9362 (K = 0.9270). 1D convolutional neural network (CNN) demonstrated a classification result of A = 0.94 and showed improved classification results between mimyeon flour (MF)1 and MF2 of 0.72 and 0.87, respectively. In this study, the potential of non-destructive detection and classification of grain flours using fHSI technology and machine learning methods was demonstrated.