• 제목/요약/키워드: Preprocess

검색결과 178건 처리시간 0.023초

텍스트마이닝과 연관규칙을 이용한 외부감사 실시내용의 그룹별 핵심어 추출 (Group-wise Keyword Extraction of the External Audit using Text Mining and Association Rules)

  • 성윤석;이동희;정욱
    • 품질경영학회지
    • /
    • 제50권1호
    • /
    • pp.77-89
    • /
    • 2022
  • Purpose: In order to improve the audit quality of a company, an in-depth analysis is required to categorize the audit report in the form of a text document containing the details of the external audit. This study introduces a systematic methodology to extract keywords for each group that determines the differences between groups such as 'audit plan' and 'interim audit' using audit reports collected in the form of text documents. Methods: The first step of the proposed methodology is to preprocess the document through text mining. In the second step, the documents are classified into groups using machine learning techniques and based on this, important vocabularies that have a dominant influence on the performance of classification are extracted. In the third step, the association rules for each group's documents are found. In the last step, the final keywords for each group representing the characteristics of each group are extracted by comparing the important vocabulary for classification with the important vocabulary representing the association rules of each group. Results: This study quantitatively calculates the importance value of the vocabulary used in the audit report based on machine learning rather than the qualitative research method such as the existing literature search, expert evaluation, and Delphi technique. From the case study of this study, it was found that the extracted keywords describe the characteristics of each group well. Conclusion: This study is meaningful in that it has laid the foundation for quantitatively conducting follow-up studies related to key vocabulary in each stage of auditing.

초등 인공지능 교육을 위한 데이터 범주와 알고리즘 종류 탐색 (Exploring Data Categories and Algorithm Types for Elementary AI Education)

  • 심재권
    • 한국정보교육학회:학술대회논문집
    • /
    • 한국정보교육학회 2021년도 학술논문집
    • /
    • pp.167-173
    • /
    • 2021
  • 본 연구는 초등학생 대상의 인공지능 교육에서 다루는 알고리즘의 종류, 활용하는 도구와 데이터의 범주를 논의하는 것을 목적으로 초등예비교사 11명을 대상으로 15주 동안 데이터, 인공지능 알고리즘, 인공지능 교육 플랫폼을 교육 및 실습한 후 설문하여 초등학생 수준을 고려한 데이터와 알고리즘의 범주, 교육 도구를 제시하고 적합성을 분석하였다. 설문을 통해 교사가 수업목적에 따라 사전에 데이터를 선정 및 가공하여 교육에 사용하는 것이 가장 적합하며, 분류와 예측 알고리즘이 초등 인공지능 교육에서 다루기에 적절하다는 결론을 도출하였다. 또한, 엔트리가 인공지능 교육 도구로서 가장 적합하며 인공지능의 학습이라는 개념을 교육하기 위해 수학적 지식을 설명하는 자료가 필요함을 확인하였다. 본 연구는 초등학생의 인공지능 교육에서 다루는 알고리즘과 데이터의 범주를 구체적으로 제시하고 이와 관련된 수학교육에 대한 필요성과 적절한 교육 도구를 분석하였다는 점에서 의의가 있다.

  • PDF

AutoFe-Sel: A Meta-learning based methodology for Recommending Feature Subset Selection Algorithms

  • Irfan Khan;Xianchao Zhang;Ramesh Kumar Ayyasam;Rahman Ali
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권7호
    • /
    • pp.1773-1793
    • /
    • 2023
  • Automated machine learning, often referred to as "AutoML," is the process of automating the time-consuming and iterative procedures that are associated with the building of machine learning models. There have been significant contributions in this area across a number of different stages of accomplishing a data-mining task, including model selection, hyper-parameter optimization, and preprocessing method selection. Among them, preprocessing method selection is a relatively new and fast growing research area. The current work is focused on the recommendation of preprocessing methods, i.e., feature subset selection (FSS) algorithms. One limitation in the existing studies regarding FSS algorithm recommendation is the use of a single learner for meta-modeling, which restricts its capabilities in the metamodeling. Moreover, the meta-modeling in the existing studies is typically based on a single group of data characterization measures (DCMs). Nonetheless, there are a number of complementary DCM groups, and their combination will allow them to leverage their diversity, resulting in improved meta-modeling. This study aims to address these limitations by proposing an architecture for preprocess method selection that uses ensemble learning for meta-modeling, namely AutoFE-Sel. To evaluate the proposed method, we performed an extensive experimental evaluation involving 8 FSS algorithms, 3 groups of DCMs, and 125 datasets. Results show that the proposed method achieves better performance compared to three baseline methods. The proposed architecture can also be easily extended to other preprocessing method selections, e.g., noise-filter selection and imbalance handling method selection.

토픽 모형과 ChatGPT를 활용한 스마트팩토리 연관 특허 빅데이터 분석에 관한 연구 (A Study on Big Data Analysis of Related Patents in Smart Factories Using Topic Models and ChatGPT)

  • 김상국;윤민영;권태훈;임정선
    • 산업경영시스템학회지
    • /
    • 제46권4호
    • /
    • pp.15-31
    • /
    • 2023
  • In this study, we propose a novel approach to analyze big data related to patents in the field of smart factories, utilizing the Latent Dirichlet Allocation (LDA) topic modeling method and the generative artificial intelligence technology, ChatGPT. Our method includes extracting valuable insights from a large data-set of associated patents using LDA to identify latent topics and their corresponding patent documents. Additionally, we validate the suitability of the topics generated using generative AI technology and review the results with domain experts. We also employ the powerful big data analysis tool, KNIME, to preprocess and visualize the patent data, facilitating a better understanding of the global patent landscape and enabling a comparative analysis with the domestic patent environment. In order to explore quantitative and qualitative comparative advantages at this juncture, we have selected six indicators for conducting a quantitative analysis. Consequently, our approach allows us to explore the distinctive characteristics and investment directions of individual countries in the context of research and development and commercialization, based on a global-scale patent analysis in the field of smart factories. We anticipate that our findings, based on the analysis of global patent data in the field of smart factories, will serve as vital guidance for determining individual countries' directions in research and development investment. Furthermore, we propose a novel utilization of GhatGPT as a tool for validating the suitability of selected topics for policy makers who must choose topics across various scientific and technological domains.

DX 전환 환경에서 EDA에 대한 재고찰 (A study on rethinking EDA in digital transformation era)

  • 고승곤
    • 응용통계연구
    • /
    • 제37권1호
    • /
    • pp.87-102
    • /
    • 2024
  • 디지털 전환(digital transformation)이란 기업이나 조직이 기존의 비즈니스 모델이나 영업 활동을 디지털 기술을 활용하여 변화시키거나 새롭게 혁신하는 과정을 말한다. 이는 시장에서의 경쟁력 강화, 고객 경험 개선 그리고 새로운 사업의 발굴 등을 위하여 다양한 디지털 기술들 - 클라우드 컴퓨팅, IoT, 인공 지능 등 - 의 활용이 요구된다. 또한 시장, 고객 그리고 생산 환경에 대한 지식과 통찰을 도출할 수 있도록 올바른 데이터의 선택, 분석 가능한 상태로의 데이터 전처리(preprocessing) 그리고 목적에 적합한 체계적인 분석들에 대한 올바른 프로세스 정립을 필요로 한다. 이러한 디지털 빅 데이터의 유용성은 적합한 전처리와 함께 정보 및 가설 탐색 그리고 지식과 통찰의 시각화를 위한 탐색적 데이터 분석(exploratory data analysis; EDA)의 올바른 적용이 결정한다. 본 논문에서는 EDA의 철학과 기본 개념에 대하여 재고찰과 함께 효과적인 시각화를 위하여 시각화 핵심 정보, 그래프 문법(grammar of graphics)에 기초한 정보 표현 방법 그리고 최종 시각화 검토 기준인 ACCENT 원칙을 논의한다.

YOLO v8을 활용한 컴퓨터 비전 기반 교통사고 탐지 (Computer Vision-Based Car Accident Detection using YOLOv8)

  • 마르와 차차 안드레아;이충권;김양석;노미진;문상일;신재호
    • 한국산업정보학회논문지
    • /
    • 제29권1호
    • /
    • pp.91-105
    • /
    • 2024
  • 자동차 사고는 차량 간의 충돌로 인해 발생되며, 이로 인해 차량의 손상과 함께 인적, 물적 피해가 유발된다. 본 연구는 CCTV에 의해 촬영되어 YouTube에 업로드된 차량사고 동영상으로 부터 추출된 2,550개의 이미지 프레임을 기반으로 차량사고 탐지모델을 개발하였다. 전처리를 위해 roboflow.com을 사용하여 바운딩 박스를 표시하고 이미지를 다양한 각도로 뒤집어 데이터 세트를 증강하였다. 훈련에서는 You Only Look Once 버전 8 (YOLOv8) 모델을 사용하였고, 사고 탐지에 있어서 평균 0.954의 정확도를 달성하였다. 제안된 모델은 비상시에 경보 전송을 용이하게 하는 실용적 의의를 가지고 있다. 또한, 효과적이고 효율적인 차량사고 탐지 메커니즘 개발에 대한 연구에 기여하고 스마트폰과 같은 기기에서 활용될 수 있다. 향후의 연구에서는 소리와 같은 추가 데이터의 통합을 포함하여 탐지기능을 정교화하고자 한다.

연속음성신호의 SNR 추정기법에 관한 연구 (A Study on SNR Estimation of Continuous Speech Signal)

  • 송영환;박형우;배명진
    • 한국음향학회지
    • /
    • 제28권4호
    • /
    • pp.383-391
    • /
    • 2009
  • 음성 신호처리 환경에서 잡음이 섞인 신호를 개선할 목적으로 음성향상 기법이 많이 이용되고 있다. 잡음추정 알고리즘은 변화하는 환경에 빠르게 적응할 수 있어야 하며 음성신호의 영향을 줄이기 위해 음성신호가 존재하지 않는 구간에서만 잡음의 파워를 갱신한다. 이러한 방법은 음성구간검출이 선행되어야 한다. 그러나 잡음에 열화된 음성신호에 묵음구간이 존재하지 않을 경우, 위와 같이 음성검출을 통한 묵음구간에서의 잡음 추정 방법 및 SNR 추정 방법이 적용될 수 없다. 본 논문에서는 묵음구간이 존재하지 않는 연속음성신호에서 SNR을 추정하는 기법을 제안한다. 유성음의 안정구간에서는 단구간 내 피치의 변화가 매우 작아 피치주기에 따른 음성신호의 파형이 유사하게 나타난다. 따라서 잡음이 음성에 부가되었을 때 피치주기에 따른 인접파형의 유사도를 통해 SNR을 추정한다. 무성음에서는 잡음의 영향이 수신신호의 성도성분 추정에 영향을 미치기 때문에 잡음환경에서 추정된 성도성분과 수신신호 스펙트럼 간의 거리를 이용하여 SNR을 추정한다. 마지막으로, 음성신호의 에너지가 유성음에 대부분 분포하기 때문에, 부가성 잡음 환경에서 유성음의 에너지를 음성신호의 에너지로 근사화하여 SNR을 추정할 수 있다.

연속음성신호에서 IMBE 모델을 이용한 SNR 추정 연구 (IMBE Model Based SNR Estimation of Continuous Speech Signals)

  • 박형우;배명진
    • 한국음향학회지
    • /
    • 제29권2호
    • /
    • pp.148-153
    • /
    • 2010
  • 음성 신호처리 환경에서 잡음이 섞인 신호를 개선할 목적으로 음성향상 기법이 많이 이용되고 있다. 잡음추정 알고리즘은 변화하는 환경에 빠르게 적응할 수 있어야 하며 음성신호의 영향을 줄이기 위해 음성신호가 존재하지 않는 구간에서만 잡음의 파워를 갱신한다. 이러한 방법은 음성구간검출이 선행되어야 한다. 그러나 잡음에 열화된 음성신호에 묵음구간이 존재하지 않을 경우, 위와 같이 음성검출을 통한 묵음구간에서의 잡음 추정 방법 및 SNR 추정 방법이 적용될 수 없다. 본 논문에서는 묵읍구간이 존재하지 않는 연속음성신호에서 SNR을 추정하는 기법을 제안한다. 음성신호는 MBE(Multi-Band Excitation) 발성 모델에 따라 유 무성음으로 구분할 수 있다. 그리고 에너지가 유성음에 대부분 분포하기 때문에, 부가성 잡음환경에서 유성음의 에너지를 음성신호의 에너지로 근사화하여 SNR을 추정할 수 있다. 제안하는 방식은 연속음성신호를 IMBE (Improved Multi-Band Exciation) 보코더를 이용해 유 무성음 대역으로 구분하고, 각각 대역의 에너지 정보를 아용하여 단구간 음성신호의 SNR을 계산한다. 전체 음성구간의 SNR은 단구간 SNR의 평균값을 통해 추정한다.

Comparison of regression model and LSTM-RNN model in predicting deterioration of prestressed concrete box girder bridges

  • Gao Jing;Lin Ruiying;Zhang Yao
    • Structural Engineering and Mechanics
    • /
    • 제91권1호
    • /
    • pp.39-47
    • /
    • 2024
  • Bridge deterioration shows the change of bridge condition during its operation, and predicting bridge deterioration is important for implementing predictive protection and planning future maintenance. However, in practical application, the raw inspection data of bridges are not continuous, which has a greater impact on the accuracy of the prediction results. Therefore, two kinds of bridge deterioration models are established in this paper: one is based on the traditional regression theory, combined with the distribution fitting theory to preprocess the data, which solves the problem of irregular distribution and incomplete quantity of raw data. Secondly, based on the theory of Long Short-Term Memory (LSTM) Recurrent Neural Network (RNN), the network is trained using the raw inspection data, which can realize the prediction of the future deterioration of bridges through the historical data. And the inspection data of 60 prestressed concrete box girder bridges in Xiamen, China are used as an example for validation and comparative analysis, and the results show that both deterioration models can predict the deterioration of prestressed concrete box girder bridges. The regression model shows that the bridge deteriorates gradually, while the LSTM-RNN model shows that the bridge keeps great condition during the first 5 years and degrades rapidly from 5 years to 15 years. Based on the current inspection database, the LSTM-RNN model performs better than the regression model because it has smaller prediction error. With the continuous improvement of the database, the results of this study can be extended to other bridge types or other degradation factors can be introduced to improve the accuracy and usefulness of the deterioration model.

Network Anomaly Traffic Detection Using WGAN-CNN-BiLSTM in Big Data Cloud-Edge Collaborative Computing Environment

  • Yue Wang
    • Journal of Information Processing Systems
    • /
    • 제20권3호
    • /
    • pp.375-390
    • /
    • 2024
  • Edge computing architecture has effectively alleviated the computing pressure on cloud platforms, reduced network bandwidth consumption, and improved the quality of service for user experience; however, it has also introduced new security issues. Existing anomaly detection methods in big data scenarios with cloud-edge computing collaboration face several challenges, such as sample imbalance, difficulty in dealing with complex network traffic attacks, and difficulty in effectively training large-scale data or overly complex deep-learning network models. A lightweight deep-learning model was proposed to address these challenges. First, normalization on the user side was used to preprocess the traffic data. On the edge side, a trained Wasserstein generative adversarial network (WGAN) was used to supplement the data samples, which effectively alleviates the imbalance issue of a few types of samples while occupying a small amount of edge-computing resources. Finally, a trained lightweight deep learning network model is deployed on the edge side, and the preprocessed and expanded local data are used to fine-tune the trained model. This ensures that the data of each edge node are more consistent with the local characteristics, effectively improving the system's detection ability. In the designed lightweight deep learning network model, two sets of convolutional pooling layers of convolutional neural networks (CNN) were used to extract spatial features. The bidirectional long short-term memory network (BiLSTM) was used to collect time sequence features, and the weight of traffic features was adjusted through the attention mechanism, improving the model's ability to identify abnormal traffic features. The proposed model was experimentally demonstrated using the NSL-KDD, UNSW-NB15, and CIC-ISD2018 datasets. The accuracies of the proposed model on the three datasets were as high as 0.974, 0.925, and 0.953, respectively, showing superior accuracy to other comparative models. The proposed lightweight deep learning network model has good application prospects for anomaly traffic detection in cloud-edge collaborative computing architectures.