• 제목/요약/키워드: computational algorithm

검색결과 4,381건 처리시간 0.032초

불균형의 대용량 범주형 자료에 대한 분할-과대추출 정복 서포트 벡터 머신 (A divide-oversampling and conquer algorithm based support vector machine for massive and highly imbalanced data)

  • 방성완;김재오
    • 응용통계연구
    • /
    • 제35권2호
    • /
    • pp.177-188
    • /
    • 2022
  • 일반적으로 support vector machine (SVM)은 높은 수준의 분류 정확도를 제공함으로써 다양한 분야의 분류분석에서 널리 사용되고 있다. 그러나 SVM은 최적화 계산식이 이차계획법(quadratic programming)으로 공식화되어 많은 계산 비용이 필요하므로 대용량 자료의 분류분석에는 그 사용이 제한된다. 또한 불균형 자료(imbalanced data)의 분류분석에서는 다수집단에 편향된 분류함수를 추정함으로써 대부분의 자료를 다수집단으로 분류하여 소수집단의 분류 정확도를 현저히 감소시키게 된다. 이러한 문제점들을 해결하기 위하여 본 논문에서는 다수집단을 분할(divide)하고, 소수집단을 과대추출(oversampling)하여 여러 분류함수들을 추정하고 이들을 통합(conquer)하는 DOC-SVM 분류기법을 제안한다. 제안한 DOC-SVM은 분할정복 알고리즘을 다수집단에 적용하여 SVM의 계산 효율을 향상시키고, 과대추출 알고리즘을 소수집단에 적용하여 SVM 분류함수의 편향을 줄이게 된다. 본 논문에서는 모의실험과 실제자료 분석을 통해 제안한 DOC-SVM의 효율적인 성능과 활용 가능성을 확인하였다.

열-수리-역학적 연계해석을 위한 OGS-FLAC 시뮬레이터의 성능 평가 (Performance Evaluation of OGS-FLAC Simulator for Coupled Thermal-Hydrological-Mechanical Analysis)

  • 박도현;박찬희
    • 터널과지하공간
    • /
    • 제32권2호
    • /
    • pp.144-159
    • /
    • 2022
  • 본 연구에서는 지반의 열-수리-역학적 복합거동을 모델링하기 위한 순차적 접근법 기반의 시뮬레이터를 개발하고 적용된 연계해석 알고리즘의 계산성능을 분석하였다. 본 연구의 순차적 연계해석에서는 다공성 매질의 열 및 유체거동 분석을 위한 오픈소스 기반의 OpenGeoSys 수치코드와 역학해석을 위한 상용 소프트웨어 FLAC3D가 연동되었다. 해석해가 주어진 열-수리-역학적 복합거동 문제를 토대로 개발된 시뮬레이터에 대한 벤치마크 테스트가 수행되었다. 적용된 벤치마크 문제는 완전포화된 지반 내 점열원 작용 시 지반거동(시간에 따른 온도, 간극수압, 응력, 변형 변화)과 관계된다. 해석해와 수치해석 시뮬레이션 결과를 비교 분석하고 연계해석 시뮬레이터의 적정성을 조사하였다.

희박 공분산 행렬에 대한 베이지안 변수 선택 방법론 비교 연구 (A comparison study of Bayesian variable selection methods for sparse covariance matrices)

  • 김봉수;이경재
    • 응용통계연구
    • /
    • 제35권2호
    • /
    • pp.285-298
    • /
    • 2022
  • 연속 수축 사전분포는 spike and slab 사전분포와 더불어, 희박 회귀계수 벡터 또는 공분산 행렬에 대한 베이지안 추론을 위해 널리 사용되고 있다. 특히 고차원 상황에서, 연속 수축 사전분포는 spike and slab 사전분포에 비해 매우 작은 모수공간을 가짐으로써 계산적인 이점을 가진다. 하지만 연속 수축 사전분포는 정확히 0인 값을 생성하지 않기 때문에, 이를 이용한 변수 선택이 자연스럽지 않다는 문제가 있다. 비록 연속 수축 사전분포에 기반한 변수 선택 방법들이 개발되어 있기는 하지만, 이들에 대한 포괄적인 비교연구는 거의 진행되어 있지 않다. 본 논문에서는, 연속 수축 사전분포에 기반한 두 가지의 변수 선택 방법들을 비교하려 한다. 첫 번째 방법은 신용구간에 기반한 변수 선택, 두 번째 방법은 최근 Li와 Pati (2017)가 개발한 sequential 2-means 알고리듬이다. 두 방법에 대한 간략한 소개를 한 뒤, 다양한 모의실험 상황에서 자료를 생성하여 두 방법들의 성능을 비교하였다. 끝으로, 모의실험으로부터 발견한 몇 가지 사실들을 기술하고, 이로부터 몇 가지 제안을 하며 논문을 마치려 한다.

Application of POD reduced-order algorithm on data-driven modeling of rod bundle

  • Kang, Huilun;Tian, Zhaofei;Chen, Guangliang;Li, Lei;Wang, Tianyu
    • Nuclear Engineering and Technology
    • /
    • 제54권1호
    • /
    • pp.36-48
    • /
    • 2022
  • As a valid numerical method to obtain a high-resolution result of a flow field, computational fluid dynamics (CFD) have been widely used to study coolant flow and heat transfer characteristics in fuel rod bundles. However, the time-consuming, iterative calculation of Navier-Stokes equations makes CFD unsuitable for the scenarios that require efficient simulation such as sensitivity analysis and uncertainty quantification. To solve this problem, a reduced-order model (ROM) based on proper orthogonal decomposition (POD) and machine learning (ML) is proposed to simulate the flow field efficiently. Firstly, a validated CFD model to output the flow field data set of the rod bundle is established. Secondly, based on the POD method, the modes and corresponding coefficients of the flow field were extracted. Then, an deep feed-forward neural network, due to its efficiency in approximating arbitrary functions and its ability to handle high-dimensional and strong nonlinear problems, is selected to build a model that maps the non-linear relationship between the mode coefficients and the boundary conditions. A trained surrogate model for modes coefficients prediction is obtained after a certain number of training iterations. Finally, the flow field is reconstructed by combining the product of the POD basis and coefficients. Based on the test dataset, an evaluation of the ROM is carried out. The evaluation results show that the proposed POD-ROM accurately describe the flow status of the fluid field in rod bundles with high resolution in only a few milliseconds.

불량 웨이퍼 탐지를 위한 함수형 부정 탐지 지지 벡터기계 (Fraud detection support vector machines with a functional predictor: application to defective wafer detection problem)

  • 박민형;신승준
    • 응용통계연구
    • /
    • 제35권5호
    • /
    • pp.593-601
    • /
    • 2022
  • 빈번하지는 않지만 한번 발생하면 상대적으로 큰 손실을 가져오는 사례를 통칭하여 부정 사례(Fraud)라고 부르며, 부정 탐지의 문제는 많은 분야에서 활용된다. 부정 사례는 정상 사례에 비해 상대적으로 관측치가 매우 적고 오분류의 비용이 월등히 크기 때문에 일반적인 이항분류 기법을 바로 적용할 수 없다. 이러한 경우에 활용할 수 있는 방법이 부정 탐지 지지 벡터기계(FDSVM)이다. 본 논문에서는 공변량이 함수형일 때 활용 가능한 함수형 부정 탐지 지지 벡터기계(F2DSVM)를 제안하였다. 제안된 방법을 사용하면 함수형 공변량을 가진 데이터에서 사용자가 목표하는 부정 탐지의 성능을 만족시키는 제약하에서 최적의 예측력을 가지는 분류기를 학습시킬 수 있다. 뿐만아니라, 통상적인 SVM과 마찬가지로, F2DSVM도 자취해의 조각별 선형성을 보일 수 있으며 이를 바탕으로 효율적인 자취해 알고리즘을 활용할 수 있고 분류기의 학습 시간을 크게 단축시킬 수 있다. 마지막으로, 반도체 웨이퍼 불량 탐지 문제에 제안된 F2DSVM을 적용해 보았고, 그 활용 가능성을 확인하였다.

IoT 장비에 있어서 실시간 데이터 압축 전송을 위한 BL-beta 유니버설 코드의 경량화, 고속화 연구 (The study on Lightness and Performance Improvement of Universal Code (BL-beta code) for Real-time Compressed Data Transferring in IoT Device)

  • 김정훈
    • 한국정보전자통신기술학회논문지
    • /
    • 제15권6호
    • /
    • pp.492-505
    • /
    • 2022
  • 본 연구는 IoT 센싱 데이터의 무 손실 실시간 전송에 활용 가능한 BL-beta 코드의 엔코딩 및 디코딩 성능 개선을 통해 효과적으로 압축 데이터를 실시간으로 전송하고, 해독할 수 있도록 로직을 개선한 결과에 대한 연구이다. BL-beta 코드의 엔코딩 과정에는 비교적 연산 부담이 큰 로그 함수와 지수 함수, 나눗셈 및 제곱근 연산 등이 포함되어 있는데 이를 개선하여 비트 연산과 이진수 패턴 분석 그리고 비트 패턴을 이용한 뉴턴-랩슨 방법의 초기 값 설정을 통해 빠르게 데이터를 BL-beta 코드로 엔코딩 및 디코딩 할 수 있는 새로운 규칙성을 발견하였으며 이를 적용하여 기존 연구와 비교하여 알고리즘의 엔코딩 속도를 평균 24.8%, 디코딩 속도를 평균 5.3% 개선하였다.

양자내성암호 NTRU에 대한 전력 부채널 공격 및 대응방안 (Power-Based Side Channel Attack and Countermeasure on the Post-Quantum Cryptography NTRU)

  • 장재원;하재철
    • 정보보호학회논문지
    • /
    • 제32권6호
    • /
    • pp.1059-1068
    • /
    • 2022
  • 양자 컴퓨터의 계산 능력을 고려하여 설계된 양자 내성 암호 NTRU는 수학적으로 안전한 암호 조건을 만족하지만 하드웨어 구현 과정에서는 전력 분석 공격과 같은 부채널 공격 특성을 고려해야 한다. 본 논문에서는 NTRU의 복호화 과정 중 발생하는 전력 신호를 분석할 경우 개인 키가 노출될 가능성이 있음을 검증한다. 개인 키를 복구하는 데에는 단순 전력 분석 공격(Simple Power Analysis, SPA), 상관 전력 분석 공격(Correlation Power Analysis, CPA)과 차분 딥러닝 분석 공격(Differential Deep Learning Analysis, DDLA)을 모두 적용할 수 있었다. 이러한 전력 부채널 공격에 대응하기 위한 기본적인 대응책으로 셔플링 기법이 있으나 보다 효과적인 방법을 제안한다. 제안 방식은 인덱스별로 곱셈(multiplication)후 누산(accumulation)을 하는 것이 아니라 계수별로 누산 후 덧셈만 하도록 함으로써 곱셈 연산에 대한 전력 정보가 누출되지 않도록 하여 CPA 및 DDLA 공격을 방어할 수 있다.

Personalized Diabetes Risk Assessment Through Multifaceted Analysis (PD- RAMA): A Novel Machine Learning Approach to Early Detection and Management of Type 2 Diabetes

  • Gharbi Alshammari
    • International Journal of Computer Science & Network Security
    • /
    • 제23권8호
    • /
    • pp.17-25
    • /
    • 2023
  • The alarming global prevalence of Type 2 Diabetes Mellitus (T2DM) has catalyzed an urgent need for robust, early diagnostic methodologies. This study unveils a pioneering approach to predicting T2DM, employing the Extreme Gradient Boosting (XGBoost) algorithm, renowned for its predictive accuracy and computational efficiency. The investigation harnesses a meticulously curated dataset of 4303 samples, extracted from a comprehensive Chinese research study, scrupulously aligned with the World Health Organization's indicators and standards. The dataset encapsulates a multifaceted spectrum of clinical, demographic, and lifestyle attributes. Through an intricate process of hyperparameter optimization, the XGBoost model exhibited an unparalleled best score, elucidating a distinctive combination of parameters such as a learning rate of 0.1, max depth of 3, 150 estimators, and specific colsample strategies. The model's validation accuracy of 0.957, coupled with a sensitivity of 0.9898 and specificity of 0.8897, underlines its robustness in classifying T2DM. A detailed analysis of the confusion matrix further substantiated the model's diagnostic prowess, with an F1-score of 0.9308, illustrating its balanced performance in true positive and negative classifications. The precision and recall metrics provided nuanced insights into the model's ability to minimize false predictions, thereby enhancing its clinical applicability. The research findings not only underline the remarkable efficacy of XGBoost in T2DM prediction but also contribute to the burgeoning field of machine learning applications in personalized healthcare. By elucidating a novel paradigm that accentuates the synergistic integration of multifaceted clinical parameters, this study fosters a promising avenue for precise early detection, risk stratification, and patient-centric intervention in diabetes care. The research serves as a beacon, inspiring further exploration and innovation in leveraging advanced analytical techniques for transformative impacts on predictive diagnostics and chronic disease management.

AES 기반 화이트박스 암호 기법의 지연 시간과 연산량 분석 (Analysis of Latency and Computation Cost for AES-based Whitebox Cryptography Technique)

  • 이진민;김소연;이일구
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.115-117
    • /
    • 2022
  • 화이트박스 암호 기법은 암호 키 정보를 소프트웨어 기반 암호화 알고리즘에 섞어 암호 키의 노출을 막는 방식이다. 화이트박스 암호 기법은 허가되지 않은 역공학 분석으로 메모리에 접근하여 기밀 데이터와 키를 유추하기 어렵게 만들어서 종래의 하드웨어 기반의 보안 암호화 기법을 대체하는 기술로 주목받고 있다. 하지만, 암복호화 과정에서 연산 결과와 암호 키를 숨기기 위해 크기가 큰 룩업테이블을 사용하기 때문에 암복호 속도가 느리고, 메모리 사이즈가 커지는 문제가 발생한다. 특히 최근 저가, 저전력, 경량의 사물인터넷 제품들은 제한된 메모리 공간과 배터리 용량 때문에 화이트박스 암호을 적용하기 어렵다. 또한, 실시간 서비스를 지원해야 하는 네트워크 환경에서는 화이트박스 암호의 암복호화 속도로 인해 응답 지연 시간이 증가하여 통신 효율이 열화된다. 따라서 본 논문에서는 S.Chow가 제안한 AES 기반 화이트박스(WBC-AES)를 사용하여 속도와 메모리 요구조건을 만족할 수 있는지 실험 결과를 토대로 분석한다.

  • PDF

데이터마이닝의 자동 데이터 규칙 추출 방법론 개발 : 계층적 클러스터링 알고리듬과 러프 셋 이론을 중심으로 (Development of Automatic Rule Extraction Method in Data Mining : An Approach based on Hierarchical Clustering Algorithm and Rough Set Theory)

  • 오승준;박찬웅
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권6호
    • /
    • pp.135-142
    • /
    • 2009
  • 테이터 마이닝은 대용량의 데이터 셋을 분석하기 위하여 새로운 이론, 기법, 분석 툴을 제공하는 전산 지능분야의 새로운 영역중 하나이다. 데이터 마이닝의 주요 기법으로는 연관규칙 탐사, 분류, 클러스터링 등이 있다. 그러나 이들 기법을 기존 연구 방법들처럼 개별적으로 사용하는 것보다는 통합화하여 규칙들을 자동적으로 발견해내는 방법론이 필요하다. 이런 데이터 규칙 추출 방법론은 대량의 데이터들을 분석하여 성공적인 의사결정을 내리는데 도움을 줄 수 있기에 많은 분야에 이용될 수 있다. 본 논문에서는 계층적 클러스터링 알고리듬과 러프셋 이론을 이용하여 대량의 데이터로부터 의미 있는 규칙들을 발견해 내는 자동적인 규칙 추출 방법론을 제안한다. 또한 UCI KDD 아카이브에 포함되어 있는 데이터 셋을 이용하여 제안하는 방법에 대하여 실험을 수행하였으며, 실제 생성된 규칙들을 예시하였다. 이들 자동 생성된 규칙들은 효율적인 의사결정에 도움을 준다.