• 제목/요약/키워드: Feature Selection Methods

검색결과 318건 처리시간 0.03초

사전 탐지와 예방을 위한 랜섬웨어 특성 추출 및 분류 (Extraction and Taxonomy of Ransomware Features for Proactive Detection and Prevention)

  • 황윤철
    • 산업융합연구
    • /
    • 제21권9호
    • /
    • pp.41-48
    • /
    • 2023
  • 최근 들어 개인, 기업, 국가 등 사회 전반에 랜섬웨어에 의한 피해가 급증하고 있으며 그 규모도 점차 커지고 있다. 랜섬웨어는 사용자 컴퓨터 시스템에 침입하여 사용자의 중요 파일들을 암호화하여 사용자가 해당 파일들을 사용하지 못하게 하고 그 댓가로 금품을 요구하는 악의적인 소프트웨어이다. 랜섬웨어는 기타 다른 악의적인 코드들에 비해 공격기법이 다양하고 정교하여 탐지가 어렵고 피해 규모가 크기 때문에 정확한 탐지와 해결 방법이 필요하다. 정확한 랜섬웨어를 탐지하기 위해서는 랜섬웨어의 특성들로 학습한 탐지 시스템의 추론엔진이 요구된다. 따라서 본 논문에서는 랜섬웨어의 정확한 탐지를 위해 랜섬웨어가 가지는 특성을 추출하여 분류하는 모델을 제안하고 추출된 특성들의 유사성을 계산하여 특성의 차원을 축소한 다음 축소된 특성들을 그룹화하여 랜섬웨어의 특성으로 공격 도구, 유입경로, 설치파일, command and control, 실행파일, 획득권한, 우회기법, 수집정보, 유출기법, 목표 시스템의 상태 변경으로 분류하였다. 분류된 특성을 기존 랜섬웨어에 적용하여 분류의 타당성을 증명하였고, 차후에 이 분류기법을 이용해 학습한 추론엔진을 탐지시스템에 장착하면 새롭게 등장하는 신종과 변종 랜섬웨어도 대부분 탐지할 수 있다.

Prediction of Prognosis in Glioblastoma Using Radiomics Features of Dynamic Contrast-Enhanced MRI

  • Elena Pak;Kyu Sung Choi;Seung Hong Choi;Chul-Kee Park;Tae Min Kim;Sung-Hye Park;Joo Ho Lee;Soon-Tae Lee;Inpyeong Hwang;Roh-Eul Yoo;Koung Mi Kang;Tae Jin Yun;Ji-Hoon Kim;Chul-Ho Sohn
    • Korean Journal of Radiology
    • /
    • 제22권9호
    • /
    • pp.1514-1524
    • /
    • 2021
  • Objective: To develop a radiomics risk score based on dynamic contrast-enhanced (DCE) MRI for prognosis prediction in patients with glioblastoma. Materials and Methods: One hundred and fifty patients (92 male [61.3%]; mean age ± standard deviation, 60.5 ± 13.5 years) with glioblastoma who underwent preoperative MRI were enrolled in the study. Six hundred and forty-two radiomic features were extracted from volume transfer constant (Ktrans), fractional volume of vascular plasma space (Vp), and fractional volume of extravascular extracellular space (Ve) maps of DCE MRI, wherein the regions of interest were based on both T1-weighted contrast-enhancing areas and non-enhancing T2 hyperintense areas. Using feature selection algorithms, salient radiomic features were selected from the 642 features. Next, a radiomics risk score was developed using a weighted combination of the selected features in the discovery set (n = 105); the risk score was validated in the validation set (n = 45) by investigating the difference in prognosis between the "radiomics risk score" groups. Finally, multivariable Cox regression analysis for progression-free survival was performed using the radiomics risk score and clinical variables as covariates. Results: 16 radiomic features obtained from non-enhancing T2 hyperintense areas were selected among the 642 features identified. The radiomics risk score was used to stratify high- and low-risk groups in both the discovery and validation sets (both p < 0.001 by the log-rank test). The radiomics risk score and presence of isocitrate dehydrogenase (IDH) mutation showed independent associations with progression-free survival in opposite directions (hazard ratio, 3.56; p = 0.004 and hazard ratio, 0.34; p = 0.022, respectively). Conclusion: We developed and validated the "radiomics risk score" from the features of DCE MRI based on non-enhancing T2 hyperintense areas for risk stratification of patients with glioblastoma. It was associated with progression-free survival independently of IDH mutation status.

다분류 SVM을 이용한 DEA기반 벤처기업 효율성등급 예측모형 (The Prediction of DEA based Efficiency Rating for Venture Business Using Multi-class SVM)

  • 박지영;홍태호
    • Asia pacific journal of information systems
    • /
    • 제19권2호
    • /
    • pp.139-155
    • /
    • 2009
  • For the last few decades, many studies have tried to explore and unveil venture companies' success factors and unique features in order to identify the sources of such companies' competitive advantages over their rivals. Such venture companies have shown tendency to give high returns for investors generally making the best use of information technology. For this reason, many venture companies are keen on attracting avid investors' attention. Investors generally make their investment decisions by carefully examining the evaluation criteria of the alternatives. To them, credit rating information provided by international rating agencies, such as Standard and Poor's, Moody's and Fitch is crucial source as to such pivotal concerns as companies stability, growth, and risk status. But these types of information are generated only for the companies issuing corporate bonds, not venture companies. Therefore, this study proposes a method for evaluating venture businesses by presenting our recent empirical results using financial data of Korean venture companies listed on KOSDAQ in Korea exchange. In addition, this paper used multi-class SVM for the prediction of DEA-based efficiency rating for venture businesses, which was derived from our proposed method. Our approach sheds light on ways to locate efficient companies generating high level of profits. Above all, in determining effective ways to evaluate a venture firm's efficiency, it is important to understand the major contributing factors of such efficiency. Therefore, this paper is constructed on the basis of following two ideas to classify which companies are more efficient venture companies: i) making DEA based multi-class rating for sample companies and ii) developing multi-class SVM-based efficiency prediction model for classifying all companies. First, the Data Envelopment Analysis(DEA) is a non-parametric multiple input-output efficiency technique that measures the relative efficiency of decision making units(DMUs) using a linear programming based model. It is non-parametric because it requires no assumption on the shape or parameters of the underlying production function. DEA has been already widely applied for evaluating the relative efficiency of DMUs. Recently, a number of DEA based studies have evaluated the efficiency of various types of companies, such as internet companies and venture companies. It has been also applied to corporate credit ratings. In this study we utilized DEA for sorting venture companies by efficiency based ratings. The Support Vector Machine(SVM), on the other hand, is a popular technique for solving data classification problems. In this paper, we employed SVM to classify the efficiency ratings in IT venture companies according to the results of DEA. The SVM method was first developed by Vapnik (1995). As one of many machine learning techniques, SVM is based on a statistical theory. Thus far, the method has shown good performances especially in generalizing capacity in classification tasks, resulting in numerous applications in many areas of business, SVM is basically the algorithm that finds the maximum margin hyperplane, which is the maximum separation between classes. According to this method, support vectors are the closest to the maximum margin hyperplane. If it is impossible to classify, we can use the kernel function. In the case of nonlinear class boundaries, we can transform the inputs into a high-dimensional feature space, This is the original input space and is mapped into a high-dimensional dot-product space. Many studies applied SVM to the prediction of bankruptcy, the forecast a financial time series, and the problem of estimating credit rating, In this study we employed SVM for developing data mining-based efficiency prediction model. We used the Gaussian radial function as a kernel function of SVM. In multi-class SVM, we adopted one-against-one approach between binary classification method and two all-together methods, proposed by Weston and Watkins(1999) and Crammer and Singer(2000), respectively. In this research, we used corporate information of 154 companies listed on KOSDAQ market in Korea exchange. We obtained companies' financial information of 2005 from the KIS(Korea Information Service, Inc.). Using this data, we made multi-class rating with DEA efficiency and built multi-class prediction model based data mining. Among three manners of multi-classification, the hit ratio of the Weston and Watkins method is the best in the test data set. In multi classification problems as efficiency ratings of venture business, it is very useful for investors to know the class with errors, one class difference, when it is difficult to find out the accurate class in the actual market. So we presented accuracy results within 1-class errors, and the Weston and Watkins method showed 85.7% accuracy in our test samples. We conclude that the DEA based multi-class approach in venture business generates more information than the binary classification problem, notwithstanding its efficiency level. We believe this model can help investors in decision making as it provides a reliably tool to evaluate venture companies in the financial domain. For the future research, we perceive the need to enhance such areas as the variable selection process, the parameter selection of kernel function, the generalization, and the sample size of multi-class.

Ensemble of Nested Dichotomies 기법을 이용한 스마트폰 가속도 센서 데이터 기반의 동작 인지 (Ensemble of Nested Dichotomies for Activity Recognition Using Accelerometer Data on Smartphone)

  • 하으뜸;김정민;류광렬
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.123-132
    • /
    • 2013
  • 최근 스마트 폰에 다양한 센서를 내장할 수 있게 되었고 스마트폰에 내장된 센서를 이용항 동작 인지에 관한 연구가 활발히 진행되고 있다. 스마트폰을 이용한 동작 인지는 노인 복지 지원이나 운동량 측정. 생활 패턴 분석, 운동 패턴 분석 등 다양한 분야에 활용될 수 있다. 하지만 스마트 폰에 내장된 센서를 이용하여 동작 인지를 하는 방법은 사용되는 센서의 수에 따라 단일 센서를 이용한 동작인지와 다중 센서를 이용한 동작인지로 나눌 수 있다. 단일 센서를 이용하는 경우 대부분 가속도 센서를 이용하기 때문에 배터리 부담은 줄지만 다양한 동작을 인지할 때에 특징(feature) 추출의 어려움과 동작 인지 정확도가 낮다는 문제점이 있다. 그리고 다중 센서를 이용하는 경우 대부분 가속도 센서와 중력센서를 사용하고 필요에 따라 다른 센서를 추가하여 동작인지를 수행하며 다양한 동작을 보다 높은 정확도로 인지할 수 있지만 다수의 센서를 사용하기 때문에 배터리 부담이 증가한다는 문제점이 있다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 스마트 폰에 내장된 가속도 센서를 이용하여 다양한 동작을 높은 정확도로 인지하는 방법을 제안한다. 서로 다른 10가지의 동작을 높을 정확도로 인지하기 위해 원시 데이터로부터 17가지 특징을 추출하고 각 동작을 분류하기 위해 Ensemble of Nested Dichotomies 분류기를 사용하였다. Ensemble of Nested Dichotomies 분류기는 다중 클래스 문제를 다수의 이진 분류 문제로 변형하여 다중 클래스 문제를 해결하는 방법으로 서로 다른 Nested Dichotomy 분류기의 분류 결과를 통해 다중 클래스 문제를 해결하는 기법이다. Nested Dichotomy 분류기 학습에는 Random Forest 분류기를 사용하였다. 성능 평가를 위해 Decision Tree, k-Nearest Neighbors, Support Vector Machine과 비교 실험을 한 결과 Ensemble of Nested Dichotomies 분류기를 사용하여 동작 인지를 수행하는 것이 가장 높은 정확도를 보였다.

초등학교 안전교육 내용분석연구 (A Study on the Contents Analysis of Safety Education in Elementary School : Focusing on Comparison with the Needs of Students)

  • 김탁희;이명선
    • 보건교육건강증진학회지
    • /
    • 제18권2호
    • /
    • pp.45-63
    • /
    • 2001
  • The objective of this study is to give basic materials for selection and improvement of contents of safety education, which is substantially helpful to elementary students, by analysis of contents of safety education in some subjects and assessment of the needs of elementary students for safety education. For this purpose, this study was analyzed the contents of safety education in five subjects for elementary school and conducted the survey of 883 students in some elementary schools in Seoul from April 7 to 22, 2000. The results were as follows; 1. As a result of analysis of the proportion of contents regarding safety-related education in some subjects, Physical Education occupied the highest proportion (14.09%), and that was followed by Practical Subject (9.55%) and Moral Education (9.34%). However, the proportions in Social Study and Natural Science were very low, 1.85% and 1.31% each. In total lines of these five subjects, the numbers of line regarding safety education was contained by 5.78%. 2. Analyzing the proportion of domains of safety education in five textbooks, the Meaning of Safety and Basic Principles occupied the highest portion (29.5%), and that was followed by the Home Safety (24.0%), the Safety in School (17.1%), and the Play and Leisure Safety (14.0%). The Coping with Accidents and First Aid, the Safety from Fire and Explosion, and the Traffic Safety occupied relatively low portion, 6.9%, 5.7%, and 2.8% each. 3. As a result of analysis of the proportion of the safety education domain in each subject, the Meaning of Safety and Basic Principles occupied the highest portion (23.6%) in Moral Education, the Home Safety (12.7%) in Practical Subject, and the Play and Leisure Safety (10.9%) in Physical Education. 4. Most of the participants in this survey experienced the Home Accidents (71.1%). And also, they experienced the Play and Leisure Accidents (57.9%), the Accidents in School (49.7%), the Traffic Accidents (45.3%), and the Fire and Explosion Accidents (24.7%) in order. 5. In the average proportion of the needs of participants for safety education in each domain, the Coping with Accidents and First Aid has the highest point (4.05). And, that was followed by the Home safety (3.79), the Safety from Fire and Explosion (3.73), the Meaning of Safety and Basic Principles (3.65), the Play and Leisure Safety (3.50), the Safety in School (3.37), and the Traffic Safety (3.35). The average proportion of the needs for safety education of total domains was 3.66. 6. In the needs for safety education regarding the feature of participants, it showed higher scores in female students than male ones (p〈0.001), in lower grader than higher grader (p〈0.05), and in the students born to wealth than those born poor (p〈0.05). Also, the children who recognize the necessity of safety education showed higher scores of the needs for safety education (p〈0.001). And it also showed the same results of high score to the children whose parents did the safety education (p〈0.00l) and to the children and their parents who have the higher degree of practicing safety (p〈0.001), and these differences were statistically significant. 7. In the extent of preference for methods of safety education, it showed high score to the Field Learning, followed by the Audio- Visual Education, the Discussion, and the Instruction of teacher. In the extent of preference for subjects regarding the contents of safety education by each domain, it showed high score to the subject of Safety for 4 domains - the Meaning of Safety and Basic Principles, the Traffic Safety, the Safety from Fire and Explosion, and the Coping with Accidents and First Aid. And also, they preferred Moral Education for 2 domains - the Home safety and the Safety in School, and Physical Education for a domain of the Play and Leisure Safety. 8. While 27 of 36 detail items was contained the contents of safety education, the proportion of needs of participants for safety education showed more than average 3.00 score in 34 of 36 detail items. However, none of 9 detail items was included in five textbooks. Also, 2 detail items - the Coping with Disasters and the Safety from Poisoning - were included together 2 parts; One part had the higher ranked 7 items acquired by analysis of the needs, and the other had the higher ranked 7 items acquired by analysis of the contents. But, except those 2 items, none of items were matched with each part.

  • PDF

중환자실 섬망 환자와 비섬망 환자 구분에 기여하는 임상 지표에 관한 연구 (A Study on Clinical Variables Contributing to Differentiation of Delirium and Non-Delirium Patients in the ICU)

  • 고찬영;김재진;조동래;오주영;박진영
    • 정신신체의학
    • /
    • 제27권2호
    • /
    • pp.101-110
    • /
    • 2019
  • 연구목적 중환자실 환자들의 섬망 발생 유무와 관련이 되어 있는 것으로 알려진 많은 임상 지표들이 있지만, 이 중 실제 섬망군과 비섬망군을 분류하는 데 있어서 어떠한 지표가 보다 중요한 역할을 하는지에 대한 연구는 충분히 이루어지지 않았다. 본 연구는 중환자실 내에서 섬망이 발생한 군과 발생하지 않은 군 사이의 재실 기간 내 특징을 비교하고, 두 군을 효과적으로 구분할 수 있는 임상 지표들을 확인하고자 하였다. 방 법 2013년 3월 1일부터 2017년 5월 31일까지 강남세브란스병원 중환자실에 있던 6386명의 환자들 중, 섬망과 연관성을 보일 것으로 예상되는 40개의 임상 지표에 대한 데이터가 재실 기간 중 적어도 한 번 이상 측정되거나, 확인이 가능한 환자 1559명을 대상으로 하였다. 무작위 부분집합 특징 선택 방법 및 주성분분석을 사용하여 섬망과 비섬망을 구분하는 데에 기여도가 높은 특징들의 순위를 구하고, 몇 개의 상위 지표가 동시에 사용되었을 때에 섬망과 비섬망을 가장 효율적으로 판별할 수 있는지를 확인하였다. 확인된 상위 지표만을 이용한 것과 전체 임상 지표를 모두 사용하였을 때의 섬망과 비섬망을 구분할 수 있는 정확도에 대해서 비교 분석하였다. 결 과 총 40개 변수 중 32개의 변수에서 섬망과 비섬망군 간 유의미한 차이를 보였다. 주성분 분석(Principal Component Analysis, PCA)상, 상위 6개 변수인 리치몬드 흥분 진정 척도(Richmond Agitation Sedation Scale, RASS), 도뇨관 사용 유무, 혈관 카테터 사용 유무, 해밀턴 불안 척도(Hamilton Anxiety Rating Scale, HAM-A), 혈액 요소 질소(Blood Urea Nitrogen, BUN), 급성 생리학 및 만성 건강 평가-II (Acute Physiology and Chronic Health Examination II, APACHE II)를 사용했을 때에 섬망과 비섬망군이 가장 잘 구분되었다. 이들 상위 6개 변수에 대해 단일 변수 로지스틱 회귀분석 시행 시 모두 섬망 여부 결정에 대한 유의성을 보였다. 다중 변수 회귀분석 시행 시, 혈관 카테터 사용 유무 를 제외하고 나머지 5개 변수에서 모두 섬망 여부 결정에 대한 유의성을 보였다. 수신자판단특성곡선 분석 결과 신뢰구간 95%에서 곡선하면적 0.818로 높은 판별력을 보였다. 전체 임상 변수를 모두 사용한 수신자판단특성곡선 분석 결과에서는 곡선하면적 0.881로 매우 높은 판별력을 보였다. 결 론 본 연구 결과, 리치몬드 흥분 진정 척도, 도뇨관 사용 유무, 혈관 카테터 사용 유무, 해밀턴 불안 척도, 혈액 요소 질소, 급성 생리학 및 만성 건강 평가-II가 섬망이 발생한 군과 섬망이 발생하지 않은 군을 구분하는데 가장 유용하였다. 중환자실 환자 중 리치몬드 흥분 진정 척도 및 해밀턴 불안 척도 점수가 과도하게 낮거나, 도뇨관 및 혈관 카테터 등의 침습적인 시술을 사용하였을 경우 좀 더 집중적인 모니터링을 통해 섬망의 가능성을 살펴보아야 할 것이다.

정밀한 다중센서 영상정합을 위한 통계적 상관성의 증대기법 (Enhancement of Inter-Image Statistical Correlation for Accurate Multi-Sensor Image Registration)

  • 김경수;이진학;나종범
    • 대한전자공학회논문지SP
    • /
    • 제42권4호
    • /
    • pp.1-12
    • /
    • 2005
  • 영상정합은 동일한 장면에 대해서 서로 다른 시간 혹은 서로 다른 특성의 센서로부터 서로 다른 위치에서 얻은 영상들의 위치적 대응관계를 찾는 기법이다. 이 논문에서는 특성이 다른 적외선 센서와 광학 센서로부터 얻은 영상의 정합을 위한 새로운 알고리즘을 제안한다. 지금까지 제안된 서로 다른 특성의 영상을 위한 정합기법은 크게 특징점 기반 영상정합기법과 밝기값 기반 영상정합기법으로 구분될 수 있다. 특징점 기반의 영상정합기법은 정확하게 대응하는 특징점을 선택하는 것이 성능에 결정적인 영향을 준다 그러나 적외선 영상과 가시광선 영상에서는 특징점이 서로 같지 않은 경우가 많기 때문에 강인하지 못하다 그리고 밝기 값 기반의 정합기법에서는 정규상호정보를 유사성 척도로 사용한 영상정합기법이 가장 좋은 성능을 제공하는 것으로 알려져 있다. 그러나 정규상호정보 기반의 영상정합기법은 두 영상의 통계적 상관성이 전역적이어야 한다는 가정을 전제하는데, 적외선 영상과 가시광선 영상에서는 이를 보장하지 못하는 경우가 많아 정규상호정보를 유사성 척도로 사용하는 영상정합기법에서도 좋은 성능을 기대하기 힐들다. 따라서 이 논문에서는 적외선 영상과 가시광선 영상의 통계적 상관성의 해석에 기반한 두 단계 영상정합기법을 제안한다. 정확하고 강인한 정합을 위해서 첫 단계에서는 두 영상에서 통계적 상관성이 높은 부분을 추출하는 ESCR기법과 두 영상을 통계적 상관성이 높도록 필터링하는 ESCF기법을 수행한다. 그리고 두 번째 단계에서는 첫 단계에서의 결과 영상에 대해서 정규상호정보를 유사성 척도로 한 영상정합을 수행한다. 다양한 적외선 영상과 가시광선 영상을 이용한 실험으로부터 제안하는 두 단계 영상정합기법이 기존의 정규상호정보 기반의 영상정합기법에 비해 정확도와 강인함, 그리고 실행 속도의 측면에서 더욱 향상된 성능을 제공함을 확인하였다.

딥러닝 시계열 알고리즘 적용한 기업부도예측모형 유용성 검증 (Corporate Default Prediction Model Using Deep Learning Time Series Algorithm, RNN and LSTM)

  • 차성재;강정석
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.1-32
    • /
    • 2018
  • 본 연구는 경제적으로 국내에 큰 영향을 주었던 글로벌 금융위기를 기반으로 총 10년의 연간 기업데이터를 이용한다. 먼저 시대 변화 흐름에 일관성있는 부도 모형을 구축하는 것을 목표로 금융위기 이전(2000~2006년)의 데이터를 학습한다. 이후 매개 변수 튜닝을 통해 금융위기 기간이 포함(2007~2008년)된 유효성 검증 데이터가 학습데이터의 결과와 비슷한 양상을 보이고, 우수한 예측력을 가지도록 조정한다. 이후 학습 및 유효성 검증 데이터를 통합(2000~2008년)하여 유효성 검증 때와 같은 매개변수를 적용하여 모형을 재구축하고, 결과적으로 최종 학습된 모형을 기반으로 시험 데이터(2009년) 결과를 바탕으로 딥러닝 시계열 알고리즘 기반의 기업부도예측 모형이 유용함을 검증한다. 부도에 대한 정의는 Lee(2015) 연구와 동일하게 기업의 상장폐지 사유들 중 실적이 부진했던 경우를 부도로 선정한다. 독립변수의 경우, 기존 선행연구에서 이용되었던 재무비율 변수를 비롯한 기타 재무정보를 포함한다. 이후 최적의 변수군을 선별하는 방식으로 다변량 판별분석, 로짓 모형, 그리고 Lasso 회귀분석 모형을 이용한다. 기업부도예측 모형 방법론으로는 Altman(1968)이 제시했던 다중판별분석 모형, Ohlson(1980)이 제시한 로짓모형, 그리고 비시계열 기계학습 기반 부도예측모형과 딥러닝 시계열 알고리즘을 이용한다. 기업 데이터의 경우, '비선형적인 변수들', 변수들의 '다중 공선성 문제', 그리고 '데이터 수 부족'이란 한계점이 존재한다. 이에 로짓 모형은 '비선형성'을, Lasso 회귀분석 모형은 '다중 공선성 문제'를 해결하고, 가변적인 데이터 생성 방식을 이용하는 딥러닝 시계열 알고리즘을 접목함으로서 데이터 수가 부족한 점을 보완하여 연구를 진행한다. 현 정부를 비롯한 해외 정부에서는 4차 산업혁명을 통해 국가 및 사회의 시스템, 일상생활 전반을 아우르기 위해 힘쓰고 있다. 즉, 현재는 다양한 산업에 이르러 빅데이터를 이용한 딥러닝 연구가 활발히 진행되고 있지만, 금융 산업을 위한 연구분야는 아직도 미비하다. 따라서 이 연구는 기업 부도에 관하여 딥러닝 시계열 알고리즘 분석을 진행한 초기 논문으로서, 금융 데이터와 딥러닝 시계열 알고리즘을 접목한 연구를 시작하는 비 전공자에게 비교분석 자료로 쓰이기를 바란다.