• 제목/요약/키워드: WEKA

검색결과 57건 처리시간 0.02초

소셜 네트워크 상에서의 재귀적 네트워크 구조 특성을 활용한 스팸탐지 기법 (Social Network Spam Detection using Recursive Structure Features)

  • 장보연;정시현;김종권
    • 정보과학회 논문지
    • /
    • 제44권11호
    • /
    • pp.1231-1235
    • /
    • 2017
  • 온라인 소셜 네트워크는 정보전파의 용이성 및 파급 영향력이 높지만 이를 악의적으로 활용하기 위한 스패머들이 다수 활동 중이다. 이러한 스패머를 식별하기 위한 스팸 탐지기법 연구가 다양한 분야에서 이루어지고 있지만 스패머들 또한 스팸 내용이나 스팸링크, 활동 주기 등의 특성을 변경하여 탐지를 피하고 있다. 하지만 다른 특성들과 달리 온라인 소셜 네트워크의 고유 네트워크 특성인 링크 특성은 쉽게 변화시키는 어렵다. 따라서 본 논문에서는 이러한 네트워크의 구조적인 특성을 활용하여 스패머를 일반사용자와 구분하는 방법을 제시한다. 즉 일반사용자 노드가 주변 노드와 비슷한 네트워크 특성을 갖는 점에 주목하여 인접 노드를 활용한 재귀적인 구조적 특성을 생성하여 활용함으로써 스패머의 식별확률을 높이고 있다. 이를 검증하기 위한 실험은 트위터의 실제 데이터셋을 Weka 프로그램에 탑재된 랜덤포레스트 알고리즘을 활용하여 측정하였으며, 재귀적인 특성을 활용하지 않는 방법과 기존 제안 알고리즘에 비해 탐지율이 0.82에서 0.90으로 향상됨으로써 제안하는 방법이 스패머를 탐지하는데 효과적임을 제시하고 있다.

의사결정나무 기법을 이용한 노인들의 자살생각 예측모형 및 의사결정 규칙 개발 (A Development of Suicidal Ideation Prediction Model and Decision Rules for the Elderly: Decision Tree Approach)

  • 김덕현;유동희;정대율
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제28권3호
    • /
    • pp.249-276
    • /
    • 2019
  • Purpose The purpose of this study is to develop a prediction model and decision rules for the elderly's suicidal ideation based on the Korean Welfare Panel survey data. By utilizing this data, we obtained many decision rules to predict the elderly's suicide ideation. Design/methodology/approach This study used classification analysis to derive decision rules to predict on the basis of decision tree technique. Weka 3.8 is used as the data mining tool in this study. The decision tree algorithm uses J48, also known as C4.5. In addition, 66.6% of the total data was divided into learning data and verification data. We considered all possible variables based on previous studies in predicting suicidal ideation of the elderly. Finally, 99 variables including the target variable were used. Classification analysis was performed by introducing sampling technique through backward elimination and data balancing. Findings As a result, there were significant differences between the data sets. The selected data sets have different, various decision tree and several rules. Based on the decision tree method, we derived the rules for suicide prevention. The decision tree derives not only the rules for the suicidal ideation of the depressed group, but also the rules for the suicidal ideation of the non-depressed group. In addition, in developing the predictive model, the problem of over-fitting due to the data imbalance phenomenon was directly identified through the application of data balancing. We could conclude that it is necessary to balance the data on the target variables in order to perform the correct classification analysis without over-fitting. In addition, although data balancing is applied, it is shown that performance is not inferior in prediction rate when compared with a biased prediction model.

Exploring Support Vector Machine Learning for Cloud Computing Workload Prediction

  • ALOUFI, OMAR
    • International Journal of Computer Science & Network Security
    • /
    • 제22권10호
    • /
    • pp.374-388
    • /
    • 2022
  • Cloud computing has been one of the most critical technology in the last few decades. It has been invented for several purposes as an example meeting the user requirements and is to satisfy the needs of the user in simple ways. Since cloud computing has been invented, it had followed the traditional approaches in elasticity, which is the key characteristic of cloud computing. Elasticity is that feature in cloud computing which is seeking to meet the needs of the user's with no interruption at run time. There are traditional approaches to do elasticity which have been conducted for several years and have been done with different modelling of mathematical. Even though mathematical modellings have done a forward step in meeting the user's needs, there is still a lack in the optimisation of elasticity. To optimise the elasticity in the cloud, it could be better to benefit of Machine Learning algorithms to predict upcoming workloads and assign them to the scheduling algorithm which would achieve an excellent provision of the cloud services and would improve the Quality of Service (QoS) and save power consumption. Therefore, this paper aims to investigate the use of machine learning techniques in order to predict the workload of Physical Hosts (PH) on the cloud and their energy consumption. The environment of the cloud will be the school of computing cloud testbed (SoC) which will host the experiments. The experiments will take on real applications with different behaviours, by changing workloads over time. The results of the experiments demonstrate that our machine learning techniques used in scheduling algorithm is able to predict the workload of physical hosts (CPU utilisation) and that would contribute to reducing power consumption by scheduling the upcoming virtual machines to the lowest CPU utilisation in the environment of physical hosts. Additionally, there are a number of tools, which are used and explored in this paper, such as the WEKA tool to train the real data to explore Machine learning algorithms and the Zabbix tool to monitor the power consumption before and after scheduling the virtual machines to physical hosts. Moreover, the methodology of the paper is the agile approach that helps us in achieving our solution and managing our paper effectively.

국민건강영양조사를 활용한 대사증후군 유병 예측모형 개발을 위한 융복합 연구: 데이터마이닝을 활용하여 (Development of Prediction Model for Prevalence of Metabolic Syndrome Using Data Mining: Korea National Health and Nutrition Examination Study)

  • 김한결;최근호;임성원;이현실
    • 디지털융복합연구
    • /
    • 제14권2호
    • /
    • pp.325-332
    • /
    • 2016
  • 이 연구의 목적은 국민건강영양조사 2012년 자료 중 40세 이상 성인의 대사증후군 유병 여부를 예측에 영향을 미치는 변수를 확인하고 이를 예측하는 모형 개발하는데 있다. 선행연구를 통해 모델 생성에 필요한 투입변수를 선정하였다. 연구결과 투입변수 중 사회경제적 요인이 상위 순위에 해당하였으며, 건강행위 요인의 경우 하위 순위로 나타났다. 또한, 최종 예측모형은 의사결정나무 (Decision Tree)일 경우 90. 32%의 가장 높은 예측력을 나타내고 있었다. 이 연구의 결과는 다음과 같은 시사점을 나타낸다. 먼저, 대사증후군에 대한 예방 및 관리에 있어 건강행위에 대한 접근과 함께 사회경제적 요인에 대한 접근도 병행을 고려해야 한다. 또한, 의사결정나무 알고리즘의 경우 결과해석의 용이성이 있어 보건의료분야에서 많이 사용되며, 선행연구의 결과와 마찬가지로 높은 예측정확도를 나타내고 있다.

사상체질 진단검사를 위한 데이터마이닝 알고리즘 연구 (Data mining Algorithms for the Development of Sasang Type Diagnosis)

  • 홍진우;김영인;박소정;김병철;엄일규;황민우;신상우;김병주;권영규;채한
    • 동의생리병리학회지
    • /
    • 제23권6호
    • /
    • pp.1234-1240
    • /
    • 2009
  • This study was to compare the effectiveness and validity of various data-mining algorithm for Sasang type diagnostic test. We compared the sensitivity and specificity index of nine attribute selection and eleven class classification algorithms with 31 data-set characterizing Sasang typology and 10-fold validation methods installed in Waikato Environment Knowledge Analysis (WEKA). The highest classification validity score can be acquired as follows; 69.9 as Percentage Correctly Predicted index with Naive Bayes Classifier, 80 as sensitivity index with LWL/Tae-Eum type, 93.5 as specificity index with Naive Bayes Classifier/So-Eum type. The classification algorithm with highest PCP index of 69.62 after attribute selection was Naive Bayes Classifier. In this study we can find that the best-fit algorithm for traditional medicine is case sensitive and that characteristics of clinical circumstances, and data-mining algorithms and study purpose should be considered to get the highest validity even with the well defined data sets. It is also confirmed that we can't find one-fits-all algorithm and there should be many studies with trials and errors. This study will serve as a pivotal foundation for the development of medical instruments for Pattern Identification and Sasang type diagnosis on the basis of traditional Korean Medicine.

인공신경망을 이용한 KOMPSAT-3/3A/5 영상으로부터 자연림과 인공림의 분류 (Classification of Natural and Artificial Forests from KOMPSAT-3/3A/5 Images Using Artificial Neural Network)

  • 이용석;박숭환;정형섭;백원경
    • 대한원격탐사학회지
    • /
    • 제34권6_3호
    • /
    • pp.1399-1414
    • /
    • 2018
  • 자연림은 산림의 조성 과 보육 등에 인공적인 사람의 힘이 가해지지 않은 자연 상태의 산림이다. 반면 인공림은 사람이 조성 및 보육관리 하는 숲으로 목재생산, 자연재해 예방, 방풍 등의 목적을 가지는 산림이다. 인공림은 목재생산 등 인간이 목적을 가지고 관리하여 단위 면적당 더 많은 목재를 생산할 수 있는 경제적 장점도 가지고 있다. 자연림과 인공림의 구분은 산림 형태의 관리 방법과 목정이 상이하여 산림조사에서 기본적으로 조사하는 요소이며, 자연림과 인공림의 구분은 항공사진 판독과 현지조사 등의 절차를 통해 이루어진다. 본 연구에서는 자연림과 인공림의 분류에 KOMPSAT-3, 3A, 5 위성 영상데이터에 인공신경망(Artificial Neural Network: ANN)을 적용하여 자연림과 인공림의 분류도를 만들고, 산림청의 1/5,000임상도의 자연림과 인공림 분류도와 비교하여 평가하였다. 인공신경망을 이용한 산림의 자연림과 인공림 구분의 연구를 진행한 결과, 1/5,000 임상도와 비교했을 때, 학습결과 분류 전체 정확도는 77.03%이다. 영상의 획득 시기와 산림의 침엽수와 활엽수 등 기타요인이 인공신경망을 이용한 산림의 인공림과 자연림의 구분에 많은 영향을 미치는 것을 확인하였다.

공공기관 실제 사례로 보는 랜섬웨어 탐지 방안에 대한 연구 (A Study on Ransomware Detection Methods in Actual Cases of Public Institutions)

  • 박용주;김휘강
    • 정보보호학회논문지
    • /
    • 제33권3호
    • /
    • pp.499-510
    • /
    • 2023
  • 최근 지능적이고 고도화된 사이버 공격은 악성코드가 포함된 파일을 이용하여 공공기관의 전산망을 공격하거나 정보를 유출하는 공격으로 그 피해가 커지고 있다. 다양한 정보 보호시스템이 구축된 공공기관에서도 기존의 시그니처 기반이나 정적 분석을 기반으로 하는 악성코드 및 랜섬웨어 파일 탐지하는 방식을 사용하는 경우는 알려진 공격은 탐지가 가능하나 알려지지 않은 동적 및 암호화 공격에 대해서는 취약하다. 본 연구에서 제안하는 탐지 방안은 공공기관에서 실제로 사용하는 정보보호시스템 중 악성코드 및 랜섬웨어를 탐지할 수 있는 시스템의 탐지 결과 데이터를 추출한 후 결합하여 여러 가지 속성을 도출해 내고, 머신러닝 분류 알고리즘을 통해 도출한 속성들이 어떻게 분류되고 어떤 속성이 분류 결과와 정확도 향상에 중대한 영향을 미치는지 실험을 통해 결과를 도출한다. 본 논문의 실험 결과에서는 특정 속성이 포함된 경우와 포함되지 않은 경우 알고리즘마다 상이하지만, 특정 속성이 포함된 학습에서는 정확도가 높아지는 결과를 보였으며 추후 정보보호시스템의 랜섬웨어 파일 및 이상행위 탐지 알고리즘 제작 시 속성 선택에 활용할 수 있을 것으로 기대한다.