• 제목/요약/키워드: Learning data set

검색결과 1,114건 처리시간 0.03초

Unlabeled Wi-Fi RSSI Indoor Positioning by Using IMU

  • Chanyeong, Ju;Jaehyun, Yoo
    • Journal of Positioning, Navigation, and Timing
    • /
    • 제12권1호
    • /
    • pp.37-42
    • /
    • 2023
  • Wi-Fi Received Signal Strength Indicator (RSSI) is considered one of the most important sensor data types for indoor localization. However, collecting a RSSI fingerprint, which consists of pairs of a RSSI measurement set and a corresponding location, is costly and time-consuming. In this paper, we propose a Wi-Fi RSSI learning technique without true location data to overcome the limitations of static database construction. Instead of the true reference positions, inertial measurement unit (IMU) data are used to generate pseudo locations, which enable a trainer to move during data collection. This improves the efficiency of data collection dramatically. From an experiment it is seen that the proposed algorithm successfully learns the unsupervised Wi-Fi RSSI positioning model, resulting in 2 m accuracy when the cumulative distribution function (CDF) is 0.8.

지자체 사이버 공간 안전을 위한 금융사기 탐지 텍스트 마이닝 방법 (Financial Fraud Detection using Text Mining Analysis against Municipal Cybercriminality)

  • 최석재;이중원;권오병
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.119-138
    • /
    • 2017
  • 최근 SNS는 개인의 의사소통뿐 아니라 마케팅의 중요한 채널로도 자리매김하고 있다. 그러나 사이버 범죄 역시 정보와 통신 기술의 발달에 따라 진화하여 불법 광고가 SNS에 다량으로 배포되고 있다. 그 결과 개인정보를 빼앗기거나 금전적인 손해가 빈번하게 일어난다. 본 연구에서는 SNS로 전달되는 홍보글인 비정형 데이터를 분석하여 어떤 글이 금융사기(예: 불법 대부업 및 불법 방문판매)와 관련된 글인지를 분석하는 방법론을 제안하였다. 불법 홍보글 학습 데이터를 만드는 과정과, 데이터의 특성을 고려하여 입력 데이터를 구성하는 방안, 그리고 판별 알고리즘의 선택과 추출할 정보 대상의 선정 등이 프레임워크의 주요 구성 요소이다. 본 연구의 방법은 실제로 모 지방자치단체의 금융사기 방지 프로그램의 파일럿 테스트에 활용되었으며, 실제 데이터를 가지고 분석한 결과 금융사기 글을 판정하는 정확도가 사람들에 의하여 판정하는 것이나 키워드 추출법(Term Frequency), MLE 등에 비하여 월등함을 검증하였다.

Evaluating Efficiency of Life Insurance Companies Utilizing DEA and Machine Learning

  • Han Kook;Kim, Jae-Kyung
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2000년도 춘계정기학술대회 e-Business를 위한 지능형 정보기술 / 한국지능정보시스템학회
    • /
    • pp.365-373
    • /
    • 2000
  • Data Envelopment Analysis (DEA), a non-parametric productivity analysis tool, has become an accepted approach for assessing efficiency in a wide range of fields. Despite of its extensive applications and merits, some features of DEA remain bothersome. DEA offers no guideline about to which direction relatively inefficient DMUs improve since a reference set of an inefficient DMU, several efficient DMUs, hardly provides a stepwise path for improving the efficiency of the inefficient DMU.In this paper, we aim to show that DEA can be used to evaluate the efficiency of life insurance companies while overcoming its limitation with the aids of machine learning methods.

  • PDF

복잡한 분야의 한정된 데이터 상황에서의 사례기반 추론: 공정제어 분야의 적용 (Case Based Reasoning in a Complex Domain With Limited Data: An Application to Process Control)

  • 김형관
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.75-77
    • /
    • 1998
  • Perhaps one of the most versatile approaches to learning in practical domains lies in case based reasoning. To date, however, most case based reasoning systems have tended to focus on relatively simple domains. The current study involves the development of a decision support system for a complex production process with a limited database. This paper presents a set of critical issues underlying CBR, then explores their consequences for a complex domain. Finally, the performance of the system is examined for resolving various types of quality control problems.

  • PDF

A Feature Vector Selection Method for Cancer Classification

  • Yun, Zheng;Keong, Kwoh-Chee
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2005년도 BIOINFO 2005
    • /
    • pp.23-28
    • /
    • 2005
  • The high-dimensionality and insufficiency of gene expression profiles and proteomic profiles makes feature selection become a critical step in efficiently building accurate models for cancer problems based on such data sets. In this paper, we use a method, called Discrete Function Learning algorithm, to find discriminatory feature vectors based on information theory. The target feature vectors contain all or most information (in terms of entropy) of the class attribute. Two data sets are selected to validate our approach, one leukemia subtype gene expression data set and one ovarian cancer proteomic data set. The experimental results show that the our method generalizes well when applied to these insufficient and high-dimensional data sets. Furthermore, the obtained classifiers are highly understandable and accurate.

  • PDF

MOTIF BASED PROTEIN FUNCTION ANALYSIS USING DATA MINING

  • Lee, Bum-Ju;Lee, Heon-Gyu;Ryu, Keun-Ho
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2006년도 Proceedings of ISRS 2006 PORSEC Volume II
    • /
    • pp.812-815
    • /
    • 2006
  • Proteins are essential agents for controlling, effecting and modulating cellular functions, and proteins with similar sequences have diverged from a common ancestral gene, and have similar structures and functions. Function prediction of unknown proteins remains one of the most challenging problems in bioinformatics. Recently, various computational approaches have been developed for identification of short sequences that are conserved within a family of closely related protein sequence. Protein function is often correlated with highly conserved motifs. Motif is the smallest unit of protein structure and function, and intends to make core part among protein structural and functional components. Therefore, prediction methods using data mining or machine learning have been developed. In this paper, we describe an approach for protein function prediction of motif-based models using data mining. Our work consists of three phrases. We make training and test data set and construct classifier using a training set. Also, through experiments, we evaluate our classifier with other classifiers in point of the accuracy of resulting classification.

  • PDF

분류기 성능 향상을 위한 범주 속성 가상예제의 생성과 선별 (Generation and Selection of Nominal Virtual Examples for Improving the Classifier Performance)

  • 이유정;강병호;강재호;류광렬
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권12호
    • /
    • pp.1052-1061
    • /
    • 2006
  • 본 논문에서는 베이지안 네트워크를 기반으로 생성하고 평가한 가상예제를 활용하여 범주 속성 데이타에 대한 분류 성능을 향상시키는 방안을 제안한다. 가상예제를 활용하는 종래의 연구들은 주로 수치 속성 데이타를 대상으로 하였고, 대상 도메인에 특화된 지식을 활용하여 특정 학습 알고리즘의 성능을 향상시키는 것을 목표로 하였다. 본 연구에서는 도메인에 특화된 지식을 활용하는 대신 주어진 훈련 집합을 기반으로 만든 베이지안 네트워크로부터 범주 속성 가상예제를 생성하고, 그 예제가 네트워크의 조건부 우도를 증가시키는데 기여할 경우 유용한 것으로 선별한다. 이러한 생성 및 선별과정을 반복하여 적절한 크기의 가상예제 집합을 수집하여 사용한다. 범주 속성 데이타를 대상으로 한 실험 결과, 여러 가지 학습 모델의 성능이 향상됨을 확인하였다.

부도 예측을 위한 앙상블 분류기 개발 (Developing an Ensemble Classifier for Bankruptcy Prediction)

  • 민성환
    • 한국산업정보학회논문지
    • /
    • 제17권7호
    • /
    • pp.139-148
    • /
    • 2012
  • 분류기의 앙상블 학습은 여러 개의 서로 다른 분류기들의 조합을 통해 만들어진다. 앙상블 학습은 기계학습 분야에서 많은 관심을 끌고 있는 중요한 연구주제이며 대부분의 경우에 있어서 앙상블 모형은 개별 기저 분류기보다 더 좋은 성과를 내는 것으로 알려져 있다. 본 연구는 부도 예측 모형의 성능개선에 관한 연구이다. 이를 위해 본 연구에서는 단일 모형으로 그 우수성을 인정받고 있는 SVM을 기저 분류기로 사용하는 앙상블 모형에 대해 고찰하였다. SVM 모형의 성능 개선을 위해 bagging과 random subspace 모형을 부도 예측 문제에 적용해 보았으며 bagging 모형과 random subspace 모형의 성과 개선을 위해 bagging과 random subspace의 통합 모형을 제안하였다. 제안한 모형의 성과를 검증하기 위해 실제 기업의 부도 예측 데이터를 사용하여 실험하였고, 실험 결과 본 연구에서 제안한 새로운 형태의 통합 모형이 가장 좋은 성과를 보임을 알 수 있었다.

Gemoetrical verification of protein structure for single nucleotide polymorphism (SNP)

  • Uhm, Won-Suhk;Lee, Sung-Geun;Kim, Yang-Seok
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2005년도 BIOINFO 2005
    • /
    • pp.256-259
    • /
    • 2005
  • Among non-synonymous SNPs that cause amino acid change in the protein product, the selection of disease-causing SNPs has been of great interest. We present the comparison between the evolutionary (SIFT score) and structural information (binding pocket) to show that the incorporation between them provides an advantage of sorting disease-causing SNPs from normal SNPs. To set up the procedure, we apply the machine learning method to the test data set from the laboratory experiments.

  • PDF

LID-DS 데이터 세트를 사용한 기계학습 알고리즘 비교 연구 (A Comparative Study of Machine Learning Algorithms Using LID-DS DataSet)

  • 박대경;류경준;신동일;신동규;박정찬;김진국
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권3호
    • /
    • pp.91-98
    • /
    • 2021
  • 오늘날 정보통신 기술이 급격하게 발달하면서 IT 인프라에서 보안의 중요성이 높아졌고 동시에 지능형 지속 공격(Advanced Persistent Threat)처럼 고도화되고 다양한 형태의 사이버 공격이 증가하고 있다. 점점 더 고도화되는 사이버 공격을 조기에 방어하거나 예측하는 것은 매우 중요한 사안으로, NIDS(Network-based Intrusion Detection System) 관련 데이터 분석만으로는 빠르게 변형하는 사이버 공격을 방어하지 못하는 경우가 많이 보고되고 있다. 따라서 현재는 HIDS(Host-based Intrusion Detection System) 데이터 분석을 통해서 위와 같은 사이버 공격을 방어하는데 침입 탐지 시스템에서 생성된 데이터를 이용하고 있다. 본 논문에서는 기존에 사용되었던 데이터 세트에서 결여된 스레드 정보, 메타 데이터 및 버퍼 데이터를 포함한 LID-DS(Leipzig Intrusion Detection-Data Set) 호스트 기반 침입 탐지 데이터를 이용하여 기계학습 알고리즘에 관한 비교 연구를 진행했다. 사용한 알고리즘은 Decision Tree, Naive Bayes, MLP(Multi-Layer Perceptron), Logistic Regression, LSTM(Long Short-Term Memory model), RNN(Recurrent Neural Network)을 사용했다. 평가를 위해 Accuracy, Precision, Recall, F1-Score 지표와 오류율을 측정했다. 그 결과 LSTM 알고리즘의 정확성이 가장 높았다.