• Title/Summary/Keyword: 데이터 선별

Search Result 580, Processing Time 0.029 seconds

Network intrusion detection Model through Hybrid Feature Selection and Data Balancing (Hybrid Feature Selection과 Data Balancing을 통한 네트워크 침입 탐지 모델)

  • Min, Byeongjun;Shin, Dongkyoo;Shin, Dongil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.526-529
    • /
    • 2020
  • 최근 네트워크 환경에 대한 공격이 급속도로 고도화 및 지능화 되고 있기에, 기존의 시그니처 기반 침입탐지 시스템은 한계점이 명확해지고 있다. 이러한 문제를 해결하기 위해서 기계학습 기반의 침입 탐지 시스템에 대한 연구가 활발히 진행되고 있지만 기계학습을 침입 탐지에 이용하기 위해서는 두 가지 문제에 직면한다. 첫 번째는 실시간 탐지를 위한 학습과 연관된 중요 특징들을 선별하는 문제이며 두 번째는 학습에 사용되는 데이터의 불균형 문제로, 기계학습 알고리즘들은 데이터에 의존적이기에 이러한 문제는 치명적이다. 본 논문에서는 위 제시된 문제들을 해결하기 위해서 Hybrid Feature Selection과 Data Balancing을 통한 심층 신경망 기반의 네트워크 침입 탐지 모델을 제안한다. NSL-KDD 데이터 셋을 통해 학습을 진행하였으며, 평가를 위해 Accuracy, Precision, Recall, F1 Score 지표를 사용하였다. 본 논문에서 제안된 모델은 Random Forest 및 기본 심층 신경망 모델과 비교해 F1 Score를 기준으로 7~9%의 성능 향상을 이루었다.

A Study of the Workflow and the Metadata for Web Records Archiving (웹 기록물 아카이빙을 위한 워크플로우 및 메타데이터 연구)

  • Seung-Jun Cha;Dong-Suk Chun;Kyu-Chul Lee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.1379-1382
    • /
    • 2008
  • 웹은 급속하게 변화하는 현대사회에서 정부와 시민들의 주요 의사소통의 채널이 되고 있다. 웹에서 유통되는 정보량이 급증하면서 정보원으로서의 웹에 대한 의존도가 크게 높아졌을 뿐만 아니라 전적으로 웹에만 존재하는 정보자원도 증가하고 있다. 중요한 가치를 지닌 웹사이트는 짧은 수명주기와 수집, 보존, 활용에 대한 방안이 없어 소멸되고 있는 실정이다. 이러한 문제를 해결하기 위해 웹 기록물 아카이빙을 위한 기반기술로 워크플로우 및 메타데이터 정의가 필요하다. 따라서 본 논문에서는 웹 기록물을 아카이빙하기 위해 선별, 수집, 품질관리 및 목록화, 보존, 저장으로 구성되는 워크플로우 및 장기 보존과 검색에 필수적인 메타데이터를 정의하였다. 이러한 연구 개발 및 적용을 통해 사라져 가는 중요한 자원인 웹 기록물을 후대에 중요한 기록물 자원으로 저장 및 관리할 수 있게 될 것이다.

Mining Technique of Tour Destination by weighted FP-tree (가중치가 부여된 FP-tree를 이용한 여행지 추출 기법)

  • MinJu Kim;EunJu Lee;Eung-Mo Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.233-236
    • /
    • 2008
  • 최근 컴퓨터와 통신의 기술이 빠르게 발달함에 따라 사회 각 부분은 그동안 경험하지 못했던 정보화라는 새로운 변화를 겪었다. 그 결과 정보화 수준이 점점 고도화 될수록 더욱 다양하고 방대한 데이터가 생성되어 데이터베이스를 이루게 되었다. 방대한 데이터에서 유용한 정보를 얻는 데이터마이닝 기법이 중요한 문제로 대두되었다. 데이터마이닝 기법은 점점 더 많은 분야에서 합리적인 선택을 위해 필수적으로 사용된다. 본 논문은 마이닝 기법을 적용하여 방대한 데이터베이스가 최적의 여행 경로 선택을 제공한다. 본 논문은 빈발 패턴 증가 기법에 가중치를 두어 여행자가 여행지를 선별하기 좋은 환경을 제공한다. 미래 산업 중 가장 중요한 산업 중 하나인 관광 산업은 계속적으로 성장하고 있으며 논문에서 제시하는 데이터 마이닝 기법으로 더 큰 발전을 기대한다.

Interface Server Model for the Effective Data Link between Public Data Portal and Open Platform (공공데이터와 오픈플랫폼의 효율적 자료연계를 위한 연계서버 모형)

  • Yeon, Sung-Hyun;Lee, In-Su;Tcha, Tek-Kie
    • Journal of Cadastre & Land InformatiX
    • /
    • v.44 no.1
    • /
    • pp.113-125
    • /
    • 2014
  • According to the public open data policy, the government established the demanders-oriented and customized open data plan and allowed people to use plenty of public data free. There are, however, few geospatial information systems to maximize its usability. For the purpose to make the effective geospatial information services, this study examined how data was linked between the public data portal and open platform first. And then this proposed the interface server model to support the data link between these systems technically.

A Study on a Mobile Content Plan for Recommending Wines (와인 추천을 위한 모바일 콘텐츠 기획)

  • Park, Si-Myung;Seo, Eun-Bi;Yoon, So-Young;Park, Young-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.905-908
    • /
    • 2015
  • 최근 한국의 와인 소비 트랜드는 매년 약 10%의 성장률을 보일 만큼 빠르게 주목 받고 있다. 그러나 와인과 관련된 정확한 데이터의 부재와 이를 전문적으로 주관하는 기관이 없는 현실 등 국내 와인 시장의 여러 문제점이 언급되고 있다. 이 문제를 해결하기 위해서는 와인 소비자의 직접적인 데이터가 수집 가능해야 하며 관련 데이터를 정리, 분석할 수 있는 시스템이 필요할 것이다. 본 연구에서는 바코드 인식 기술을 이용하여 보다 정확한 사용자의 데이터를 수집하고 와인 선호도를 추출하는 Top-k sky-line algorithm을 적용하여 데이터를 효과적으로 분석 및 통계를 하는 데에 목적을 둔다. 이 방법은 데이터를 수집, 분석할 뿐만 아니라 와인을 선별하고 사용자의 선호도를 기반으로 와인을 추천해 줄 수 있다는 점에서 매우 효과적일 것으로 사료된다. 본 연구에서는 기획의도 및 동기, 관련 연구 및 응용, 제안하는 방법, 예상 콘텐츠 시나리오, 기대효과, 결론을 소개하고자 한다.

Development of Non-Destructive Sorting Technique for Viability of Watermelon Seed by Using Hyperspectral Image Processing (초분광 영상기술을 이용한 수박종자 발아여부 비파괴 선별기술 개발)

  • Bae, Hyungjin;Seo, Young-Wook;Kim, Dae-Yong;Lohumi, Santosh;Park, Eunsoo;Cho, Byoung-Kwan
    • Journal of the Korean Society for Nondestructive Testing
    • /
    • v.36 no.1
    • /
    • pp.35-44
    • /
    • 2016
  • Seed viability is one of the most important parameters that is directly related with seed germination performance and seedling emergence. In this study, a hyperspectral imaging (HSI) system having a range of 1000-2500 nm was used to classify viable watermelon seeds from nonviable seeds. In order to obtain nonviable watermelon seeds, a total of 96 seeds were artificially aged by immersing the seeds in hot water ($25^{\circ}C$) for 15 days. Further, hyperspectral images for 192 seeds (96 normal and 96 aged) were acquired using the developed HSI system. A germination test was performed for all the 192 seeds in order to confirm their viability. Spectral data from the hyperspectral images of the seeds were extracted by selecting pixels from the region of interest. Each seed spectrum was averaged and preprocessed to develop a classification model of partial least square discriminant analysis (PLS-DA). The developed PLS-DA model showed a classification accuracy of 94.7% for the calibration set, and 84.2% for the validation set. The results demonstrate that the proposed technique can classify viable and nonviable watermelon seeds with a reasonable accuracy, and can be further converted into an online sorting system for rapid and nondestructive classification of watermelon seeds with regard to viability.

Semi-automatic Data Fusion Method for Spatial Datasets (공간 정보를 가지는 데이터셋의 준자동 융합 기법)

  • Yoon, Jong-chan;Kim, Han-joon
    • The Journal of Society for e-Business Studies
    • /
    • v.26 no.4
    • /
    • pp.1-13
    • /
    • 2021
  • With the development of big data-related technologies, it has become possible to process vast amounts of data that could not be processed before. Accordingly, the establishment of an automated data selection and fusion process for the realization of big data-based services has become a necessity, not an option. In this paper, we propose an automation technique to create meaningful new information by fusing datasets containing spatial information. Firstly, the given datasets are embedded by using the Node2Vec model and the keywords of each dataset. Then, the semantic similarities among all of datasets are obtained by calculating the cosine similarity for the embedding vector of each pair of datasets. In addition, a person intervenes to select some candidate datasets with one or more spatial identifiers from among dataset pairs with a relatively higher similarity, and fuses the dataset pairs to visualize them. Through such semi-automatic data fusion processes, we show that significant fused information that cannot be obtained with a single dataset can be generated.

Recognizing Emotional Content of Emails as a byproduct of Natural Language Processing-based Metadata Extraction (이메일에 포함된 감성정보 관련 메타데이터 추출에 관한 연구)

  • Paik, Woo-Jin
    • Journal of the Korean Society for information Management
    • /
    • v.23 no.2
    • /
    • pp.167-183
    • /
    • 2006
  • This paper describes a metadata extraction technique based on natural language processing (NLP) which extracts personalized information from email communications between financial analysts and their clients. Personalized means connecting users with content in a personally meaningful way to create, grow, and retain online relationships. Personalization often results in the creation of user profiles that store individuals' preferences regarding goods or services offered by various e-commerce merchants. We developed an automatic metadata extraction system designed to process textual data such as emails, discussion group postings, or chat group transcriptions. The focus of this paper is the recognition of emotional contents such as mood and urgency, which are embedded in the business communications, as metadata.

Record File Carving Technique for Efficient File Recovery in Digital Forensic Investigation (디지털 포렌식 조사에서 효율적인 파일 복구를 위한 레코드 파일 카빙 기법)

  • Park, Minsu;Park, Jungheum;Lee, Sangjin
    • KIPS Transactions on Computer and Communication Systems
    • /
    • v.2 no.2
    • /
    • pp.93-102
    • /
    • 2013
  • These days digital data have become essential for digital investigation because most of the crime was occurred by using the digital devices. However, digital data is very easier to falsify or delete. If digital data was deleted, it is necessary to recover the deleted data for obtain digital evidence. Even though file carving is the most important thing to gather. digital evidence in digital forensic investigation, most of popular carving tools don't contemplate methods of selection or restoration for digital forensic investigation. The goal of this research is suggested files which can obtain useful information for digital forensic investigation and proposed new record file carving technique to be able to recover data effectively than before it.

A Study on Attribute Index for Evaluation of Data Governance (Data Governance 평가를 위한 속성지표 연구)

  • Jang, Kyoung-Ae;Kim, Woo-Je
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.6 no.2
    • /
    • pp.57-66
    • /
    • 2017
  • The academic research on data governance is still in its infancy and focused on the definition of concept and components. However, we need to study of evaluation on data governance to help make decision of establishment. The purpose of this paper is to develop of attribute index in data governance framework. Therefore, in this paper, we used RGT (repertory grid technique) and Laddering techniques for experts interview and survey for validation of disinterested third party experts and analysis statistically. We completed data governance attribute index which is composed of data compliance area including 8 components, data quality area including 16 components and data organization area including 7 components. Moreover, the evaluation attributes is prioritized and ranked using the AHP. As a result of the study, this paper can be used for the base line data in introducing and operating data governance in an IT company.