• Title/Summary/Keyword: 평가 데이터셋

Search Result 463, Processing Time 0.029 seconds

The Bi-Cross Pretraining Method to Enhance Language Representation (Bi-Cross 사전 학습을 통한 자연어 이해 성능 향상)

  • Kim, Sung-ju;Kim, Seonhoon;Park, Jinseong;Yoo, Kang Min;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.320-325
    • /
    • 2021
  • BERT는 사전 학습 단계에서 다음 문장 예측 문제와 마스킹된 단어에 대한 예측 문제를 학습하여 여러 자연어 다운스트림 태스크에서 높은 성능을 보였다. 본 연구에서는 BERT의 사전 학습 문제 중 다음 문장 예측 문제에 대해 주목했다. 다음 문장 예측 문제는 자연어 추론 문제와 질의 응답 문제와 같이 임의의 두 문장 사이의 관계를 모델링하는 문제들에 성능 향상을 위해 사용되었다. 하지만 BERT의 다음 문장 예측 문제는 두 문장을 특수 토큰으로 분리하여 단일 문자열 형태로 모델에 입력으로 주어지는 cross-encoding 방식만을 학습하기 때문에 문장을 각각 인코딩하는 bi-encoding 방식의 다운스트림 태스크를 고려하지 않은 점에서 아쉬움이 있다. 본 논문에서는 기존 BERT의 다음 문장 예측 문제를 확장하여 bi-encoding 방식의 다음 문장 예측 문제를 추가적으로 사전 학습하여 단일 문장 분류 문제와 문장 임베딩을 활용하는 문제에서 성능을 향상 시키는 Bi-Cross 사전 학습 기법을 소개한다. Bi-Cross 학습 기법은 영화 리뷰 감성 분류 데이터 셋인 NSMC 데이터 셋에 대해 학습 데이터의 0.1%만 사용하는 학습 환경에서 Bi-Cross 사전 학습 기법 적용 전 모델 대비 5점 가량의 성능 향상이 있었다. 또한 KorSTS의 bi-encoding 방식의 문장 임베딩 성능 평가에서 Bi-Cross 사전 학습 기법 적용 전 모델 대비 1.5점의 성능 향상을 보였다.

  • PDF

Data analysis for detection of unauthorized AP using machine learning algorithm in the process of cyber war damage assessment (사이버전 피해평가 과정에서 비인가 무선 AP 공격 식별을 위한 기계학습을 이용한 데이타 분석)

  • Kim, Doyeon;Kim, Yonghyun;Kim, Donghwa;Shin, Dongkyoo;Shin, Dongil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.11a
    • /
    • pp.232-234
    • /
    • 2017
  • 사이버전 피해평가에 있어서 유무선 통합 환경에 대한 공격의 탐지와 이에 대한 평가가 필요한 상황이다. 특히 회사, 정부 및 군 시설 등에서 인가되지 않은 AP를 사용하여 공격이 발생하는 경우 각종 바이러스 및 해킹 공격에 의한 피해가 발생한 가능성이 높다. 띠라서 인가된 AP와 인가되지 않은 AP를 탐지해서 찾아 내야한다. 본 논문에서는 인가된 AP와 인가 되지 않은 AP를 탐지하기 위해 RTT(Round Trip Time)값을 데이터셋으로 만들고 각 기계학습 알고리즘 SVM(Support Vector Machine), J48(C4.5), KNN(K nearest neighbors), MLP(Multilayer Perceptron)의 결과를 비교해 성능의 차이를 밝히고 이를 통하여 공격을 탐지하여 피해평가에 연결이 되도록 한다.

에이전트 모형 및 메타 휴리스틱을 이용한 인터넷 상점 사용자 편의 기능 평가

  • An, Hyeong-Jun
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2008.10a
    • /
    • pp.247-259
    • /
    • 2008
  • 많은 인터넷 상점들이 다양한 사용자 편의 기능을 제공하고 있다. 이 논문에서는 그러한 편의 기능을 평가하기 위한 새로운 분석 기법을 제시하다. 제시된 기법은 에이전트 기반 모형과 메타 휴리스틱인 evolution strategy를 이용하여 고개들의 행태를 모형화하고 최적화한 후 여러가지 다양한 사용자 편의 기능을 평가해 본다. 이때 평가의 초점은 개인화된 추천 페이지에 두고 이를 인기상품 추천, 카테고리 정렬 등 여러 가지 다른 기능들과 비교해 본다. 이를 위해 가상 인터넷 상점이 구현 되며 데이터셋을 활용하여 시뮬레이션 실험 및 분석이 수행된다. 분석 결과 개인화된 서비스 기능들이 항상 고객들의 쇼핑 효율 및 효과를 항상 높여주지는 않는 것으로 나타났다.

  • PDF

Comparative Analysis of Deep Learning Based Frame Interpolation Methods for HD Videos and Patch-wise Training Methods (딥러닝 기반 비디오 보간법의 패치 단위 학습과 고해상도 비디오를 이용한 비교 분석 실험)

  • Kim, Nayoung;Kang, Je-Won
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2018.06a
    • /
    • pp.217-220
    • /
    • 2018
  • 본 논문에서는 딥러닝을 활용한 비디오 보간법(video interpolation)에 대한 최근 모델들을 HD 급 비디오로 학습시키는 방법과 평가 성능을 비교 분석하는 것을 목표로 한다. 기존의 딥러닝을 활용한 비디오 보간법에 대해 제안된 모델들은 낮은 해상도의 비디오로 실험을 진행하였다. 반면 본 연구에서는 한정된 메모리를 가지고도 높은 해상도의 비디오를 학습시키기 위해서 패치 단위 데이터 셋을 구성하여 학습을 진행하였다. 평가 성능을 보이기 위해서 학습 데이터와 마찬가지로 패치 단위 평가와 전체 프레임 단위 평가 성능의 결과를 비교한다.

  • PDF

Performance Analysis of Open Source File Scanning Tools (파일 스캐닝 오픈소스 성능 비교 분석 및 평가)

  • Jeong, Jiin;Lee, Jaehyuk;Lee, Kyungroul
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.213-214
    • /
    • 2021
  • 최근 4차 산업혁명으로 인해 사용자와 단말과의 연결이 증가하면서 악성코드에 의한 침해사고가 증가하였고, 이에 따라, 파일의 상세한 정보인 메타 데이터를 추출하여 악성코드를 탐지하는 파일 스캐닝 도구의 필요성이 요구된다. 본 논문에서는 대표적인 오픈소스 기반의 파일 스캐닝 도구인 Strelka, File Scanning Framework (FSF), Laika BOSS를 대상으로 파일 스캐닝 기술에서 주요한 성능 지표인 스캐닝 속도를 비교함으로써 각 도구의 성능을 평가하였다. 다양한 파일 종류를 선정한 테스트 셋을 기반으로 파일의 개수에 따른 속도를 비교하였으며, Laika BOSS, FSF, Strelka 순으로 성능이 높은 것으로 평가되었다. 결과적으로, 악의적인 파일을 빠르게 탐지하기 위한 파일 스캐닝 도구로 Laika BOSS가 가장 적합한 것으로 평가되었다.

  • PDF

Generating Pairwise Comparison Set for Crowed Sourcing based Deep Learning (크라우드 소싱 기반 딥러닝 선호 학습을 위한 쌍체 비교 셋 생성)

  • Yoo, Kihyun;Lee, Donggi;Lee, Chang Woo;Nam, Kwang Woo
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.27 no.5
    • /
    • pp.1-11
    • /
    • 2022
  • With the development of deep learning technology, various research and development are underway to estimate preference rankings through learning, and it is used in various fields such as web search, gene classification, recommendation system, and image search. Approximation algorithms are used to estimate deep learning-based preference ranking, which builds more than k comparison sets on all comparison targets to ensure proper accuracy, and how to build comparison sets affects learning. In this paper, we propose a k-disjoint comparison set generation algorithm and a k-chain comparison set generation algorithm, a novel algorithm for generating paired comparison sets for crowd-sourcing-based deep learning affinity measurements. In particular, the experiment confirmed that the k-chaining algorithm, like the conventional circular generation algorithm, also has a random nature that can support stable preference evaluation while ensuring connectivity between data.

A study on intrusion detection performance improvement through imbalanced data processing (불균형 데이터 처리를 통한 침입탐지 성능향상에 관한 연구)

  • Jung, Il Ok;Ji, Jae-Won;Lee, Gyu-Hwan;Kim, Myo-Jeong
    • Convergence Security Journal
    • /
    • v.21 no.3
    • /
    • pp.57-66
    • /
    • 2021
  • As the detection performance using deep learning and machine learning of the intrusion detection field has been verified, the cases of using it are increasing day by day. However, it is difficult to collect the data required for learning, and it is difficult to apply the machine learning performance to reality due to the imbalance of the collected data. Therefore, in this paper, A mixed sampling technique using t-SNE visualization for imbalanced data processing is proposed as a solution to this problem. To do this, separate fields according to characteristics for intrusion detection events, including payload. Extracts TF-IDF-based features for separated fields. After applying the mixed sampling technique based on the extracted features, a data set optimized for intrusion detection with imbalanced data is obtained through data visualization using t-SNE. Nine sampling techniques were applied through the open intrusion detection dataset CSIC2012, and it was verified that the proposed sampling technique improves detection performance through F-score and G-mean evaluation indicators.

Transitive Similarity Evaluation Model for Improving Sparsity in Collaborative Filtering (협업필터링의 희박 행렬 문제를 위한 이행적 유사도 평가 모델)

  • Bae, Eun-Young;Yu, Seok-Jong
    • The Journal of Korean Institute of Information Technology
    • /
    • v.16 no.12
    • /
    • pp.109-114
    • /
    • 2018
  • Collaborative filtering has been widely utilized in recommender systems as typical algorithm for outstanding performance. Since it depends on item rating history structurally, The more sparse rating matrix is, the lower its recommendation accuracy is, and sometimes it is totally useless. Variety of hybrid approaches have tried to combine collaborative filtering and content-based method for improving the sparsity issue in rating matrix. In this study, a new method is suggested for the same purpose, but with different perspective, it deals with no-match situation in person-person similarity evaluation. This method is called the transitive similarity model because it is based on relation graph of people, and it compares recommendation accuracy by applying to Movielens open dataset.

Analysis of Selectivity Estimation Techniques for Spatial Range Query of Region Objects (영역객체의 공간 범위질의에 관한 선택률 추정기법 분석)

  • Jeong, Jae-Hyuck;Lee, Jin-Yul;Chi, Jeong-Hee;Kim, Sang-Ho;Ryu, Keun-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11c
    • /
    • pp.1383-1386
    • /
    • 2003
  • 최근 공간 데이터베이스의 선택률 추정 문제에 대한 관심이 증가하면서, 데이터분포의 편중, 중복 계산, 메모리 공간 최소화등의 문제를 고려한 다양한 기법들이 제안되고 있다. 그러나 이들 기법들 간의 성능 분석을 통한 비교평가는 이루어지지 않고 있다. 따라서, 이 논문에서는 공간 영역 객체의 범위질의에 관한 선택률 추정 기법인 Min-Skew, 웨이블릿, 누적밀도, 오일러 히스토그램을 비교 분석한다. 즉, 실제 데이터셋을 기반으로 여러 형태의 질의에 대한 성능 비교를 통해 각 기법들을 비교 평가한다. 이 연구 결과는 새로운 기법 도출에 이용될 수 있다.

  • PDF

A Study on Pre-processing for the Classification of Rare Classes (희소 클래스 분류 문제 해결을 위한 전처리 연구)

  • Ryu, Kyungjoon;Shin, Dongkyoo;Shin, Dongil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.472-475
    • /
    • 2020
  • 실생활의 사례를 바탕으로 생성된 여러 분야의 데이터셋을 기계학습 (Machine Learning) 문제에 적용하고 있다. 정보보안 분야에서도 사이버 공간에서의 공격 트래픽 데이터를 기계학습으로 분석하는 많은 연구들이 진행 되어 왔다. 본 논문에서는 공격 데이터를 유형별로 정확히 분류할 때, 실생활 데이터에서 흔하게 발생하는 데이터 불균형 문제로 인한 분류 성능 저하에 대한 해결방안을 연구했다. 희소 클래스 관점에서 데이터를 재구성하고 기계학습에 악영향을 끼치는 특징들을 제거하고 DNN(Deep Neural Network) 모델을 사용해 분류 성능을 평가했다.