• 제목/요약/키워드: 변형 기반 학습

Search Result 166, Processing Time 0.031 seconds

Efficient Hangul Word Processor (HWP) Malware Detection Using Semi-Supervised Learning with Augmented Data Utility Valuation (효율적인 HWP 악성코드 탐지를 위한 데이터 유용성 검증 및 확보 기반 준지도학습 기법)

  • JinHyuk Son;Gihyuk Ko;Ho-Mook Cho;Young-Kuk Kim
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.34 no.1
    • /
    • pp.71-82
    • /
    • 2024
  • With the advancement of information and communication technology (ICT), the use of electronic document types such as PDF, MS Office, and HWP files has increased. Such trend has led the cyber attackers increasingly try to spread malicious documents through e-mails and messengers. To counter such attacks, AI-based methodologies have been actively employed in order to detect malicious document files. The main challenge in detecting malicious HWP(Hangul Word Processor) files is the lack of quality dataset due to its usage is limited in Korea, compared to PDF and MS-Office files that are highly being utilized worldwide. To address this limitation, data augmentation have been proposed to diversify training data by transforming existing dataset, but as the usefulness of the augmented data is not evaluated, augmented data could end up harming model's performance. In this paper, we propose an effective semi-supervised learning technique in detecting malicious HWP document files, which improves overall AI model performance via quantifying the utility of augmented data and filtering out useless training data.

Hybrid Statistical Learning Model for Intrusion Detection of Networks (네트워크 침입 탐지를 위한 변형된 통계적 학습 모형)

  • Jun, Sung-Hae
    • The KIPS Transactions:PartC
    • /
    • v.10C no.6
    • /
    • pp.705-710
    • /
    • 2003
  • Recently, most interchanges of information have been performed in the internet environments. So, the technuque, which is used as intrusion deleting tool for system protecting against attack, is very important. But, the skills of intrusion detection are newer and more delicate, we need preparations for defending from these attacks. Currently, lots of intrusion detection systemsmake the midel of intrusion detection rule using experienced data, based on this model they have the strategy of defence against attacks. This is not efficient for defense from new attack. In this paper, a new model of intrusion detection is proposed. This is hybrid statistical learning model using likelihood ratio test and statistical learning theory, then this model can detect a new attack as well as experienced attacks. This strategy performs intrusion detection according to make a model by finding abnomal attacks. Using KDD Cup-99 task data, we can know that the proposed model has a good result of intrusion detection.

Speech Denoising using Conditional Wavenet (조건부 Wavenet을 이용한 음성 신호의 잡음 제거 기술)

  • Yu, Jeongchan;Seo, Eunmi;Lim, Yujin;Park, Hochong
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2021.06a
    • /
    • pp.61-62
    • /
    • 2021
  • 본 논문에서는 조건부 wavenet을 이용한 음성 신호의 잡음 제거 기술을 제안한다. 기존의 음성 신호 잡음 제거 기술은 스펙트로그램을 기반으로 발전되어 왔으나, 잡음으로 인해 변형된 원음의 위상 정보를 복원할 수 없는 문제점을 가진다. 이를 해결하기 위해 시간 영역에서 전 과정을 실행하는 기계학습 모델인 wavenet을 사용하여 음성 신호의 잡음을 제거하는 방법을 제안한다. 특히, 잡음 종류를 조건으로 입력하여 성능 향상을 얻도록 한다. 성능 평가를 통하여 제안 방법이 시간 영역에서 잡음을 감소시킬 수 있음을 확인하였다.

  • PDF

Character-Aware Neural Networks with Multi-Head Attention Mechanism for Multilingual Named Entity Recognition (Multi-Head Attention 방법을 적용한 문자 기반의 다국어 개체명 인식)

  • Cheon, Min-Ah;Kim, Chang-Hyun;Park, Ho-Min;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.167-171
    • /
    • 2018
  • 개체명 인식은 문서에서 인명, 지명, 기관명 등의 고유한 의미를 나타내는 단위인 개체명을 추출하고, 추출된 개체명의 범주를 결정하는 작업이다. 최근 개체명 인식과 관련된 연구는 입력 데이터의 앞, 뒤를 고려하기 위한 Bi-RNNs와 출력 데이터 간의 전이 확률을 이용한 CRFs를 결합한 방식을 기반으로 다양한 변형의 심층학습 방법론이 제안되고 있다. 그러나 대부분의 연구는 입력 단위를 단어나 형태소로 사용하고 있으며, 성능 향상을 위해 띄어쓰기 정보, 개체명 사전 자질, 품사 분포 정보 등 다양한 정보를 필요로 한다는 어려움이 있다. 본 논문은 기본적인 학습 말뭉치에서 얻을 수 있는 문자 기반의 입력 정보와 Multi-Head Attention을 추가한 Bi-GRU/CRFs을 이용한 다국어 개체명 인식 방법을 제안한다. 한국어, 일본어, 중국어, 영어에 제안 모델을 적용한 결과 한국어와 일본어에서는 우수한 성능(한국어 $F_1$ 84.84%, 일본어 $F_1$ 89.56%)을 보였다. 영어에서는 $F_1$ 80.83%의 성능을 보였으며, 중국어는 $F_1$ 21.05%로 가장 낮은 성능을 보였다.

  • PDF

The Corpus-probability Based Generation of Korean Standard Pronunciation (코퍼스 확률에 기반한 한국어 표준발음 생성)

  • Kim, Dong-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.210-215
    • /
    • 2007
  • 본 연구에서는 코퍼스 확률에 기반하여 한국어 표준 발음 생성에 대한 연구를 한다. 기존의 이은영 외 (2005)에서 연구된 규칙기반의 한국어 IPA 발음 변환방식과는 달리 본 연구에서는 음운변환 코퍼스를 바탕으로 표준발음을 변환한다. 이 방식을 위해서 Brill(1995)에서 제안한 변형기반 학습방식이 활용되었으며, 단계적인 처리방식이 아닌 입-출력 대응 방식의 확률적 처리 방식이 제안되었다. 음운변환 방식은 음운규칙에 근거한 처리가 아닌 언어자원인 코퍼스를 활용해서 처리하였다는 점에서 기존의 연구방식과 차이가 있다. 또한, 기존 연구에서는 음운규칙을 단계적으로 적용하여서 입력형이 출력형으로 도출되기 위해서 여러 단계를 거쳤지만, 본 연구에서는 입력형과 출력형의 일대일 대응이라는 점에서 차이점을 보인다.

  • PDF

Prediction of Mechanical Properties and Behavior of Polymer Matrix Composites Based on Machine Learning (기계학습에 기반한 고분자 복합수지의 기계적 물성 거동 예측)

  • Lee, Nagyeong;Shin, Yongbeom;Shin, Dongil
    • Journal of the Korean Institute of Gas
    • /
    • v.25 no.2
    • /
    • pp.64-71
    • /
    • 2021
  • Research on polymer matrix composites with excellent molding processability and mechanical properties in the automotive field including hydrogen fuel cell electric vehicles is expanding to Computer-Aided Engineering (CAE) to support the design of materials with specific mechanical properties. CAE automation requires the prediction of the mechanical properties and behavior of materials. Unlike single materials, the mechanical properties prediction of polymer matrix composites is difficult to explain with formulas because the mechanical behavior is complicated to be explained only by the relationship between the matrix and the filler. In this study, the stress-strain curve according to the composition of polymer matrix composites, which was difficult to predict due to its sensitivity to large plastic deformation and composition, was predicted based on machine learning of the test data. The developed model finds a complex correlation between matrix and filler types and compositions, and predicts the total stress-strain curve meaningfully even in the absence of learned test data. It is expected that the material design AI system can be completed in the future based on the developed model that predicts the mechanical properties of polymer matrix composites even for the combination and composition that have not been learned.

Container Recognition System using Fuzzy RBF Network (퍼지 RBF 네트워크를 이용한 컨테이너 인식 시스템)

  • Kim, Jae-Yong;Kim, Kwang-Baek
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • v.9 no.1
    • /
    • pp.497-503
    • /
    • 2005
  • 본 논문에서는 퍼지 RBF 네트워크를 이용한 운송 컨테이너 식별자 인식 시스템을 제안한다. 일반적으로 운송 컨테이너의 식별자들은 크기나 위치가 정형화되어 있지 않고 외부 잡음으로 인하여 식별자의 형태가 변형될 수 있기 때문에 일정한 규칙으로 찾기는 힘들다. 본 논문에서는 이러한 특성을 고려하여 컨테이너 영상에 대해 Canny 마스크를 이용하여 에지를 검출하고, 검출된 에지 정보에서 영상획득 시 외부 광원에 의해 수직으로 길게 발생하는 잡음들을 퍼지 추론 방법을 적용하여 제거한 후에 수직 블록과 수평 블록을 검출하여 컨테이너의 식별자 영역을 추출하고 이진화한다. 이진화된 식별자 영역에 대해 검정색의 빈도수를 이용하여 흰바탕과 민바탕을 구분하고 4방향 윤광선 추적 알고리즘을 적용하여 개별 식별자를 추출한다. 개별 식별자 인식을 위해 퍼지 C-Means 알고리즘을 이용한 퍼지 RBF 네트워크를 제안하여 개별 식별자에 적용한다. 제안된 퍼지 RBF 네트워크는 퍼지 C-Means 알고리즘을 중간층으로 적용하고 중간층과 출력층 간의 학습에는 일반화된 델타 학습 방법과Delta-bar-Delta 알고리즘을 적용하여 학습 성능을 개선한다. 실제 컨테이너 영상을 대상으로 실험한 결과, 기존의 식별자 추출 방법보다 제안된 식별자 추출방법이 개선되었다. 그리고 기존의 ART2 기반 RBF 네트워크보다 제안된 퍼지 RBF 네트워크가 컨테이너 식별자의 학습 및 인식에 있어서 우수함을 확인하였다.

  • PDF

Korean Dependency Parsing Using Online Learning (온라인 학습을 이용한 한국어 의존구문분석)

  • Lee, Yong-Hun;Lee, Jong-Hyeok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.299-304
    • /
    • 2010
  • 본 논문에서는 온라인 학습을 이용한 한국어 의존구문분석 방법을 제안한다. CoNLL-X에서 1위를 차지한 그래프 기반 의존구문분석 방법을 한국어에 맞게 변형하고, 한국어의 교착어적 특성을 고려해 한국어에 적합한 자질 집합을 제시하였다. 특히 의존트리의 에지(edge)를 단어와 단어간의 의존관계가 아닌 부분트리(partial tree)와 부분트리의 의존관계로 바라보기 위해 부분트리가 공유하고 있는 기능어 정보를 추가 자질로 사용하였다. 또한 한국어의 지배소 후위(head-final) 언어 특성과 투사성(projectivity)을 이용하여 Eisner(1996) 알고리즘을 사용하지 않고도 O($n^3$)의 CYK알고리즘을 사용할 수 있었고, 이를 이용해 최적의 전역해(global optimum)를 찾을 수 있었다. 각 자질을 위한 최적의 가중치 벡터는 온라인 학습방법 중 하나인 Collins(2002)의 averaged perceptron 알고리즘을 사용함으로써 빠르게 모델을 학습할 수 있었다. 제안 모델을 국어정보베이스(KIBS) 말뭉치에 적용한 결과 어절 단위 정확률 88.42%의 높은 성능을 얻을 수 있었다.

  • PDF

Analysis on Question Understanding of Language Models using Clever Hans Tests (클레버 한스 테스트를 통한 언어모델의 질의 이해 분석)

  • Lim, Jungwoo;Oh, Dongsuk;Park, Sungjin;Whang, Taesun;Shim, Midan;Son, Suhyune;Kim, Yujin;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.36-40
    • /
    • 2021
  • 다양한 Masked Language Modeling을 통해 학습한 사전 학습 모델들은 질의응답 시스템에서 매우 높은 성능을 보여주고 있다. 이러한 강력한 성능에도 불구하고 그러한 모델들이 질의를 정확히 이해하고 정답을 예측하는 것인지, 혹은 질의에 등장하는 특정 단어와 잘 나타나는 단어들을 기반으로 정답을 예측하는 것인지에 대한 분석은 아직 충분하지 않다. 이러한 사전학습 모델의 질의 이해 능력을 밝히기 위하여, 본 연구에서는 클레버 한스 테스트를 제안한다. 클레버 한스 테스트에서는 의미적 구조적, 의도 유무 측면의 여러 질의 변형이 된 데이터 셋들이 포함되어 있다. 본 연구에서는 클레버 한스 테스트를 통하여 사전학습 모델들이 의미적으로 달라진 질의나 의도가 제거된 질의를 입력으로 받아도 성능이 크게 떨어지지 않는 것을 확인하였고 모델의 질의 이해능력 부족을 실험적으로 시사하였다.

  • PDF

Problems in Fuzzy c-means and Its Possible Solutions (Fuzzy c-means의 문제점 및 해결 방안)

  • Heo, Gyeong-Yong;Seo, Jin-Seok;Lee, Im-Geun
    • Journal of the Korea Society of Computer and Information
    • /
    • v.16 no.1
    • /
    • pp.39-46
    • /
    • 2011
  • Clustering is one of the well-known unsupervised learning methods, in which a data set is grouped into some number of homogeneous clusters. There are numerous clustering algorithms available and they have been used in various applications. Fuzzy c-means (FCM), the most well-known partitional clustering algorithm, was established in 1970's and still in use. However, there are some unsolved problems in FCM and variants of FCM are still under development. In this paper, the problems in FCM are first explained and the available solutions are investigated, which is aimed to give researchers some possible ways of future research. Most of the FCM variants try to solve the problems using domain knowledge specific to a given problem. However, in this paper, we try to give general solutions without using any domain knowledge. Although there are more things left than discovered, this paper may be a good starting point for researchers newly entered into a clustering area.