• Title/Summary/Keyword: 문자열 탐지

Search Result 42, Processing Time 0.027 seconds

YOLO, EAST : Comparison of Scene Text Detection Performance, Using a Neural Network Model (YOLO, EAST: 신경망 모델을 이용한 문자열 위치 검출 성능 비교)

  • Park, Chan Yong;Lim, Young Min;Jeong, Seung Dae;Cho, Young Heuk;Lee, Byeong Chul;Lee, Gyu Hyun;Kim, Jin Wook
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.11 no.3
    • /
    • pp.115-124
    • /
    • 2022
  • In this paper, YOLO and EAST models are tested to analyze their performance in text area detecting for real-world and normal text images. The earl ier YOLO models which include YOLOv3 have been known to underperform in detecting text areas for given images, but the recently released YOLOv4 and YOLOv5 achieved promising performances to detect text area included in various images. Experimental results show that both of YOLO v4 and v5 models are expected to be widely used for text detection in the filed of scene text recognition in the future.

A Technique to Detect Spam SMS with Composed of Abnormal Character Composition Using Deep Learning (딥러닝을 이용한 비정상 문자 조합으로 구성된 스팸 문자 탐지 기법)

  • Ka-Hyeon Kim;Heonchang Yu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.583-586
    • /
    • 2023
  • 대량 문자서비스를 통한 스팸 문자가 계속 증가하면서 이로 인해 도박, 불법대출 등의 광고성 스팸 문자에 의한 피해가 지속되고 있다. 이러한 문제점을 해결하기 위해 다양한 방법들이 연구되어 왔지만 기존의 방법들은 주로 사전 정의된 키워드나 자주 나오는 단어의 출현 빈도수를 기반으로 스팸 문자를 검출한다. 이는 광고성 문자들이 시스템에서 자동으로 필터링 되는 것을 회피하기 위해 비정상 문자를 조합하여 스팸 문자의 주요 키워드를 의도적으로 변형해 표현하는 경우에는 탐지가 어렵다는 한계가 있다. 따라서, 본 논문에서는 이러한 문제점을 해결하기 위해 딥러닝 기반 객체 탐지 및 OCR 기술을 활용하여 스팸 문자에 사용된 변형된 문자열을 정상 문자열로 복원하고, 변환된 정상 문자열을 문장 수준 이해를 기반으로 하는 자연어 처리 모델을 이용해 스팸 문자 콘텐츠를 분류하는 방법을 제안한다. 그리고 기존 스팸 필터링 시스템에 가장 많이 사용되는 키워드 기반 필터링, 나이브 베이즈를 적용한 방식과의 비교를 통해 성능 향상이 이루어짐을 확인하였다.

A Comparison of Deep Neural Network based Scene Text Detection with YOLO and EAST (이미지 속 문자열 탐지에 대한 YOLO와 EAST 신경망의 성능 비교)

  • Park, Chan-Yong;Lee, Gyu-Hyun;Lim, Young-Min;Jeong, Seung-Dae;Cho, Young-Heuk;Kim, Jin-Wook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.422-425
    • /
    • 2021
  • 본 논문에서는 최근 다양한 분야에서 많이 활용되고 있는 YOLO와 EAST 신경망을 이미지 속 문자열 탐지문제에 적용해보고 이들의 성능을 비교분석 해 보았다. YOLO 신경망은 v3 이전 모델까지는 이미지 속 문자영역 탐지에 낮은 성능을 보인다고 알려졌으나, 최근 출시된 YOLOv4와 YOLOv5의 경우 다양한 형태의 이미지 속에 있는 한글과 영문 문자열 탐지에 뛰어난 성능을 보여줌을 확인하고 향후 문자 인식 분야에서 많이 활용될 것으로 기대된다.

Design and Implementation of High-Speed Pattern Matcher in Network Intrusion Detection System (네트워크 침입 탐지 시스템에서 고속 패턴 매칭기의 설계 및 구현)

  • Yoon, Yeo-Chan;Hwang, Sun-Young
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.33 no.11B
    • /
    • pp.1020-1029
    • /
    • 2008
  • This paper proposes an high speed pattern matching algorithm and its implementation. The pattern matcher is used to check patterns from realtime input packet. The proposed algorithm can find exact string, range of string values, and combination of string values from input packet at high speed. Given string and rule set are modelled as a state transition graph which can find overlapped strings simultaneously, and the state transition graph is partitioned according to input implicants to reduce implementation complexity. The pattern matcher scheme uses the transformed state transition graph and input packet as an input. The pattern matcher was modelled and implemented in VHDL language. Experimental results show the proprieties of the proposed approach.

Detecting Android Emulators for Mobile Games (Focusing on Detecting Nox and LD Player) (모바일 게임용 안드로이드 에뮬레이터 탐지 기법 (Nox와 LD Player 탐지 기법 중심으로))

  • Kim, Nam-su;Kim, Seong-ho;Pack, Min-su;Cho, Seong-je
    • Journal of Software Assessment and Valuation
    • /
    • v.17 no.1
    • /
    • pp.41-50
    • /
    • 2021
  • Many game and financial apps have emulator detection functionality to defend against dynamic reverse engineering attacks. However, existing Android emulator detection methods have limitations in detecting the latest mobile game emulators that are similar to actual devices. Therefore, in this paper, we propose a method to effectively detect Android emulators for mobile games based on Houdini module and strings of a library. The proposed method detects the two emulators, Nox and LD Player through specific strings included in libc.so of bionic, and an analysis of the system call execution process and memory mapping associated with the Houdini module.

A Study of Malware Detection and Classification by Comparing Extracted Strings (문자열 비교 기법을 이용한 악성코드 탐지 및 분류 연구)

  • Lee, Jinkyung;Im, Chaetae;Jeong, Hyuncheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.1245-1248
    • /
    • 2010
  • 최근 급격하게 증가하고 있는 악성코드에 비해 이들을 분석하기 위한 전문 인력은 매우 부족하다. 다행히 양산되는 악성코드의 대부분은 기존의 것을 수정한 변종이기 때문에 이들에 대해서는 자동분석시스템을 활용해서 분석하는 것이 효율적이다. 악성코드 자동분석에는 동적 분석과 정적 분석 모두가 사용되지만 정적 분석은 여러 가지 한계점 때문에 아직까지도 개선된 연구를 필요로 한다. 본 논문은 문자열 비교를 통해 두 실행파일에 대한 유사도를 측정함으로써 악성코드 판별 및 분류를 도와주는 정적 분석기법을 제안한다. 제안된 방법은 비교 문자열의 수와 종류에 따라 그 성능이 결정되기 때문에 문자열들을 정제하는 과정이 선행된다. 또한 유사도 측정에 있어서 악성코드가 가지는 문자열들의 특성을 고려한 개선된 비교방법을 보인다.

Design and Implementation of High-Speed Pattern Matcher Using Multi-Entry Simultaneous Comparator in Network Intrusion Detection System (네트워크 침입 탐지 시스템에서 다중 엔트리 동시 비교기를 이용한 고속패턴 매칭기의 설계 및 구현)

  • Jeon, Myung-Jae;Hwang, Sun-Young
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.40 no.11
    • /
    • pp.2169-2177
    • /
    • 2015
  • This paper proposes a new pattern matching module to overcome the increased runtime of previous algorithm using RAM, which was designed to overcome cost limitation of hash-based algorithm using CAM (Content Addressable Memory). By adopting Merge FSM algorithm to reduce the number of state, the proposed module contains state block and entry block to use in RAM. In the proposed module, one input string is compared with multiple entry strings simultaneously using entry block. The effectiveness of the proposed pattern matching unit is verified by executing Snort 2.9 rule set. Experimental results show that the number of memory reads has decreased by 15.8%, throughput has increased by 47.1%, while memory usage has increased by 2.6%, when compared to previous methods.

Virus Detection and Recovery Using File Virus Self-Reproduction Characteristic (파일 바이러스 복제 특성을 이용한 바이러스 탐지 및 복구1))

  • 서용석;이성욱;홍만표;조시행
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.724-726
    • /
    • 2001
  • 본 논문에서는 컴퓨터 바이러스의 자기 복제 특성을 용한 바이러스 탐지 및 복구 방안을 제안한다. 바이러스의 행동 패턴은 바이러스의 종류 만큼 다양하지만 파일 바이러스의 경우, 자기 복제 행동 패턴은 대부분의 바이러스가 유사하다. 파일 바이러스가 시스템 감염시키기 위해서는 기생할 실행파일을 열고, 자기 자신을 그 실행 파일에 복사해야 한다. 이와 같은 자기 복제 행위를 통해 바이러스가 광범위하게 선과될 때 피 피해도 커지게 된다. 바이러스치 자기 복제 특성을 감안하여 본 연구에서 제안하는 바이러스 탐지 알고리즘은 다음과 같은 득징을 가진다. 첫째, 바이러스의 자기복세 행동 패턴은 파일 입출력 이벤트로 표현하여 바이러스의 행동 패턴으로 일반화시켰다. 둘째, 바이러스의 1차 감염행위는 허용하고 2차 이후 감염 행위부터 탐지하고, 탐지되기 이전에 감염되었던, 파일들을 복구한다. 이는 일반적인 바이러스들이 자기 복제를 지속적으로 수행한다는 점에 착안하여 false-positive 오류를 줄이기 위한 것이다. 본 고에서 제안하는 방법을 사용함으로써 특정 문자열에 의한 바이러스 탐지 및 복구 방법의 단점을 보안할 수 있을 것으로 기대된다.

  • PDF

Automatic Generation of Snort Content Rule for Network Traffic Analysis (네트워크 트래픽 분석을 위한 Snort Content 규칙 자동 생성)

  • Shim, Kyu-Seok;Yoon, Sung-Ho;Lee, Su-Kang;Kim, Sung-Min;Jung, Woo-Suk;Kim, Myung-Sup
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.40 no.4
    • /
    • pp.666-677
    • /
    • 2015
  • The importance of application traffic analysis for efficient network management has been emphasized continuously. Snort is a popular traffic analysis system which detects traffic matched to pre-defined signatures and perform various actions based on the rules. However, it is very difficult to get highly accurate signatures to meet various analysis purpose because it is very tedious and time-consuming work to search the entire traffic data manually or semi-automatically. In this paper, we propose a novel method to generate signatures in a fully automatic manner in the form of sort rule from raw packet data captured from network link or end-host. We use a sequence pattern algorithm to generate common substring satisfying the minimum support from traffic flow data. Also, we extract the location and header information of the signature which are the components of snort content rule. When we analyzed the proposed method to several application traffic data, the generated rule could detect more than 97 percentage of the traffic data.

Research on text mining based malware analysis technology using string information (문자열 정보를 활용한 텍스트 마이닝 기반 악성코드 분석 기술 연구)

  • Ha, Ji-hee;Lee, Tae-jin
    • Journal of Internet Computing and Services
    • /
    • v.21 no.1
    • /
    • pp.45-55
    • /
    • 2020
  • Due to the development of information and communication technology, the number of new / variant malicious codes is increasing rapidly every year, and various types of malicious codes are spreading due to the development of Internet of things and cloud computing technology. In this paper, we propose a malware analysis method based on string information that can be used regardless of operating system environment and represents library call information related to malicious behavior. Attackers can easily create malware using existing code or by using automated authoring tools, and the generated malware operates in a similar way to existing malware. Since most of the strings that can be extracted from malicious code are composed of information closely related to malicious behavior, it is processed by weighting data features using text mining based method to extract them as effective features for malware analysis. Based on the processed data, a model is constructed using various machine learning algorithms to perform experiments on detection of malicious status and classification of malicious groups. Data has been compared and verified against all files used on Windows and Linux operating systems. The accuracy of malicious detection is about 93.5%, the accuracy of group classification is about 90%. The proposed technique has a wide range of applications because it is relatively simple, fast, and operating system independent as a single model because it is not necessary to build a model for each group when classifying malicious groups. In addition, since the string information is extracted through static analysis, it can be processed faster than the analysis method that directly executes the code.