• 제목/요약/키워드: N-GRAM

검색결과 575건 처리시간 0.03초

함수 단위 N-gram 비교를 통한 Spectre 공격 바이너리 식별 방법 (Detecting Spectre Malware Binary through Function Level N-gram Comparison)

  • 김문선;양희동;김광준;이만희
    • 정보보호학회논문지
    • /
    • 제30권6호
    • /
    • pp.1043-1052
    • /
    • 2020
  • 시그니처 기반 악성코드 탐지는 제로데이 취약점을 이용하거나 변형된 악성코드를 탐지하지 못하는 한계가 있다. 이를 극복하기 위해 N-gram을 이용하여 악성코드를 분류하는 연구들이 활발히 수행되고 있다. 기존 연구들은 높은 정확도로 악성코드를 분류할 수 있지만, Spectre와 같이 짧은 코드로 동작하는 악성코드는 식별하기 어렵다. 따라서 본 논문에서는 Spectre 공격 바이너리를 효과적으로 식별할 수 있도록 함수 단위 N-gram 비교 알고리즘을 제안한다. 본 알고리즘의 유효성을 판단하기 위해 165개의 정상 바이너리와 25개의 악성 바이너리에서 추출한 N-gram 데이터셋을 Random Forest 모델로 학습했다. 모델 성능 실험 결과, 25개의 Spectre 악성 함수의 바이너리를 99.99% 정확도로 식별했으며, f1-score는 92%로 나타났다.

자기 조직화 n-gram모델을 이용한 자동 띄어쓰기 (Self-Organizing n-gram Model for Automatic Word Spacing)

  • 태윤식;박성배;이상조;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.125-132
    • /
    • 2006
  • 한국어의 자연어처리 및 정보검색분야에서 자동 띄어쓰기는 매우 중요한 문제이다. 신문기사에서조차 잘못된 띄어쓰기를 발견할 수 있을 정도로 띄어쓰기가 어려운 경우가 많다. 본 논문에서는 자기 조직화 n-gram모델을 이용해 자동 띄어쓰기의 정확도를 높이는 방법을 제안한다. 본 논문에서 제안하는 방법은 문맥의 길이를 바꿀 수 있는 가변길이 n-gram모델을 기본으로 하여 모델이 자동으로 문맥의 길이를 결정하도록 한 것으로, 일반적인 n-gram모델에 비해 더욱 높은 성능을 얻을 수 있다. 자기조직화 n-gram모델은 최적의 문맥의 길이를 찾기 위해 문맥의 길이를 늘였을 때 나타나는 확률분포와 문맥의 길이를 늘이지 않았을 태의 확률분포를 비교하여 그 차이가 크다면 문맥의 길이를 늘이고, 그렇지 않다면 문맥의 길이를 자동으로 줄인다. 즉, 더 많은 정보가 필요한 경우는 데이터의 차원을 높여 정확도를 올리며, 이로 인해 증가된 계산량은 필요 없는 데이터의 양을 줄임으로써 줄일 수 있다. 본 논문에서는 실험을 통해 n-gram모델의 자기 조직화 구조가 기본적인 모델보다 성능이 뛰어나다는 것을 확인하였다.

  • PDF

남북한 고등학교 영어교과서 4-gram 연어 비교 분석 (Comparative Analysis of 4-gram Word Clusters in South vs. North Korean High School English Textbooks)

  • 김정렬
    • 한국콘텐츠학회논문지
    • /
    • 제20권7호
    • /
    • pp.274-281
    • /
    • 2020
  • 본 연구는 4-gram 연어분석으로 남북한 고등학교 영어교과서를 비교분석하고자 하는 것이 목적이다. N-gram 분석은 그동안 우리가 알고 있는 관습적인 관용어와는 달리 코퍼스를 구성하여 기계적인 방법으로 물리적으로 함께 공기하는 빈도가 높은 낱말군을 객관적인 방법으로 추출하여 분석하는 것이다. 본 연구의 목적은 AntConc의 N-gram 분석 도구로 4-gram 연어를 남북한 영어교과서 코퍼스에서 찾아서 비교 분석해 보는 것이다. 분석의 대상은 북한의 2013 교육개혁에 따른 북한 고등중학교 영어교과서와 남한의 2015교육과정에 따른 고등학교 영어교과서로 구성된 코퍼스에서 구어와 문어의 token과 type을 구분하여 분석 비교한다. 이를 분석대상으로 하여 코퍼스의 4-gram 연어를 문법범주와 기능범주로 나눈 준거를 통해서 분석하였다. 문법범주는 크게 명사구, 동사구, 전치사구, 부분절 그리고 기타로 나누어 범주화하고 기능범주는 지칭, 텍스트의 조직, 입장과 기타로 나누었다. 분석한 결과 4-gram 연어에 나타난 구어와 문어 모두 남한의 영어교과서가 북한의 영어교과서 보다 token과 type의 수가 상대적으로 많았다. 그리고 문법범주에는 남북한 모두 영어교과서에 동사구와 부분절 형태의 4-gram 연어가 가장 많았으며 기능범주에는 남북한 모두 영어교과서에 입장 기능과 관련된 4-gram 연어가 가장 많았다.

어절 N-gram을 이용한 문맥의존 철자오류 교정 (Context-sensitive Spelling Error Correction using Eojeol N-gram)

  • 김민호;권혁철;최성기
    • 정보과학회 논문지
    • /
    • 제41권12호
    • /
    • pp.1081-1089
    • /
    • 2014
  • 문맥의존 철자오류의 교정 방법은 크게 규칙을 이용한 방법과 통계 정보에 기반을 둔 방법으로 나뉘며, 이중 통계적 오류 교정 방법을 중심으로 연구가 진행되었다. 통계적 오류 방법은 문맥의존 철자오류 문제를 어의 중의성 해소 문제로 간주한 방법으로서, 교정 대상 어휘와 대치 후보 어휘로 이루어진 교정 어휘 쌍을 문맥에 따라 분류하는 방법이다. 본 논문에서는 본 연구진의 기존 연구 결과인 교정 어휘 쌍을 이용한 확률 모델의 성능 향상을 위해 어절 n-gram 모델을 기존 모델에 결합하는 방법을 제안한다. 본 논문에서 제안하는 결합 모델은 각 모델을 통해 계산된 문장의 확률을 보간(interpolation)하는 방법과 각각의 모델을 차례대로 적용하는 방법이다. 본 논문에서 제안한 두 가지 결합 모델 모두 기존 모델이나 어절 n-gram만 이용한 모델보다 높은 정확도와 재현율을 보인다.

N-gram 기반의 유사도를 이용한 대화체 연속 음성 언어 모델링 (Spontaneous Speech Language Modeling using N-gram based Similarity)

  • 박영희;정민화
    • 대한음성학회지:말소리
    • /
    • 제46호
    • /
    • pp.117-126
    • /
    • 2003
  • This paper presents our language model adaptation for Korean spontaneous speech recognition. Korean spontaneous speech is observed various characteristics of content and style such as filled pauses, word omission, and contraction as compared with the written text corpus. Our approaches focus on improving the estimation of domain-dependent n-gram models by relevance weighting out-of-domain text data, where style is represented by n-gram based tf/sup */idf similarity. In addition to relevance weighting, we use disfluencies as Predictor to the neighboring words. The best result reduces 9.7% word error rate relatively and shows that n-gram based relevance weighting reflects style difference greatly and disfluencies are good predictor also.

  • PDF

Topic signatur e와 n-gram을 이용한 댓글 분류 시스템 (Comments Classification System using Topic Signature and n-gram)

  • 배민영;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.189-194
    • /
    • 2008
  • 본 논문에서는 토픽 시그너처(Topic Signature)와 n-gram을 이용한 댓글 분류 시스템을 개발한다. 토픽 시그너처는 문서요약이나 문서분류에서 자질 선택을 위한 방법으로 많이 사용되어지며, n-gram은 모든 언어에 적용 가능한 장점이 있다. 악성댓글은 대체로 문장 길이가 짧고 유행어나 변형어의 출현 빈도가 높으며 비정형화된 특징이 있다. 따라서 우리는 댓글을 n-gram으로 나누어 자질로 선택한다. 분류를 위해 베이지안(Bayesian)모델을 사용하였다. 본 논문에서는 한글과 영어 댓글에 대한 판별 실험을 통하여 구현한 시스템이 복잡한 전처리 과정이 필요한 기존에 제안된 방법들보다 더 나은 성능을 보이며, 언어에 관계없이 적용 가능하다는 것을 실험 결과를 통해 확인할 수 있었다.

  • PDF

동적 웹 페이지 변조 점검 시스템 (Dynamic Web Page Defacement Validation System)

  • 김우년;김도환;주미리;박응기;김상욱
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.475-477
    • /
    • 2004
  • 일반적으로 웹 페이지 변조 점검 시스템은 해시 코드를 이용한다. 해시 코드 방법은 웹 페이지의 민감한 변화를 즉시 찾아 낼 수 있는 장점이 있지만, 인터넷 포털이나 뉴스 사이트 등의 동적인 웹 페이지의 경우에 적용하기 어려운 단점이 있다. 본 논문에서는 인터넷 포털이나 뉴스 사이트 등과 같은 웹 페이지의 내용이 계속해서 변화하는 경우에도 적용할 수 있는 N-Gram 색인 기반의 웹 페이지 변조 점검 시스템인 웹 레이더 시스템을 제시한다. 웹 레이더 시스템은 정상적인 웹 페이지의 N-Gram 색인과 점검 시에 생성한 N-Gram 색인을 비교하여 두 인덱스의 동일 N-Gram의 발생 비율 차이를 합한 값을 N-Gram 색인 거리로 정의하고 이 값을 이용하여 웹 페이지 변조를 확인한다 본 논문에서 제시하는 웹 레이더 시스템은 구조화되지 않은 동적 웹 페이지의 변조를 원격에서 점검할 수 있다.

  • PDF

N-gram 모델을 이용한 뇌-컴퓨터 한국어 입력기 설계 (Design of Brain-computer Korean typewriter using N-gram model)

  • 이새벽;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.143-146
    • /
    • 2010
  • 뇌-컴퓨터 인터페이스는 뇌에서 발생하는 생체신호를 통하여 컴퓨터나 외부기기를 직접 제어할 수 있는 기술이다. 자발적으로 언어를 생성하지 못하는 환자들을 위하여 뇌-컴퓨터 인터페이스를 이용하여 한국어를 자유롭게 입력할 수 있는 인터페이스에 대한 연구가 필요하다. 본 연구는 의사소통을 위한 뇌-컴퓨터 인터페이스에서 낮은 정보전달률을 개선하기 위해서 음절 n-gram과 어절 n-gram 모델을 이용하여 언어 예측 모델을 구현하였다. 또한 실제 이를 이용한 뇌 컴퓨터 한국어 입력기를 설계하였다, 이는 기존의 뇌-컴퓨터 인터페이스 연구에서 특징 추출이나 기계학습 방법의 성능향상을 위한 연구와는 차별적인 방법이다.

  • PDF

한국어 문장 표절 유형을 고려한 유사 문장 판별 (A Detection Method of Similar Sentences Considering Plagiarism Patterns of Korean Sentence)

  • 지혜성;조준희;임희석
    • 컴퓨터교육학회논문지
    • /
    • 제13권6호
    • /
    • pp.79-89
    • /
    • 2010
  • 본 논문은 한국어 표절 검사를 위해서 표절의 유형을 분석하여, 유형별 분석 결과를 기반으로하여 유사 문장 판별 모델을 제안한다. 제안하는 방법은 한국어 문장에 대한 표절 유형 분석 결과를 토대로 LSA와 N-gram을 이용한 유사 문장 검색을 통하여 여러 유형의 표절로부터 견고한 유사 문장 판별 모델을 구현하였다. 제안한 모델의 성능 분석을 위해서 학생들이 인위적으로 작성한 표절 리포트와 표절한 첨부 문서로 실험 데이터를 구축하였다. 성능 비교를 위해서는 기존의 N-gram 모델, 벡터모델, LSA 모델이 사용되었으며, 실험 결과 제안한 모델이 정확률, 재현율, 그리고 F값 척도에서 우수한 성능을 보임을 알 수 있었다.

  • PDF