• 제목/요약/키워드: 베이즈모델

검색결과 59건 처리시간 0.029초

Lifelong Machine Learning 기반 스팸 메시지 필터링 방법 (A Method for Spam Message Filtering Based on Lifelong Machine Learning)

  • 안연선;정옥란
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1393-1399
    • /
    • 2019
  • 인터넷의 급속한 성장으로 데이터의 송수신의 편리성과 비용이 들지 않는다는 장점 때문에 매일 수백만 건의 무차별적인 광고성 스팸 문자와 메일이 발송되고 있다. 아직은 스팸 단어나 스팸 번호를 차단하는 방법을 주로 사용하지만, 기계 학습이 떠오름에 따라 스팸을 필터링하는 방법에 대해 다양한 방식으로 활발히 연구되고 있다. 그러나 스팸에서만 등장하는 단어나 패턴은 스팸 필터링 시스템에 의해 걸러지지 않기 위해 지속적으로 변화하고 있기 때문에, 기존 기계 학습 메커니즘으로는 새로운 단어와 패턴을 감지, 적응할 수 없다. 최근 이러한 기존 기계 학습의 한계점을 극복하기 위해 기존의 지식을 활용하여 새로운 지식을 지속적으로 학습하도록 하는 Lifelong Learning(이하 LL)의 개념이 대두되었다. 본 논문에서는 문서 분류에 가장 많이 사용되는 나이브 베이즈와 Lifelong Machine Learning(이하 LLML)의 앙상블 기법을 이용한 스팸 메시지 필터링 방법을 제안한다. 우리는 기존 스팸 필터링 시스템에 가장 많이 사용되는 나이브 베이즈와, LLML 모델 중 ELLA를 적용하여 LL의 성능을 검증한다.

벡터 공간 모델과 HAL에 기초한 단어 의미 유사성 군집 (Word Sense Similarity Clustering Based on Vector Space Model and HAL)

  • 김동성
    • 인지과학
    • /
    • 제23권3호
    • /
    • pp.295-322
    • /
    • 2012
  • 본 연구에서는 벡터 공간 모델과 HAL (Hyperspace Analog to Language)을 적용해서 단어 의미 유사성을 군집한다. 일정한 크기의 문맥을 통해서 단어 간의 상관성을 측정하는 HAL을 도입하고(Lund and Burgess 1996), 상관성 측정에서 고빈도와 저빈도에 다르게 측정되는 왜곡을 줄이기 위해서 벡터 공간 모델을 적용해서 단어 쌍의 코사인 유사도를 측정하였다(Salton et al. 1975, Widdows 2004). HAL과 벡터 공간 모델로 만들어지는 공간은 다차원이므로, 차원을 축소하기 위해서 PCA (Principal Component Analysis)와 SVD (Singular Value Decomposition)를 적용하였다. 유사성 군집을 위해서 비감독 방식과 감독 방식을 적용하였는데, 비감독 방식에는 클러스터링을 감독 방식에는 SVM (Support Vector Machine), 나이브 베이즈 구분자(Naive Bayes Classifier), 최대 엔트로피(Maximum Entropy) 방식을 적용하였다. 이 연구는 언어학적 측면에서 Harris (1954), Firth (1957)의 분포 가설(Distributional Hypothesis)을 활용한 의미 유사도를 측정하였으며, 심리언어학적 측면에서 의미 기억을 설명하기 위한 모델로 벡터 공간 모델과 HAL을 결합하였으며, 전산적 언어 처리 관점에서 기계학습 방식 중 감독 기반과 비감독 기반을 적용하였다.

  • PDF

건강행위정보기반 고혈압 위험인자 및 예측을 위한 통계분석 (Statistical Analysis for Risk Factors and Prediction of Hypertension based on Health Behavior Information)

  • 허병문;김상엽;류근호
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권4호
    • /
    • pp.685-692
    • /
    • 2018
  • 본 연구는 통계분석을 이용한 중년 성인의 고혈압 예측모델 개발이 목적이다. 국민건강영양조사자료(2013년-2016년)를 사용하여 통계분석과 예측모델을 개발하였다. 이진 로지스틱 회귀분석으로 통계적 유의한 고혈압 위험인자를 제시하였으며, Wrapper 변수선택기법을 적용한 로지스틱회귀와 나이브베이즈 알고리즘을 이용하여 예측모델을 개발하였다. 통계분석에서 고혈압에 가장 높은 연관성을 갖는 인자는 남성에서 WHtR (p<0.0001, OR = 2.0242), 여성에서 AGE(p<0.0001, OR = 3.9185)로 나타났다. 예측모델의 성능평가에서, 로지스틱 회귀 모델이 남성(AUC = 0.782)과 여성(AUC = 0.858)에서 가장 좋은 예측력을 보였다. 우리의 연구 결과는 고혈압에 대한 대규모 스크리링 도구를 개발하는데 중요한 정보를 제공하며, 고혈압 연구에 대한 기반정보로 활용할 수 있다.

캐릭터 이름을 이용한 MMORPG 봇 탐지 기법

  • 강성욱;이은조
    • 정보보호학회지
    • /
    • 제27권4호
    • /
    • pp.6-13
    • /
    • 2017
  • 온라인 게임에서 불법 프로그램을 이용한 게임 봇을 대규모로 운영하는 전문 사설 업체를 속칭 '작업장(Gold Farming Group, GFG)'이라고 부른다. 기존에 작업장에서 운영하는 게임 봇은 24시간 쉬지 않고 반복적인 파밍을 통해 수익을 극대화하는 전략을 취했으나 최근 온라인 게임의 계정 가입이 쉬워지고 무료 플레이가 보편화되면서 개개의 게임 봇 계정이 수행하는 플레이 시간이나 취득 재화 수준을 낮추는 대신 수만 개의 계정을 번갈아 가며 운영하는 방식으로 변하고 있다. 이로 인해 플레이 활동 패턴에 기반한 기존의 탐지 모델들이 점차 무력화되고 있으며 진입 초기에 게임 봇을 빠르게 탐지하고 제재하는 방안이 점차 중요해지고 있다. 우리는 게임 봇을 조기에 탐지하기 위한 방안으로 계정 및 캐릭터의 이름이 갖는 특성을 활용한 게임 봇 탐지 기법을 제안한다. 제안한 기법의 유효성을 검증하기 위해 북미에서 서비스 중인 엔씨소프트의 MMORPG인 '블레이드 앤 소울'의 약 20만 개 계정 정보를 이용해 탐지 성능을 측정하였다. 실험에 의하면 캐릭터 이름에 대해 간단한 나이브 베이즈 분류기를 적용하는 것만으로도 AUC 기준으로 약 0.901의 성능을 기록하였다.

OVA SVM의 동적 결합을 이용한 효과적인 지문분류 (Effective Fingerprint Classification with Dynamic Integration of OVA SVMs)

  • 홍진혁;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.883-885
    • /
    • 2005
  • 지지 벡터 기계(Support Vector Machine: SVM)를 이용한 다중부류 분류기법이 최근 활발히 연구되고 있다. SVM은 이진분류기이기 때문에 다중부류 분류를 위해서 다수의 분류기를 구성하고 이들을 효과적으로 결합하는 방법이 필요하다. 본 논문에서는 기존의 정적인 다중분류기 결합 방법과는 달리 포섭구조의 분류모델을 확률에 따라 동적으로 구성하는 방법을 제안한다. 확률적 분류기인 나이브 베이즈 분류기(NB)를 이용하여 입력된 샘플의 각 클래스에 대한 확률을 계산하고, OVA (One-Vs-All) 전략으로 구축된 다중의 SVM을 획득된 확률에 따라 포섭구조로 구성한다. 제안하는 방법은 OVA SVM에서 발생하는 중의적인 상황을 효과적으로 처리하여 고성능의 분류를 수행한다. 본 논문에서는 지문분류 문제에서 대표적인 NIST-4 지문 데이터베이스를 대상으로 제안하는 방법을 적용하여 $1.8\%$의 거부율에서 $90.8\%$의 분류율을 획득하였으며, 기존의 결합 방법인 다수결 투표(Majority vote), 승자독식(Winner-takes-all), 행동지식공간 (Behavior knowledge space), 결정템플릿(Decision template) 등보다 높은 성능을 확인하였다.

  • PDF

딥러닝을 이용한 비정상 문자 조합으로 구성된 스팸 문자 탐지 기법 (A Technique to Detect Spam SMS with Composed of Abnormal Character Composition Using Deep Learning)

  • 김가현 ;유헌창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.583-586
    • /
    • 2023
  • 대량 문자서비스를 통한 스팸 문자가 계속 증가하면서 이로 인해 도박, 불법대출 등의 광고성 스팸 문자에 의한 피해가 지속되고 있다. 이러한 문제점을 해결하기 위해 다양한 방법들이 연구되어 왔지만 기존의 방법들은 주로 사전 정의된 키워드나 자주 나오는 단어의 출현 빈도수를 기반으로 스팸 문자를 검출한다. 이는 광고성 문자들이 시스템에서 자동으로 필터링 되는 것을 회피하기 위해 비정상 문자를 조합하여 스팸 문자의 주요 키워드를 의도적으로 변형해 표현하는 경우에는 탐지가 어렵다는 한계가 있다. 따라서, 본 논문에서는 이러한 문제점을 해결하기 위해 딥러닝 기반 객체 탐지 및 OCR 기술을 활용하여 스팸 문자에 사용된 변형된 문자열을 정상 문자열로 복원하고, 변환된 정상 문자열을 문장 수준 이해를 기반으로 하는 자연어 처리 모델을 이용해 스팸 문자 콘텐츠를 분류하는 방법을 제안한다. 그리고 기존 스팸 필터링 시스템에 가장 많이 사용되는 키워드 기반 필터링, 나이브 베이즈를 적용한 방식과의 비교를 통해 성능 향상이 이루어짐을 확인하였다.

한국어 트위터의 감정 분류를 위한 기계학습의 실증적 비교 (An Empirical Comparison of Machine Learning Models for Classifying Emotions in Korean Twitter)

  • 임좌상;김진만
    • 한국멀티미디어학회논문지
    • /
    • 제17권2호
    • /
    • pp.232-239
    • /
    • 2014
  • 온라인에서의 글쓰기가 늘어나면서, 기계학습을 통해 이를 분류하는 연구가 늘고 있다. 그럼에도 불구하고 한국어로 작성된 마이크로블로그를 대상으로 한 연구는 많지 않다. 또한 통계적으로 기계학습을 평가한 연구를 찾아보기 힘들다. 본 논문에서는 트위터를 대상으로, 표본을 추출하고, 형태소와 음절을 자질로 사용하여 기계학습에 따라 감정을 분류하였다. 그 결과 약 76%정도 트위터에 포함된 감정이 분류되었다. Support Vector Machine이 Na$\ddot{i}$ve Bayes보다 정확했고, 선형모델도 비구조적인 텍스트 처리에 비선형모델에 상응하는 정확성을 보였다. 또한 형태소가 음절 자질에 비해 높은 정확성을 보이지 않았다.

COTS 하드웨어 컴포넌트 기반 임베디드 소프트웨어 신뢰성 모델링 (Embedded Software Reliability Modeling with COTS Hardware Components)

  • 구태완;백종문
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권8호
    • /
    • pp.607-615
    • /
    • 2009
  • 최근 IT 산업은 국방, 항공, 자동차, 의료와 같은 전통 산업분야와 서로 융합하는 추세이다. 그러므로 시스템의 하드웨어를 주로 담당하는 임베디드 소프트웨어는 높은 신뢰성, 가용성, 유지보수성이 보장되어야 한다. 이를 위해 최근 COTS (Commercial Off The Shelf) 하드웨어 컴포넌트 기반 임베디드 소프트웨어를 개발하는 추세이다. 그러나 이러한 개발방법에는 일반적 소프트웨어 결함 외에 하드웨어와의 상호작용에 기인하는 결함이 추가적으로 발생할 수 있다. 이를 연동결함(Linkage Fault)라고 정의한다. 이는 발생 빈도가 낮음에도 불구하고 전체 시스템의 중단을 야기할 정도로 위험하다. 본 논문에서는 COTS 하드웨어 컴포넌트 기반 임베디드 소프트웨어 개발 시 이러한 연동결함의 발생을 고려한 신뢰성 모델을 제안한다. 또한 제안된 모델의 타당성을 분석하기 위해 베이지안 분석과 마코프 체인 몬테카를로 방법으로 계산한 베이즈 요인을 이용한다. 끝으로 IT 융합 분야의 실제 데이터를 활용하여 제안된 모델의 이론적 결과를 뒷받침한다.

개인화된 신호 해석을 위한 맥락 기반 생체 신호의 모델링 기법 (Physiological signal Modeling for personalized analysis)

  • 최아영;우운택
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.173-177
    • /
    • 2009
  • 일상생활에서 활용 가능한 다양한 종류의 생체 신호 획득 및 분석 방법이 연구되고 있다. 기존의 생체 신호 분석 방법은 표준화된 임계치를 사용하여 해석한 결과를 제공하며 신호 측정 당시의 상황이 고려되지 않아 잡음 혹은 외부 환경의 영향을 받기 쉬운 단점이 있다. 본 논문에서는 생체 신호뿐만 아니라 기타 정황정보를 기반으로 하여 개인화된 신호를 분석하기 위한 모델(Personalized Decision Making method, PDM)을 제안한다. 개인화된 신호 해석 모델은 사용자의 맥락 정보, 사용자의 맥락 정보, 사용자의 나이, 성별, 현재의 몸 및 정신 상태, 음식 및 카페인의 섭취 여부, 측정 시간 및 측정 요일 등을 기반으로 각 맥락 간의 연관 관계를 나타내고, 이상적인 사용자의 생체 신호 예측치를 베이즈 정리를 기반으로 획득한다. 개인화된 해석 모델(ACM)을 통해 표준 임계치를 적용한 해석에 비해 인식의 정확도를 높일 수 있으며, 다양한 측정시의 조건을 알면 현재 사용자의 건강상태를 개인화된 분석과 유사한 정확도로 예측이 가능하다. 제안한 방법은 현재 관측된 관측치의 분포를 모르더라도, 현재 사용자의 상태를 맥락정보를 기반으로 하여 예측할 수 있으므로, 일반적인 데이터 모델을 기반으로 개개인에 맞는 얼굴 표정을 인식하는 연구 등에 활용이 가능하다.

  • PDF

종 분화 진화 알고리즘을 이용한 안정된 베이지안 네트워크 앙상블 구축 (Construction of Robust Bayesian Network Ensemble using a Speciated Evolutionary Algorithm)

  • 유지오;김경중;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권12호
    • /
    • pp.1569-1580
    • /
    • 2004
  • 베이지안 네트워크는 불확실한 상황을 모델링하기 위한 확률 기반의 모델로서 확실한 수학적 토대를 가지고 있다. 베이지안 네트워크의 구조론 자동 학습하기 위한 연구가 많이 있었고, 최근에는 진화 알고리즘을 이용한 연구가 많이 진행되고 있다. 그러나 대부분은 마지막 세대의 가장 좋은 개체만을 이용하고 있다. 시스템이 요구하는 다양한 요구 조건을 하나의 적합도 평가 수식으로 나타내기 어렵기 때문에, 마지막 세대의 가장 좋은 개체는 종종 편향되거나 변화하는 환경에 덜 적응적일 수 있다. 본 논문에서는 적합도 공유 방법으로 다양한 베이지안 네트워크를 생성하고, 이를 베이즈 규칙을 통해 결합하여 변화하는 환경에 적응적인 추론 모델을 구축할 수 있는 방법을 제안한다. 성능 평가를 위해 ASIA와 ALARM 네트워크에서 인공적으로 생성한 데이타를 이용한 구조 학습 및 추론 실험을 수행하였다. 다양한 조건에서 학습된 네트워크를 실험한 결과, 제안한 방법이 변화하는 환경에서 더욱 강건하고 적응적인 모델을 생성할 수 있음을 알 수 있었다.