• 제목/요약/키워드: SMS sentence

검색결과 8건 처리시간 0.018초

스팸 문자 필터링을 위한 변형된 한글 SMS 문장의 정규화 기법 (A Normalization Method of Distorted Korean SMS Sentences for Spam Message Filtering)

  • 강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권7호
    • /
    • pp.271-276
    • /
    • 2014
  • 휴대폰에서 문자 메시지 전송 기능은 현대인들에게 매우 편리한 새로운 형태의 의사소통 방식이다. 반면에 문자 메시지 기능을 악용한 광고성 문자들이 너무 많이 쏟아져서 휴대폰 사용자들은 스팸 문자 공해에 시달리는 심각한 부작용을 낳게 되었다. 광고성 문자를 발송하는 사람들은 문자 메시지가 자동으로 차단되는 것을 회피하기 위해 한글 문장을 다양한 형태로 변형하거나 왜곡시키고 있으며, 이러한 문자 메시지를 자동으로 차단하기 위해서는 변형되거나 왜곡된 문장들을 정상적인 한글 문장으로 정규화하는 기술이 필수적이다. 본 논문에서는 변형되거나 왜곡된 광고성 문자 메시지를 정상적인 문장으로 정규화하고 정규화된 문장으로부터 자동 띄어쓰기 및 복합명사 분해 과정을 거쳐 키워드를 추출하기 위한 방법을 제안하였다.

구어체 말뭉치의 어휘 사용 특징 분석 및 감정 어휘 사전의 자동 구축 (Analyzing Vocabulary Characteristics of Colloquial Style Corpus and Automatic Construction of Sentiment Lexicon)

  • 강승식;원혜진;이민행
    • 스마트미디어저널
    • /
    • 제9권4호
    • /
    • pp.144-151
    • /
    • 2020
  • 모바일 환경에서 의사소통은 SMS 문자로 이루어진다. SMS 문자에서 사용되는 어휘들은 일반적인 한국어 문어체 문장에서 사용되는 어휘들과 다른 부류의 어휘들이 사용될 것으로 예상할 수 있다. 예를 들어, 일반적인 문어체의 경우 문장의 시작이나 끝맺음이 올바르고 문장의 구성요소가 잘 갖추어졌지만, SMS 문자 말뭉치의 경우 구성요소를 생략 및 간략한 표현으로 대체하는 경우가 많다. 이러한 어휘 사용 특성을 분석하기 위하여, 기존에 구축된 구어체 말뭉치와 문어체 말뭉치를 사용한다. 실험에서는 구어체 말뭉치인 SMS 문자 말뭉치와 네이버 영화평 말뭉치, 그리고 문어체 말뭉치인 한국어 문어체 원시 말뭉치의 어휘사용 특성을 비교-분석한다. 말뭉치별 어휘 비교 및 분석을 위하여 품사 태그 형용사(VA)를 기준으로 하였고, 공연강도를 측정하기 위해 변별적 공연어휘소 분석 방법론을 사용하였다. 그 결과 '좋-', '죄송하-', '즐겁-' 등 감정표현 형용사들이 SMS 문자 말뭉치에서 선호되는 반면, 네이버 영화평 말뭉치에서는 평가 표현과 관련된 형용사들이 선호되는 것을 확인할 수 있었다. 이러한 과정에서 추출된 공연강도가 높은 형용사를 기준으로 감정어휘 사전을 자동 구축하기 위하여 단어 임베딩 기법을 사용하였으며, 총 343,603개의 감성어휘를 자동 구축하였다.

SMS를 통한 홈네트워크 제어 시스템 (Home Network Control System using SMS Dialog Interface)

  • 장두성;김현정;은지현;강승식;구명완
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2007년도 한국음성과학회 공동학술대회 발표논문집
    • /
    • pp.330-333
    • /
    • 2007
  • This paper presents a dialogue interface using the dialogue management system as a method for controlling home appliances in Home Network Services. In order to realize this type of dialogue interface, we annotated 96,000 utterance pair sized dialogue set and developed an example-based dialogue system. This paper introduces the automatic error correction module for the SMS-styled sentence. With this module we increase the accuracy of NLU(Natural Language Understanding) module. Our NLU module shows an accuracy of 86.2%, which is an improvement of 5.25% over than the baseline. The task completeness of the proposed SMS dialogue interface was 82%.

  • PDF

SMS 메시지에 따른 모바일 3D 아바타의 입술 모양과 음성 동기화 (Lip and Voice Synchronization with SMS Messages for Mobile 3D Avatar)

  • 윤재홍;송용규;김은석;허기택
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 추계 종합학술대회 논문집
    • /
    • pp.682-686
    • /
    • 2006
  • 모바일 3D 엔진을 탑재한 단말기의 등장과 모바일 콘텐츠 시장의 성장에 따라 3D 모바일 콘텐츠 서비스에 대한 관심이 고조되고 있다. 모바일 3D 아바타는 개인화된 모바일 기기 사용자의 개성을 표출할 수 있는 가장 효과적인 상품이다. 그러나 3D 아바타 표현 방법은 PC기반의 가상환경에서 캐릭터의 얼굴 표정 및 입술 모양 변화에 따른 자연스럽고 사실적인 표현에 대한 연구들이 주로 이루어 졌다. 본 논문에서는 모바일 환경에서 수신된 SMS 메시지를 3D 모바일 아바타에 적용하여 입술 모양 및 음성과 동기화 시키는 방법을 제안한다. 제안된 방법은 수신된 메시지 문장을 음절단위로 분해하여 모바일 3D 아바타의 입술 모양과 해당 음성을 동기화 시킴으로써, 모바일 아바타의 자연스럽고 효과적인 SMS 메시지 읽기 서비스를 구현할 수 있도록 해준다.

  • PDF

워드 임베딩과 딥러닝 기법을 이용한 SMS 문자 메시지 필터링 (SMS Text Messages Filtering using Word Embedding and Deep Learning Techniques)

  • 이현영;강승식
    • 스마트미디어저널
    • /
    • 제7권4호
    • /
    • pp.24-29
    • /
    • 2018
  • 딥러닝에서 자연어 처리를 위한 텍스트 분석 기법은 워드 임베딩을 통해 단어를 벡터 형태로 표현한다. 본 논문에서는 워드 임베딩 기법과 딥러닝 기법을 이용하여 SMS 문자 메시지를 문서 벡터로 구성하고 이를 스팸 문자 메시지와 정상적인 문자 메시지로 분류하는 방법을 제안하였다. 유사한 문맥을 가진 단어들은 벡터 공간에서 인접한 벡터 공간에 표현되도록 하기 위해 전처리 과정으로 자동 띄어쓰기를 적용하고 스팸 문자 메시지로 차단되는 것을 피하기 위한 목적으로 음절의 자모를 특수기호로 왜곡하여 맞춤법이 파괴된 상태로 단어 벡터와 문장 벡터를 생성하였다. 또한 문장 벡터 생성 시 CBOW와 skip gram이라는 두 가지 워드 임베딩 알고리즘을 적용하여 문장 벡터를 표현하였으며, 딥러닝을 이용한 스팸 문자 메시지 필터링의 성능 평가를 위해 SVM Light와 정확도를 비교 측정하였다.

SMS 변형된 문자열의 자동 오류 교정 시스템 (Automatic Error Correction System for Erroneous SMS Strings)

  • 강승식;장두성
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권6호
    • /
    • pp.386-391
    • /
    • 2008
  • 휴대폰과 메신저 등 통신 환경에서 문자 메시지를 전송할 때 표준어가 아닌 왜곡된 어휘들을 사용하고 있으며, 이러한 변형된 어휘들은 음성 인식, 음성 합성, 문서 정보 추출 등 언어처리 및 관련 분야의 응용 시스템에서 많은 문제점을 유발시킨다. 본 논문에서는SMS 문장들의 변형 및 띄어쓰기 오류를 자동으로 교정하여 형태소 분석 및 품사 태깅의 성능 저하 문제를 방지하는 문자열 오류의 교정 방법을 제안하고 시스템을 구현하였다. 시스템의 성능에 가장 큰 영향을 미치는 변형된 문자열 사전을 구축하는 방법으로 (1) 통신 어휘집을 기반으로 수동으로 구축하는 방법, (2) 수작업으로 구축된 말뭉치로부터 자동으로 변형된 문자열을 추출하는 방법, (3) 자동으로 변형된 문자열을 추출할 때 좌우 문맥을 고려하는 방법에 대하여 시스템을 구현하고 실험을 통하여 비교-분석 및 성능 평가 결과를 제시하였다.

2단계 규칙을 이용한 해체된 한글 음절의 결합 (Assembling Disjoint Korean Syllables Using Two-Step Rules)

  • 이주호;김학수
    • 인지과학
    • /
    • 제19권3호
    • /
    • pp.283-295
    • /
    • 2008
  • SMS나 메신저의 사용이 증가함에 따자 의도적으로 음절을 해체한 새로운 형태의 문장들이 젊은이들 사이에서 습관적으로 사용되고 있다. 이러한 상황에서 자연어 인터페이스 시스템을 개발하기 위해서는 해체된 한글 음절을 결합하여 올바른 문장을 만들어 주는 기술이 먼저 개발되어야 한다. 본 논문에서는 해체된 음절을 2단계 규칙을 이용하여 결합해주는 방법을 제안한다. 1단계에서는 수동으로 자성한 휴리스틱을 이용하여 단순하게 초성, 중성, 종성으로만 해체된 음절을 결합한다. 그리고 2단계에서는 매핑 테이블과 변환기반 학습을 이용하여 복자음까지 해체된 음절을 결합한다. 실험 결과, 제안한 방법은 단순 해체 음절의 결합과 복자음 해체 음절의 결합에서 각각 100%와 99.98%라는 매우 높은 정확률을 보였다.

  • PDF

문장유사도 측정 기법을 통한 스팸 필터링 시스템 구현 (Implementation of a Spam Message Filtering System using Sentence Similarity Measurements)

  • 우수빈;이종우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권1호
    • /
    • pp.57-64
    • /
    • 2017
  • 문자 메시지는 휴대폰을 사용하는 사람들에게 중요한 의사소통의 방법 중 하나이다. 또한 친구맺기 방식이 필요 없이 사용이 가능하기 때문에 이를 악용한 불법 광고 스팸메시지가 기승을 부리고 있다. 최근 스팸 필터링을 위해 기계 학습을 이용한 시스템들이 등장 하였지만 많은 계산을 필요로 하는 단점이 있다. 본 논문에서는 검색할 쿼리를 입력할 때 부정확한 쿼리를 입력하더라도 저장된 데이터베이스와 비교하여 가장 비슷한 단어를 차수 개념을 적용하여 유추하는 집합 기반 POI(Point of Interest) 검색 알고리즘을 이용하여 스팸 필터링 시스템을 구현하였다. 이 알고리즘을 적용하면 서버 컴퓨팅 없이 문자의 조합만을 이용해 쿼리를 유추할 수 있기 때문에 스팸 필터링에 적용하여 입력된 문자메시지가 교묘하게 변형되더라도 스팸이라고 필터링이 가능하다. 또한 문장 유사도 측정 기법을 활용하여 스팸 필터링 성능을 향상시켰으며, 스팸 필터링에 취약한 특정 유형도 걸러내기 위해 특정 전처리 과정을 지원함으로써 대부분의 스팸메세지를 필터링 가능하도록 하였다. 기존 집합기반 POI 검색 알고리즘과 이를 확장 시킨 문장 유사도 측정 기법, 특정 전처리 과정을 추가한 시스템으로 필터링 시스템의 성능평가를 진행하였다. 그 결과 본 논문에서 구현한 시스템이 기존 집합기반 POI 알고리즘과 비교하여 향상된 스팸 필터링 성능을 보여주는 것을 확인하였다. 또한 이동통신사 3사에서 필터링에 취약한 유형이 본 논문에서 구현한 시스템으로 높은 성능으로 필터링이 가능하다는 것을 확인하였다.