• 제목/요약/키워드: 문장 필터링

검색결과 35건 처리시간 0.025초

스팸메일 필터링을 위한 한글 변칙어 인식 방법 (Recognition Method of Korean Abnormal Language for Spam Mail Filtering)

  • 안희국;한욱표;신승호;양동일;노희영
    • 한국항행학회논문지
    • /
    • 제15권2호
    • /
    • pp.287-297
    • /
    • 2011
  • 전자메일은 사용의 편리성과 정보전달의 신속성 때문에 널리 사용되고 있지만, 광고목적이나 악의성을 갖는 스팸메일의 양도 증가하여 사회적 경제적으로 큰 문제를 야기한다. 스팸메일을 필터링하기 위한 방법은 수용 전 단계와 수용 후 단계로 나누어서 접근할 수 있는데, 수용 후 접근의 경우는 메시지로부터 단어나 문장 단위로 자질을 추출하고 그로부터 학습이나 매칭방법을 통하여 필터링을 하는 과정을 포함한다. 하지만, 필터링을 우회하기위해 스패머는 계속적으로 단어를 변형시켜 메일을 발송시키고 있다. 특히 한국어의 경우는 특성상 한 음절을 이루는 음소의 변화로부터 변형이 가능하기 때문에 그 변칙적 사용이 더 다양하다고 할 수 있다. 따라서, 기존의 정규식이나 학습알고리즘은 대처에 한계를 갖게 된다. 이에 본 논문에서는 한글의 변칙어를 인식할 수 있는 방법을 제안함으로서 스팸메일분류 시스템의 성능을 향상시키고자 한다. 이를 위해, 자소접근방법을 사용하고, Smith-Waterman알고리즘을 적용하였다. 메일서버로부터 추출한 필터키워드와 메일로부터 제안한 방법을 실험한 결과 유사도 수준에 따라 한글 변칙어들을 정확히 인지해 낼 수 있었다. 실험을 통해 소요 공간 및 시간은 허용될 수 있는 수준임을 확인하였다.

자연어 처리 및 협업 필터링 기반의 전장상황 관련 문서 자동탐색 및 요약 기법연구 (A Study on Automatic Discovery and Summarization Method of Battlefield Situation Related Documents using Natural Language Processing and Collaborative Filtering)

  • 김건영;이정빈;손미애
    • 인터넷정보학회논문지
    • /
    • 제24권6호
    • /
    • pp.127-135
    • /
    • 2023
  • 정보통신기술이 발달함에 따라 전투공간에서 생산·공유되는 정보 및 체계 내 저장·관리되는 정보의 양이 폭발적으로 증가하였다. 이는 지휘관이 전장상황 인식 및 지휘결심을 수행하는 데에 활용할 수 있는 정보의 양이 증가하였음을 의미하지만, 한편으로는 지휘관의 정보 부담을 증가시킴으로써 신속한 지휘결심을 저해하는 요인이 되기도 한다. 이러한 한계를 극복하기 위해, 본 연구에서는 지휘관이 전장상황 보고 문서를 수신하였을 때, 체계 내 보유 문서 중에서 이를 해석하는 데에 도움을 줄 수 있는 문서들을 자동적으로 탐색 및 선별하고 요약하는 기법을 제안하였다. 첫째로, 개체명 인식 방법을 활용하여 수신된 전장상황 보고 문서로부터 개체들을 식별한다. 둘째로, 각 개체와 관련된 체계 내 보유 문서들을 탐색한다. 셋째로, 언어모델과 협업 필터링을 활용하여 이러한 문서들을 선별한다. 이때 언어모델은 수신된 보고 문서와 탐색된 문서 간의 유사도를 산출하기 위해 활용되고, 협업 필터링은 지휘관의 문서 열람 히스토리를 반영하기 위해 활용된다. 마지막으로, 선별된 문서들로부터 각 개체가 포함된 문장을 선별하고 이를 정렬한다. 실험은 군 문서와 비슷한 특성을 지니는 학술논문들을 활용하여 수행하였고, 제안된 방법의 타당성을 검증하였다.

기계학습 및 필터링 방법을 결합한 경쟁관계 인식 (Competition Relation Extraction based on Combining Machine Learning and Filtering)

  • 이충희;서영훈;김현기
    • 정보과학회 논문지
    • /
    • 제42권3호
    • /
    • pp.367-378
    • /
    • 2015
  • 본 논문은 기계학습 방법과 필터링 방법을 결합해서 경쟁관계를 인식하는 방법에 대한 연구이다. 기존 연구들은 기계학습 방법에만 의존해서 관계유형을 인식하는 연구들이 대부분이며. 사용되는 자질도 일반적인 관계유형에 적합한 자질을 사용하고 특히 구문분석 정보가 매우 중요한 자질로 사용된다. 본 논문에서는 구문분석 등의 언어분석 결과를 이용하지 않고, 단순한 자질들(어휘, 거리, 위치, 단서단어)만을 사용해도 경쟁관계 인식에 효과적임을 확인하였다. 또한, 경쟁관계인식 긍정 정확도를 향상시킬 수 있는 문장별 경쟁유무 분류방법, 스팸분류 방법, 거리제약 기반 자질필터링 방법을 기계학습 방법과 결합한 방법론을 제안한다. 방법론 검증을 위해서 뉴스분야 2,565개 문장을 평가셋으로 구축하였고, 비교 평가를 위해서 규칙기반 경쟁관계 인식기와 기존연구의 관계추출 방법론에 기반한 일반 관계추출기를 적용해서 비교하였다. 성능평가 결과로 규칙기반 엔진이 긍정정확도와 전체정확도(accuracy)가 81.2%와 56.8% 성능을 보였고, 일반 관계추출기는 61.2%와 56.3%를 보였다. 그에 비해서 본 논문에서 제안하는 방법은 긍정 정확도 92.2%와 전체정확도 71.3% 성능을 보여서 경쟁관계 인식에 효과적임을 확인하였다.

정보추출을 이용한 질의분석 (Query Analysis Using Information Extraction)

  • 정한민;민경구;성원경;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.290-295
    • /
    • 2004
  • 본 논문에서는 네비게이션 도메인 상에서의 자연어 질의를 분석하기 위한 방법으로 정보추출을 이용한다. 목적지향성 대화문을 처리하기 위해 도입한 정보추출은 미리 정의된 필드들의 값을 채우는 방식으로 대화를 이끌 수 있도록 한다. Lexico-semantic pattern 기반의 언어처리와 추출/필터링/랭킹 규칙들을 사용하여 강건하면서도 애매성 처리가 용이한 정보추출 기법을 이용한다. 네비게이션 도메인 상에서의 실험은 목적지까지의 이동을 위한 사용자와의 대화집합 256개에 대해 문장레벨 97%의 정확율을 보여준다.

  • PDF

모음 기반 하자 식별 모델을 이용한 화자 인덱싱 (Speaker Indexing using Vowel Based Speaker Identification Model)

  • 금지수;박찬호;이현수
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.151-154
    • /
    • 2002
  • 본 논문에서는 음성 데이터에서 동일한 화자의 음성 구간을 찾아내는 화자 인덱싱(Speaker Indexing) 기술 중 사전 화자 모델링 과정을 통한 인덱싱 방법을 제안하고 실험하였다. 제안한 인덱싱 방법은 문장 독립(Text Independent) 화자 식별(Speaker Identification)에 사용할 수 있는 모음(Vowel)에 대해 특징 파라미터를 추출하고, 이를 바탕으로 화자별 모델을 구성하였다. 인덱싱은 음성 구간에서 모음의 위치를 검출하고, 구성한 화자 모델과의 거리 계산을 통하여 가장 가까운 모델을 식별된 결과로 한다. 그리고 식별된 결과는 화자 구간 변화와 음성 데이터의 특성을 바탕으로 필터링 과정을 거쳐 최종적인 인덱싱 결과를 얻는다. 화자 인덱싱 실험 대상으로 방송 뉴스를 녹음하여 10명의 화자 모델을 구성하였고, 인덱싱 실험을 수행한 결과 $91.8\%$의 화자 인덱싱 성능을 얻었다.

  • PDF

정보검색기반 질의응답 시스템 설계 (Design of a QA System based on Information Retrieval)

  • 김민경;안혁주;김학수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.816-818
    • /
    • 2015
  • 본 논문에서는 질의유형을 통한 검색기반 질의응답 시스템을 구현하기 위한 설계방법을 제안한다. 이를 위해 위키피디아 문서의 링크 데이터를 이용하여 색인 대상문서와 데이터베이스를 구축하는 색인 모델과 2-포아송 모델을 이용하여 얻은 문서들을 색인 데이터베이스를 통해 필터링하여 정답 후보문장을 추출하는 검색모델, 키워드 패턴 매칭 기반 질의유형 분류 모델을 설계하였다.

텍스트정보와 하이퍼링크에 기반한 지능형 스팸 메일 필터링 (Intelligent Spam-mail Filtering Based on Textual Information and Hyperlinks)

  • 강신재;김종완
    • 한국지능시스템학회논문지
    • /
    • 제14권7호
    • /
    • pp.895-901
    • /
    • 2004
  • 본 논문은 텍스트 정보와 하이퍼링크에 기반한 2단계 지능형 스팸 메일 필터링에 관한 방법을 제시한다. 일반적으로 스팸 메일의 본문에는 텍스트 문장보다는 그림이 더 많이 포함되어 있기 때문에 단어의 블랙리스트와 같은 전형적인 방법으로 스팸 메일을 구분하기에는 많은 어려움이 따른다. 이러한 문제를 해결하기 위하여 본 논문에서는 스팸 메일에 포함되어 있는 하이퍼링크를 추출하여 해당 웹페이지를 가져온 후, 이를 확장된 형태의 메일 본문이라 간주하여 텍스트 정보를 추출하였다. 또한 스팸 메일을 구분하기 위한 정보를 두 가지로 구분하여 사용하였는데, 메일 송신자의 정보와 확실한 스팸 키워드 리스트를 확실한 정보군으로 구분하여 먼저 적용하고, 이보다 덜 명확한 정보들은 따로 구분하여 속성벡터를 만들어 SVM 알고리즘을 적용하였다. 실험결과 하이퍼링크를 통하여 웹페이지를 가져온 방법이 그냥 원본 메밀만 사용한 방법보다 F-measure 값이 평균 9.4% 의 성능향상을 보였다.

사이버공간에서의 언어 사용이 초등학생들의 글쓰기에 미치는 영향 ((The Influences of Internet Chafing Language to the Writing of Elementary Students))

  • 김종진;김여진;김종훈
    • 한국컴퓨터산업학회논문지
    • /
    • 제3권9호
    • /
    • pp.1129-1144
    • /
    • 2002
  • 본 연구에서는 인터넷 언어가 초등학생들의 글쓰기에 미치는 영향을 알아보기 위해 도내 초등학생들의 일기장과 편지를 조사했다. 또한 인터넷 언어에 대한 그들의 인식을 알아보기 위해 설문조사를 실시했다. 조사결과 일기장과 편지 모두에서 광범위하게 인터넷 언어의 흔적이 나타났으며, 그 정도는 구어체인 편지에서 더 심했다. 이에 컴퓨터교육분야에서는 첫째, 정보통신윤리교육을 강화하고, 둘째, 인터넷 언어를 필터링해주는 교육용 소프트웨어 개발에 박차를 가할 필요가 있다. 또한 국어교육분야에서는 첫째, 말줄임표(‘…’)를 마침표(.)대신 사용하거나, 필수문장성분을 생략하는 것이 초등학생들의 논리적인 사고방식형성과 어떤 관계를 갖고 있는가 밝혀질 필요가 있다. 또한 문장부호의 과다사용 및 오용(예: 물음표나 느낌표를 겹쳐 사용하는 것)은 '감정의 절제'를 특징으로 하는 세련된 글쓰기와 어떤 관계를 갖고 있는가 연구돼야 할 필요가 있다.

  • PDF

대규모 언어 모델 및 인컨텍스트 러닝을 활용한 수치 추론 데이터셋 증강 (Numerical Reasoning Dataset Augmentation Using Large Language Model and In-Context Learning)

  • 황예찬;임진수;이영준;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.203-208
    • /
    • 2023
  • 본 논문에서는 대규모 언어 모델의 인컨텍스트 러닝과 프롬프팅을 활용하여 수치 추론 태스크 데이터셋을 효과적으로 증강시킬 수 있는 방법론을 제안한다. 또한 모델로 하여금 수치 추론 데이터의 이해를 도울 수 있는 전처리와 요구사항을 만족하지 못하는 결과물을 필터링 하는 검증 단계를 추가하여 생성되는 데이터의 퀄리티를 보장하고자 하였다. 이렇게 얻어진 증강 절차를 거쳐 증강을 진행한 뒤 추론용 모델 학습을 통해 다른 증강 방법론보다 우리의 방법론으로 증강된 데이터셋으로 학습된 모델이 더 높은 성능을 낼 수 있음을 보였다. 실험 결과 우리의 증강 데이터로 학습된 모델은 원본 데이터로 학습된 모델보다 모든 지표에서 2%p 이상의 성능 향상을 보였으며 다양한 케이스를 통해 우리의 모델이 수치 추론 학습 데이터의 다양성을 크게 향상시킬 수 있음을 확인하였다.

  • PDF

GPS와 USN을 이용한 크레인 위치제어 시스템 설계 (Design of the Crane position control System using GPS and USN)

  • 임수일;남시병;임해진
    • 한국산학기술학회논문지
    • /
    • 제10권7호
    • /
    • pp.1520-1525
    • /
    • 2009
  • 본 연구는 철강 회사의 기존 크레인의 위치 제어 시스템을 USN(Ubiquitous Sensor Network)과 GPS(Global Positioning System) 시스템으로 대체하기 위한 시뮬레이션을 수행한 것이다. 크레인의 위치 제어 시스템을 지상국과 차상국의 통제 시스템으로 구분하였으며, 하드웨어 시스템은 GPS위성으로부터 크레인의 위치 제어 데이터를 수신하는 GPS 수신기 모듈, 지상국과 차상국 간 통신을 하기 위한 블루투스 통신 모듈, 크레인의 위치를 정밀하게 제어하는 초음파 센서 모듈, 크레인의 롤러를 대체한 모터, GPS 수신기 모듈과 블루투스 통신 모듈, 초음파 센서 모듈을 제어하는 임베디드 MCU (ATmega1/28L) 등으로 구성하였으며, 소프트웨어 시스템은 GPS 위성으로부터 GPS 수신기 모듈에 수신된 데이터 중 GGA 출력 문장을 필터링하기 위한 프로그램, 초음파 센서 구동프로그램, 크레인의 위치를 실시간으로 모니터링 할 수 있는 디지털 지도 프로그램 등으로 구성하였다. 제안한 시스템은 위치제어를 1cm 간격으로 정확하게 조절이 가능함을 실험을 통해 확인하였다.