• 제목/요약/키워드: selective bigram

검색결과 1건 처리시간 0.019초

낚시성 인터넷 신문기사 검출을 위한 특징 추출 (Feature Extraction to Detect Hoax Articles)

  • 허성완;손경아
    • 정보과학회 논문지
    • /
    • 제43권11호
    • /
    • pp.1210-1215
    • /
    • 2016
  • 스마트 기기의 발달로 많은 사람들이 인터넷 신문기사를 이용하고 있다. 하지만 인터넷 언론사간의 치열한 경쟁으로 조회수를 올리기 위한 낚시성 기사가 범람하고 있다. 낚시성 신문기사는 제목을 통해 올바른 기사의 줄거리가 제공되지 않았을 뿐만 아니라, 독자로 하여금 잘못된 내용을 떠올리게 한다. 낚시성 신문기사는 핵심에서 벗어난 유명인사 인용, 애매한 문장의 마무리, 제목과 내용의 불일치 등의 특징을 갖는다. 본 논문에서는 이러한 낚시성 기사를 분류하기 위한 특징을 추출하고 성능을 검증해 본다. 기사에 달린 댓글의 키워드를 활용하여 대용량 학습데이터를 생성하고 이를 기반으로 다섯 가지 분류 특징을 추출하였다. 추출된 특징들은 서포트 벡터 머신 분류기를 이용한 실험에서 92%의 정확도를 보여 낚시성 인터넷 신문기사를 분류하는데 적합하다고 판단된다. 뿐만 아니라 제목과 본문의 일관성을 측정하기 위한 전처리 방법으로 고안한 선택적 바이그램 모델은 낚시성 인터넷 신문기사 분류 외에도 일반적인 단문 분석을 위한 전처리 방법으로 유용할 것으로 기대된다.