• 제목/요약/키워드: 루머확산 모델

검색결과 3건 처리시간 0.018초

개체명 및 사용자 재확산 정보를 이용한 한국어 COVID-19 가짜 뉴스 검출 (COVID-19 Korean Fake News Detection using Named Entity and User Reproliferation Information)

  • 박채원;강지원;이다은;이문영;한진영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.85-90
    • /
    • 2021
  • 코로나바이러스감염증-19로 인한 팬데믹 상황이 지속되면서 감염증 정보의 불확실성으로 인해 코로나 관련 루머가 온라인상에서 빠르게 전파되고 있다. 이러한 코로나 관련 가짜 뉴스를 사전에 탐지하기 위해, 본 연구에서는 한국어 코로나 가짜 뉴스 데이터셋을 구축하고, 개체명과 사용자 재확산 정보를 이용한 한국어 가짜 뉴스 탐지 모델을 제안한다. 가짜 뉴스 팩트체킹 언론인 서울대팩트체크센터에서 코로나 관련 루머 및 가짜 뉴스에 대한 검증 기사를 수집한 후, 기사로부터 개체명 추출 모델을 통해 주제 키워드를 추출하고, 이를 이용해 유튜브 상의 사용자 재확산 정보를 수집하여 데이터셋을 구성하였다. BERT 기반의 제안 모델을 다양한 비교군과 비교하였고, 특성 조합에 따른 실험을 통해 각 특성 정보(기사 텍스트, 개체명 데이터, 유튜브 데이터)가 가짜 뉴스 탐지 성능에 미치는 영향을 알아보았다.

  • PDF

네트워크에서 루머 중심성 기반 질의를 통한 루머의 근원 추정 (Estimating the Rumor Source by Rumor Centrality Based Query in Networks)

  • 최재영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권7호
    • /
    • pp.275-288
    • /
    • 2019
  • 본 논문에서는 네트워크에서 충분히 많은 노드가 루머를 들었을 때 그 근원이 어디서부터 시작 되었는지를 추론하는 문제를 고려한다. 이것은 신기술의 확산, 인터넷에서의 컴퓨터 바이러스/스팸 감염, 인기 있는 주제의 tweeting 및 retweeting과 같은 많은 실제 환경에서 네트워크의 정보 확산이 빠르게 진행되고, 이 정보 중 일부는 다른 노드에게 악영향을 미칠 수 있기 때문에 매우 중요한 문제이다. 이 문제는 선행연구에 의해 감염된 노드의 수가 충분히 많으면 정규 트리의 경우에도 탐지 확률이 31%를 초과 할 수 없다는 것이 입증되었다. 이를 바탕으로 네트워크에 감염된 후보 노드에게 몇 가지 추가 질의를 하는 방법에 대해 조사하고 네트워크 관리자가 한정된 자산을 가지고 있을 때 각 노드에 대한 질의의 수를 어떻게 분배하는지에 대한 자산 할당 알고리즘을 제안한다. 마지막으로 제안한 방법에 대하여 다양한 시뮬레이션을 수행하였고 기존 선행 연구보다 우수한 성능을 확인하였다.

정보확산 감쇠모델에서 정보근원 추정방법 연구 (A Study on Information Source Estimation under Diffusion Decaying Models)

  • 최재영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.380-383
    • /
    • 2019
  • 인터넷의 급속한 발전은 네트워크를 통해 많은 정보를 흘러가도록 만들었다. 그 정보들 중에는 다른 시스템이나 사용자에게 루머나 바이러스와 같은 좋지 않은 정보를 포함하는 경우도 있는데, 이에 대비해서 이런 악성정보가 더 많이 퍼져나가지 않도록 다양한 보안방법들이 제안되었다. 본 논문에서는 이를 위해 정보를 처음 퍼뜨린 근원을 추정해 나가는 문제를 고려한다. 특히, 기존의 이 문제를 다룬 많은 연구에서와는 다르게 본 연구에서는 정보가 시간이 지남에 따라, 혹은 근원으로부터 멀어짐에 따라 그 전파력이 감쇠되는 여러 가지 정보확산 모델을 고려한 후, 각각의 모델에서 트리기반 추정법을 사용하여 정보의 근원을 얼마나 잘 탐지해 내는지에 대해 살펴본다.