• 제목/요약/키워드: 주제탐지

검색결과 74건 처리시간 0.028초

개체명 및 사용자 재확산 정보를 이용한 한국어 COVID-19 가짜 뉴스 검출 (COVID-19 Korean Fake News Detection using Named Entity and User Reproliferation Information)

  • 박채원;강지원;이다은;이문영;한진영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.85-90
    • /
    • 2021
  • 코로나바이러스감염증-19로 인한 팬데믹 상황이 지속되면서 감염증 정보의 불확실성으로 인해 코로나 관련 루머가 온라인상에서 빠르게 전파되고 있다. 이러한 코로나 관련 가짜 뉴스를 사전에 탐지하기 위해, 본 연구에서는 한국어 코로나 가짜 뉴스 데이터셋을 구축하고, 개체명과 사용자 재확산 정보를 이용한 한국어 가짜 뉴스 탐지 모델을 제안한다. 가짜 뉴스 팩트체킹 언론인 서울대팩트체크센터에서 코로나 관련 루머 및 가짜 뉴스에 대한 검증 기사를 수집한 후, 기사로부터 개체명 추출 모델을 통해 주제 키워드를 추출하고, 이를 이용해 유튜브 상의 사용자 재확산 정보를 수집하여 데이터셋을 구성하였다. BERT 기반의 제안 모델을 다양한 비교군과 비교하였고, 특성 조합에 따른 실험을 통해 각 특성 정보(기사 텍스트, 개체명 데이터, 유튜브 데이터)가 가짜 뉴스 탐지 성능에 미치는 영향을 알아보았다.

  • PDF

합성곱신경망과 감성분석 기반의 가짜뉴스 탐지 (Fake News Detection based on Convolutional Neural Network and Sentiment Analysis)

  • 이태원;양영욱;박지수;손진곤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.64-67
    • /
    • 2021
  • 가짜뉴스는 뉴스 기사 형식을 갖는 날조된 정보를 의미하며, 최근 모바일 인터넷 장치의 보급과 소셜 네트워크 서비스의 대중화로 온라인 확산이 가속화되고 있다. 기존 연구는 가짜뉴스의 탐지를 위해 뉴스의 주제목, 부제목, 리드, 본문 등 뉴스 기사를 이루는 구성요소를 비롯하여 언론사, 기자, 날짜, 확산 경로 등의 메타 데이터를 대상으로 분석하였다. 그러나 뉴스의 제목과 본문 및 메타 데이터 등은 내용 수정이 쉬워, 다량의 데이터를 학습한 모델이라 하더라도 높은 정확도를 장기간 유지하기 어려울 수 있다. 이러한 문제점을 해결하기 위하여 본 논문은 합성곱 신경망을 이용해 문맥 정보를 분석하고 장단기 메모리 기반의 감성분석을 추가로 수행한다. 문맥 정보와 가짜뉴스 유포자가 쉽게 수정할 수 없는 감성 변화 패턴을 활용하여 성능이 개선된 가짜뉴스 탐지 모델을 제안한다.

유사도 비교 모듈을 이용한 Tracking By Detection 모델 설계 (Design of Tracking By Detection Model Using Similarity Comparison Module)

  • 양현성;정세훈;심춘보
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.509-511
    • /
    • 2023
  • 현대 컴퓨터 비전 분야에서는 객체 추적이 중요한 연구 주제 중 하나다. 기존 Tracking By Detection 방식은 실시간 추적 속도와 Tracklet을 유지할 수 있는 정보 전달의 한계를 가지고 있다. 본 연구에서는 유사도 비교 모듈을 기반으로 Tracking By Detection 모델을 설계하고자 한다. 탐지 모델은 Anchor를 사용하지 않는 CenterNet을 사용하고 탐지된 값에 유사도 비교 알고리즘을 적용하여 객체 탐지와 객체 추적을 동시에 수행하는 모델을 제안한다. 제안하는 방법은 Occlusion으로 인한 객체 정보 손실을 완화하고, 새로운 객체 및 장애물에 대해 강건할 것으로 사료된다.

주요 학술지 주제분석을 통한 정보학 연구동향 비교 (A Comparative Analysis of the Research Subject in the Recent Journals of Information Science)

  • 유사라
    • 한국비블리아학회지
    • /
    • 제14권2호
    • /
    • pp.179-197
    • /
    • 2003
  • 정보학의 연구동향을 살피기 위하여 2000년부터 2003년까지 최근 3년간 주요 학술지 논문주제를 분석하였다. 분석 기준은 최근 정보학 연구의 지식구조의 변화 탐지를 주목적으로 새로이 개발된 IS Taxonomy(Hawkins, 2003)를 적용했으며 이로써 국내외에서 이루어진 2000년 초반기의 정보학 연구의 공통된 특성이나 차이를 살펴보았다. 학술지를 통하여 나타난 중심주제와 그로써 표출되는 연구 동향이나 추세의 특징이 국내외 환경을 구분하는지 여부를 검증했으며 기존 연구방향과 비교하고 그로 나타나는 도서관 관련 학술연구에 대한 사회수요의 변화를 분석했다.

  • PDF

의견 문서의 단어 통계 분석을 통한 의견 검색 특성에 관한 연구 (A Study on the Characteristics of Opinion Retrieval Using Term Statistical Analysis in Opinion Documents)

  • 한경수
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권11호
    • /
    • pp.21-29
    • /
    • 2010
  • 문서에 표출된 사용자의 의견을 검색하는 의견 검색의 성능이 일반 사실을 검색하는 기존 주제 검색의 성능을 크게 향상시키지 못하고 있다. 이에 본 연구는 블로그를 대상으로 의견 문서와 비의견 문서의 단어 통계를 비교 분석함으로써 의견 검색에 활용할 수 있는 통계적 특성을 파악하고자 한다. TREC의 블로그 트랙에서 사용했던 Blogs06 컬렉션과 150개의 TREC 토픽을 실험 데이터로 사용하였다. JS divergence를 이용하여 의견 문서에서의 단어 확률 분포 간의 상이성을 비교 분석하였으며, TREC 토픽의 유형 및 주제 영역별로 의견 문서를 구분하여 확률 분포의 차이점을 살펴보았고, 의견 단어별 확률을 비교 분석하였다. 실험을 통해 토픽별 특성을 고려한 의견 탐지 방법의 필요성, 토픽별 긍/부정 의견 단어 추출의 효과성, 유형과 주제 영역의 상호 보완적인 특징, 긍정 의견 단어 사용의 유의점 등을 알아내었다.

토픽 모델링과 머신 러닝 방법을 이용한 온라인 C2C 중고거래 시장에서의 사기 탐지 연구 (A Study on the Fraud Detection in an Online Second-hand Market by Using Topic Modeling and Machine Learning)

  • 이동우;민진영
    • 경영정보학연구
    • /
    • 제23권4호
    • /
    • pp.45-67
    • /
    • 2021
  • 온라인 C2C 중고거래에 대한 수요가 증가하고 있으나 물품을 보내지 않거나 명시한 것과 다른 물건을 보내는 방식으로 부당한 금전적 이득을 챙기려는 사기 행위자들의 수도 증가하고 있다. 본 연구는 이러한 사기를 미연에 방지하기 위한 머신 러닝 방법을 이용한 사기 탐지 모델을 구축하였다. 이를 위해 대표적 C2C 중고거래 플랫폼인 중고나라에서 145,536건의 거래 게시글을 수집하였다. 이후 이들 게시글에서 토픽 모델링 기법을 이용하여 상품 설명 내용의 주제를 추출하였으며, 상품 설명의 언어적 특성, 준언어적 특성, 상품의 특성, 게시글의 포스팅 특성, 구매자 특성, 거래 특성들을 추출하였다. 이를 XGBoost 방법에 기반한 머신 러닝 모델을 구축하여 사기 게시글을 탐지하였다. 분석 결과, 사기 게시글은 글 자체의 길이가 대체로 짧고, 제공하는 정보가 적고 상대적으로 구체적이지 않은 것으로 나타났으며 명사를 상대적으로 적게 쓰고 이미지도 사용하지 않거나 적게 사용하는 글이 대부분인 것으로 나타났다. 또한 상대적으로 숫자와 공백의 비율이 높게 나타났으며 정상 게시글의 경우 명사의 경우 상품의 정보, 동사의 경우 전달, 형용사의 경우는 행위와 관련된 단어들이 사용되었으나 사기 게시글은 뚜렷한 주제를 가지지 못하는 것으로 나타났다. 본 연구는 전화번호나 계좌번호를 사용한 기존의 방법과 달리 다양한 게시글의 특성으로 사기 여부를 탐지하는 모델을 구축했다는 점에서 학술적, 실무적 시사점을 가지고 있다.

텍스트 스트리밍 데이터에서 텍스트 임베딩과 이상 패턴 탐지를 이용한 신규 주제 발생 탐지 (Emerging Topic Detection Using Text Embedding and Anomaly Pattern Detection in Text Streaming Data)

  • 최세목;박정희
    • 한국멀티미디어학회논문지
    • /
    • 제23권9호
    • /
    • pp.1181-1190
    • /
    • 2020
  • Detection of an anomaly pattern deviating normal data distribution in streaming data is an important technique in many application areas. In this paper, a method for detection of an newly emerging pattern in text streaming data which is an ordered sequence of texts is proposed based on text embedding and anomaly pattern detection. Using text embedding methods such as BOW(Bag Of Words), Word2Vec, and BERT, the detection performance of the proposed method is compared. Experimental results show that anomaly pattern detection using BERT embedding gave an average F1 value of 0.85 and the F1 value of 1 in three cases among five test cases.

동영상에서 배경영상을 이용한 실시간 객체 추적 (Real Time Object Tracking using Background Image in Video)

  • 김용균;이광형;최내원;오해석;지정규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.532-534
    • /
    • 2002
  • 동영상에서 객체 추적은 몇 년간 컴퓨터 비전 및 여러 실용적 응용 분야에서 관심을 가지는 주제 중 하나이다. 본 논문에서는 감시 시스템 분야에서 적용되어 질 수 있는 실시간 객체 추적 방법을 제안하고자 한다. 이를 위해 카메라가 고정되어 있고 배경영상의 변화가 거의 없는 환경으로 제한하고, 입력영상과 배경영상의 차를 이용하여 객체의 위치를 탐지하고 움직임을 추적한다. 객체 위치 탐지시 객체의 윤곽선 중 일부 점을 추출하고 추출된 점들을 이용, 객체의 무게중심을 구한다. 객체 추적시 가변 탐색창을 이용해 실시간으로 빠른 처리가 가능하도록 하였다. 그리고 실험을 통하여 제한된 환경하에서 실시간으로 빠른객체의 추적을 보인다.

  • PDF

커뮤니티 통계량에 기반한 사회 연결망 모니터링 절차 (A social network monitoring procedure based on community statistics)

  • 이주원;이재헌
    • 응용통계연구
    • /
    • 제36권5호
    • /
    • pp.399-413
    • /
    • 2023
  • 최근 사회 연결망에서 비정상적인 변화를 모니터링하는 절차는 흥미로운 연구 주제이다. 이 논문은 사회 연결망 모형 중 커뮤니티와 개인들의 경향성을 모두 고려한 동적 연결망 모형인 DCSBM (degree corrected stochastic block model)을 가정하고 이 연결망 내의 변화를 모니터링하는 절차를 고려하였다. 이때 커뮤니티의 비정상적인 변화 탐지를 위해 세 가지의 모니터링 방법을 제안하였다. 또한 제안된 방법의 성능을 평가하기 위해 모의실험을 설계하고 수행하였다. 커뮤니티의 경향성 변화에 대한 모의실험 결과 연결망을 커뮤니티에 따라 분할하여 모니터링하는 방법이 전반적으로 빠르게 변화를 탐지하여 성능이 더 좋음을 알 수 있었다.

트위터 데이터 수집을 위한 동적 시드 선택 (Dynamic Seed Selection for Twitter Data Collection)

  • 이현철;변창현;김양곤;이상호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제41권4호
    • /
    • pp.217-225
    • /
    • 2014
  • 트위터와 같은 소셜 네트워크 분석은 인간의 행동을 이해하거나, 화제가 되는 주제를 탐지하거나, 영향력 있는 사람을 식별하거나, 커뮤니티나 그룹을 발견하는데 흥미로운 시각을 제공할 수 있다. 하지만 소셜 네트워크가 가지는 특성(즉 데이터가 방대하고, 정교하지 않으며 또한 동적인 특성)으로 인하여 소셜 네트워크에서 주제와 연관이 있는 데이터를 수집하는 것은 어려운 일이다. 본 논문은 주어진 주제와 관련 있는 트윗을 효과적으로 수집하기 위하여 시드 노드를 동적으로 선택하는 알고리즘을 제안한다. 본 알고리즘은 사용자의 영향력을 측정하기 위하여 사용자 속성을 활용하며, 수집 프로세스 중에 시드 노드를 동적으로 할당한다. 우리는 제안한 알고리즘을 실제 트윗 데이터에 적용하였으며, 만족할 만한 성능결과를 얻었다.