• 제목/요약/키워드: 댓글 그래프

검색결과 6건 처리시간 0.019초

그래프 구조를 이용한 악성 댓글 분류 시스템 설계 및 구현 (Design and implementation of malicious comment classification system using graph structure)

  • 성지석;임희석
    • 한국융합학회논문지
    • /
    • 제11권6호
    • /
    • pp.23-28
    • /
    • 2020
  • 인터넷상의 소통을 위해 댓글 시스템은 필수적이다. 하지만 온라인상의 익명성을 악용하여 타인에 대한 부적절한 표현 등의 악성 댓글 또한 존재한다. 악성 댓글로부터 사용자를 보호하기 위해 악성/정상 댓글의 분류가 필요하고 이는 텍스트 분류로 구현할 수 있다. 자연어 처리에서 텍스트 분류는 중요한 주제 중 하나이고 최근 BERT 등 pretrained model을 활용한 연구와 GCN, GAT 등의 그래프 구조를 활용한 연구가 활발히 진행되고 있다. 본 연구에서는 실제 공개된 댓글에 대해 BERT, GCN, GAT 을 활용하여 댓글 분류 시스템을 구현하고 성능을 비교하였다. 본 연구에서는 그래프 기반 모델을 사용한 시스템이 BERT 대비 높은 성능을 보여주었다.

딥러닝과 머신러닝을 활용한 독자 반응 기반 웹툰 데뷔작 성공 예측 모델 (A Success Prediction Model for Debut Webtoon Based on Reader reaction Using Deep Learning and Machine Learning)

  • 허은영;김승화;김현희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.770-773
    • /
    • 2019
  • 본 논문에서는 매년 성장하는 웹툰 시장 속에서 신인 작가들이 성공할 수 있는 성공 요인을 밝히고자 하였다. 국내 1위 웹툰 플랫폼인 네이버 웹툰 중 데뷔작을 기준으로 완결 웹툰 212개, 연재 중인 웹툰 112개, 총 324개의 웹툰을 수집하여 연구를 진행하였다. 기존 선행연구와의 차별화를 두기 위해 독자의 직접적인 반응 중 하나인 댓글을 성공 요인에 포함하였다. 댓글에 담긴 긍정, 부정을 나타내는 주관을 탐지하기 위해 딥러닝을 이용하여 감성 분석을 실시하였다. 각 웹툰에 대한 댓글 반응을 포함하여 평균, '좋아요' 수, 장르 그리고 첫 화 댓글 수와 5화까지 평균 댓글 수를 흥행에 영향을 미치는 독립변수로 사용했다. 댓글 반응이 중요 요인인지를 확인하기 위해 각 모델 생성 시 댓글 반응을 포함한 모델과 포함하지 않은 모델을 생성하여 성능 평가를 실시하였다. 로지스틱 회귀분석, 아다 부스트, 그리고 서포트 벡터 머신 모델을 정확도와 ROC 그래프를 이용해 효율성을 비교하고, 이를 통해 댓글 반응을 활용한 로지스틱 회귀 모델이 가장 적합하다고 판단하였다. 모델 생성 결과 '좋아요' 수, 1화 댓글 수, 댓글 반응 순으로 성공 요인에 많은 영향을 미치는 것을 알 수 있었다.

사용자 이분그래프모형을 이용한 온라인 커뮤니티 토론 네트워크의 군집성과 극성 분석 (Cluster and Polarity Analysis of Online Discussion Communities Using User Bipartite Graph Model)

  • 김성환;탁해성;조환규
    • 인터넷정보학회논문지
    • /
    • 제19권5호
    • /
    • pp.89-96
    • /
    • 2018
  • 온라인 커뮤니티에서는 많은 수의 참여자들이 시공간적인 제약을 받지 않고 서로간의 다양한 의견을 댓글로 교환한다. 온라인 공간은 시공간적인 제약으로부터 자유롭기 때문에 신속하고 자유로운 의사소통을 가능하게 하지만, 동시에 불필요한 언쟁과 갈등을 쉽게 유발시킬 수 있다는 문제점이 있다. 토론 과정에서 형성되는 참여자 간의 네트워크는 참여자들 간의 대립 양상을 파악하고 앞으로 일어날 분쟁을 예측하여 방지하기 위한 중요한 단서가 된다. 본 논문에서는 온라인 커뮤니티에서의 댓글 교환으로 나타나는 사용자 토론 네트워크상에서 관찰되는 집단의 극성을 분석하기 위한 이분그래프 기반의 정량적 지표를 제안한다. 제안 기법은 댓글 교환 정보를 이용하여 사용자 상호작용 네트워크 그래프를 구성하고, 구성한 그래프 상에서 최대신장트리를 구한 후 버텍스 컬러링을 통하여 사용자를 두 부분집합으로 분할한다. 분할된 사용자 집합 간의 댓글 교환 비율을 이용하여 극성 지표를 계산함으로써 주어진 토론의 참가자들이 양분화된 정도를 정량적으로 측정한다. 실험을 통해 제안 기법이 진영의 양분화를 탐지하는데 효과적임을 보임과 동시에 온라인 커뮤니티에서 발생하는 개별 토론의 참여자들이 두 진영으로 양분되어 논쟁을 벌이는 것을 확인하였다.

토픽 모델링을 이용한 댓글 그래프 기반 소셜 마이닝 기법 (A Reply Graph-based Social Mining Method with Topic Modeling)

  • 이상연;이건명
    • 한국지능시스템학회논문지
    • /
    • 제24권6호
    • /
    • pp.640-645
    • /
    • 2014
  • 인터넷 상에서 많은 사람들은 사용자 간의 의사소통과 정보 공유, 사회적 관계를 생성하기 위한 방법으로 소셜 네트워크 서비스를 이용한다. 그 중 대표적인 트위터는 하루에 수백만 건의 소셜 데이터가 발생하기 때문에 수집되고 있는 데이터의 양이 엄청나다. 이 방대한 양의 데이터로부터 의미 있는 정보를 추출하는 소셜 마이닝이 집중적으로 연구되고 있다. 트위터는 일반적으로 유용한 정보 혹은 공유하고자 하는 내용을 팔로잉-팔로워 관계를 이용해 쉽게 전달하고 리트윗할 수 있다. 소셜 미디어에서 트윗 데이터에 대한 토픽 모델링은 이슈를 추적하기 위한 좋은 도구이다. 짧은 텍스트 기반인 트윗 데이터의 제한점을 극복하기 위해, 사용자를 노드로 사용자간 댓글과 리트윗 메시지의 여부를 간선으로 하는 그래프 구조를 갖는 댓글 그래프의 개념을 소개한다. 토픽 모델링의 대표적인 방법인 LDA 토픽 모델이 짧은 텍스트 데이터에 대해 비효율적인 것을 보완하기 위한 방법으로, 이 논문에서는 짧은 문서의 수를 줄이고 마이닝 결과의 질을 향상시키기 위한 댓글 그래프를 사용하는 토픽 모델링 방법을 소개한다. 제안한 모델은 토픽 모델링 방법으로 LDA 모델을 사용하였으며, 7일간 수집한 트윗 데이터에 대한 실험 결과를 보인다.

다수의 SNS를 이용한 키워드 트렌드 분석 시스템 (A Keyword Trend Analysis System Using Multiple SNS Sites)

  • 이명철;한수현;이재성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.1133-1135
    • /
    • 2019
  • 기업이나 정부 등의 정책 결정에 활용하기 위해, SNS에서 사용하는 키워드를 추출하여 소비자나 유권자의 관심과 선호도를 분석하는 방법이 많이 사용되고 있다. 본 논문에서는 다수의 SNS 사이트에 올린 글과 그에 대한 공감(좋아요) 댓글, 해시태그를 분석하여 관심 키워드의 트렌드를 분석할 수 있는 시스템을 제안한다. 이 시스템에서는 각각의 SNS 글을 형태소 분석하여 키워드 빈도를 측정하고 그에 대한 공감 및 해시태그의 갯수를 계산하여 일정기간 동안의 변화를 그래프로 표시하였다. 이를 통해, 여러 사이트에서의 키워드 트렌드를 한눈에 확인할 수 있도록 했다.

상호작용성에 의한 SNS 영향유저 선정에 관한 연구 : 연속적인 참조관계가 있는 블로고스피어를 중심으로 (Finding Influential Users in the SNS Using Interaction Concept : Focusing on the Blogosphere with Continuous Referencing Relationships)

  • 박현정;노상규
    • 한국전자거래학회지
    • /
    • 제17권4호
    • /
    • pp.69-93
    • /
    • 2012
  • 블로그, 페이스북, 트위터와 같은 SNS(Social Network Service)는 유저와 포스트를 노드로, 유저와 포스트, 포스트와 포스트, 또는 유저와 유저 사이에 형성되는 다양한 관계를 링크로 하는 그래프로 표현될 수 있다. 본 논문은 이러한 그래프 구조를 분석하여 다른 유저들의 생각과 행동에 영향을 미치는 영향 유저를 선별하는 방법에 대해 논한다. 기본적인 패러다임으로 기존의 투표성 개념이 아닌, 다양한 시맨틱 웹 자원의 중요도를 평가하기 위해 제안된 상호작용성 개념을 초기 SNS의 하나인 블로고스피어의 영향력 평가에 적용함으로써, 여러 모의 실험을 통해 그 타당성과 적용 가능성을 입증하였다. 모의 실험은 각 대안이 제공하는 결과의 타당성 정도에 따라 성능을 비교 분석할 수 있는 네트워크 모형을 디자인하여 사용하였다. 또, 이러한 네트워크 모형에 대한 링크 가중치 튜닝의 결과 변화를 살펴봄으로써, 가중치 조합의 차이에서 발생하는 실험 오차를 줄이고, 실제 적용의 용이함을 비교 분석하였다. 부가적으로, 스팸 필터링 목적에서 포스트 컨텐츠 점수를 링크 구조 기반 방법 안에 포함시킬 수 있는 방법도 제안하였다. 본 연구는 SNS 영향유저 선별에 대한 연구의 출발점으로서, 다음과 같은 점에서 기존 연구와 구별된다. 첫째, 스크랩, 댓글, RSS, 친구 등 기존 연구에서 유의미한 속성으로 간주했지만, 그래프 기반 방법으로 함께 고려할 수 없었던 다양한 영향력 속성들을 종합적으로 반영할 수 있는 그래프 기반 영향력 평가 프레임웍을 제시한다. 둘째, 이 프레임웍은 영향력이 높은 개체들과 상호작용하는 개체가 영향력이 낮은 개체들과 상호작용하는 개체보다 높은 영향력을 갖게 되는 일반적인 현상을 구현할 수 있는 양방향성을 반영한다. 셋째, 영향력 평가 면에서 다른 사람들의 추종액션을 유발한 정도를 가장 중요한 요인으로 고려하여, 일련의 참조관계에 대해 기존의 페이지랭크나 HITS(Hypertext Induced Topic Selection)와는 다른 관점에서 접근하였다.