Abstract
Twitter has been a popular social media platform where people post short messages of 140 characters or less via the web. A hashtag is a word or acronym created by Twitter users to open a discussion about certain topics and issues that have a very high percentage of trending. Since the hashtag posts are sorted by time, not relevancy, people who firstly use Twitter have had difficulty understanding their context. In this paper, we propose a HBase-based automatic summary system in order to reduce the difficulty of understanding. The proposed system combines an automatic summary method with a fuzzy system after storing the streaming data provided by Twitter API to the HBase. Throughout this procedure, we have eliminated the duplicate of contents in the hashtag posts and have computed scores between posts so that the users can access to the trending topics with relevancy.
트위터는 사용자들이 140개 정도의 문자들로 이루어진 짧은 메시지를 웹에 포스팅 할 수 있도록 제공하는 인기 있는 소셜 미디어 플랫폼이다. 해시태그는 이러한 트위터 사용자들이 특정한 주제에 대해서 토론을 하거나 높은 트랜딩을 가지는 이슈를 나타내고자 할 때 사용하는 특정한 단어나 두음문자이다. 하지만 동일한 해시태그를 포함하는 포스트들은 관련 있는 문장이 아닌 시간 순서에 의해서 처리되기 때문에, 처음 사용자가 그 해시태그와 관련된 내용을 이해하기 위해서는 다른 불필요한 내용까지 읽어야 하는 어려움이 있다. 본 논문에서는, 이러한 문제점을 해소하기 위한 HBase 기반 자동 요약 시스템을 제안한다. 제안된 시스템은 트위터 API에서 제공하는 스트리밍 데이터를 HBase에 저장한 후 퍼지 시스템과 접목하여 자동 요약 방법을 시행하였다. 이를 통해서 해시태그를 포함한 포스트내의 중복된 내용을 제거하고, 각 포스트들의 중요도를 계산해서 사용자가 트랜딩 토픽내에 관련 있는 주제에 쉽게 접근할 수 있도록 하였다.