• 제목/요약/키워드: 블로그 글

검색결과 60건 처리시간 0.024초

오피니언 마이닝을 활용한 블로그의 극성 분류 기법 (The Blog Polarity Classification Technique using Opinion Mining)

  • 이종혁;김원상;박제원;최재현
    • 디지털콘텐츠학회 논문지
    • /
    • 제15권4호
    • /
    • pp.559-568
    • /
    • 2014
  • 기존의 감정분석을 통한 극성 분류는 주로 평점을 기반으로 하는 상품평을 기준으로 문장규칙을 이용하여 분석해왔다. 이러한 분석방법은 평점이 없는 블로그 같은 경우 적용되기 어려움 점이 있고 댓글 아르바이트나 관리자에 의해 상품평이 조작될 가능성이 있어서 상품평 만으로는 상품, 매장에 대한 의견을 파악하기에는 어려움이 있다. 이러한 문제점을 고려할 때 개인들의 솔직한 의견이 담겨 있는 블로그를 분석하여 극성을 분류하면 상품, 매장에 대한 올바른 이해가 가능하다. 본 논문은 도메인별로 블로그 글에 대한 고빈도 단어를 추출하여 주제어를 선정하고, 선정된 주제어를 기준으로 제안하는 감정분석 기법을 적용하여 블로그 글에 대한 극성을 분류한다. 감정분석 기법의 성능을 평가하기 위하여 정보 검색 분야에서 사용되는 측정지표 Precision, Recall, F-score를 사용하여 본 연구의 극성 분류기법의 유용성을 검증한다. 평가 결과 기존의 상품평을 문장규칙을 이용하여 분석하여 극성 분류를 하는 기법들에 비해서 제안한 감정분석 기법을 적용할 경우에 우수한 성능으로 극성 분류를 하는 것으로 나타났다.

웹게시판에서 가상온도를 이용한 게시글의 인기 예측 (Predicting the Popularity of Post Articles with Virtual Temperature in Web Bulletin)

  • 김수도;김소라;조환규
    • 한국콘텐츠학회논문지
    • /
    • 제11권10호
    • /
    • pp.19-29
    • /
    • 2011
  • 블로그는 사용자에게 자신의 의견을 표현하고 다른 사람들의 의견을 수렴할 수 있는 자유로운 의사표현 네트워크를 제공한다. 어떤 글은 사회적, 정치적 이슈를 몰고 다니기도 하며 또 어떤 글은 사용자의 관심을 끌지 못하고 지나가기도 한다. 글이 작성된 초기에 향후 얼마나 인기를 얻을지 예측한다는 것은 글의 저자, 블로거, 광고회사 그리고 웹호스팅 모두에게 흥미로울 것이다. 인기를 예측하기 위한 다양한 연구들이 진행되어 왔지만 대부분의 연구들이 사용자간의 상호연관성에 기반하고 있고 정확한 값으로 표현하는데 높은 에러율을 발생하고 있다. 본 논문에서는 블로그에 글이 작성된 초기에 향후 글의 인기를 예측하기 위해 조회수를 사용하여 글의 인기를 4타입(explosion, hot, warm, cold)의 가상 온도로 예측하는 방법을 제안한다. 먼저 글의 포화시점을 정의하고, 초기 조회수와 포화시점 조회수의 관계를 통해 포화시점 조회수를 예측하는 모델링 공식을 유도하였다. 예측된 포화시점 조회수를 이용하여 글의 인기를 4타입의 가상 온도로 표현하였다. 초기 관찰기간에 따라 예측 정확률이 결정되고 있다. 실험결과 30분 이후부터 MAPE(Mean Absolute Percentage Error)가 30%이하로 낮아졌지만, explosive 타입의 경우 초기 조회수로 예측하기 힘들었다. explosive를 제외한 hot, warm, cold 타입에서는 30분후부터 86%이상의 평균 예측 정확률을 보여주며, 70분후부터는 90%이상의 평균 예측 정확률을 보여주고 있었다.

국민참여형 위성영상 블로그 시스템 구축 (Building a Satellite Image Based Blog System using PPGIS(People Participatory GIS))

  • 이기환;이동천;박석호;김일;신상희
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2007년도 춘계학술대회 논문집
    • /
    • pp.92-96
    • /
    • 2007
  • 전라남도 국민참여형 위성영상 블로그 시스템은 2006년도 행정자치부 자치단체정보화지원사업의 일환으로 구축된 것으로서, 사용자가 고해상도 위성영상 위에 직접 자신의 글,사진, 동영상을 올리고,이를 다른 사용자나 시스템과 공유할 수 있도록 구축된 시스템이다. 본 시스템이 궁극적으로 구현하고자 했던 과제는 다음과 같다. (1)지리정보 혹은 기타 정보의 고정성을 탈피하고,(2)지리정보와 멀티미디어 자료의 효율적 통합을 통해 geoUCC를 구축하며,(3)사용자의 참여를 통한 지리정보 제공 방식의 쌍방향성을 구현하여,(4) 사용자를 일방적 자료 활용자에서 자료 생성자로 발전시키고 궁극적으로는 자치단체와 국민 간 새로운 방식의 소통 방식을 생성하는 것이다. 본 시스템 구축의 결과로서 본 시스템에서 일반 국민에게 서비스되는 내용은 다음과 같다. (1) 전라남도 전역의 1m급 고해상도 위성영상의 대국민 서비스,(2)전라남도 전역에 대한 지번 단위까지의 주소 검색 서비스,(3)웹 상에서의 실시간 3차원 GIS 서비스,(4)Web2.0의 철학을 반영한 RSS, Trackback 및 Tag 검색 기능,(5)사용자가 직접 고해상도 위성영상 위에 자신의 글, 사진,동영상,홈페이지 등을 올릴 수 있는 "위성영상 블로그 쓰기 기능",(6)국내 거의 모든 포털 사이트의 블로그와 홈페이지를 지원하는 시스템 연계(퍼가기) 기능 등이다. 결론적으로 본 시스템의 사용자는 고해상도 위성영상 기반의 지도 위에 자신의 여행기,사진, 동영상을 올림으로써 자신만의 사용자제작콘텐츠(UCC)를 생성할 수 있을 뿐만 아니라, 이를 다른 사용자와 공유, 활용함으로써 실질적인 쌍방향,참여형 지리정보시스템을 이용하게 된 것이다.

  • PDF

블로그 연결망에서 컨텐츠 파워 유저의 파악 방안 (A Method for Finding Contents-Power Users in Blog Networks)

  • 김형준;임승환;김상욱;박선주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.67-68
    • /
    • 2007
  • 블로그 연결망 내에는 다른 사용자들이 블로그 서비스를 활발하게 이용하도록 유도하는 역할을 하고 있는 특별한 사용자들이 존재한다. 본 논문에서는 이러한 사용자들 가운데 컨텐츠의 영향력이 큰 사용자들을 컨텐츠 파워 유저라고 정의한다. 본 논문에서는 블로그 서비스 활성화를 위한 정책을 수립할 수 있도록 컨텐츠 파워 유저들을 파악하는 기법에 대하여 논의한다. 우선, 각 사용자가 소유하고 있는 각 게시글들의 컨텐츠 영향력을 계량화하는 방법을 제안하고, 이 값들의 합을 이용하여 해당 사용자의 컨텐츠 영향력을 계산하는 방법을 제안한다.

  • PDF

기능성 주류의 소비기한을 고려한 쇼핑몰 이벤트 생성 알고리즘 연구 (Study of Event Generation Algorithm in Shopping Mall Considering Functional Alcoholic's Liquors Duration)

  • 임세홍;박충훈;김현석;고영민;조정원
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2010년도 춘계학술발표논문집 1부
    • /
    • pp.53-55
    • /
    • 2010
  • 오늘날 기업들은 제품의 유통기한 경과에 따른 폐기비용이 증가함에 따라 이를 줄이기 위한 방안이 필요하게 되었다. 이에 본 연구에서는 쇼핑몰의 재고관리시스템과 웹로그 분석 시스템, 마이크로 블로그를 활용하여 소비기한에 다다른 기능성 주류 제품에 대한 이벤트를 생성해 주는 알고리즘을 제안하였다. 재고관리 시스템에서는 기존의 바코드가 아닌 타임바코드를 활용하여 소비기한을 고려하고, 웹로그 분석 시스템을 통해 고객들의 성향을 파악한 후, 마이크로 블로그를 통해 이벤트 글을 게시함으로써 이벤트가 생성된다. 마이크로 블로그를 통해 상호 연결된 고객들에게는 보다 신속한 정보로 맞춤식 서비스를 제공할 수 있을 것이다.

  • PDF

LSA 유사도 비교를 통한 트랙백 스팸 탐지 (Trackback Spam Detection using Similarity Analysis by LSA)

  • 전혁수;김태환;최중민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.339-344
    • /
    • 2010
  • 오늘날 인터넷 사용자들은 블로그나 뉴스 등의 매체에서 트랙백을 사용해 자신의 의견을 보다 자유롭게 나타낸다. 그러나 이러한 자유로움을 악용해 트랙백 스팸을 유발하여 네트워크의 자원을 낭비하고 방문자들에게 잘못된 정보를 전달해 해당 포스트의 신뢰를 떨어뜨린다. 트랙백 스팸은 유명한 포스트와 연계하여 자신의 포스트로 사용자들을 유도하는 특징을 가지기 때문에 일반적인 웹 스팸을 탐지하는 기술을 적용하기 어렵다. 따라서 본 논문에서는 자신이 작성한 글이 다른 사람의 글과 관련이 있다고 생각하여 다른사람의 글에 자신의 글을 링크시키는 트랙백의 특성을 이용하여 원본 페이지와 트랙백 페이지 그리고 트랙백 페이지의 아웃링크 내용상의 유사도와 동시 출현(co-occurrence) 정보를 이용하여 트랙백 스팸을 처리하고자 한다.

  • PDF

블로그 마이닝을 활용한 행복주택의 인식 분석 (Analysis of Perception on Happy Housing Using Blog Mining Technique)

  • 황지현
    • 한국콘텐츠학회논문지
    • /
    • 제22권2호
    • /
    • pp.211-223
    • /
    • 2022
  • 본 연구는 주거정책 분야에서 여론을 수렴하기 위해 블로그의 활용 가능성을 고찰하고자 한다. 이를 위해 '행복주택'을 키워드로 관련 게시글을 수집하고 주요 키워드를 추출하여 키워드 분석과 단어 군집 분석을 통해 대중들의 인식을 파악하였다. 행복주택에 대한 사회적 논의가 확산된 2013년 5월부터 2021년 8월까지 블로그 게시글 137,002개를 분석 자료로 활용하였으며, 주요 정책과 자료 수집량을 고려하여 수집 기간을 3단계로 나누어 도출된 단어를 분석한 결과는 다음과 같다. 키워드 분석에서 전반적으로 행복주택의 위치, 세대수, 단지 및 주택 규모, 입주 가능 조건 등과 관련된 단어의 중요도가 높았다. 1단계에서는 정부 정책 시행, 2단계에서는 행복주택 신청 절차, 3단계에서는 모집공고, 입주 자격, 임대조건에 중요도가 각각 높은 것으로 나타났다. 군집 분석에서는 모든 단계에서 사업 진행, 신청 절차, 사업지역이 주요 주제로 도출되었다. 특히, 1단계에서는 정책 시행 및 추진방안, 2단계는 입주 자격 및 금융 지원, 3단계에서는 정책 시행 및 입주 자격이 주요한 주제로 도출되었다. 이러한 결과는 블로그를 통해 정책 관련 정보 공유 및 사회적 이슈 반영, 정책 전달 여부 평가, 대중의 정책 참여도 유추가 가능하며, 블로그를 여론 수렴 방법으로 활용할 가능성을 제시한 데에 의의가 있다.

블로그 연결망 활성화를 위한 컨텐츠 파워 유저의 파악 방안 (Determining Contents Power Users for Revitalizing Blog Networks)

  • 임승환;김상욱;박선주;이준호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권6호
    • /
    • pp.411-421
    • /
    • 2009
  • 블로그 연결망 내에는 다른 사용자들이 블로그 서비스를 활발하게 이용하도록 유도하는 특별한 사용자들이 존재한다. 본 논문에서는 이러한 사용자들 가운데 블로그 내의 컨텐츠가 다른 사용자에게 큰 영향을 끼치는 사용자들을 컨텐츠 파워 유저라고 정의하고 이들을 파악하는 기법에 대하여 논의한다. 우선, 각 사용자가 소유하고 있는 각 게시글들의 컨텐츠 영향력을 계량화하는 방법을 제안하고, 이 값들의 합을 이용하여 해당 사용자의 컨텐츠 영향력을 계산하는 방법을 제안한다. 끝으로, 실제 블로그 연결망에서 제안하는 기법과 기존의 기법들을 이용하여 컨텐츠 파워 유저들을 파악하는 실험을 수행하고, 이 결과를 비교 및 분석한다.

소셜 빅데이터로 알아본 코로나19와 가족생활: 토픽모델 접근 (COVID-19 and Korean Family Life on Social Media: A Topic Model Approach)

  • 박선영;이재림
    • 한국콘텐츠학회논문지
    • /
    • 제21권3호
    • /
    • pp.282-300
    • /
    • 2021
  • 본 연구의 목적은 코로나19 확산으로 가족생활에서 급격한 변화가 일어난 1차 확산기에 블로그와 온라인 카페에 게시된 소셜 빅데이터를 분석하여 키워드를 파악하고, 게시글에 잠재된 주요 토픽을 발견하는 것이다. 강화된 사회적 거리두기가 처음 시행되었던 2020년 2월 23일부터 4월 19일까지 네이버와 다음의 블로그 및 카페에 게시된 글 중 '코로나'와 '가족' 또는 '코로나'와 '가정'이 함께 언급된 문서 총 351,734건을 분석하였다. 수집된 데이터는 전처리를 거쳐 텍스트 마이닝 기법으로 분석하였다. TF-IDF 가중치 값을 바탕으로 상위 100개 단어를 살펴보았으며, 잠재디리클레할당 방식의 토픽모델 분석을 통해 총 22개 토픽을 도출하고 토픽명을 부여하였다. 연구결과, 코로나19가 가족의 일상생활에 미친 전방위적 영향이 나타났으며, 특히 식생활, 주거생활, 여가생활, 종교생활, 자녀돌봄, 자녀교육, 가족관계, 가족의례 등에서 변화가 두드러졌다. 더불어, 가족 관련 국내 문헌에서는 잘 논의되지 않던 건강공동체로서의 가족을 시사하는 토픽도 등장하였다.

본문과 덧글의 동시출현 자질을 이용한 역 카이제곱 기반 블로그 덧글 스팸 필터 시스템 (A Comment Spam Filter System based on Inverse Chi-Square Using of Co-occurrence Feature Between Comment and Blog Post)

  • 전희원;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.122-127
    • /
    • 2007
  • 최근 대표적인 1인 미디어의 형태인 블로그는 개인 기록의 수단뿐만 아니라 기업의 홍보에까지 널리 사용되는 인터넷 미디어이다. 그러나 누구나 글을 쓸 수 있다는 자유로움 이면에 이를 이용한 덧글 스팸이 성행이 성행하고 있다. 일반적인 스팸 필터의 경우 그 해당 덧글만을 가지고 스팸 필터링을 한다. 그러나 특성상 스팸인 덧글이 정상인 덧글보다 상대적으로 짧기 때문에 일반적인 덧글 자체만의 필터링 방법으로는 높은 정확도를 기대하기 힘든 단점이 있다. 본 논문에서는 정상인 덧글과 본문간의 내용상의 유사도가 있음을 가정해 이런 정보를 역카이제곱 분류기에 동시출현(co-occurrence) 정보로 부여함으로써 스팸 필터의 정확도를 높이고자 했으며, 실제 그러한 정보를 추가함으로 단순한 확률기반 스팸 필터링 방법을 사용하는 것보다 스팸 필터의 전반적인 성능이 상승되었음을 실험 결과를 통해 알 수 있었다.

  • PDF