• 제목/요약/키워드: 정보 수집 및 추출

검색결과 752건 처리시간 0.026초

실시간 이슈 탐지를 위한 일반-급상승 단어사전 생성 및 매칭 기법 (A Generation and Matching Method of Normal-Transient Dictionary for Realtime Topic Detection)

  • 최봉준;이한주;용우석;이원석
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권5호
    • /
    • pp.7-18
    • /
    • 2017
  • 트위터는 사용자들에게 정보를 받거나 교환하는 채널로써의 역할이 활발히 이루어지고 있고 새로운 사건이 발생했을 때 빠르게 반응하기 때문에 지진이나 홍수, 자살 등의 새로운 사건을 탐지하는 센서역할로 활용할 수 있다. 그리고 사건을 탐지하기 위해서 우선적으로 관련된 트윗 추출이 필수적이다. 하지만 관련된 트윗을 찾기 위해 관련 키워드를 포함한 트윗을 추출하기 때문에 해당 키워드가 없지만 의미적으로 사건과 관련이 있는 트윗은 찾지 못하는 문제점이 있다. 또한 기존의 연구들은 디스크에 저장된 데이터에 대한 분석이 주를 이루고 있어 원하는 결과를 얻기 위해서는 데이터를 수집하여 저장하고 분석에 이르기까지 오랜 시간이 소모된다. 이러한 문제점을 해결하기 위해 본 연구에서는 실시간 이슈 탐지를 위한 일반-급상승 단어 사전 생성 및 매칭 기법을 제안한다. 데이터 스트림 인메모리 기반으로 일반-급상승 단어 사전을 생성 및 관리하기 때문에 새로운 사건을 빠르게 학습하고 대응할 수 있다. 또한 분석을 원하는 주제의 일반 사전과 급상승 사전을 동시에 관리하기 때문에 기존의 방법으로 찾지 못하는 트윗을 검출해 낼 수 있다. 본 연구를 통해 빠른 정보와 대응이 필요한 분야에 즉시적으로 활용할 수 있다.

Remote Sensing을 이용한 태화강 하구 수심정보 획득 - Landsat 7 ETM 다중분광영상을 사용

  • 오창석;조홍제;송영민
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2006년도 학술발표회 논문집
    • /
    • pp.1530-1534
    • /
    • 2006
  • 원격탐사 기법을 이용한 수심측정은 하나 혹은 그 이상의 파장대에서 수심과 반사되는 에너지 사이의 관계를 찾아내는데 달려 있다. 수심 정보를 획득하기 위한 스펙트럼의 최적 파장길이는 다중분광영상(Landsat 7 ETM)의 blue band에 해당하는 약 $0.48{\mu}m$이며, 이 band를 이용하여 연안의 수심을 측량하기도 한다. 하지만 단일밴드에 의해서 측정된 값을 이용한 수심측정은 해저표면에 의한 반사에 심각한 영향을 받을 수 있기 때문에 신뢰할 만한 결과를 얻을 수 없다. 따라서 본 연구에서는 해수와 관련한 여러 가지 변수들을 결정하기 위하여 다량의 실측 데이터를 필요로 하지 않는 선형다중밴드방식을 이용하여 2개의 Landsat 영상으로 태화강 하구의 수심정보를 추출하고 태화강 본류에 대한 수심정보획득과 하상변동에 대한 분석 가능성을 파악하였다. 그 결과 임의로 선정한 표본 50개 지점에 대한 영상분석에 의한 수심값과 해도의 수심값의 잔차 평균이 각각 2.29m, 2.43m로 비교적 큰 잔차를 보였다. 하지만 20m 미만의 수심대의 표본만을 확인한 결과 각각 1.73m, 1.88m로 잔차 평균이 크게 감소하였다. 2000년, 2003년 영상을 비교한 결과, 1번 2번 3번 지역에서 평균적으로 약 1.838m정도 2003년 수심이 감소한 것으로 나타났다. 본 연구에서 20m 미만의 수심 측량은 낮은 해상도의 위성영상이라도 실제 수심과 근접하고 있는 것으로 판단 할 수 있었다. 이것으로 넓은 지역을 경제적으로 수심자료를 획득할 수 있는 위성영상분석을 이용한 수심측정은 활용성이 있는 것으로 나타났다. 하지만 해저표면의 형태와 해수면의 상태 등 수심측정에 미치는 영향에 관한 실측데이터에 대한 자료수집과 분석이 선행된다면 더욱 좋은 결과를 도출할 수 있을 것으로 판단된다.A}$는 최대암모니아 섭취률을 이용하여 구한 결과 $0.65d^{-1}$로 나타났다.EX>$60%{\sim}87%$가 수심 10m 이내에 분포하였고, 녹조강과 남조강이 우점하는 하절기에는 5m 이내에 주로 분포하였다. 취수탑 지점의 수심이 연중 $25{\sim}35m$를 유지하는 H호의 경우 간헐식 폭기장치를 가동하는 기간은 물론 그 외 기간에도 취수구의 심도를 표층 10m 이하로 유지 할 경우 전체 조류 유입량을 60% 이상 저감할 수 있을 것으로 조사되었다.심볼 및 색채 디자인 등의 작업이 수반되어야 하며, 이들을 고려한 인터넷용 GIS기본도를 신규 제작한다. 상습침수지구와 관련된 각종 GIS데이타와 각 기관이 보유하고 있는 공공정보 가운데 공간정보와 연계되어야 하는 자료를 인터넷 GIS를 이용하여 효율적으로 관리하기 위해서는 단계별 구축전략이 필요하다. 따라서 본 논문에서는 인터넷 GIS를 이용하여 상습침수구역관련 정보를 검색, 처리 및 분석할 수 있는 상습침수 구역 종합정보화 시스템을 구축토록 하였다.N, 항목에서 보 상류가 높게 나타났으나, 철거되지 않은 검전보나 안양대교보에 비해 그 차이가 크지 않은 것으로 나타났다.의 기상변화가 자발성 기흉 발생에 영향을 미친다고 추론할 수 있었다. 향후 본 연구에서 추론된 기상변화와 기흉 발생과의 인과관계를 확인하고 좀 더 구체화하기 위한 연구가 필요할 것이다.게 이루어질 수 있을 것으로 기대된다.는 초과수익률이 상승하지만, 이후로는 감소하므로, 반전거래전략을 활용하는 경우 주식투자기간은 24개월이하의 중단기가 적합함을 발견하였다. 이상의 행태적 측면과 투자성과측면의 실증결과를 통하여 한국주식시장에 있어서 시장수익률을 평균적으로 초과할 수 있는 거래전략은 존재하므로 이러한 전략을 개발 및 활용할 수

  • PDF

자질 선택 기법을 이용한 한국어 화행 결정 (Decision of the Korean Speech Act using Feature Selection Method)

  • 김경선;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권3_4호
    • /
    • pp.278-284
    • /
    • 2003
  • 화행(speech act)이란 화자의 발화를 통해 나타나는 화자의 의도를 가르키며 자연어로 된 발화를 이해하고 이에 대한 응답을 생성하기 위해 중요한 요소이다. 본 논문에서는 한국어 화행 결정의 성능을 높이기 위해 두 단계 방법을 제안한다. 첫 번째 단계는 형태소 분석결과만을 이용하여 추출된 문장자질과 이전 화행을 이용하여 추출된 문맥자질 중 정보량이 높은 자질을 선택하는 단계이다. 이 단계에서는 형태소 분석 시스템을 사용하여 전체 자질을 구성하고 문서분류 분야의 자질 선택에서 높은 성능을 보인 카이제곱 통계량을 이용하여 효과적인 자질 선택한다. 두 번째 단계는 선택된 자질과 신경망을 이용하여 화행을 분석하는 단계이다. 본 논문에서 제시한 방법은 형태소 분석 결과만을 이용하여 자동적으로 화행을 결정할 수 있는 가능성을 제시하였으며 효과적인 자질 선택을 통해 자질의 수를 감소시키고 정보량이 높은 자질을 사용하여 속도와 성능을 향상 시켰다 본 논문은 제안된 시스템을 실제 영역에서 수집되어 전사된 10,285개의 발화와 17개의 화행으로 이루어진 대화 코퍼스에 대해 실험하였다. 본 논문은 이 코퍼스에서 8,349개 발화를 학습 코퍼스로 사용하여, 실험 코퍼스의 1,936개 발화에 대해 1,709개에 대해 정확한 화행을 제시하여, 88.3%의 정확도를 보였다. 이는 자질 선택을 하지 않았을 때 보다 약 8%가 증가된 결과이다.

GPS 데이터를 이용한 대기행렬길이 산출에 관한 연구 (Study on Queue Length Estimation using GPS Trajectory Data)

  • 이용주;황재성;이철기
    • 한국ITS학회 논문지
    • /
    • 제15권3호
    • /
    • pp.45-51
    • /
    • 2016
  • 기존 실시간 신호제어시스템은 과포화 상황, 지점검지 및 매설식 검지체계의 문제점이 제기됨에 따라 ITS의 활성화와 검지체계의 발전 등으로 진보된 차세대 신호제어시스템의 개발이 요구되고 있다. 본 논문은 차세대 신호제어시스템을 위해 신호제어 기초 변수를 기존 통과교통량이 아닌 교차로 대기행렬을 활용할 수 있도록 대기행렬길이의 산출을 목적으로 하였다. 기존 시스템의 한계로 나타난 과포화 상황에 중점을 두어 범위를 설정하였다. 실시간으로 수집되는 개별차량 위치정보를 좌표로 변환하여 최소제곱법을 이용한 회귀모형에 적용하여 추출한 직선식을 충격파 모형에 적용하였다. 산출된 대기길이와 링크길이의 비교를 통해 대기길이가 링크를 초과하는 경우 상류부 대기차량이 하류부 교차로에 영향을 미친다고 판단하여 하류부 교차로 대기행렬까지 대기길이로 포함하였다. 추출된 대기행렬길이의 신뢰성을 판단하고자 링크 통행시간과의 상관분석을 실시한 결과 두 링크 모두 0.9이상의 수치를 나타내며 높은 상관관계를 보이는 것으로 판단되었다. 본 연구는 실시간으로 수집되는 데이터를 이용하여 대기행렬길이를 산출할 수 있다는 점과 이를 이용하여 신호제어시스템의 개선에 기여할 수 있다는데 의의가 있다.

합성개구레이더 영상을 이용한 하천내 DEM 개선 방안 (Measures to improve the DEM using SAR images in the river corridor)

  • 김주훈;노희성
    • 한국수자원학회논문집
    • /
    • 제55권11호
    • /
    • pp.913-922
    • /
    • 2022
  • 본 연구에서는 하천구역에 대해 SAR 영상 분석에 의한 수면적 범위를 이용한 DEM을 개선하는 방법을 제안하고, 북한과 같은 비접근 지역에 적용 가능한 위성 기반의 3차원 하천 공간정보 구축 방법을 제시함을 목적으로 하고 있다. 이를 위해 접근 가능한 남한의 낙동강 지류인 남강 유역을 대상으로 연구를 진행하였다. 위성영상은 유럽항공우주국에서 제공하고 있는 Sentinel-1A/B 자료에 대해 2021년 1년간의 SAR 위성영상 자료를 수집하여 각 시기별의 수체면적을 추출하였다. 지상관측 수위는 WAMIS의 1시간 간격의 자료를 수집하였다. SAR영상 분석에 의해 추출한 수체면의 최저면적부터 최고면적까지 자료에 대해 지상의 계측 수위를 조합하여 수체면 변화에 따른 하천내 고도를 분석하여 DEM을 개선하였다. DEM 개선 후 하천구역내 고도가 매우 다양한 값을 나타내고 있어 기존의 DEM보다 비교적 자연스러운 형태의 하천 DEM을 구성하고 있는 것으로 판단된다. 개선된 DEM에 대한 정확도 검증을 위해 현장에서 측정한 지형 고도자료가 필요하나 자료의 부재로 인해 정확도 검증은 수행하지 못하였다. 다만 본 연구에서는 기존의 DEM과 SAR 영상 분석에 의해 분석된 수체면의 수위를 이용하여 DEM을 개선하는 방법을 제시하였다. 향후 정확도 검증에 대한 추가 연구를 수행한 후 다른 지역에 대한 적용성 검토 및 북한과 같은 미계측/비접근 지역에 적용할 수 있는 방법론을 추가로 제시하는 연구를 진행할 계획이다.

Gene Chip을 이용한 돼지의 퇴행성 관절염의 활막세포 기작 연구

  • 이정수;;임희경;조인희;소현경;;김은국;이종하;황수연;최강덕
    • 한국축산식품학회:학술대회논문집
    • /
    • 한국축산식품학회 2006년도 정기총회 및 제37차 춘계 국제학술발표대회
    • /
    • pp.128-132
    • /
    • 2006
  • 관절염이 일어나는 정확한 기전은 아직까지 잘 규명되어 있지 않으나 일반적으로 cytokine, chemokine을 비롯한 여러 가지 조절 물질들 사이의 미묘한 균형이 깨어지는 일이 주된 요인으로 추정되고 있다. 사람의 경우 염증이 일어난 관절 조직에서 활막 세포(synovial fibroblast)는 여러 염증성 사이토카인들을 분비하기도 하며 또 한편 이들 cytokine의 target 세포로 이들의 자극에 대하여 정상인의 그것과 다른 증식 및 활성화 반응을 보이는 등, 다양한 측면에서 관절염증의 유발에 기여하는 것으로 보여진다. 따라서 활막세포 활성화 경로를 DNA Microarray chip을 이용하여 세포 및 분자 수준에서 밝혀 이를 차단할 수 있는 자연물질(natural product)를 선별함으로써 항생제나 스테로이드를 사용하지 않고 돼지의 관절염을 효과적으로 치료 또는 예방할 수 있는 방법을 모색하고자 한다. 6.6kg의 암컷 Yorkshire와 수컷 Landrace의 교배잡으로 왼쪽 뒷다리 슬관절에 십자인대를 파열하여 관절염을 유발하고 8주간 성장을 시킨 후 정상 슬관절과 관절염이 유발된 슬관절의 활막세포로부터 total RNA를 추출한 후 affymetrix Gene chip을 제작하여 Geneplex소프트웨어를 이용하여 데이터를 분석하였다. 분석 결과 unknown 유전자 962개를 포함하여 유전자 발현이 증가된 유전자는 총 1,059개 였으며, unknown 유전자 564개를 포함하여 유전자 발현이 증가된 유전자는 총 639개를 얻었다. 이러한 돼지 관절염에서의 활막세포에 의한 유전적 발현 양상으로부터 molecular function, biological process, pathway등을 이용하여 관절염 지표를 작성할 수 있다.분별을 성공적으로 수행하였다.(p<0.05), 맛, 연도, 다즙성 및 전체적인 기호성은 유의한 차이가 없었다.자체를 악하다고 볼 수 없고 더구나 구원을 이 세상에서의 이탈로 볼 수 없다. 진정한 구원이란 원래 하나님이 보시기에 아름다웠던 그 세상으로의 회복을 포함한다. 이런 면에서 하나님 주권 신앙 하에서 구원이란 전 인격적인 구원, 전 우주적인 구원이 된다. 그렇기 때문에 성도는 세상의 삶과 학문, 예술, 정치, 경제, 사회를 포함한 모든 분야를 하나님의 뜻 가운데서 그 원래의 목적에 부합할 수 있도록 회복시키는 일에 적극 참여해야 한다.자체가 이를 주도하기는 사실 어려움이 있다. 그리고 대형유통점이 영업행위를 영업시간제한에서부터 출점제한에 이르기까지 규제하는 건은 심사숙고하여야 한다. 대형유통점이 국가경제 및 지역사회에 미치는 영향이 부정적인가 긍정적인가에 대해 국내외 학계와 업계에서 여전히 많은 논란이 있기 때문이다. 정부와 지자체에 의한 시장개입은 반드시 필요한 경우에 한해 합당한 방법에 의해 이루어져야 한다. 대형유통점에 대한 규제는 지역사회에 미치는 영향을 다면적으로 평가한 결과에 근거하여 이루어져야 할 것이다. 대부분의 지자체는 체계적인 평가시스템과 객관적인 통계 자료를 갖고 있지 못한 실정이다. 향후 가장 시급한 과제는 시장개방 이후 지난 10년간 대형유통점이 지역사회에 미친 영향에 관한 광범위한 통계자료를 수집하고 이를 체계적으로 분석하여 정책방향을 올바르게 설정하는 것이라 할 수 있다.i와 K. pneumoniae가 존재하며 확산 중임을 시사한다. 앞으로 CTX-M형 ESBL의 만연과 변종 CTX-M형 ESBL의 출연을 감시하기 위한 정기적인 연구와 조사가 필요한 것으로 생각한다., A2-1, B1-1, B2-1의 경우, 강우 일수 감소 이전과

  • PDF

인구통계특성 기반 디지털 마케팅을 위한 클릭스트림 빅데이터 마이닝 (Clickstream Big Data Mining for Demographics based Digital Marketing)

  • 박지애;조윤호
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.143-163
    • /
    • 2016
  • 인구통계학적 정보는 디지털 마케팅의 핵심이라 할 수 있는 인터넷 사용자에 대한 타겟 마케팅 및 개인화된 광고를 위해 고려되는 가장 기초적이고 중요한 정보이다. 하지만 인터넷 사용자의 온라인 활동은 익명으로 행해지는 경우가 많기 때문에 인구통계특성 정보를 수집하는 것은 쉬운 일이 아니다. 정기적인 설문 조사를 통해 사용자들의 인구통계특성 정보를 수집할 수도 있지만 많은 비용이 들며 허위 기재 등과 같은 위험성이 존재한다. 특히, 모바일 환경에서는 대부분의 사용자들이 익명으로 활동하기 때문에 인구통계특성 정보를 수집하는 것은 더욱 더 어려워지고 있다. 반면, 인터넷 사용자의 온라인 활동을 기록한 클릭스트림 데이터는 해당 사용자의 인구통계학적 정보에 활용될 수 있다. 특히, 인터넷 사용자의 온라인 행위 특성 중 하나인 페이지뷰는 인구통계학적 정보 예측에 있어서 중요한 요인이 된다. 본 연구에서는 기존 선행 연구를 토대로 클릭스트림 데이터 분석을 통해 인터넷 사용자의 온라인 행위 특성을 추출하고 이를 해당 사용자의 인구통계학적 정보 예측에 사용한다. 또한, 1)의사결정나무를 이용한 변수 축소, 2)주성분분석을 활용한 차원축소, 3)군집분석을 활용한 변수축소의 방법을 제안하고 실험에 적용함으로써 많은 설명변수를 이용하여 예측 모델 생성 시 발생하는 차원의 저주와 과적합 문제를 해결하고 예측 모델의 정확도를 높이고자 하였다. 실험 결과, 범주의 수가 많은 다분형 종속변수에 대한 예측 모델은 모든 설명변수를 사용하여 예측 모델을 생성했을 때보다 본 연구에서 제안한 방법론들을 적용했을 때 예측 모델에 대한 정확도가 향상됨을 알 수 있었다. 본 연구는 클릭스트림 분석을 통해 추출된 인터넷 사용자의 온라인 행위는 해당 사용자의 인구통계학적 정보 예측에 활용 가능하며, 예측된 익명의 인터넷 사용자들에 대한 인구통계학적 정보를 디지털 마케팅에 활용 할 수 있다는데 의의가 있다. 또한, 제안 방법론들을 통해 어느 종속변수에 대해 어떤 방법론들이 예측 모델의 정확도를 개선하는지 확인하였다. 이는 추후 클릭스트림 분석을 활용하여 인구통계학적 정보를 예측할 때, 본 연구에서 제안한 방법론을 사용하여 보다 높은 정확도를 가지는 예측 모델을 생성 할 수 있다는데 의의가 있다.

아동보호서비스 개입사례의 재학대 특성 연구: 생존분석의 적용 (The Characteristics of Recurrence on Intervention Cases of Child Protective Services: Application of Survival Analysis)

  • 장희선;김기현;김경희
    • 한국가족복지학
    • /
    • 제54호
    • /
    • pp.225-262
    • /
    • 2016
  • 본 연구의 목적은 아동보호서비스 개입사례의 재학대 특성을 확인하는 것이다. 이를 위해 국가아동학대정보시스템에 접근하여 2012년에 신고 접수된 전수를 추출하였고 이들 사례 중 아동학대로 판정된 사례를 중심으로 2014년까지 총 3년간의 데이터를 수집하여 해당기간 내 재학대가 발생한 사례들의 특성을 확인하였다. 재학대 특성은 생존분석을 통해 재학대 발생 시점 및 빈도를 중심으로 살펴보았다. 분석결과, 2012년에 학대판정을 받은 5,542사례 중 323사례가 이후 3년 이내에 재학대를 기록하였다. 대부분의 사례(93.5%)가 1회의 재학대를 기록하였지만 2회의 재학대를 기록한 사례도 21사례로 확인되었다. 또한 학대로 판정된 이후 1개월 이내에 가장 많은 재학대가 발생하였고, 이전 아동보호서비스 연루 유무, 중복학대 유무, 신체학대 포함 여부, 서비스 제공 유형 등에 따라 재학대 발생 시기 및 빈도가 다르게 나타났다. 아동의 연령 및 문제행동 수, 학대행위자의 스트레스 및 사회적 고립, 가족구성원인 학대행위자, 이전 아동보호서비스 연루 기록, 재신고 총 횟수 증가 등은 이후의 재학대 발생과 관련되었다. 본 연구는 이러한 분석결과를 토대로 아동학대의 재학대 예방을 위한 정책적, 실천적 함의를 논하고 관련 제언을 제시하였다.

생활패턴 인지가 가능한 스마트 레이더 시스템 (Smart Radar System for Life Pattern Recognition)

  • 정상중
    • 융합신호처리학회논문지
    • /
    • 제23권2호
    • /
    • pp.91-96
    • /
    • 2022
  • 현재 카메라 기반 기술 수준으로는 센서 기반 기본 생활패턴 인지 기술은 정확한 데이터를 얻기 위해서는 불편함을 감수해야 하고, 상용화 밴드 제품은 정확한 데이터 수집이 어려우며, 행동의 동기와 원인 및 심리적 영향 등을 고려하지 못하는 실정이다. 본 논문에서는 생활패턴 인지를 위한 레이더 기술은 일상생활에서 주변의 사람이나 물체를 탐지하기 위해 고안된 파형을 전송하여 반사되어 오는 수신 신호를 신호 처리함으로써 물체와의 거리, 속도, 각도를 측정하는 기술을 적용하여 기존 영상 기반의 서비스에서의 사생활 보호와 같은 이슈를 보완할 수 있도록 고안하였다. 제안 시스템의 구현을 위해 TIIWR1642 칩을 기반으로 60GHz 대역 밀리미터파 FMCW 송신/수신을 위한 RF 칩셋제어, 거리/속도/각도 검출을 위한 모듈의 개발 및 신호처리 소프트웨어를 포함한 기술을 구현하였다. 생활 정보에 대한 메타 분석으로 생활패턴의 정량적 분석을 통해 개인별 맞춤형 생활패턴 추출을 통해 자기 관리 및 행동 시퀀스를 산출하여 개인별 생활패턴의 분석이 보안 및 안전 응용서비스로 가능할 것으로 기대된다.

머신러닝을 활용한 가짜리뷰 탐지 연구: 사용자 행동 분석을 중심으로 (A Study on Detecting Fake Reviews Using Machine Learning: Focusing on User Behavior Analysis)

  • 이민철;윤현식
    • 지식경영연구
    • /
    • 제21권3호
    • /
    • pp.177-195
    • /
    • 2020
  • 소비자 구전은 정보통신기술의 발전과 모바일 기기의 보급 가속화로 그 영향력 또한 급속도로 커지고 있다. 그러나 과도한 마케팅 경쟁은 가짜리뷰와 같은 거짓 온라인 구전을 확산시켰고, 이로 인해 소비자들은 온라인 구전에 대한 피로감과 함께 온라인을 통해 얻게 되는 정보를 불신하는 결과를 초래하고 있으며, 이는 소비자의 합리적 구매 결정 행위에 부정적인 영향을 미치기도 한다. 이에 대한 문제 인식의 확산으로 가짜리뷰의 형태적 특성에 대한 연구를 비롯해 가짜리뷰를 효과적으로 분류하기 위한 다양한 탐지 방법에 대한 연구가 증가하고 있다. 이에 본 연구에서는 네이버 블로그에 작성된 포스트를 대상으로 데이터를 수집하고, 사용자의 무의식에 기반한 습관적 패턴을 머신러닝 모형을 통해 분석해 보았다. 게시물이 작성된 블로그와 그 게시물에서 추출한 변수를 분석하여 향후 가짜리뷰 예측에 활용하고자 하였다. 연구 결과, 광고성 리뷰 예측에 있어 해당 글 작성자의 블로그에 등록된 전체 포스트의 개수와 포스트의 등록 날짜는 매우 높은 상관관계를 보였으며, 해당 포스트가 속한 분류에 등록된 포스트의 개수, 포스트 본문에 사용된 이미지의 개수, 블로그에 포함된 메뉴 개수, 포스트 제목 및 본문의 길이, 포스트가 획득한 '좋아요'의 개수 또한 높은 상관관계를 보였다. 또한 광고성 리뷰 여부를 판단하기 위한 머신러닝 모형에 있어서 랜덤포레스트를 활용한 모형이 가장 우수한 모형으로 확인되었다. 본 연구에서는 블로그에 작성된 리뷰 내용에 대한 형태소 분석을 시행하는 대신 리뷰를 작성한 사람의 행위를 분석하기 위한 시도를 하였다. 이를 위해 블로그와 포스트의 특성 데이터를 수작업이 아닌 웹 크롤링 기법으로 수집하고 머신러닝 모형을 통해 광고성 리뷰 여부를 판별할 가능성을 확인한 점은 향후 가짜리뷰의 빠른 탐지를 위한 효율성 및 효과성 향상에 기여할 수 있을 것이다.