• 제목/요약/키워드: 이미지 크롤링

검색결과 37건 처리시간 0.028초

웹 크롤링에 의한 네이버 뉴스에서의 한국농수산대학 - 키워드 분석과 의미연결망분석 - (Korea National College of Agriculture and Fisheries in Naver News by Web Crolling : Based on Keyword Analysis and Semantic Network Analysis)

  • 주진수;이소영;김승희;박노복
    • 현장농수산연구지
    • /
    • 제23권2호
    • /
    • pp.71-86
    • /
    • 2021
  • 빅데이터 분석기술인 웹 크롤링 기술을 이용하여 네이버 뉴스 데이터 내에 담겨 있는 '한농대' 에 대한 이미지 단어를 추출하였다. 뉴스 기사에서 언급된 빈도에 따라 중요한 단어로 평가는 단어빈도 분석에서는 청년농업인을 육성하는 한농대의 특성을 잘 설명하는 '농업', '교육', '지원', '농업인', '청년', '대학', '사업', '농촌', '대표' 등의 단어가 자주 사용되는 것으로 나타났다. 또한 '디지털', '스마트', '드론', '졸업생', '창업', '새만금', '교육과정' 등 디지털 농업 전문 인재를 육성하기 위한 학교의 교육, 지원, 비전 등과 관련한 단어들이 추출되었다. 모든 기사 데이터의 단어 빈도(TF) 및 역 문서 빈도(IDF)를 이용한 TF-IDF 가중치의 전체 순위는 '농업인', '드론', '농림축산식품부', '전북', '청년농업인', '농업', '전주', '대학', '장치', '파종' 등의 단어가 한농대와 관련된 뉴스 기사에서 중요한 핵심어 역할을 하는 것으로 나타났다. 단어 빈도에서 '드론', '농림축산식품부', '전북', '청년농업인', '전주', '장치, '파종' 등은 순위가 매우 낮았으나 TF-IDF 가중치 순위에서는 한농대를 표현하는 핵심어로 나타났다. TF-IDF 평가에서 '교육', '지원', '청년', '사업', '농촌' 등의 키워드는 단어빈도가 높으면서 많은 문서에서 자주 등장하는 키워드로서 핵심어 역할은 크지 않은 것으로 나타났다. 단어 간 연계성을 파악하기 위한 의미연결망 분석에서 추출한 바이그램은 '청년'-'농업인', '디지털'-'농업', '영농'-'정착', '농업'-'농촌', '디지털'-'전환' 등의 순으로 빈도가 높게 나타났다. 중심성 지표로 키워드의 영향력을 평가한 결과 모든 지표에서 '농업'이 1위로 나타났으며, 2위에는 '농업인'(근접 중심성, 매개 중심성), '교육'(연결 중심성, 페이지랭크 중심성) 및 '미래'(고유벡터 중심성)으로 나타났다. 스피어먼 순위 상관계수에 의한 중심성 지표별 키워드의 순위의 유사성은 연결 중심성과 페이지랭크 중심성이 0.89 전후의 가장 높은 상관관계를 보였다. 이상으로 네이버 뉴스의 한농대 관련 기사에서 단어 빈도로 보면 '농업', '교육', '지원', '농업인', '청년', '대학', '사업', '농촌', '대표' 등이 중요한 단어로 평가되었으나, 문서빈도를 함께 고려한 평가에서는 '농업인', '드론', '농림축산식품부', '전북', '청년농업인', '농업', '전주', '대학', '장치', '파종' 등의 단어가 핵심어 역할을 하는 것으로 나타났다. 한편 단어나 문서의 빈도가 아니라 단어 간 네트워크 연계성을 고려한 중심성 분석에서는 연결 중심성과 페이지랭크 중심성에 의한 평가가 적합한 것으로 나타났으며, '농업', '교육', '미래', '농업인', '디지털', '지원', '활용' 등이 중심성이 강한 단어로 나타났다.

사회적 요인 및 연령대별 친수공원 이용에 관한 상관관계 분석 - 삼락과 대저생태공원을 대상으로 (Analysis of the Correlation between Social Factors and the Use of Hydrophilic Facilities by Age Group - Case Study at the Samrak and Daejeo Ecological Park)

  • 최인호;이민영;윤희라;김성준;김창성
    • Ecology and Resilient Infrastructure
    • /
    • 제8권4호
    • /
    • pp.273-280
    • /
    • 2021
  • 과거 정부는 4대강 사업으로 국가하천 내 휴식공간을 조성하기 위하여 총 357개소의 친수지구를 공원화하였다. 2014년도 친수지구 국민 이용도 조사를 실시하여 조사결과에 따라 이용도가 저조한 친수지구 60곳을 2017년 1월 해제하였고, 현재는 297곳의 친수지구를 중점으로 관리하고 있다. 이러한 친수지구를 유지하는데 필요한 보수 비용들을 지자체에서 담당하고 있는데, 이는 상당한 비용이 소요되므로 친수지구 지정 후 운영단계에서 지역 주민들의 특성 및 요구에 대해 정확히 파악하는 것이 필요하다. 본 연구에서는 해당 친수지구 지역 주민들의 특성을 사회적 요인과 하천 이용객의 상관관계에 대해 분석하고, 소셜네트워크 데이터를 크롤링하여 방문 패턴 분석, 및 연관 키워드 도출을 통한 방문 목적을 분석하였으며, 방문객의 연령대를 분석하여 친수지구의 특징을 분석하였다. 연구대상지역은 낙동강 하류에 위치한 삼락과 대저생태공원이다. 사회적 요인들은 통계청에서 제공하는 공공데이터를 통해 행정구역 단위의 부동산 실거래가 데이터, 경제활동 소득, 가구수, 스트레스 인지율, 반려동물 사육의 공간적 거리를 고려하여 상관관계를 분석하였으며, 구글지도에서 제공하는 Google Popular Times를 통해 주중 주말의 이용객 방문 패턴 분석, 인스타그램의 게시글 키워드와 이미지 키워드를 도출하여 방문 목적을 분석하였으며, 통신데이터를 활용한 이용객 패턴과, 단말기 신호를 기반으로 위치를 추정하는 유동인구 데이터를 통해 각 연령대별 방문 상관관계를 분석하였다.

뉴럴네트워크 기반에 악성 URL 탐지방법 설계 (Design of detection method for malicious URL based on Deep Neural Network)

  • 권현;박상준;김용철
    • 융합정보논문지
    • /
    • 제11권5호
    • /
    • pp.30-37
    • /
    • 2021
  • 사물인터넷 등을 통하여 각종 기기들이 인터넷으로 연결되어 있고 이로 인하여 인터넷을 이용한 공격이 발생하고 있다. 그러한 공격 중 악성 URL를 이용하여 사용자에게 잘못된 피싱 사이트로 접속하게 하거나 악성 바이러스를 유포하는 공격들이 있다. 이러한 악성 URL 공격을 탐지하는 방법은 중요한 보안 이슈 중에 하나이다. 최근 딥러닝 기술 중 뉴럴네트워크는 이미지 인식, 음성 인식, 패턴 인식 등에 좋은 성능을 보여주고 있고 이러한 뉴럴네트워크를 이용하여 악성 URL 탐지하는 분야가 연구되고 있다. 본 논문에서는 뉴럴네트워크를 이용한 악성 URL 탐지 성능을 각 파라미터 및 구조에 따라서 성능을 분석하였다. 뉴럴네트워크의 활성화함수, 학습률, 뉴럴네트워크 모델 등 다양한 요소들에 따른 악성 URL 탐지 성능에 어떠한 영향을 미치는 지 분석하였다. 실험 데이터는 Alexa top 1 million과 Whois에서 크롤링하여 데이터를 구축하였고 머신러닝 라이브러리는 텐서플로우를 사용하였다. 실험결과로 층의 개수가 4개이고 학습률이 0.005이고 각 층마다 노드의 개수가 100개 일 때, 97.8%의 accuracy와 92.94%의 f1 score를 갖는 것을 볼 수 있었다.

빅데이터 분석을 통한 인터넷 뉴스 포털에서의 탈세 논란이 기업 가치에 미치는 영향 연구 (A study on the effect of tax evasion controversy on corporate values in internet news portals through big data analysis)

  • 이상민;박명호;김병준;박대근
    • 인터넷정보학회논문지
    • /
    • 제22권6호
    • /
    • pp.51-57
    • /
    • 2021
  • 기업의 세금을 절약 혹은 회피하는 행동은 과세관청에 의해 합법적 절세가 아닌 탈세로 판단될 경우 기업은 조세적 비용뿐 아니라 일련의 탈세관련 보도 기사로 인해 기업이미지 손상 및 주가하락과 같은 비조세적 비용까지 부담하게 된다. 이에 본 연구는 인터넷 뉴스 포털에 나타난 탈세 논란 키워드들의 출현빈도를 해당 사건의 심각성을 측정하는 요인으로 정하고 이러한 출현빈도가 기업가치에 미치는 영향을 분석한다. 우리나라 유가증권시장에서 시가총액기준 상위 업체들을 대상으로 탈세 논란 키워드들을 활용하여 인터넷 뉴스 포털로부터 관련 기사를 크롤링하고, 기업별로 탈세 논란 키워드들의 출현빈도에 대한 시계열을 생성하여 출현빈도가 장부가 대비 시가총액에 미치는 영향을 분석한다. 패널회귀분석과 충격반응분석을 통해 분석한 결과 출현빈도는 기업가치에 부정적인 영향을 미치며 12개월까지 점진적으로 효과가 감소되는 것으로 분석된다. 이 연구는 한국기업들을 대상으로 탈세 논란 사안이 기업가치에 영향을 미치는지를 실증적으로 분석한 연구로서, 경영자는 절세전략을 수립 시 이러한 영향력을 고려하는 것이 필요하다는 것을 시사한다.

의류 사이즈별 및 피부톤에 기반을 둔 의류 추천 시스템 (Suitable clothing recommendation system by size and skin color)

  • 박창영;임병찬;이원준;이창수;김민수;이상용
    • 디지털융복합연구
    • /
    • 제20권3호
    • /
    • pp.407-413
    • /
    • 2022
  • 기존 의류 추천 시스템들은 사용자 자신의 신체 촬영 사진이나 신체 사이즈를 입력한 후, 사용자가 좋아하는 의류의 종류를 선택하면 그에 적합한 사진을 보여주는 수준에 머물러 있다. 이러한 추천 시스템을 이용하여 사용자가 의류를 구매할 경우, 사용자의 신체 사이즈에 맞지 않거나 어울리지 않는 경우가 다수 발생하게 된다. 본 연구에서는 기존 의류 추천 시스템들의 이런 문제점을 해결하기 위하여 사용자가 사이즈 뿐만 아니라 피부톤을 입력받아 사용자의 신체 사이즈 뿐만 아니라 피부톤에 알맞는 의류를 추천하는 시스템을 구현하였다. 본 시스템은 의류 추천을 위해 남성 상의 8가지를 대상으로 웹 크롤링을 통해 얻은 의류의 사이즈 정보를 주기적으로 데이터베이스에 저장하고, 해당 의류 이미지의 전체 픽셀을 분석하여 색감 텍스트 값을 추출하였다. 본 시스템의 성능을 확인하기 위하여 남자 대학생 100명을 대상으로 설문 조사를 실시하였으며, 70% 수준의 만족도를 보였다. 만족하지 않는 대부분의 이유는 추천 대상 의류가 한정되어 있다고 밝혀서 추후 대상 의류의 확대가 필요할 것으로 판단된다.

A Tracking Method of Same Drug Sales Accounts through Similarity Analysis of Instagram Profiles and Posts

  • Eun-Young Park;Jiyeon Kim;Chang-Hoon Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권2호
    • /
    • pp.109-118
    • /
    • 2024
  • 전 세계 소셜 미디어 사용자가 증가하면서 다양한 범죄의 수단으로 소셜 미디어가 악용되는 사례가 증가하고 있다. 특히, 소셜 미디어를 통한 마약 유통은 마약 판매자와 소비자의 높은 접근성으로 인해 청소년들의 마약 호기심을 자극하고, 구매를 용이하게 한다는 점에서 심각한 사회문제로 대두되고 있다. 본 논문에서는 다양한 소셜 미디어 중, 국내 19세에서 24세 청소년이 가장 많이 사용하는 인스타그램을 대상으로 프로필 사진, 소개글, 게시물 사진과 게시글을 수집하고, 각 정보의 유사도 분석을 통해 수집한 다수의 계정을 활용하여 마약을 유통하는 마약사범 추적 기술을 개발한다. 4개 수집 정보 중, 이미지 형태의 프로필 사진 및 게시물 사진은 SSIM(Structural Similarity Index Measure) 기반으로 유사도를 분석하고, 텍스트 형태의 소개글 및 게시글은 자카드 유사도 및 코사인 유사도 기법을 사용하여 유사도를 분석한다. 이와 같은 유사도 분석을 통해, 각 수집 정보별 계정 간의 유사도를 측정할 수 있으며 유의수준 이상의 유사성을 갖는 계정들에 대해 동일 마약 유통 계정으로 판단할 수 있다. 또한, 수집한 4개 정보에 대해 로지스틱 회귀분석을 수행하여 게시물 사진을 제외한 프로필 사진, 소개글, 게시글이 동일 마약 판매 계정을 추적하는 데에 유효한 정보임을 확인하였다.

구글맵리뷰 텍스트마이닝을 활용한 공원 이용자의 인식 및 평가 - 서울숲, 보라매공원, 올림픽공원을 대상으로 - (Perception and Appraisal of Urban Park Users Using Text Mining of Google Maps Review - Cases of Seoul Forest, Boramae Park, Olympic Park -)

  • 이주경;손용훈
    • 한국조경학회지
    • /
    • 제49권4호
    • /
    • pp.15-29
    • /
    • 2021
  • 본 연구의 목적은 Google Maps에서 제공하는 장소에 대한 리뷰를 활용하여 실제로 공원을 방문한 이용자의 인식과 평가를 파악하는 것이다. 구글맵리뷰는 Social Network Service(SNS)를 통해 장소에 대한 인식과 평가에 관한 정보를 얻는 온라인 리뷰이며, 일반 리뷰어와 구글맵의 회원으로 등록된 지역 가이드의 관점에서 장소에 대한 이해를 볼 수 있는 서비스이다. 본 연구에서는 구글맵리뷰 분석이 공원 관리에 필요한 이용자들의 인식과 평가를 추출하는데 활용될 수 있는지를 살펴보고자 하였다. 서로 다른 공간특징과 시설을 가지는 3개의 공원(서울숲, 보라매공원, 올림픽공원)을 대상으로 파이썬을 활용한 웹 크롤링을 통해서 구글맵리뷰 내용을 수집하였다. 그리고 텍스트 분석을 통해 공원별 주요 키워드 분석과 네트워크 구조에 따른 특성을 분석하고, 이와 함께 구글맵리뷰에서 제공하는 별점 평갓값과 외국인 리뷰 데이터에 대한 분석도 수행했다. 연구 결과, 3개의 공원에서 공통으로 나타나는 특성으로는 이용목적으로 '산책', '자전거', '휴식', '피크닉'이 있었으며, 동반유형으로 '가족', '아이', '애견'이, 인프라로는 '놀이터', '산책로'가 있었다. 공원별 특색을 보면 서울숲은 자연을 기반으로 하는 야외활동이 많이 나타났고 반면, 주차공간 부족과 주말 혼잡은 공원 이용자에게 부정적인 영향을 미치고 있었다. 보라매공원은 수많은 활동을 제공하는 다양한 시설을 갖춘 도시공원의 모습을 가지고 있었다. 리뷰어들은 반려견을 동반하는 이용자 그룹과 그렇지 않은 다른 이용자 그룹 간의 갈등과 공원의 복잡함에 대한 부정적인 측면을 언급했다. 올림픽공원에는 대형 복합시설이 있으며, 커뮤니티, 문화예술공연과 같은 대규모 문화 이벤트가 많이 언급되었고, 레크리에이션 기능이 강조되었다. 구글맵리뷰는 공원에 대한 이용자의 전반적 경험과 이미지에 대한 특징을 파악하는 유용한 자료라고 할 수 있다. 또한, 다른 소셜미디어 데이터와 비교할 때 특히 구글맵리뷰는 공원에 대한 이용자 평갓값과 만족 및 불만족 요인을 이해할 수 있는 데이터를 제공한다.