• 제목/요약/키워드: 웹 크롤링

검색결과 114건 처리시간 0.034초

전이학습과 그래프 합성곱 신경망 기반의 다중 패션 스타일 인식 (Recognition of Multi Label Fashion Styles based on Transfer Learning and Graph Convolution Network)

  • 김성훈;최예림;박종혁
    • 한국전자거래학회지
    • /
    • 제26권1호
    • /
    • pp.29-41
    • /
    • 2021
  • 최근 패션업계에서는 급속도로 발전하는 딥러닝 방법론을 활용하려는 시도가 늘고 있다. 이에 따라 다양한 패션 관련 문제들을 다루는 연구들이 제안되었고, 우수한 성능을 달성하였다. 하지만 패션 스타일 분류 문제의 경우, 기존 연구들은 한 옷차림이 여러 스타일을 동시에 포함할 수 있다는 패션 스타일의 특성을 반영하지 못하였다. 따라서 본 연구에서는 동시에 존재하는 레이블 간의 종속성을 모델링하고, 이를 반영하여 패션 스타일의 다중 분류 문제를 해결하고자 한다. 패션 스타일 사이의 종속성을 포착하고 탐색하기 위해 GCN(graph convolution network) 기반의 다중 레이블 인식 모델을 적용하였다. 또한 전이학습을 통해 모델의 학습 속도 및 성능을 향상시켰다. 제안하는 모델은 웹 크롤링을 통해 수집한 SNS 이미지 데이터를 이용하여 검증하였으며, 비교 모델 대비 우수한 성능을 기록하였다.

플랫폼 노동시장의 구직기간 단축 결정요인: 웹크롤링과 생존모형을 이용한 분석 (Determinants of Shortening Job-hunting Period in Platform Labor Market: Analysis by using Web Crawling and Survival Model)

  • 이종호
    • 디지털융복합연구
    • /
    • 제19권5호
    • /
    • pp.1-13
    • /
    • 2021
  • 본 연구의 목적은 플랫폼 노동시장에서 신규 구직자의 임금수준이 첫 업무획득기간에 어떠한 영향을 주는지 분석하는 것이다. 최근 플랫폼 노동시장은 실업률 증가를 해결하기 위한 대안의 하나로 주목받고 있다. 플랫폼 노동시장에서 양질의 일자리를 창출하기 위해서는 고용주와 고용인 간의 신뢰형성이 중요하다. 기존 연구에서는 이전 고용주의 피드백이 고용주와 고용인간의 정보 비대칭 문제해결을 위해 중요하다고 하였다. 다만, 첫 번째 업무를 획득하지 못한 신규 구직자의 경우 이전 고용주에 의한 피드백이 존재하지 않는다. 이에 본 연구는 플랫폼에서는 임금이 고용주가 아닌 구직자들에 의해 스스로 제시된다는 점에 착안하여 신규 구직자의 낮은 임금이 구직기간 단축에 영향을 줄 수 있는지 확인하고자 한다. 이를 위해 Freelancer.com에서 발췌한 3,704명의 구직자 정보를 사용한다. 생존 분석 결과에 따르면, 플랫폼 노동시장에서 신규 구직자의 낮은 임금은 구직기간 단축에 유의한 영향을 주는 것으로 나타났다.

Classification Model of Food Groups in Food Exchange Table Using Decision Tree-based Machine Learning

  • Kim, Ji Yun;Kim, Jongwan
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권12호
    • /
    • pp.51-58
    • /
    • 2022
  • 본 논문에서 우리는 기존 식품과 웹 크롤링으로 찾은 식품 데이터에 대해 기계학습으로 식품군을 분류하여 식품교환표를 갱신하기 위한 의사결정트리 기반의 기계학습 모델을 제안한다. 식품교환표는 영양 관리가 필요한 환자의 식이요법이나 다이어트 식단을 편성할 때 식품 교환 섭취에 사용된다. 식단의 기준이 되는 식품교환표는 국민건강영양조사를 통한 개정과정에서 많은 인력과 시간이 소요되어 새로운 식품이나 트렌드에 따른 식품 변화를 신속하게 반영하기 어렵다. 제안 기법은 기존의 식품군을 바탕으로 새롭게 추가되는 식품을 분류하기 때문에 식품의 트렌드를 반영한 식품교환표 구성이 가능하다. 연구에서 제안 모델로 식품을 분류한 결과, 식품교환표의 식품군에 대한 정확도가 97.45%로 나타났으며, 본 식품 분류 모델은 병원, 요양원 등에서 식단 구성에 활용도가 높을 것으로 전망된다.

위성영상 상황판연계·표출시스템 적용 SNS 기반 주민참여 콘텐츠 개발 (Development of SNS-based resident participation contents using satellite image situation board linkage and display system)

  • 이상민;김은정;김미래
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.456-456
    • /
    • 2023
  • 본 연구에서는 위성영상 상황판연계·표출시스템 적용을 위한 SNS 주민참여 콘텐츠를 개발하고, 재난대응 표준위기관리절차 기반의 주민참여정보 활용방안을 제시하고자 하였다. 재난상황관리에 있어 SNS의 활용을 통한 주민참여 확대적용 방안을 모색하고자 재난 대비·대응 관련 공공 및 정부부처에서 활용 중인 SNS 채널을 조사하였으며, 상황관리에 SNS를 적용한 선행사례를 분석하였다. 이를 기반으로 SNS를 적용한 예방안전 및 피해복원 확대 적용 방안을 제시하였으며, 신속한 위기대응을 위한 보조적인 의사결정 지원도구로서의 콘텐츠를 제안하였다. 먼저, 예방안전 및 피해복원 확대 적용을 위해 SNS에 주민들이 작성한 게시글을 웹 크롤링과 데이터 마이닝을 통해 분석하여 재난 상황인지와 상황판단 및 피해범위 추정에 활용하는 방안을 제시하였고, 이를 상황판연계·표출시스템에서 표출하기 위한 예시화면을 설계하였다. 또한, 연구 1차년에 수행했었던 위성영상을 활용한 재난상황대응 표준위기관리절차 중 위성영상정보에 주민참여정보를 연계·중첩하여 재난의 전조감지 단계부터 확산양상 및 피해범위를 확인하고, 재난기록을 분석하여 추후 발생된 재난에 선제적으로 대비할 수 있는 방안을 제시하였다. 그러나, 주민참여 기반 SNS 콘텐츠 적용을 위한 우선 해결사항으로는 재난상황판단 시, 정보의 정확성과 신뢰성 측면에서 의사결정을 위한 보조도구로서 활용을 할 것인지에 대한 중앙재난안전상황실과의 충분한 협의가 필요하며, 상황실에서 해당 콘텐츠를 활용하게 될 경우, SNS 정보의 행정망 방화벽 허용가능여부에 대한 추가 분석설계가 필요한 상황이다. 이를 위해 금년 연구수행에서 상황실 실무자 수요조사를 통해 SNS 정보 활용에 대한 반영여부를 결정할 예정이다.

  • PDF

물공급네트워크 수질사고인지를 위한 소셜네트워크 서비스 별 웹크롤링 방법론 개발 (Web crawling process of each social network service for recognizing water quality accidents in the water supply networks)

  • 유도근;홍승혁;문기훈
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.398-398
    • /
    • 2022
  • 최근 수돗물 공급과정에 있어 적수, 유충 발생 등 지역 단위의 수질문제로 국민의 직간접적인 피해가 발생된 바 있다. 수질문제 발생 시, 소셜네트워크서비스(SNS)에 게시되는 피해 관련 의견은 시공간적으로 빠르게 확산되며, 궁극적으로는 물공급과정 전체의 부정적 인식증가와 신뢰도 저하를 초래한다. 따라서, 물공급시스템에서의 수질사고 발생을 빠르게 인지하는 다양한 방법론의 적용을 통한 피해 최소화를 위한 노력이 반드시 필요하다. 일반적으로 수질사고는 다양한 항목의 실시간 계측기에서 획득되는 시계열자료의 변화양상을 통해 판단할 수 있으나, 이와 같은 방법론의 효율적 적용을 위해서는 선진계측인프라의 도입이 선행되어야 한다. 본 연구에서는 국내의 발달된 정보통신기술환경을 활용하여, 물공급네트워크 내 수질사고인지를 위한 SNS 별 웹크롤링 방법론을 제안하고, 적용결과를 분석하였다. 방법론의 구현에 앞서, 각종 SNS 별(트위터, 인스타그램, 블로그, 네이버 카페 등) 프로그래밍을 통한 웹크롤링 가능여부, 정보획득 기간 등을 확인하였으며, 과거 유사 수질사고 발생 시 영향력과 관련 게시글이 크게 나타난 네이버 카페와 트위터를 중심으로 웹 크롤링 절차를 제시하였다. 네이버 카페의 경우 대상급수구역 내의 시민들이 다수 참여하는 카페를 목록화하고, 지자체명과 핵심 키워드(수돗물, 유충, 적수) 조합을 활용한 웹크롤링을 수행하여, 관련 게시물 건수와 의미를 실시간으로 분석하는 절차를 마련하였다. 개발된 SNS 별 웹크롤링 방법론에 따라 과거 수질사고가 발생된 바 있는 2개 이상의 지자체에 대한 분석을 실시하였으며, SNS 별 결과에 있어 차이점을 확인하여 제시하였다. 향후 제안된 방법을 적용하여 시공간적 수질사고 정보의 전파 및 확산양상을 추가적으로 분석할수 있을 것으로 기대된다.

  • PDF

한국어 문서 요약 기법을 활용한 휘발유 재고량에 대한 미디어 분석 (Media-based Analysis of Gasoline Inventory with Korean Text Summarization)

  • 윤성연;박민서
    • 문화기술의 융합
    • /
    • 제9권5호
    • /
    • pp.509-515
    • /
    • 2023
  • 국가 차원의 지속적인 대체 에너지 개발에도 석유 제품의 사용량은 지속적으로 증가하고 있다. 특히, 대표적인 석유 제품인 휘발유는 국제유가의 변동에 그 가격이 크게 변동한다. 주유소에서는 휘발유의 가격 변화에 대응하기 위해 휘발유 재고량을 조절한다. 따라서, 휘발유 재고량의 주요 변화 요인을 분석하여 전반적인 휘발유 소비 행태를 분석할 필요가 있다. 본 연구에서는 주유소의 휘발유 재고량 변화에 영향을 미치는 요인을 파악하기 위해 뉴스 기사를 활용한다. 첫째, 웹 크롤링을 통해 자동으로 휘발유와 관련한 기사를 수집한다. 둘째, 수집한 뉴스 기사를 KoBART(Korean Bidirectional and Auto-Regressive Transformers) 텍스트 요약 모델을 활용하여 요약한다. 셋째, 추출한 요약문을 전처리하고, N-Gram 언어 모델과 TF-IDF(Term Frequency Inverse Document Frequency)를 통해 단어 및 구 단위의 주요 요인을 도출한다. 본 연구를 통해 휘발유 소비 형태의 파악 및 예측이 가능하다.

공공도서관 목록데이터의 중복검증에 관한 연구 - 부산 지역 G도서관 사례를 중심으로 - (A Study on Duplication Verification of Public Library Catalog Data: Focusing on the Case of G Library in Busan)

  • 송민건;이수상
    • 한국도서관정보학회지
    • /
    • 제55권1호
    • /
    • pp.1-26
    • /
    • 2024
  • 본 논문은 아이템 기반으로 작성된 공공도서관의 목록데이터에 대해 중복검증 알고리즘을 적용하여 서지레코드의 통합방안을 도출하고자 하였다. 이를 위하여 부산 지역에서 비교적 최근에 개관한 G도서관을 선정하였다. G도서관의 OPAC 데이터를 웹 크롤링을 통해 수집한 다음, 한국문학(KDC 800) 다권본 도서를 선별하고 KERIS의 중복검증 알고리즘을 적용하였다. 검증 결과를 바탕으로 2차에 걸친 데이터 교정 작업을 진행한 이후, 중복검증률은 95.53%에서 98.27%로 총 2.74% 상승하였다. 데이터 교정 후에도 유사/불일치 판정을 받은 24권은 개정판, 양장본 등 별도의 ISBN을 부여받고 출판된 다른 판본의 자료로 확인되었다. 이를 통해 목록데이터 교정 작업을 통해 중복검증률의 개선이 가능함을 확인하였으며, 공공도서관의 중복된 아이템 레코드들을 구현형 레코드로 전환하기 위한 도구로서 KERIS 중복검증 알고리즘의 활용 가능성을 확인하였다.

웹 크롤링에 의한 네이버 뉴스에서의 한국농수산대학 - 키워드 분석과 의미연결망분석 - (Korea National College of Agriculture and Fisheries in Naver News by Web Crolling : Based on Keyword Analysis and Semantic Network Analysis)

  • 주진수;이소영;김승희;박노복
    • 현장농수산연구지
    • /
    • 제23권2호
    • /
    • pp.71-86
    • /
    • 2021
  • 빅데이터 분석기술인 웹 크롤링 기술을 이용하여 네이버 뉴스 데이터 내에 담겨 있는 '한농대' 에 대한 이미지 단어를 추출하였다. 뉴스 기사에서 언급된 빈도에 따라 중요한 단어로 평가는 단어빈도 분석에서는 청년농업인을 육성하는 한농대의 특성을 잘 설명하는 '농업', '교육', '지원', '농업인', '청년', '대학', '사업', '농촌', '대표' 등의 단어가 자주 사용되는 것으로 나타났다. 또한 '디지털', '스마트', '드론', '졸업생', '창업', '새만금', '교육과정' 등 디지털 농업 전문 인재를 육성하기 위한 학교의 교육, 지원, 비전 등과 관련한 단어들이 추출되었다. 모든 기사 데이터의 단어 빈도(TF) 및 역 문서 빈도(IDF)를 이용한 TF-IDF 가중치의 전체 순위는 '농업인', '드론', '농림축산식품부', '전북', '청년농업인', '농업', '전주', '대학', '장치', '파종' 등의 단어가 한농대와 관련된 뉴스 기사에서 중요한 핵심어 역할을 하는 것으로 나타났다. 단어 빈도에서 '드론', '농림축산식품부', '전북', '청년농업인', '전주', '장치, '파종' 등은 순위가 매우 낮았으나 TF-IDF 가중치 순위에서는 한농대를 표현하는 핵심어로 나타났다. TF-IDF 평가에서 '교육', '지원', '청년', '사업', '농촌' 등의 키워드는 단어빈도가 높으면서 많은 문서에서 자주 등장하는 키워드로서 핵심어 역할은 크지 않은 것으로 나타났다. 단어 간 연계성을 파악하기 위한 의미연결망 분석에서 추출한 바이그램은 '청년'-'농업인', '디지털'-'농업', '영농'-'정착', '농업'-'농촌', '디지털'-'전환' 등의 순으로 빈도가 높게 나타났다. 중심성 지표로 키워드의 영향력을 평가한 결과 모든 지표에서 '농업'이 1위로 나타났으며, 2위에는 '농업인'(근접 중심성, 매개 중심성), '교육'(연결 중심성, 페이지랭크 중심성) 및 '미래'(고유벡터 중심성)으로 나타났다. 스피어먼 순위 상관계수에 의한 중심성 지표별 키워드의 순위의 유사성은 연결 중심성과 페이지랭크 중심성이 0.89 전후의 가장 높은 상관관계를 보였다. 이상으로 네이버 뉴스의 한농대 관련 기사에서 단어 빈도로 보면 '농업', '교육', '지원', '농업인', '청년', '대학', '사업', '농촌', '대표' 등이 중요한 단어로 평가되었으나, 문서빈도를 함께 고려한 평가에서는 '농업인', '드론', '농림축산식품부', '전북', '청년농업인', '농업', '전주', '대학', '장치', '파종' 등의 단어가 핵심어 역할을 하는 것으로 나타났다. 한편 단어나 문서의 빈도가 아니라 단어 간 네트워크 연계성을 고려한 중심성 분석에서는 연결 중심성과 페이지랭크 중심성에 의한 평가가 적합한 것으로 나타났으며, '농업', '교육', '미래', '농업인', '디지털', '지원', '활용' 등이 중심성이 강한 단어로 나타났다.

지역 방송국 네트워크의 구조적 자산(asset)과 지역 간 격차: 지역MBC를 중심으로 (Structural Assets of Local Broadcasting Networks and Regional Gap: Foucsing on Local MBC stations in South Korea)

  • 손지훈;이정민;김재훈;박한우
    • 한국콘텐츠학회논문지
    • /
    • 제22권9호
    • /
    • pp.194-204
    • /
    • 2022
  • 이 연구는 웹사이트 크롤링을 통해 수집된 웹 데이터를 활용하여 지역 방송국의 사회적 자본과 지역 간 격차를 살펴보았다. 구체적으로 16개 지역 MBC 웹사이트와 연결된 URL을 수집하였다. 먼저, 웹 영향평가 조사를 통해 지역 방송국이 어느 기관과 연결되어 있는지 분석했다. 구체적인 연결 형태를 살펴보기 위해 n차 헬릭스 모델을 적용하여 URL 정보를 분류한 후 2원성 네트워크 분석을 진행하였다. n차 헬릭스 모델은 전통적 트리플 헬릭스 모델인 대학-기업-정부에 네트워크의 새로운 혁신 창출 주체를 추가한 분석 방법이다. 그 결과, 지역 방송국들은 지역 사회와의 교류에 있어 축제, 공연, 전시와 같은 프로그램을 가장 많이 활용하고 있었다. 지역별로는 대경권과 동남권에 속한 지역 MBC가 지역 사회와 가장 다양하게 연결된 것으로 나타났다. 이 연구를 통해 지역별 연결 구조를 살펴보고 지역 방송국 간의 차이를 인지할 수 있다는 점에서 의의가 있다. 후속 연구가 연결 형태에 초점을 맞춘 URL 종단분석을 실시한다면 더 구체적인 지역 간 격차를 파악할 수 있을 것이라 기대한다.

주식시장관리제도와 소셜 미디어의 역할 - 개인 투자자 집단 유형과 토픽 분석 - (The Role of stock market management and social media - Analyzing the types of individual investor and topic -)

  • 김정수;이석준
    • 경영과정보연구
    • /
    • 제34권5호
    • /
    • pp.23-47
    • /
    • 2015
  • 국내 주식시장 내 개인 투자자들은 주식거래를 장기적인 투자방안보다 단기 매매차익 실현 수단으로 인식하고 있어 시장의 투명성과 건전성을 강화하기 위한 주식 시장관리제도의 역할이 중요하다. 특히, 개인 투자자들은 금융정책에 의한 시장조치로 불확실한 상황에 직면하여 투자환경에 따라 동태적 의사결정에 영향을 받게 되므로 투자자 보호를 위한 시장조치의 실효성 여부를 투자자들의 반응과 행동변화를 통해 접근할 필요가 있다. 본 연구는 시장관리 조치(상장적격성 실질심사) 전후로 개인 투자자 집단의 유형 및 반응의 변화추이를 분석하고자 하였다. 분석을 위해, 상장적격성 실질심사 대상기업 중 텍스트 분석이 가능한 9개의 기업을 선정(2009년~2014년)한 후, 국내 주식 관련 소셜 미디어(종목 토론실)로부터 웹 크롤링을 통해 개인들의 메시지를 수집하였다. 사건 발생에 따른 개인 투자자들의 관심사(토픽)와 변화추이는 텍스트 클러스터링과 토픽모델링 방법을 활용하여 개인 투자자 유형을 투자자와 비투자자 집단으로 분류하여 분석하였다. 분석결과, 특정 주식 종목 내 다양한 이해관계자 형태가 존재하며, 실질심사 대상 선정 전후로 비투자자 유형은 감소하고, 투자자는 시장 참여 유형에 따른 비중변화가 나타나는 현상을 발견하였다. 이러한 결과를 토대로 시장 조치에 따른 주식시장 내 제도의 영향을 시간(사건)경과에 따라 개인 투자자들의 반응변화를 통해 파악한 데 본 연구의 의의가 있다.

  • PDF