• 제목/요약/키워드: 스크래핑

검색결과 18건 처리시간 0.023초

파이썬을 이용한 프레임내 웹 페이지 스크래핑 기법 (A Scraping Method of In-Frame Web Sources Using Python)

  • 윤수진;승리;우영운
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2019년도 춘계학술대회
    • /
    • pp.271-274
    • /
    • 2019
  • 이 논문에서는 일반적인 웹 접근 방법으로 접근하기 어려운 프레임 내 웹 페이지의 데이터를 프로그램에 의해 자동으로 수집하기 위한 세부 주소 확보 기법을 제안하였다. 제안한 세부 주소 확보 기법과 HTML 실렉터를 활용할 수 있는 Python 언어와 Beautiful Soup 라이브러리를 이용하여 여러 페이지로 작성되어 있는 게시판 텍스트 데이터를 자동으로 모두 수집할 수 있었다. 제안한 기법을 활용하여 어떠한 형태의 주소 형식으로 되어 있는 웹 페이지들에 대해서도 Python 웹스크래핑 프로그램에 의해 자동으로 대량의 데이터를 수집할 수 있으며, 이를 통해 빅데이터 분석에 활용될 수 있을 것으로 예상한다.

  • PDF

레거시로부터 CBD로의 재공학을 위한 메타 모델 설계 기법 (A Design Technique of Meta-Model for Reengineering from Legacy to CBD)

  • 김철진;조은숙
    • 한국멀티미디어학회논문지
    • /
    • 제8권3호
    • /
    • pp.398-412
    • /
    • 2005
  • 레거시 시스템을 새로운 하드웨어 플랫폼과 새로운 소프트웨어 개발 패러다임에 맞도록 이주하려는데 대한 관심이 증가하고 있다. 그 이유는 레거시 시스템의 유지보수에 많은 비용이 들고 기존 시스템에 대한 문서 정보가 부족하다는데 있다. 레거시 시스템을 새로운 시스템을 변환하기 위해 스크린 스크래핑, 래핑, 부분 변환, 재개발 등등의 여러 다양한 접근법들과 도구, 그리고 방법론들이 제시되어왔다. 그러나 이러한 접근법들은 대부분이 코드 변환 혹은 일부 모델 변환 수준이기 때문에 아키텍처나 요구사항 수준에서의 변환까지는 체계적으로 제시하지 못하였다. 따라서, 본 논문에서는 이러한 한계점을 극복하기 위하여 아키텍처와 요구사항 단계까지 적용할 수 있는 3차원 공간 개념을 적용한 메타 모델 기반의 접근법을 제시하고자한다. 이러한 통합 모델은 재 공학에 있어서 역 공학 단계인 코드에서 아키텍처 그리고 순 공학 단계인 아키텍처에서 코드로의 자연스러운 변환 혹은 협력 진화(Co-evoluton)를 유도한다.

  • PDF

태그 서열 위치와 경사 부스팅을 활용한 한국어 웹 본문 추출 (Korean Web Content Extraction using Tag Rank Position and Gradient Boosting)

  • 모종훈;유재명
    • 정보과학회 논문지
    • /
    • 제44권6호
    • /
    • pp.581-586
    • /
    • 2017
  • 웹 문서를 자동으로 수집하면 대량의 정보를 손쉽게 모을 수 있다. 이러한 정보 수집 과정을 위해 웹 문서에서 메뉴, 광고 등 불필요한 정보를 제거하고 본문을 자동으로 추출할 필요가 있다. 특히 한국어 웹문서는 영어권과 달리 메타데이터가 포함된 경우가 드물고 디자인이 복잡하여 한국어 웹에 맞는 자동 본문 추출 방법이 필요하다. 기존의 본문 추출 방법은 주로 본문 블록의 문자적, 구조적 특성을 활용한다. 시각적 특성을 처리하기 위해서는 렌더링, 이미지 처리 등에 많은 계산이 필요하기 때문이다. 이 논문에서는 HTML에서 태그 위치를 준-시각적 특성으로 활용한 새로운 본문 추출 방법을 제시한다. 태그 위치는 텍스트의 길이에 따라 가변적이기 때문에 태그 서열 위치라는 특성을 개발하였고, 이를 경사 부스팅과 함께 이용하면 정확한 본문 추출이 가능함을 보인다. 본 논문의 연구 결과는 텍스트 분석에 필요한 양질의 문서 자료를 다양한 형태의 웹페이지에서 자동으로 수집하는 데에 쓰일 수 있다.

밀키트 제품 리뷰 데이터를 이용한 텍스트 분석 사례 연구 (A Case Study on Text Analysis Using Meal Kit Product Review Data)

  • 최혜선;연규필
    • 한국콘텐츠학회논문지
    • /
    • 제22권5호
    • /
    • pp.1-15
    • /
    • 2022
  • 본 연구에서는 밀키트 제품 평가에 영향을 미치는 요인을 파악하기 위하여 밀키트 제품 리뷰 데이터에 대한 텍스트 분석을 수행하였다. 분석에 사용된 자료는 네이버 쇼핑 사이트에서 판매되고 있는 밀키트 제품에 대한 리뷰 334,498건을 스크래핑하여 수집하였다. 텍스트 자료에 대한 전처리 과정을 거쳐 제품 리뷰에 빈번히 등장하는 단어를 추출한 후 워드클라우드 및 감성분석을 수행하였다. 감성분석시 제품 리뷰에 대한 긍정 또는 부정의 레이블은 평점을 기준으로 설정하여 반응변수로 활용하였고, 입력변수로는 단어들의 정규화 단어빈도-역문서빈도 (TF-IDF) 값을 구하여 사용하였다. 리뷰의 극성을 판별하는 모형으로는 로지스틱 회귀모형, 서포트 벡터 머신, 랜덤 포레스트 알고리즘을 적용하였으며, 분류 정확도 및 해석가능성을 고려하여 로지스틱 회귀모형을 최종 모형으로 선택한 후 제품 범주별 감성분석 모형으로 사용하였다. 각 제품 범주별로 도출된 로지스틱 회귀모형으로부터 밀키트 제품 구매 후 긍·부정의 감성을 발생시킨 주요 요인들을 밝혀내었다. 결과적으로 텍스트 분석을 통해 밀키트 제품 개발 시 특정 카테고리, 메뉴, 재료에 대한 긍정 요소를 극대화하고 부정적 위험 요소를 제거할 수 있는 기반을 제공할 수 있음을 확인하였다.

불용어 시소러스를 이용한 비정형 텍스트 데이터 후처리 방법론에 관한 연구 (A Study on Unstructured text data Post-processing Methodology using Stopword Thesaurus)

  • 이원조
    • 문화기술의 융합
    • /
    • 제9권6호
    • /
    • pp.935-940
    • /
    • 2023
  • 인공지능과 빅데이터 분석을 위해 웹 스크래핑으로 수집된 대부분의 텍스트 데이터들은 일반적으로 대용량이고 비정형이기 때문에 빅데이터 분석을 위해서는 정제과정이 요구된다. 그 과정은 휴리스틱 전처리 정제단계와 후처리 머시인 정제단계를 통해서 분석이 가능한 정형 데이터가 된다. 따라서 본 연구에서는 후처리 머시인 정제과정에서 한국어 딕셔너리와 불용어 딕셔너리를 이용하여 워드크라우드 분석을 위한 빈도분석을 위해 어휘들을 추출하게 되는데 이 과정에서 제거되지 않은 불용어를 효율적으로 제거하기 위한 "사용자 정의 불용어 시소러스" 적용에 대한 방법론을 제안하고 R의 워드클라우드 기법으로 기존의 "불용어 딕셔너리" 방법의 문제점을 보완하기 위해 제안된 "사용자 정의 불용어 시소러스" 기법을 이용한 사례분석을 통해서 제안된 정제방법의 장단점을 비교 검증하여 제시하고 제안된 방법론의 실무적용에 대한 효용성을 제안한다.

양방향 순환 신경망 언어 모델을 이용한 Fuzzy-AHP 기반 영화 추천 시스템 (A Fuzzy-AHP-based Movie Recommendation System with the Bidirectional Recurrent Neural Network Language Model)

  • 오재택;이상용
    • 디지털융복합연구
    • /
    • 제18권12호
    • /
    • pp.525-531
    • /
    • 2020
  • 다양한 정보가 대량으로 유통되는 IT 환경에서 사용자의 요구를 빠르게 파악하여 의사결정을 도와줄 수 있는 추천 시스템이 각광을 받고 있다. 그러나 현재 추천 시스템은 사용자의 취향이나 관심사가 바뀌었을 때 선호도가 즉시 시스템에 반영이 되지 않을 수가 있으며, 광고 유도로 인하여 사용자의 선호도와 무관한 아이템이 추천될 수가 있다는 문제점이 있다. 본 연구에서는 이러한 문제점을 해결하기 위해 양방향 순환 신경망 언어 모델을 이용한 Fuzzy-AHP 기반 영화 추천 시스템을 제안하였다. 본 시스템은 사용자의 취향이나 관심사를 명확하고 객관적으로 반영하기 위해 Fuzzy-AHP를 적용하였다. 그리고 사용자가 선호하는 영화를 예측하기 위해 양방향 순환 신경망 언어 모델을 이용하여 실시간으로 수집되는 영화 관련 데이터를 분석하였다. 본 시스템의 성능을 평가하기 위해 그리드 서치를 이용하여 전체 단어 집합의 크기에 대한 학습 모델의 적합성을 확인하였다. 그 결과 본 시스템의 학습 모델은 전체 단어 집합의 크기에 따른 평균 교차 검증 지수가 97.9%로 적합하다는 것을 확인할 수 있었다. 그리고 본 모델은 네이버의 영화 평점 대비 평균 제곱근 오차가 0.66, LSTM 언어 모델은 평균 제곱근 오차가 0.805으로, 본 시스템의 영화 평점 예측성이 더 우수함을 알 수 있었다.

머신러닝 기반의 신약 재창출 관련 연구 동향 분석 (Analysis of Research Trends Related to drug Repositioning Based on Machine Learning)

  • 유소연;임규건
    • 경영정보학연구
    • /
    • 제24권1호
    • /
    • pp.21-37
    • /
    • 2022
  • 신약을 개발하는 한 가지 방법의 하나인 신약 재창출(Drug Repositioning)은 이미 사람들에게 사용할 수 있도록 승인된 약물들이 다른 용도로 사용되도록 하여 새로운 적응증을 발견하는 유용한 방법이다. 최근에는 머신러닝 기술의 발달로 방대한 생물학적 정보를 분석하여 신약 개발에 활용하는 경우가 증가하고 있다. 신약 재창출에 머신러닝 기술을 활용하면 효과적인 치료법을 신속하게 찾아내는 데 도움을 줄 것이다. 현재 심각한 급성 호흡기 증후군인 코로나바이러스(COVID-19)에 의한 신종 질병으로 전 세계가 힘든 시간을 보내고 있다. 이미 임상적으로 승인된 약물의 용도를 변경하는 신약 재창출은 COVID-19 환자를 치료하기 위한 치료제의 대안이 될 수 있다. 본 연구는 머신러닝 기법을 활용하여 신약 재창출 분야에 대한 연구 동향을 살펴보고자 한다. Pub Med에서 웹 스크래핑 기법을 사용하여 'Drug Repositioning'이라는 키워드로 총 4,821건의 논문을 수집하였다. 데이터 전처리 후, 4,419건의 논문을 대상으로 빈도분석, LDA 기반 토픽모델링, Random Forest 분류 분석 및 예측 성능평가를 수행하였다. Word2vec 모델을 기반으로 연관어를 분석하였고, PCA 차원 축소 후 K-Means 군집화하여 레이블을 생성한 후, t-SNE 알고리즘을 이용하여 논문이 형성하고 있는 그룹을 시각화하고, LDA 결과에 계층적 군집화를 적용하여 히트맵으로 시각화하였다. 본 연구는 신약 재창출과 관련된 연구 주제가 무엇인지를 파악하고, 머신러닝 알고리즘을 사용하여 대량의 문헌에서 의미 있는 주제를 도출하고 시각화하는 방법을 제시하였다. 향후 신약 재창출 분야의 연구나 개발 전략을 수립하기 위한 기초자료로 활용되는 데 도움을 줄 것이라고 기대한다.

BERT 기반 자연어처리 모델의 미세 조정을 통한 한국어 리뷰 감성 분석: 입력 시퀀스 길이 최적화 (Fine-tuning BERT-based NLP Models for Sentiment Analysis of Korean Reviews: Optimizing the sequence length)

  • 황성아;박세연;장백철
    • 인터넷정보학회논문지
    • /
    • 제25권4호
    • /
    • pp.47-56
    • /
    • 2024
  • 본 연구는 BERT 기반 자연어처리 모델들을 미세 조정하여 한국어 리뷰 데이터를 대상으로 감성 분석을 수행하는 방법을 제안한다. 이 과정에서 입력 시퀀스 길이에 변화를 주어 그 성능을 비교 분석함으로써 입력 시퀀스 길이에 따른 최적의 성능을 탐구하고자 한다. 이를 위해 의류 쇼핑 플랫폼 M사에서 수집한 텍스트 리뷰 데이터를 활용한다. 웹 스크래핑을 통해 리뷰 데이터를 수집하고, 데이터 전처리 단계에서는 긍정 및 부정 만족도 점수 라벨을 재조정하여 분석의 정확성을 높였다. 구체적으로, GPT-4 API를 활용하여 리뷰 텍스트의 실제 감성을 반영한 라벨을 재설정하고, 데이터 불균형 문제를 해결하기 위해 6:4 비율로 데이터를 조정하였다. 의류 쇼핑 플랫폼에 존재하는 리뷰들을 평균적으로 약 12 토큰의 길이를 띄었으며, 이에 적합한 최적의 모델을 제공하기 위해 모델링 단계에서는 BERT기반 사전학습 모델 5가지를 활용하여 입력 시퀀스 길이와 메모리 사용량에 집중하여 성능을 비교하였다. 실험 결과, 입력 시퀀스 길이가 64일 때 대체적으로 가장 적절한 성능 및 메모리 사용량을 나타내는 경향을 띄었다. 특히, KcELECTRA 모델이 입력 시퀀스 길이 64에서 가장 최적의 성능 및 메모리 사용량을 보였으며, 이를 통해 한국어 리뷰 데이터의 감성 분석에서 92%이상의 정확도와 신뢰성을 달성할 수 있었다. 더 나아가, BERTopic을 활용하여 새로 입력되는 리뷰 데이터를 카테고리별로 분류하고, 최종 구축한 모델로 각 카테고리에 대한 감성 점수를 추출하는 한국어 리뷰 감성 분석 프로세스를 제공한다.