• Title/Summary/Keyword: 정보 수집 및 추출

Search Result 749, Processing Time 0.032 seconds

A System on Establishing a Favored Location Measurement based on Personal Geopositioning Data (개인의 위치에 기반하는 장소 방문 선호도를 추출하는 시스템에 관한 연구)

  • Song, Ha Yoon;Kim, Do-Yeon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.895-898
    • /
    • 2021
  • DB로부터 위치 데이터를 추출해오면, location visiting measure를 통해 한 개인의 장소 방문 선호도를 측정한다. 이 과정에서 위치 데이터 클러스터링 및 개인의 이동성 파악을 위한 6가지 조치를 한다. 위치 데이터 분석 결과로 얻은 이동성 통계는 LBS(Location Based System)를 포함한 다양한 분야에 적용될 수 있다. 연구의 최종 목표는 새로운 위치 데이터의 수집에 따른 방문 선호도 변화를 적용할 수 있도록 하는 location visiting measure의 자동화 시스템을 구축하는 것이다.

Dictionary-Based Opinion Features Extraction and Classification of Korean Product Reviews (사전기반의 한국어 상품 리뷰 의견표현 자질 추출 및 분류시스템)

  • Sangguen Yuk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.631-634
    • /
    • 2008
  • 인터넷을 이용한 사람들의 사회 참여가 확대되면서 다양한 의견(Opinion)들이 급속도로 증가하고 있으며 이러한 의견을 분석하여 유용한 정보로 활용하기 위한 연구가 활발히 진행되고 있다. 그 중에서도 상품리뷰는 기업에서 연구, 개발, 마케팅의 주요 자료로 사용되고 있으며 사용자가 상품의 구매를 결정하는 중요한 요인 중 하나로 작용하고 있다. 본 논문에서는 한국어로 이루어진 상품 리뷰를 분석하여 의견 자질(Feature)을 추출하고 분류(Classification)하는 시스템을 설계하고 구현하였다. 한글 의견 자질 추출을 위하여 먼저 한글 상품 리뷰를 분석하여 의견 사전을 구축하였다. 의견 사전으로는 의견 자질과 의견 어휘, 독립의견어휘, 의견 숙어, 부정어 등의 각기 다른 세부 사전을 구축하여 리뷰 분석 시 단계적으로 적용하여 정확도를 높일 수 있도록 설계하였다. 이렇게 구현된 시스템을 평가하기 위하여 각기 다른 3개의 도메인에서 실제 한국어 리뷰를 수집하여 실험을 수행하였으며 자질 추출에서는 평균 78.86% 정확률, 61.41% 재현율을, 극성 분류에서는 평균 69.46% 정확률, 42.26% 재현율을 나타냈다.

HTML Text Extraction Using Tag Path and Text Appearance Frequency (태그 경로 및 텍스트 출현 빈도를 이용한 HTML 본문 추출)

  • Kim, Jin-Hwan;Kim, Eun-Gyung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.25 no.12
    • /
    • pp.1709-1715
    • /
    • 2021
  • In order to accurately extract the necessary text from the web page, the method of specifying the tag and style attributes where the main contents exist to the web crawler has a problem in that the logic for extracting the main contents. This method needs to be modified whenever the web page configuration is changed. In order to solve this problem, the method of extracting the text by analyzing the frequency of appearance of the text proposed in the previous study had a limitation in that the performance deviation was large depending on the collection channel of the web page. Therefore, in this paper, we proposed a method of extracting texts with high accuracy from various collection channels by analyzing not only the frequency of appearance of text but also parent tag paths of text nodes extracted from the DOM tree of web pages.

Flood monitoring and prediction using online unstructured data (비정형데이터를 활용한 홍수 모니터링 및 예측)

  • Lee, Jeong Ha;Hwang, Seok Hwan
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2019.05a
    • /
    • pp.118-118
    • /
    • 2019
  • 현재 홍수예보는 정형데이터인 유량 및 수위 등을 활용하여 이뤄지고 있다. 하지만 실제 사람들이 체감하는 홍수에 대한 위험도는 홍수예보 발령과는 달라 홍수예보가 이뤄지지 않은 지역에서 인명사고가 발생하기도 한다. 이는 수위 측정이 이뤄지지 않는 소규모 하천이나 사람들의 유동성이 큰 도심지역에서 빈번하게 발생한다. 이를 보완하기 위해서는 사람들의 체감 정도 및 인구의 유동성을 고려한 비정형데이터를 활용해야 한다. 특히 소셜 네트워크 서비스(Social Network Commuinty, SNS)를 사용하는 사람들이 많아지면서 기존에 사용되어 왔던 정형데이터 센서 이외의 데이터를 제공한다. 또한 개개인이 작성하는 글은 실시간으로 활용이 가능하여 인구의 유동성 및 시 공간적 데이터를 얻기에 유용하여 활용성이 매우 높은 비정형데이터이다. 따라서 본 연구에서는 SNS 데이터를 추출하고 이를 분석하여 2018년에 발생했던 강우사상과의 패턴을 비교하여 홍수예보에서의 활용성을 분석하였다. 홍수와 관련한 키워드를 중심으로 시 공간적 정보 및 추출이 가능한 웹 크롤러(Web Crawler) 프로그램을 작성하였으며 이를 토대로 데이터를 수집하였다. 수집한 데이터와 실제 홍수사상을 비교 분석을 한 결과 강우량 및 수위와 해당 지역에 대한 데이터의 양이 유사한 패턴을 보인 것으로 확인되었다. 실시간으로 데이터를 수집하고 이를 분석하여 리드타임을 충분히 확보한다면 홍수예측에 활용 가능할 것이라 생각된다. 본 연구는 한국건설기술연구원 19주요-대4-시드사업인 '커뮤니티 빅데이터 패턴 해석을 통한 수난(水難) 발생 및 규모 예측 기술 개발(20190126-001) '로 수행되었습니다.

  • PDF

Extraction of Query Information and Generation of Identifier for Effective Component Classification and Retrieval (효율적인 컴포넌트 분류와 검색을 위한 질의정보 추출 및 식별자 생성)

  • Park, Jea-Youn;Song, Young-Jae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05c
    • /
    • pp.1753-1756
    • /
    • 2003
  • 소프트웨어 생산성과 품질을 개선하기 위한 방안으로 컴포넌트 기반의 소프트웨어 개발이 전개되고 있다. 소프트웨어 컴포넌트 라이브러리를 재사용하기 위해서는 재사용 가능한 컴포넌트를 효율적으로 수집하여 분류, 저장, 검색하여야한다. 기존의 요구사항 정형화 기법들은 요구사항들 간의 의미적 관계를 표현하는 데 초점을 맞추고 있어 컴포넌트 검색에는 적합하지 않으므로 본 연구에서는 개발하려는 유즈케이스 다이어그램을 구문분석을 거쳐 명세하여 질의 정보를 추출하였다. 기존의 자연어를 기반으로 하는 컴포넌트의 비정형적인 명세를 컴포넌트 검색과 조립에 필요한 정보를 효율적으로 얻을 수 있도록 구문분석과 추상화 단계를 거쳐 정형화된 중간형태의 명세로 전환하고 제안한 유사도를 사용하여 컴포넌트를 검색하고자 한다. 또한 개괄명세와 상세명세를 통해 컴포넌트 검색에 필요한 정보를 추출할 뿐만 아니라 컴포넌트의 aspect을 이용하여 컴포넌트 조림에 필요한 정보도 얻을 수 있다. 2차 질의를 통해 컴포넌트 검색의 정확도를 향상시키고 명세를 추상화시켜 검색의 재현율을 향상시킨다.

  • PDF

Visualization methods of Terra MODIS and GPM satellite orbits for Water Hazrd Information System Monitoring (수재해 정보시스템 모니터링을 위한 Terra MODIS, GPM 궤도의 시각화 방안)

  • PARK, Gwang-Ha;CHAE, Hyo-Sok;HWANG, Eui-Ho;LEE, Jeong-Ju
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2016.05a
    • /
    • pp.318-318
    • /
    • 2016
  • 위성은 준 실시간으로 국토 전체의 관측과 미계측/비접근 지역의 관측도 가능하여 가뭄, 홍수 등 수재해와 관련된 분석 자료로 활용되고 있으며, 위성 기반의 수재해 모니터링 적용성에 대한 연구 또한 수행되고 있다. 위성에서 관측된 자료는 NASA, JAXA 등의 위성 관리 센터에서 알고리즘을 적용하여 인터넷으로 제공하고, 최근 K-water에서는 수자원분야의 위성활용을 위해 위성 자료 수집 시스템을 갖추어 Aqua/Terra MODIS, GPM, GCOM-W1 등의 위성 자료를 수집하고 있다. 위성 자료는 5분~16일 등의 다양한 주기로 제공되고 있으며, 자료 타입, 측정 시간 등의 간단한 정보만 파일명으로 표시되어 위성의 위치(경위도) 및 해당 지점의 위성 자료를 얻기 위해서는 위성 자료를 확인해야만 하는 번거로움이 따른다. 본 연구에서는 순차적으로 관측된 위성 자료의 시 공간적 속성정보를 추출하고 해당 정보를 영상과 함께 맵핑하여, 시간의 흐름에 따른 위성 궤도의 시각화 방안을 제시하였다. 위성 궤도의 시각화 방안으로 사용된 위성 자료는 Terra MODIS의 'MOD02SSH', GPM GMI 센서의 'GPROF' 자료 타입을 사용하였다. 'MOD02SSH'는 5분 동안 5km의 공간해상도로 측정한 자료가 1개의 파일이며, 'GPROF'는 5분 동안 4km의 공간해상도로 측정한다. 공전 주기의 검증을 위해 케플러의 제3법칙을 적용한 Terra 위성의 공전주기는 98.75분으로 계산되며, 위성 자료의 공전주기는 98.87분으로 나타난다. 검증 결과 약 0.12초의 오차가 발생하며, 정확한 위성 고도와 높은 해상도의 위성 자료를 통해 오차의 감소가 가능하다. 이를 통해 시각화 된 동적 시계열 이미지는 시간에 따른 위성 궤도의 정보를 추출 할 수 있다. 이는 수재해 정보시스템의 모니터링을 위해 사용 가능하고, 시간에 따른 위성 궤도 정보를 통하여 필요한 시간대의 위성 위치 정보, 해당 지점의 관측 자료를 효율적으로 수집하여 자료 수집을 위한 시간 단축이 가능하며, 사용자 또는 관리자를 위한 모니터링 수행 또한 효율적인 운영이 가능할 것으로 사료된다.

  • PDF

Microscopic Traffic Parameters Estimation from UAV Video Using Multiple Object Tracking of Deep Learning-based (다중객체추적 알고리즘을 활용한 드론 항공영상 기반 미시적 교통데이터 추출)

  • Jung, Bokyung;Seo, Sunghyuk;Park, Boogi;Bae, Sanghoon
    • The Journal of The Korea Institute of Intelligent Transport Systems
    • /
    • v.20 no.5
    • /
    • pp.83-99
    • /
    • 2021
  • With the advent of the fourth industrial revolution, studies on driving management and driving strategies of autonomous vehicles are emerging. While obtaining microscopic traffic data on vehicles is essential for such research, we also see that conventional traffic data collection methods cannot collect the driving behavior of individual vehicles. In this study, UAV videos were used to collect traffic data from the viewpoint of the aerial base that is microscopic. To overcome the limitations of the related research in the literature, the micro-traffic data were estimated using the multiple object tracking of deep learning and an image registration technique. As a result, the speed obtained error rates of MAE 3.49 km/h, RMSE 4.43 km/h, and MAPE 5.18 km/h, and the traffic obtained a precision of 98.07% and a recall of 97.86%.

A Structure Analysis Agent for Extraction, Storage and Visualization of Web Sites (웹사이트의 구조주출, 저장 및 가시화를 위한 구조분석 에이전트)

  • 정윤경;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.313-315
    • /
    • 2001
  • 인터넷 비즈니스 사이트가 많아짐에 따라 사용자에게 편리한 비즈니스 사이트를 구추하기위해 웹서버의 구조 및 내용을 평가하고 재구성해야 하는데, 수작업에 의한 웹문서의 평가시 인적, 시간적 비용이 높고 시스템에 대한 평가값이 객관적이지 못하다. 이를 해결하기 위해 본 논문에서는 구조추출, 구조저장, 구조가시화로 구성된 웹문서의 구조분석 에이전트를 제안한다. 구조추출 모듈은 URL로 웹문서를 받고 이를 잘정의된 XML형태로 변환한 후, 태그정보를 이용하여 웹문서의 구조를 구하고, 하이퍼링크데이터를 이용하여 웹문서간의 연결구조를 얻는다. 구조저장은 추출된 웹문서와 웹문서 연결관계를 웹서버와 같이 연결하여 저장하며, 구조 가시화에서 이를 계층적으로나 그래프형식으로 가시화된다. 제안한 시스템의 유용성을 보이기 위하여 웹문서의 평가문제에 적용한 결과, 많은 양의 데이터를 의 데이터의 기술적인 평가가 가능하고, 데이터를 수집하기 위한 인력자원, 시간과 비용을 줄일수 있으며, 쉽게 사이트를 평가하여 서비스 수준을 향상 시킬 수 있음을 알 수 있었다.

  • PDF

Design of a foot shape extraction system for foot parameter measurement (발 고유 변인 측정을 위한 발 형상 추출 시스템 설계)

  • Yun, Jeongrok;Kim, Hoemin;Kim, Unyong;Chun, Sungkuk
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.07a
    • /
    • pp.421-422
    • /
    • 2020
  • 발 고유 변인 측정 및 데이터의 수집은 소비자의 발 건강을 위한 신발 제작을 위하여 필요하다. 신발의 설계 지표 또한 개정의 필요성이 제시되고 있어 발 고유 변인 측정의 및 데이터 획득에 관한 연구의 필요성이 증대되고 있다. 본 논문에서는 발 형태의 데이터 값을 산출하여 사용자에게 적합한 맞춤형 인솔 및 신발을 제작하고, 신발의 설계 지표를 산출하기 위하여 발 고유 변인의 데이터 값을 자동으로 측정이 가능한 발 고유 변인 산출이 가능한 발 형상 추출 시스템에 대해 서술한다. 이를 위해 사용자의 발 고유 변인 측정을위한 스캐닝 스테이지를 설계 및 제작하고, 3대의 깊이 카메라를 설치하였다. 잡음 및 배경을 제거하기 위해 가우시안 배경 모델링으로 전경 영역을 분리하여 발 점군 데이터를 획득 한 후, Euclidean transformation을 통해 각 점군 데이터를 정합한다. 실험 결과에서는 획득된 발 형상 점군 데이터와 접지면 형상 및 발 변인 추출 결과를 보여준다.

  • PDF

Concept Map based P2P contents sharing system (개념지도 기반 P2P 콘텐츠 공유 시스템)

  • 나고운;차재혁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.223-225
    • /
    • 2004
  • 현재의 P2P 시스템은 특정한 분야에서는 성공을 거두고 있지만 지식과 정보 공유의 목적으로서는 활용되지 못하고 있다. 사용자가 웹에서 수집한 자료와 새로 생성한 지식 및 정보 콘텐츠들은 기존의 P2P시스템으로는 공유하기 힘든 몇 가지 이유가 있다. 그 이유 중 하나는 대부분의 P2P시스템은 사용자가 콘텐츠 각각에 대한 메타데이터를 작성하도록 하거나 키워드가 나타나도록 파일명을 수정하도록 요구하기 때문이다. 본 논문에서 제안하는 CONCEPT P2P는 P2P 환경에서 콘텐츠를 공유하는데 개념지도를 사용한다. 개념지도는 시간 소모적인 메타데이터 작성 작업에 대한 대안이 될 수 있기 때문이다 CONCEPT P2P는 로컬 파일 시스템에 수집하고 있는 관심 콘텐츠의 공유를 목적으로 한다. 사용자의 개념지도를 추출하여 개념지도로부터 콘텐츠 묶음을 검색하므로 무리한 수작업이 없이도 다양한 분야의 콘텐츠를 효과적으로 공유할 수 있도록 설계하였다. 또한 다른 사용자와 개념 네트워크를 형성하여 관심 개념에 의해서 클러스터링 되고 있는 복수개의 콘텐츠를 지속적으로 수집하고 배포하는 접근을 취하였다. 개념 지도를 기술하고 검색하는 부분에서는 RDF 기반의 시맨틱 웹 언어와 RDF 질의 언어인 QEL을 사용하였다.

  • PDF