• 제목/요약/키워드: information collection and extraction

검색결과 89건 처리시간 0.033초

빅 데이터를 이용한 재해 정보 지원에 관한 연구 (A Study on Disaster Information Support using Big Data)

  • 신봉희;전혜경
    • 한국융합학회논문지
    • /
    • 제9권8호
    • /
    • pp.25-32
    • /
    • 2018
  • 최근 우리나라에서 일어나고 있는 재해의 규모 및 유형은 과거와 달리 다양화되고 있다. 하지만 우리나라는 이러한 여러 재해를 예측하기 위한 다양한 정보지원체계를 구축하지 못하고 있다. 현재 많은 기관에서 관련정보를 제공하고 있다. 이들 정보는 주로 웹으로 제공되고 있지만 대부분 실시간정보가 아니다. 본 연구에서는 기관들이 제공하는 정보와 함께 좀 더 양질의 실시간 정보를 제공하기 위해서 빅데이터를 활용한 정보지원을 주목하게 되었다. 빅데이터는 실시간성을 갖는 많은 양의 정보가 있고, 이를 이용하여 사용자맞춤 서비스를 할 수 있다. 그 중에서 트위터나 페이스북 등의 SNS는 재난이 발생했을 때 새로운 정보수집매체로서 이용할 수 있다. 그러나 너무 많은 정보로부터 필요한 정보를 자세히 검색하는 것은 무척 어렵고, 직감적인 정보수집이 곤란하다는 문제가 있다. 이를 위해서 본 연구에서는 트위터를 이용한 정보지원시스템을 개발한다. 시스템은 트위터 해시태그를 이용하여 정보를 검색한다. 또한 직감적으로 정보를 파악할 수 있도록, 지도상에 정보 매핑을 수행한다. 시스템의 평가를 위해, 정보추출, 매핑정도, 추천속도를 평가한다.

Development of Customer Review Ranking Model Considering Product and Service Aspects Using Random Forest Regression Method

  • Arif Djunaidy;Nisrina Fadhilah Fano
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권8호
    • /
    • pp.2137-2156
    • /
    • 2024
  • Customer reviews are the second-most reliable source of information, followed by family and friend referrals. However, there are many existing customer reviews. Some online shopping platforms address this issue by ranking customer reviews according to their usefulness. However, we propose an alternative method to rank customer reviews, given that this system is easily manipulable. This study aims to create a ranking model for reviews based on their usefulness by combining product and seller service aspects from customer reviews. This methodology consists of six primary steps: data collection and preprocessing, aspect extraction and sentiment analysis, followed by constructing a regression model using random forest regression, and the review ranking process. The results demonstrate that the ranking model with service considerations outperformed the model without service considerations. This demonstrates the model's superiority in the three tests, which include a comparison of the regression results, the aggregate helpfulness ratio, and the matching score.

Manchu Script Letters Dataset Creation and Labeling

  • Aaron Daniel Snowberger;Choong Ho Lee
    • Journal of information and communication convergence engineering
    • /
    • 제22권1호
    • /
    • pp.80-87
    • /
    • 2024
  • The Manchu language holds historical significance, but a complete dataset of Manchu script letters for training optical character recognition machine-learning models is currently unavailable. Therefore, this paper describes the process of creating a robust dataset of extracted Manchu script letters. Rather than performing automatic letter segmentation based on whitespace or the thickness of the central word stem, an image of the Manchu script was manually inspected, and one copy of the desired letter was selected as a region of interest. This selected region of interest was used as a template to match all other occurrences of the same letter within the Manchu script image. Although the dataset in this study contained only 4,000 images of five Manchu script letters, these letters were collected from twenty-eight writing styles. A full dataset of Manchu letters is expected to be obtained through this process. The collected dataset was normalized and trained using a simple convolutional neural network to verify its effectiveness.

TF-IDF의 변형을 이용한 전자뉴스에서의 키워드 추출 기법 (Keyword Extraction from News Corpus using Modified TF-IDF)

  • 이성직;김한준
    • 한국전자거래학회지
    • /
    • 제14권4호
    • /
    • pp.59-73
    • /
    • 2009
  • 키워드 추출은 정보검색, 문서 분류, 요약, 주제탐지 등의 텍스트 마이닝 분야에서 기반이 되는 기술이다. 대용량 전자문서로부터 추출된 키워드들은 텍스트 마이닝을 위한 중요 속성으로 활용되어 문서 브라우징, 주제탐지, 자동분류, 정보검색 시스템 등의 성능을 높이는데 기여한다. 본 논문에서는 인터넷 포털 사이트에 게재되는 대용량 뉴스문서집합을 대상으로 키워드 추출을 수행하여 분야별 주제를 제시할 수 있는 키워드를 추출하는 새로운 기법을 제안한다. 기본적으로 키워드 추출을 위해 기존 TF-IDF 모델을 고찰, 이것의 6가지 변형식을고안하여 이를 기반으로 각 분야별 후보 키워드를 추출한다. 또한 분야별로 추출된 단어들의 분야간 교차비교분석을 통해 불용어 수준의 의미 없는 단어를 제거함으로써 그 성능을 높인다. 제안 기법의 효용성을 입증하기 위해 한글 뉴스 기사 문서에서 추출한 키워드의 질을 비교하였으며, 또한 주제 변화를 탐지하기 위해 시간에 따른 키워드 집합의 변화를 보인다.

  • PDF

A Scalable Wireless Body Area Network for Bio-Telemetry

  • Saeed, Adnan;Faezipour, Miad;Nourani, Mehrdad;Banerjee, Subhash;Lee, Gil;Gupta, Gopal;Tamil, Lakshman
    • Journal of Information Processing Systems
    • /
    • 제5권2호
    • /
    • pp.77-86
    • /
    • 2009
  • In this paper, we propose a framework for the real-time monitoring of wireless biosensors. This is a scalable platform that requires minimum human interaction during set-up and monitoring. Its main components include a biosensor, a smart gateway to automatically set up the body area network, a mechanism for delivering data to an Internet monitoring server, and automatic data collection, profiling and feature extraction from bio-potentials. Such a system could increase the quality of life and significantly lower healthcare costs for everyone in general, and for the elderly and those with disabilities in particular.

Segmentation and Classification of Lidar data

  • Tseng, Yi-Hsing;Wang, Miao
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2003년도 Proceedings of ACRS 2003 ISRS
    • /
    • pp.153-155
    • /
    • 2003
  • Laser scanning has become a viable technique for the collection of a large amount of accurate 3D point data densely distributed on the scanned object surface. The inherent 3D nature of the sub-randomly distributed point cloud provides abundant spatial information. To explore valuable spatial information from laser scanned data becomes an active research topic, for instance extracting digital elevation model, building models, and vegetation volumes. The sub-randomly distributed point cloud should be segmented and classified before the extraction of spatial information. This paper investigates some exist segmentation methods, and then proposes an octree-based split-and-merge segmentation method to divide lidar data into clusters belonging to 3D planes. Therefore, the classification of lidar data can be performed based on the derived attributes of extracted 3D planes. The test results of both ground and airborne lidar data show the potential of applying this method to extract spatial features from lidar data.

  • PDF

태그 경로 및 텍스트 출현 빈도를 이용한 HTML 본문 추출 (HTML Text Extraction Using Tag Path and Text Appearance Frequency)

  • 김진환;김은경
    • 한국정보통신학회논문지
    • /
    • 제25권12호
    • /
    • pp.1709-1715
    • /
    • 2021
  • 웹 페이지에서 필요한 텍스트를 정확하게 추출하기 위해 본문이 존재하는 곳의 태그와 스타일 속성을 웹 크롤러에 명시하는 방법은 웹 페이지 구성이 변경될 때마다 본문을 추출하는 로직을 수정해야 하는 문제가 있다. 이러한 문제점을 해결하기 위해 이전 연구에서 제안한 텍스트의 출현 빈도를 분석하여 본문을 추출하는 방법은 웹 페이지의 수집 채널에 따라 성능 편차가 크다는 한계점이 있었다. 따라서 본 논문에서는 텍스트의 출현 빈도뿐만 아니라 웹 페이지의 DOM 트리로부터 추출된 텍스트 노드의 부모 태그 경로를 분석하여 다양한 수집 채널에서 높은 정확도로 본문을 추출하는 방법을 제안하였다.

IoT 정보 수집을 위한 확률 기반의 딥러닝 클러스터링 모델 (Probability-based Deep Learning Clustering Model for the Collection of IoT Information)

  • 정윤수
    • 디지털융복합연구
    • /
    • 제18권3호
    • /
    • pp.189-194
    • /
    • 2020
  • 최근 IoT 네트워크는 이기종의 IoT 장치에서 발생하는 데이터를 효율적으로 처리하기 위해서 다양한 클러스터링 기법들이 연구되고 있다. 그러나, 기존 클러스터링 기법들은 정적으로 네트워크를 분할하는데 초점을 맞추고 있어서 이동이 가능한 IoT 장치에는 기존 클러스터링 기법들이 적합하지 않다. 본 논문에서는 에지 네트워크를 이용하여 IoT 장치의 정보를 수집·분석하기 위한 확률적 딥러닝 기반의 동적 클러스터링 모델을 제안한다. 제안 모델은 수집된 정보의 속성값의 빈도수를 확률적으로 딥러닝에 적용하여 서브넷을 구축한다. 구축된 서브넷은 시드로 추출된 연계 정보를 계층적 구조로 그룹핑할 때 사용하며, IoT 장치에 대한 동적 클러스터링의 속도 및 정확도를 향상시킨다. 성능평가 결과, 제안모델은 기존 모델에 비해 데이터 처리 시간이 평균 13.8% 향상되었고, 서버의 오버헤드는 기존 모델보다 평균 10.5% 낮게 나타났다. 서버에서 IoT 정보를 추출할 때의 정확도는 기존모델보다 평균 8.7% 향상되었다.

지상레이저스캐너와 항공라이다를 이용한 해안 지형정보 추출 (Extraction of Coast Topographic Information Using Mobile Laser Scanning and Airborne LiDAR)

  • 이인수;차득기;김수정
    • 한국측량학회:학술대회논문집
    • /
    • 한국측량학회 2009년도 춘계학술발표회 논문집
    • /
    • pp.115-117
    • /
    • 2009
  • Terrestrial Laser Scanner and Airborne Laser Scanning is one of the state of art surveying equipments. So This study deals with the combined use of mobile TLS(Terrestrial Laser Scanner) with ALS(Airborne Laser Scanning) to extract shoreline's topography information. These two systems have their own pros and cons. Mobile TLS can capture the facades of a low story building along the shoreline fast and quickly. Meanwhile, Due to viewpoint restrictions of ALS data collection, the amount of detail, which is available for the building facades is very limited. Therefore, it is recommended that the co-registration and geo-referencing methods of both two should be developed and the application of both system for shoreline mapping also should be investigated.

  • PDF

기술용어 분산표현을 활용한 특허문헌 분류에 관한 연구 (A Study on Patent Literature Classification Using Distributed Representation of Technical Terms)

  • 최윤수;최성필
    • 한국문헌정보학회지
    • /
    • 제53권2호
    • /
    • pp.179-199
    • /
    • 2019
  • 본 연구의 목적은 특허 문헌 분류에 가장 적합한 방법론을 발견하기 위하여 다양한 자질 추출 방법과 기계학습 및 딥러닝 모델을 살펴보고 실험을 통해 최적의 성능을 제공하는 방법론을 분석하는데 있다. 자질 추출 방법으로는 전통적인 BoW 방법과 분산표현 방식인 워드 임베딩 벡터를 비교 실험하고, 문헌 집합 구축 방식으로는 형태소 분석과 멀티그램을 이용하는 방식을 비교 검토하였다. 또한 전통적인 기계학습 모델과 딥러닝 모델을 이용하여 분류 성능을 검증하였다. 실험 결과, 분산표현 방법과 형태소 분석을 이용한 자질추출 방법을 기반으로 딥러닝 모델을 적용하였을 경우에 분류 성능이 가장 우수한 것으로 판명되었으며 섹션, 클래스, 서브클래스 분류 실험에서 전통적인 기계학습 방법에 비해 각각 5.71%, 18.84%, 21.53% 우수한 분류 성능을 보여주었다.