• Title/Summary/Keyword: 데이터 추출

Search Result 6,324, Processing Time 0.048 seconds

Frequent Patten Tree based XML Stream Mining (빈발 패턴 트리 기반 XML 스트림 마이닝)

  • Hwang, Jeong-Hee
    • The KIPS Transactions:PartD
    • /
    • v.16D no.5
    • /
    • pp.673-682
    • /
    • 2009
  • XML data are widely used for data representation and exchange on the Web and the data type is an continuous stream in ubiquitous environment. Therefore there are some mining researches related to the extracting of frequent structures and the efficient query processing of XML stream data. In this paper, we propose a mining method to extract frequent structures of XML stream data in recent window based on the sliding window. XML stream data are modeled as a tree set, called XFP_tree and we quickly extract the frequent structures over recent XML data in the XFP_tree.

A Study on The Data Structure Extraction using Database Reverse Engineering (데이터베이스 역공학을 이용한 데이터 구조 추출에 관한 연구)

  • 황태희;김미화;배석찬
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 2000.11a
    • /
    • pp.447-451
    • /
    • 2000
  • 데이터베이스 역공학은 소프트웨어의 융통성을 개선하여 과거의 개발들을 재사용하고 유지비용을 감소하는데 목적이 있다. 파일과 데이터베이스 구조의 의미 기술을 회복하는 것은 역공학의 중요한 측면이다. 이것은 데이터베이스의 정확한 데이터 구조와 무결성 제약을 발견하는 데이터 구조 추출을 포함한다. 본 논문에서는 관계 데이터베이스에 초점을 두고 소프트웨어 유지 보수를 용이하게 하기 위하여 역공학을 이용한 데이터 구조 추출 방법을 제안한다.

  • PDF

Weighted Negative Tree Pattern Discovery (가중치 부여 부정 트리 패턴 추출)

  • Paik, Juryon;Kim, Jinyoung
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.07a
    • /
    • pp.23-26
    • /
    • 2019
  • 사물인터넷(IoT)은 지금의 우리가 살고 일하는 모든 방식을 변화시키고 있다. IoT를 통해 데이터를 생성하고 저장하고 연결된 장치와 상호작용하여 비즈니스는 물론 우리의 일상 생활을 개선하고 있는 것이다. 무수히 많은 센서들이 연결된 세상은 센서들에 의해 그 어느 때보다 거대한 양의 데이터들을 생산하고 있다. JSON, XML 같은 트리 구조의 데이터 타입은 대량 데이터 저장 전송 교환 등에 주요하게 사용되는데 이는 트리 구조가 이형 데이터 간의 유연한 정보 전송과 교환을 가능하게 하기 때문이다. 반면에, 효용성 높은 정보나 감추어져 있는 정보들을 트리 구조의 대량 데이터들로부터 추출하는 것은 일반 데이터 구조에 비해 훨씬 어려우며 더 난해한 문제들을 발생시킨다. 본 논문에서는 트리 구조의 대량 스트리밍 데이터로부터 가중치가 부여된 주요한 부정 패턴들을 추출하기 위한 방법을 공식화한다.

  • PDF

Recognizing Emotional Content of Emails as a byproduct of Natural Language Processing-based Metadata Extraction (이메일에 포함된 감성정보 관련 메타데이터 추출에 관한 연구)

  • Paik, Woo-Jin
    • Journal of the Korean Society for information Management
    • /
    • v.23 no.2
    • /
    • pp.167-183
    • /
    • 2006
  • This paper describes a metadata extraction technique based on natural language processing (NLP) which extracts personalized information from email communications between financial analysts and their clients. Personalized means connecting users with content in a personally meaningful way to create, grow, and retain online relationships. Personalization often results in the creation of user profiles that store individuals' preferences regarding goods or services offered by various e-commerce merchants. We developed an automatic metadata extraction system designed to process textual data such as emails, discussion group postings, or chat group transcriptions. The focus of this paper is the recognition of emotional contents such as mood and urgency, which are embedded in the business communications, as metadata.

A Web-based Virtual Space Modeling Using 2D CAD Data (2차원 캐드자료를 이용한 웹기반 가상공간 모델링)

  • Lee, Jang-Kyung;Lee, Sung-Kee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.443-446
    • /
    • 2002
  • 인터넷과 컴퓨터 기술이 발달함에 따라 가상공간에 대한 관심은 커져가고 있다. 그러나 가상공간을 생성하는 작업은 많은 시간과 노력이 필요하다. 그래서 가상공간 모델링에 관련된 연구들이 많이 이루어지고 있다. 본 논문에서는 2차원 CAD 데이터로부터 가상공간을 모델링하는 방법을 제시한다. CAD 파일에서 2차원 지형정보를 추출하여 웹에서 볼 수 있는 3차원 가상공간을 생성한다. 가상공간생성 과정은 전처리, 데이터 추출, 모델생성, 렌더링으로 이루어진다. 전처리는 CAD 파일에서 도로경계선을 분리하며 데이터 추출은 등고선, 도로경계선, 건물 정보를 CAD 파일로부터 추출하는 과정이다. 모델 생성은 추출한 지형정보들을 이용해서 3차원 공간모형 데이터를 생성하는 과정이다. 본 논문에서 제시한 방법은 실세계에 근접한 가상공간을 생성하며 가상공간을 생성하는데 드는 시간과 노력을 줄일 수 있다.

  • PDF

Extraction Method of Indoor Stay Point considering the Distribution of GPS Time Data (GPS 데이터 분포를 고려한 실내 Stay Point 추출 방법)

  • Park, Jin-Gwan;Choi, Sang-Gil;Baek, Jong-gil;Jeong, Min-A;Lee, Seong-Ro
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.1196-1198
    • /
    • 2015
  • 최근 모바일 기기의 발전으로 사용자의 위치를 수집하고 분석하는 방법들이 연구되고 있다. 이러한 방법들 중 하나인 궤적 데이터 마이닝은 사용자의 궤적을 바탕으로 의미 있는 정보를 추출하기 위해 사용된다. 궤적 데이터 마이닝을 수행하기 위해서는 사용자의 GPS로그를 분석하여 Stay Point를 추출하는 과정이 선행되어야 한다. 기존의 Stay Point 추출 방법은 실내와 실외의 Stay Point를 구분하지 못한다. 본 논문에서는 기존의 Stay Point 알고리즘을 보완하기 위해 GPS 데이터 분포를 고려하여 실내에서 머무른 지점만을 추출하는 Stay Point 알고리즘을 제안한다.

Extraction of Data Quality Characteristics from Dirty Data (데이터 오류에서 추출한 데이터 품질 특성)

  • 김수경;최병주
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.549-551
    • /
    • 2000
  • 소프트웨어 제품의 품질을 보증하는 일은 매우 중요하며, 국제표준인 ISO/IEC 9126은 소프트웨어 품질 및 특성 및 측정 메트릭 표준을 제공하고 있다. 이때 ISO/IEC 9126에서는 소프트웨어를 프로그램, 절차, 규칙 및 관련문서로 한정하고 있기 때문에 데이터의 품질에는 적용할 수 없다. 본 논문에서는 데이터 품질 평가 및 제어를 위하여 데이터 오류 형태를 분류하고, 이를 기반으로 데이트 품질 특성 및 부특성을 분류한다. 데이터 품질 특성 분류는 ISO/IEC 9126에 정의한 소프트웨어 품질 특성을 데이터 오류 형태에 대응시켜 추출한다. 본 논문에서 제시하는 데이트 품질특성 분류는 지식 공학(knowledge engineering)시스템이 최종 사용자에게 제공하는 데이터나 지식의 품질 측정 및 제어에 기준이 된다.

  • PDF

Data value extraction through comparison of online big data analysis results and water supply statistics (온라인 빅 데이터 분석 결과와 상수도 통계 비교를 통한 데이터 가치 추출)

  • Hong, Sungjin;Yoo, Do Guen
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.431-431
    • /
    • 2021
  • 4차 산업혁명의 도래로 사회기반시설물의 계획 및 운영관리에 있어 데이터 분석을 통한 가치추출에 대한 관심은 매우 높은 상황이다. 데이터의 가용성과 접근성, 정부 지원 등을 평가하는 공공데이터 개방지수에서 한국은 1점 만점에 0.93점을 획득하여 경제협력개발기구 회원국 중 1위(2019년 기준)를 할 정도로 매우 높은 수준(평균 0.60점)이다. 그러나 공식적으로 발표 및 배포되는 사회기반시설물 관련 정보와 심도 있는 연구 분석이 필요한 정보는 접근이 여전히 제한적이라 할 수 있다. 특히 대표적인 사회기반시설물인 상수도시스템은 대부분 국가중요시설로 지정되어 있어 다양한 정보를 획득하고 분석하는데 제약이 존재하며, 관련 국가통계인 상수도통계에서는 누수사고 등과 같은 비정상적 상황에 대한 사고지점, 원인 등과 같은 세부정보는 제공하고 있지 않다. 본 연구에서는 웹크롤링 및 빅데이터 분석기술을 활용하여 과거 일정기간 발생한 지자체의 상수도 누수사고 관련 뉴스를 전수조사하고 도출된 사고건수를 국가 공인 정보인 상수도통계자료와 비교·분석하였다. 독립적인 누수사고 기사를 추출하기 위해서 중복기사의 제거, 누수 관련 키워드 정립, 상수도분야 이외의 관련기사 제거 등의 절차가 필요하며, 이와 같은 기법은 R프로그래밍을 통해 구현되었다. 추가적으로 뉴스기사의 자연어 처리기반 정보추출기법을 통해 누수사고 건수 뿐만 아니라 사고발생일, 위치, 원인, 피해정도, 그리고 대상 관로의 크기 등을 획득하여 상수도 통계에서 제시하고 있는 정보보다 많은 가치를 추출하여 연계할 수 있는 방안을 제시하였다. 제시된 방법론을 국내 A광역시에 적용하여 누수사고 건수를 비교한 결과 상수도통계에서 제시하고 있는 누수발생건수와 유사한 규모의 사고건수를 뉴스기사분석을 통해 도출할 수 있었다. 제안된 방법론은 추가적인 정보의 추출이 가능하다는 점에서 향후 활용성이 높을 것으로 기대된다.

  • PDF

An improved extraction technique of executable file from physical memory by analyzing file object (파일 오브젝트 분석 기반 개선된 물리 메모리 실행 파일 추출 방법)

  • Kang, Youngbok;Hwang, Hyunuk;Kim, Kibom;Noh, Bongnam
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.24 no.5
    • /
    • pp.861-870
    • /
    • 2014
  • According to the intelligence of the malicious code to extract the executable file in physical memory is emerging as an import researh issue. In previous physical memory studies on executable file extraction which is targeting running files, they are not extracted as same as original file saved in disc. Therefore, we need a method that can extract files as same as original one saved in disc and also can analyze file-information loaded in physical memory. In this paper, we provide a method that executable file extraction by analyzing information of Windows kernel file object. Also we analyze the characteristic of physical memory loaded file data from the experiment and we demonstrate superiority because the suggested method can effectively extract more of original file data than the existing method.

Salient Video Frames Sampling Method Using the Mean of Deep Features for Efficient Model Training (효율적인 모델 학습을 위한 심층 특징의 평균값을 활용한 의미 있는 비디오 프레임 추출 기법)

  • Yoon, Hyeok;Kim, Young-Gi;Han, Ji-Hyeong
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2021.06a
    • /
    • pp.318-321
    • /
    • 2021
  • 최근 정보통신의 발달과 함께 인터넷에 접속하는 사용자 수와 그에 따른 비디오 데이터의 전송량이 늘어나는 추세이다. 이렇게 늘어나는 많은 비디오 데이터를 관리하고 분석하기 위해서 최근에는 딥 러닝 기법을 많이 활용하게 된다. 일반적으로 비디오 데이터에 딥 러닝 모델을 학습할 때 컴퓨터 자원의 한계로 인해 전체 비디오 프레임에서 균등한 간격 또는 무작위로 프레임을 선택하는 방법을 많이 사용한다. 하지만 학습에 사용되는 비디오 데이터는 항상 시간 축에 따라 같은 문맥을 담고 있는 Trimmed 비디오라고 가정할 수가 없다. 만약 같지 않은 문맥을 지닌 Untrimmed 비디오에서 균등한 간격 또는 무작위로 프레임을 선택해서 사용하게 된다면 비디오의 범주와 관련이 없는 프레임이 샘플링 될 가능성이 있기 때문에 모델의 학습 및 최적화에 전혀 도움이 되지 않는다. 이를 해결하기 위해 우리는 각 비디오 프레임에서 심층 특징을 추출하여 평균값을 계산하고 이와 각 추출된 심층특징들과 코사인 유사도를 계산해서 얻은 유사도 점수를 바탕으로 Untrimmed 비디오에서 의미 있는 비디오 프레임을 추출하는 기법을 제안한다. 그리고 Untrimmed 비디오로 구성된 데이터셋으로 유명한 ActivityNet 데이터셋에 대해서 대표적인 2가지 프레임 샘플링 방식(균등한 간격, 무작위)과 비교하여 우리가 제안하는 기법이 Untrimmed 비디오에서 효과적으로 비디오의 범주에 해당하는 의미 있는 프레임 추출이 가능함을 보일 것이다. 우리가 실험에 사용한 코드는 https://github.com/titania7777/VideoFrameSampler에서 확인할 수 있다.

  • PDF