• 제목/요약/키워드: 정형 데이터

검색결과 728건 처리시간 0.029초

비정형 대용량 데이터 입력 및 출력 시스템 설계 및 구현 (Design and Implementation of Input and Output System for Unstructured Big Data)

  • 김창수;심규철;강병준;김경환;정회경
    • 한국정보통신학회논문지
    • /
    • 제18권2호
    • /
    • pp.387-393
    • /
    • 2014
  • 컴퓨터의 보급에 따라 비정형 대용량 데이터가 범람하고 이를 효율적으로 처리하기 노력이 요구되고 있다. 이에 본 논문에서는 오피스(office) 파일(아래한글, MS-Office 등)에 입력된 데이터를 바로 XML로 변환하고, 사용자가 XML 매핑 파일을 만들어서 워드프로세서에 입력 된 데이터를 바로 추출하여 데이터베이스에 저장하는 시스템을 제안하였다. 또한, 본 시스템은 워드프로세스에 양식을 미리 작성하여 필요한 데이터를 데이터베이스에서 조회하여 워드프로세서 문서를 응용프로그램에서 오피스 파일을 생성 할 수 있다. 이는 대용량의 비정형 데이터를 활용가능하게 할 것이다.

비정형, 정형 데이터의 이미지 학습을 활용한 시장예측 (MPIL: Market prediction through image learning of unstructured and structured data)

  • 이윤선;이주홍;최범기;송재원
    • 스마트미디어저널
    • /
    • 제10권2호
    • /
    • pp.16-21
    • /
    • 2021
  • 금융 시계열 분석은 현대 사회의 경제적, 사회적으로 매우 중요한 역할을 하며 세계 발전에 영향을 미치는 중요한 과제지만 많은 잡음(noise)과 불확실성 등의 어려움으로 인해 금융 시계열 분석 예측은 어려운 연구 주제이다. 본 논문에서는 비정형 데이터와 정형 데이터를 함께 이미지로 변환하여 시장을 예측 하는 방법(MPIL)을 제안한다. 시장 예측을 위해 n일 기간의 비정형 데이터인 SNS, 뉴스 데이터를 감정분석하고 정형 데이터인 시장 데이터를 GADF 알고리즘으로 이미지 변환하고 이미지 학습을 통해 n+1일의 가격을 예측하는 초단기 시장을 예측한다. MPIL은 평균 정확도 56%로 기존 시장예측에 사용되던 감정분석을 활용하여 LSTM으로 시장을 예측하는 모델 평균 정확도 50%보다 높은 정확도를 보였다.

고차원 매핑기법과 딥러닝 네트워크를 통한 정형데이터의 분류 (Classification of Tabular Data using High-Dimensional Mapping and Deep Learning Network)

  • 김경택;장원두
    • 사물인터넷융복합논문지
    • /
    • 제9권6호
    • /
    • pp.119-124
    • /
    • 2023
  • 최근 딥러닝은 다양한 분야에서 전통적인 기계학습에 비해 월등히 높은 성능을 보이고 있으며, 패턴인식을 위한 보편적인 방법으로 자리 잡아 가고 있다. 하지만, 이에 비해 정형데이터를 사용하는 분류 문제에서는 여전히 머신러닝 기법이 주류를 이루고 있다. 본 논문에서는 정형데이터를 고차원 텐서로 변환하는 네트워크 모듈을 제안하며, 이 모듈을 보편적인 딥러닝 네트워크와 함께 구성하여 정형데이터의 분류 문제에 적용하였다. 제안된 방법은 4종의 데이터셋을 활용하여 학습 및 검증되었으며, 제안된 방법은 90.22%의 평균 정확도를 달성하여, 최신 딥러닝 모델인 TabNet에 비해 2.55%p 높은 정확도를 보였다. 제안된 방법은 컴퓨터 비전 분야에서 높은 성능을 보이는 다양한 네트워크 구조를 정형데이터에 활용할 수 있다는 점에서 의미가 있다.

DW 어플라이언스를 통한 빅데이터 처리 기술 동향 분석 (Analysis of Trend for BigData Processing Technology by DW Appliance)

  • 최로환;박석천;심봉수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.904-907
    • /
    • 2013
  • 최근 정보통신기술이 하루가 다르게 발전함에 따라 하루에도 수많은 데이터가 흘러나오는 최근의 추세이다. 정형 데이터 뿐 아니라 비정형 데이터 분석까지 진행하는 최근의 추세에 맞춰 현 빅데이터 기술 동향을 분석한다. 빅데이터 시대를 맞아 기존의 데이터웨어하우스(DW)와 발전된 데이터웨어하우스(DW) 어플라이언스에 대해 분석하고 향후 발전 전망과 방향을 제시한다.

IoT 환경에서 스트리밍 기반의 비정형 데이터 수집 프레임워크 설계 (Design of Streaming based Unstructured-Data Collecting Framework in IoT Environment)

  • 이후영;박구락;김동현
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2017년도 제55차 동계학술대회논문집 25권1호
    • /
    • pp.57-58
    • /
    • 2017
  • 사물인터넷 환경의 다양한 기기에서는 매초마다 시스템 로그 데이터, 온도, 습도, 조도 및 위치 정보 등과 같은 데이터를 지속적으로 생성한다. 이렇게 생성된 데이터는 기기 안에서 대부분 소멸되거나 수집된다 하더라도 시스템 개선의 일부 목적으로 활용하는데 그칠 뿐이다. 본 논문에서는 각각의 사물인터넷 기기에서 발생하는 비정형 데이터를 스트리밍 방식을 통해 수집 서버로 전송하고 이를 유연한 스키마 구조를 가지는 NoSQL 데이터베이스에 적재하는 프레임워크 설계를 제안한다. 이렇게 수많은 장비로부터 수집된 로그 및 센싱 데이터는 빅데이터 분석을 통해 산업의 현장에서 생산성 향상을 위해 사용할 수 있으며 공공의 목적으로 도심지의 교통문제 해소와 재난 및 재해 예측에 활용될 수 있다.

  • PDF

이동 프로세스 대수에서 행위의 의미 분석을 위한 정형기법 (Formal Method for Meaning Analysis of Behavior on Mobile Process Algebra)

  • 우수정;온진호;이문근
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(B)
    • /
    • pp.16-21
    • /
    • 2010
  • 분산 이동 실시간 시스템의 명세, 개발 및 검증을 위해 ${\pi}$-calculus, bigraph, Mobile Ambient, CARDMI 등의 정형기법이 존재한다. 이러한 정형기법은 이동하는 에이전트 혹은 프로세스에 대한 명세 및 시스템의 안전성과 검증에 대한 분석을 지원하지만, 행위의 의미적 관점에서 분석 및 검증 방법을 제시하고 있지 않다. 본 논문에서는 정형기법으로 명세 된 시스템의 실행 데이터인 원시 데이터를 행위의 의미적 관점에서 시스템을 분석 및 검증이 가능한 Prism Analyzer를 제안한다. 제안된 Prism Analyzer는 특정 시스템에 대해 발생할 수 있는 다양한 행위를 온톨로지와 속성문법으로 정규화한 다양한 행위모델을 지닌다. 이러한 Prism Analyzer는 원시 데이터를 행위의 의미적 측면에서 개별적, 연속적, 복합적으로 분석 및 검증이 가능하고, Prism Analyzer에 정의된 다양한 행위 모델을 바탕으로 동일한 원시 데이터에 대해 행위 모델에 따른 다양한 분석 결과를 도출해 낼 수 있다.

  • PDF

비정형 공사감리문서 정보와 이항 로지스틱 회귀분석을 이용한 건축 현장 비용성과 평가 프레임워크 개발 (Cost Performance Evaluation Framework through Analysis of Unstructured Construction Supervision Documents using Binomial Logistic Regression)

  • 김창원;송태근;이기석;유위성
    • 한국건축시공학회지
    • /
    • 제24권1호
    • /
    • pp.121-131
    • /
    • 2024
  • 공사감리문서는 프로젝트의 수행과정을 제3의 독립적인 위치에서 모니터링한 종합적인 점검의견이라는 주요한 비정형 정보를 제공할 수 있다. 이와 같은 비정형 정보는 최근 분석방법론의 고도화에 따라 다양한 시사점을 제공할 수 있는 유의미한 자료로 평가받고 있다. 이에 본 연구는 건축공사의 최종 감리보고서 내 비정형 데이터를 대상으로 다양한 방법론을 활용하여 비용성과를 평가할 수 있는 프레임워크를 제시하였다. 세부적으로는 텍스트마이닝과 사회연결망분석을 통해 감리보고서 내 주요 키워드들을 도출하고, 해당 데이터들을 이항 로지스틱 회귀분석을 통해 분석하여 비용성과를 평가하였다. 그 결과, 감리보고서 내 비정형 데이터를 이용하여 추정된 비용성과 예측 정확도는 약 73% 수준으로 높게 도출되었다. 본 연구의 결과는 향후 건설산업에서 발생되는 다양한 비정형 데이터의 분석을 위한 기초자료로 활용이 가능할 것으로 예상된다.

맵리듀스와 대응분석을 활용한 비정형 빅 데이터의 정형화와 시각적 해석 (Standardizing Unstructured Big Data and Visual Interpretation using MapReduce and Correspondence Analysis)

  • 최요셉;최용석
    • 응용통계연구
    • /
    • 제27권2호
    • /
    • pp.169-183
    • /
    • 2014
  • 오늘날, 다양한 분야에서 다양한 형태의 빅 데이터들이 축적되고 있다. 이에, 빅 데이터를 분석하고 그 속에서 가치 있는 정보를 찾아내는 것은 매우 중요해지고 있다. 또한, 비정형 빅 데이터를 정형화하여 통계적 기법을 적용할 수 있게 하는 것은 매우 중요해지고 있다. 본 연구에서는 분산처리 시스템인 맵리듀스를 활용하여 비정형 빅 데이터를 정형화하고, 통계적 분석 기법인 단순 대응분석과 다중 대응분석을 적용하여, 한국 경제 신문의 지면에 실린 기사를 이용해 삼성전자와 애플을 언급하고 있는 단어들의 관계와 특성을 각각 파악하였다.

대출 상환 예측을 위한 의사결정나무모델과 TabNet 간 성능 비교 (Performance comparison between Decision tree model and TabNet for loan repayment prediction)

  • 한수진 ;김현철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.453-455
    • /
    • 2023
  • 본 연구는 은행에서 리스크 관리 자동화를 위해 고객의 대출 상환 여부 예측 모델을 제안하고자 한다. 예측 모델로 금융 데이터 같은 정형데이터에서 전통적으로 높은 성능을 보인 의사결정나무기반 모델 LightGBM, CatBoost, XGB 와 최근 제안된 정형데이터에서 사용할 수 있는 설명 가능한 딥러닝 기반 모델 TabNet 간의 성능 비교를 진행한다. 다만, 대출 상환 여부 데이터는 불균형 클래스 데이터로 구성되어있어 샘플링을 진행한다. SMOTE, Random Under Sampling, 혼합 방식을 비교해 가장 높은 성능의 샘플링 기법을 제안한다. 대출 상환 여부 예측 결과 TabNet 모델이 의사결정나무모델들보다 좋은 성능을 보여 정형데이터에서 의사결정나무 기반 모델을 딥러닝 모델이 대체 할 수 있는 가능성을 확인했다.

실제 사례 기반 비정형 데이터를 활용한 기업의 부실징후 예측에 관한 효용성 연구 (Unstructured Data based a Study of Effectiveness about Prediction of Corporate Bankruptcy with a Real Case)

  • 진훈;홍정표;이강호;주동원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.487-492
    • /
    • 2018
  • 4차산업 혁명의 여파로 국내에서는 다양한 분야에 인공지능과 빅데이터 기술을 활용하여 이전에 시행 중인 다양한 서비스 분야에 기술적 접목과 보완을 시도하고 있다. 특히 금융권에서 자금을 빌린 기업들을 대상으로 여신 안정성을 확보하고 선제적인 대응을 위해 온라인 뉴스기사들과 SNS 데이터 등을 이용하여 부실가능성을 예측하고 실제 업무에 도입하려는 시도들이 국내 주요 은행들을 중심으로 활발히 진행 중이다. 우리는 국내의 국책은행에서 수행한 비정형 데이터 기반의 기업의 부실징후 예측 시스템 개발 과정에서 시도된 다양한 분석 방법과 결과 그리고 과정 중에 발생한 문제점들에 관해 기술하고 관련 이슈들에 관하여 다룬다. 결과적으로 본 논문은 레이블이 없는 대량의 기사들에 레이블을 달기 위한 자동 태거(tagger) 개발과 뉴스 기사 예측 결과로부터 부실 가능성을 예측하기 위한 모델 및 성능 면에서 기사 예측 정확도 92%(AUC 0.96) 및 부실 가능성 기업 예측에서도 정형 데이터 분석결과에 견줄만한 성과를 이루었고 이에 관해 보고한다.

  • PDF