• 제목/요약/키워드: 비정형데이터분석

검색결과 405건 처리시간 0.029초

비정형 데이터를 활용한 가뭄평가 - 보령지역을 중심으로 - (Drought evaluation using unstructured data: a case study for Boryeong area)

  • 정진홍;박동혁;안재현
    • 한국수자원학회논문집
    • /
    • 제53권12호
    • /
    • pp.1203-1210
    • /
    • 2020
  • 가뭄은 다양한 수문학적 또는 기상학적 인자들이 복합적으로 작용하여 발생하기 때문에 가뭄의 사상을 정확히 평가하는 것은 어려운 일이나, 이를 정량적으로 해석하기 위해 다양한 가뭄지수들이 개발되어 왔다. 하지만 현재 활용중인 가뭄지수들은 단일변량의 부족량을 통해 산정되며, 복합적인 원인으로 발생하는 가뭄의 사상을 정확히 판단하지 못하는 문제가 있다. 단순 단일변량의 부족을 가뭄이라고 판단하기는 어렵기 때문이다. 최근에는 빅데이터 분석에서 많이 활용되고 있는 비정형 데이터를 활용하여 지수를 개발하는 연구들이 타 분야에서 진행되고 있으며 우수성이 입증되고 있다. 따라서 본 연구에서는 기존 가뭄지수에 활용 중인 기상 및 수문정보(강수량, 댐 유입량)에 각각 비정형 데이터(뉴스데이터)를 결합하여 가뭄지수를 산정하고, 산정된 가뭄지수의 검증을 통해 가뭄해석의 활용성을 평가하고자 한다. 결합가뭄지수 산정을 위해 Clayton Copula 함수를 활용하였으며, 매개변수 추정은 교정방법을 이용하였다. 분석결과, 기존의 가뭄지수(SPI, SDI)보다 비정형 데이터를 결합한 가뭄지수가 가뭄기간을 적절히 재현하는 것으로 나타났다. 또한 Receiver Operating Characteristic (ROC) score가 기존의 가뭄지수들보다 높게 산정되어 가뭄해석에 있어 활용성이 우수하였다. 본 연구에서 산정된 결합가뭄지수는 기존 단일변량 가뭄지수의 해석적 한계를 보완하고 비정형데이터를 활용한 가뭄지수의 활용성이 우수하다는 점에서 활용성이 높다고 판단된다.

감성분석을 위한 병렬적 HDFS와 맵리듀스 함수 (A Parallel HDFS and MapReduce Functions for Emotion Analysis)

  • 백봉현;류윤규
    • 한국정보컨버전스학회논문지
    • /
    • 제7권2호
    • /
    • pp.49-57
    • /
    • 2014
  • 최근 대량의 SNS(Social Network Service) 데이터로부터 유용한 정보를 추출하고 사용자의 진의 정보를 평가하기 위한 오피니언 마이닝(opinion mning)이 소개되고 있다. 오피니언 마이닝은 대량의 SNS 데이터로부터 빠른 기간 내에 데이터를 수집하고 분석하여 목적에 적합한 정보를 추출하는 효율적인 기법이 필요하다. SNS에서 발생되는 다양한 비정형 데이터로부터 감성정보를 추출하기 위해, 본 논문에서는 하둡(Hadoop) 시스템 기반의 병렬적 HDFS(Hadoop Distributed File System)와 맵리듀스(MapReduce) 기반 감성분석 함수를 제안한다. 실험결과로 제안한 시스템과 함수는 데이터 수집과 적재시간에 대해 O(n)보다 빠르게 처리하며, 메모리와 CPU 자원에 대해 안정적인 부하분산이 이루어지는 것을 확인하였다.

  • PDF

인터넷 비즈니스 기반의 고객관계관리(CRM)을 위한 웹 로그 분석에 관한 연구 (A Study on Web-log Analysis for CRM based on Internet Business)

  • 김재형;노효원;김남호;정정화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 제13회 춘계학술대회 및 임시총회 학술발표 논문집
    • /
    • pp.10-15
    • /
    • 2000
  • 개별화 웹 마케팅은 본질적으로 고객지향의 패러다임이다. 즉, 개별 고객의 특수한 니즈를 개별적으로 파악해서 각각의 고객에게 차별화된 서비스를 제공하는 것이 그 핵심이다. 웹 서버의 로그파일에 데이터마이닝의 연관규칙 기술을 이용하게 되면 고객행동 패턴의 파악 및 예측을 위한 기법으로 활용할 수 있다. 본 연구에서는 웹 사용자의 교차 판매를 위한 원투원 마케팅에 필요한 접근패턴을 분석하고자 하며, 이는 웹서버 로그파일 분석을 통하여 이루어진다. 분석하고자 하는 웹서버 로그파일은 기존의 데이터웨어하우스의 원천 데이터들과는 다르게 비정형적인 데이터 구조를 가지고있다. 이들 비정형 데이터 처리와 교차판매 지원을 위한 데이터마이닝 모델링, 이를 통한 원투원 마케팅 모델 제시, 그리고 이의 활용이 고객관계관리(CRM)에 미치는 효과를 제시한다.

  • PDF

Data Dictionary 기반의 R Programming을 통한 비정형 Text Mining Algorithm 연구 (A study on unstructured text mining algorithm through R programming based on data dictionary)

  • 이종화;이현규
    • 한국산업정보학회논문지
    • /
    • 제20권2호
    • /
    • pp.113-124
    • /
    • 2015
  • 미리 선언된 구조를 이용하여 수집 저장된 정형적 데이터와는 달리 웹 2.0의 시대에서 일반 사용자들이 평상시에 사용하는 자연어 형태로 작성된 비정형 데이터 분석은 과거보다 훨씬 더 넓은 응용범위를 가지고 있다. 데이터 양이 폭발적으로 증가하고 있다는 특성뿐 만 아니라 인간의 감성이 그대로 표현된 특성을 가진 텍스트에서 의미 있는 정보를 추출하는 빅데이터 분석 기법을 텍스트마이닝(Text Mining)이라 하며 본 연구는 이를 주제로 하고 있다. 본 연구를 위해 오픈 소스인 통계분석용 소프트웨어 R 프로그램을 이용하였으며, 비정형 텍스트 문서를 웹 환경에서 수집, 저장, 전처리, 분석 작업과 시각화(Frequency Analysis, Cluster Analysis, Word Cloud, Social Network Analysis)작업 등의 과정에 관한 알고리즘 구현을 연구하였다. 특히, 연구자의 연구 영역 분석에 초점을 더욱 높이기 위해 Data Dictionary를 참조한 키워드 추출 기법을 사용하였다. 실제 사례에 적용한 R은 다양한 OS 구동, 일반적 언어와의 인터페이스 지원 등 통계 분석용 소프트웨어로써 매우 유용하다는 점을 발견할 수 있었다.

텍스트 마이닝을 이용한 비대면 소프트웨어 교양과목의 요구사항 분석 (An Analysis for the Student's Needs of non-face-to-face based Software Lecture in General Education using Text Mining)

  • 정화영
    • 한국콘텐츠학회논문지
    • /
    • 제22권3호
    • /
    • pp.105-111
    • /
    • 2022
  • 온라인 수업에 대한 학생들의 니즈 분석은 객관식 설문조사 유형이 주로 수행되어왔다. 그러나 학생들의 정확한 니즈를 분석하기 위해서는 주관식 답변에 의한 비정형 데이터 분석이 요구된다. 빅데이터는 비정형 데이터 분석이 가능하여 다양한 분야에서 활용되고 있다. 본 연구에서는 비대면 온라인 수업방식을 진행되는 교양 소프트웨어 과목에서 학생들이 원하는 과목이나 주제가 무엇인지 조사 및 분석하였다. 실험방법은 학생들에게 주관식 설문조사를 시행하여 얻은 비정형 데이터를 기반으로 빅데이터의 키워드 분석, 연관 분석등을 수행하였다. 이를 통해 학생들이 교양 소프트웨어 과목에서 원하는 키워드가 무엇인지 알 수 있었으며, 이러한 연구 결과는 학생들이 배우고자하는 주제를 파악할 수 있어서 향후 교양 소프트웨어 과목의 기획 및 설계시 중요한 자료가 될 것이다.

정형/비정형 데이터 기반 사회재난 안전 플랫폼 설계 (A Design of the Social Disasters Safety Platform based on the Structured and Unstructured Data)

  • 이창열;박길주;김정곤;김태환
    • 한국재난정보학회 논문집
    • /
    • 제18권3호
    • /
    • pp.609-621
    • /
    • 2022
  • 연구목적: 자연재난은 행정안전부가 재난관리 주관기관으로 관리체계가 잘 구성되어 있는 반면에 사회재난은 그 관리가 부처별로 분산되어 있어 통합적인 관점의 관리가 부실한 상태이다. 통합적 관리를 위한 정보체계 구성과 플랫폼 개발을 통하여 지자체 등에서 활용할 수 있게 하는 것이 본 연구의 목적이다. 연구방법: 각 부처별로 분산된 재난 정보로 사고조사 보고서(비정형 데이터)를 포함한 재난 정보를 통합하고 분석할 수 있는 DB 구축과, 인명 피해 중심의 사회 재난에 대한 위험성 평가를 통한 재난 관리체계를 제공하고, 실시간으로 제공되는 사고 진행에 대한 인명 피해 예측과 사고 원인 추론 체계를 제시한다. 연구결과: 정형 및 비정형 재난 정보를 관리하는 시스템 설계, 인명중심 사회재난 위험성 평가 방법 제시, 그리고 실시간 재난 모니터링을 통하여 분석할 수 있는 체계 설계, 그리고 이를 기반으로 서비스할 수 있는 플랫폼을 설계하였다. 결론: 사회재난 정보를 통합 운영할 수 있는 플랫폼과 사고조사를 통한 인명피해 원인과 위험도를 제시하는 체계를 구축하였다.

텍스트 데이터 시각화를 위한 MVC 프레임워크 (A MVC Framework for Visualizing Text Data)

  • 최광선;정교성;김수동
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.39-58
    • /
    • 2014
  • 빅데이터의 중요성에 대한 인식이 확산되고, 관련한 기술이 발전됨에 따라, 최근에는 빅데이터의 처리와 분석의 결과를 어떻게 시각화할 것인지가 매우 관심 받는 주제로 부각되고 있다. 이는 분석된 결과를 보다 명확하고 효과적으로 전달하는 데에 있어서 데이터의 시각화가 매우 효과적인 방법이기 때문이다. 시각화는 분석 시스템과 사용자가 소통하기 위한 하나의 그래픽 사용자 인터페이스(GUI)를 담당하는 역할을 한다. 통상적으로 이러한 GUI 부분은 데이터의 처리나 분석의 결과와 독립될 수록 시스템의 개발과 유지보수가 용이하며, MVC(Model-View-Controller)와 같은 디자인 패턴의 적용을 통해 GUI와 데이터 처리 및 관리 부분 간의 결합도를 최소화하는 것이 중요하다. 한편 빅데이터는 크게 정형 데이터와 비정형 데이터로 구분할 수 있는데 정형 데이터는 시각화가 상대적으로 용이한 반면, 비정형 데이터는 시각화를 구현하기가 복잡하고 다양하다. 그럼에도 불구하고 비정형 데이터에 대한 분석과 활용이 점점 더 확산됨에 따라, 기존의 전통적인 정형 데이터를 위한 시각화 도구들의 한계를 벗어나기 위해 각각의 시스템들의 목적에 따라 고유의 방식으로 시각화 시스템이 구축되는 현실에 직면해 있다. 더욱이나 현재 비정형 데이터 분석의 대상 중 대부분을 차지하고 있는 텍스트 데이터의 경우 언어 분석, 텍스트 마이닝, 소셜 네트워크 분석 등 적용 기술이 매우 다양하여 하나의 시스템에 적용된 시각화 기술을 다른 시스템에 적용하는 것이 용이하지 않다. 이는 현재의 텍스트 분석 결과에 대한 정보 모델이 서로 다른 시스템에 적용될 수 있도록 설계되지 못하는 경우가 많기 때문이다. 본 연구에서는 이러한 문제를 해결하기 위하여 다양한 텍스트 데이터 분석 사례와 시각화 사례들의 공통적 구성 요소들을 식별하여 표준화된 정보 모델인 텍스트 데이터 시각화 모델을 제시하고, 이를 통해 시각화의 GUI 부분과 연결할 수 있는 시스템 모델로서의 시각화 프레임워크인 TexVizu를 제안하고자 한다.

정형 비정형 빅데이터의 융합분석을 위한 소비 트랜드 플랫폼 개발 (Consumer Trend Platform Development for Combination Analysis of Structured and Unstructured Big Data)

  • 김성현;장석호;이상원
    • 디지털융복합연구
    • /
    • 제15권6호
    • /
    • pp.133-143
    • /
    • 2017
  • 데이터는 금융업에서 가장 중요한 자산으로 평균 71%의 금융기관이 데이터 분석으로 경쟁우위를 창출하고 있다. 특히, 금융업 중 카드 업종에서는 전체 고객의 소비행위 패턴 및 선호 트랜드 분석에 의한 가맹점 정보, 경기 변동 상황, 상권정보 제공 서비스 개발에 빅데이터가 폭 넓게 활용되고 있지만 데이터의 융복합을 통한 새로운 가치 창출은 미흡한 편이다. 본 연구는 소셜 데이터와 BC 카드 매출데이터의 융합 분석한 신용카드 회사의 '소비 트랜드 분석 및 예측' 사례를 다룬다. BC카드는 소셜 데이터를 활용한 트랜드 프로파일링 작업과 카드 및 소셜 데이터를 연계하는 알고리즘 개발 및 분석 내용 시각화 시스템을 개발하였다. 성과 검증을 위해 '식스포켓' 관련 트랜드를 분석하고 마케팅을 시행해 본 결과 40~100%이상의 마케팅 승수 증대 효과를 거두었다. 본 연구는 그동안 개별적으로 이루어져 오던 정형, 비정형데이터 분석을 융합하여 분석하는 방법론과 사례를 창출한 의의가 있으며 이는 앞으로 카드 업종 뿐만 아니라 타 업종에도 변화하는 트랜드에 유용하게 대응할 수 있는 시사점을 제공할 것이다.

국내 전자상거래 환경에서 혁신확산이론 선행연구에 관한 메타분석 (A Meta Analysis of Innovation Diffusion Theory based e-Commerce Environment in Korea)

  • 남수태;진찬용
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.147-148
    • /
    • 2017
  • 빅데이터 분석은 데이터베이스에 잘 정리된 정형 데이터뿐 아니라 인터넷, 소셜 네트워크 서비스, 모바일 환경에서 생성되는 웹 문서, 이메일, 소셜 데이터 등 비정형 데이터를 효과적으로 분석하는 기술을 말한다. 메타분석은 여러 실증연구의 정량적인 결과를 통합과 분석을 통해 전체 결과를 조망할 수 있는 기회를 제공하는 통계적 통합 방법이다. 전자상거래 연구에서 혁신확산에 영향을 미치는 요인으로 상대적 이점, 적합성, 복잡성, 시험 가능성, 관찰 가능성, 편리성 그리고 커뮤니케이션 채널을 외부 요인으로 설정된 연구를 대상으로 하고자 한다. 다음으로 국내 주요 학회지에 게재된 혁신확산이론 관련연구에서 어떠한 요인들을 사용하고 있고 또한 이러한 외부요인들이 종속변수에 어느 정도의 설명력을 가지는지를 메타분석을 통해 알아보고자 한다. 이러한 연구모델을 바탕으로 학문적 실무적 의의를 논의하고자 한다.

  • PDF