• 제목/요약/키워드: 데이터 비만도

검색결과 10,519건 처리시간 0.045초

비정형 빅데이터 수집 모듈의 구현 및 비교 (Implementation and Comparison of Atypical Big-Data Collecting Modules)

  • 김정기;천요섭;김우생
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.631-634
    • /
    • 2014
  • 최근 스마트폰의 보급으로 블로그, SNS 등에서 방대한 양의 데이터가 발생함에 따라 이를 수집하고 분석하는 작업의 중요성이 커지고 있다. 이러한 데이터는 크게 정형 데이터와 비정형 데이터로 나눌 수 있는데, 특히 비정형 데이터는 전체 데이터의 약 80%를 차지할 정도로 그 양과 가치가 매우 크다. 이 논문에서는 빅데이터 환경에서 발생하는 이러한 비정형 데이터를 수집하는 모듈 중 가장 널리 알려진 Chukwa와 Flume에 대한 개발 및 비교 분석을 시도 하였다.

비정형데이터를 활용한 홍수 모니터링 및 예측 (Flood monitoring and prediction using online unstructured data)

  • 이정하;황석환
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2019년도 학술발표회
    • /
    • pp.118-118
    • /
    • 2019
  • 현재 홍수예보는 정형데이터인 유량 및 수위 등을 활용하여 이뤄지고 있다. 하지만 실제 사람들이 체감하는 홍수에 대한 위험도는 홍수예보 발령과는 달라 홍수예보가 이뤄지지 않은 지역에서 인명사고가 발생하기도 한다. 이는 수위 측정이 이뤄지지 않는 소규모 하천이나 사람들의 유동성이 큰 도심지역에서 빈번하게 발생한다. 이를 보완하기 위해서는 사람들의 체감 정도 및 인구의 유동성을 고려한 비정형데이터를 활용해야 한다. 특히 소셜 네트워크 서비스(Social Network Commuinty, SNS)를 사용하는 사람들이 많아지면서 기존에 사용되어 왔던 정형데이터 센서 이외의 데이터를 제공한다. 또한 개개인이 작성하는 글은 실시간으로 활용이 가능하여 인구의 유동성 및 시 공간적 데이터를 얻기에 유용하여 활용성이 매우 높은 비정형데이터이다. 따라서 본 연구에서는 SNS 데이터를 추출하고 이를 분석하여 2018년에 발생했던 강우사상과의 패턴을 비교하여 홍수예보에서의 활용성을 분석하였다. 홍수와 관련한 키워드를 중심으로 시 공간적 정보 및 추출이 가능한 웹 크롤러(Web Crawler) 프로그램을 작성하였으며 이를 토대로 데이터를 수집하였다. 수집한 데이터와 실제 홍수사상을 비교 분석을 한 결과 강우량 및 수위와 해당 지역에 대한 데이터의 양이 유사한 패턴을 보인 것으로 확인되었다. 실시간으로 데이터를 수집하고 이를 분석하여 리드타임을 충분히 확보한다면 홍수예측에 활용 가능할 것이라 생각된다. 본 연구는 한국건설기술연구원 19주요-대4-시드사업인 '커뮤니티 빅데이터 패턴 해석을 통한 수난(水難) 발생 및 규모 예측 기술 개발(20190126-001) '로 수행되었습니다.

  • PDF

크라우드 소싱 데이터를 적용한 홍수 피해지도 활용방안 연구 (A Study on the Utilization of Flood Damage Map with Crowdsourcing Data)

  • 이정하;황석환
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.310-310
    • /
    • 2022
  • 최근 통신의 발달로 인하여 웹(Web)상에는 다양한 데이터들이 실시간으로 생산되고 있으며 해당 내용은 다양한 산업에서 활용되고 있다. 특히 최근에는 재난과 관련 상황에서도 소셜 네트워크 서비스(SNS) 데이터가 활용되기도 하며 기존의 수치 계측 데이터가 아닌 하나의 센서 역할을 하는 개인의 비정형데이터의 업로드가 다양한 재난 모니터링 부분에 활용되고 있는 실정이다. 특히 홍수 등의 자연재해 발생 시 개개인의 업로드 한 웹 데이터에는 시간에 따른 인구의 유동성이나 간단한 위치 정보 등을 포함하여 실제 피해의 정도를 보다 빠르고 다양한 정보로 모니터링이 가능하다. 홍수 발생 시 일반적으로 활용하는 수문 데이터는 피해의 규모가 크게 예측되는 대하천 위주로 관측이 이루어지며 관측지역과 데이터의 양이 한정되어있어 비정형데이터를 함께 활용한 연구가 필요하다. 따라서 본 연구에서는 웹에 있는 비정형 데이터들을 추출해내는 웹 크롤러를 구성하고 해당 프로그램을 활용하여 추출한 데이터들에 대해 강우 사상과 공간적 패턴을 비교 분석하여 크라우드 소싱 데이터를 적용한 홍수 피해지도의 활용방안을 제시하고자 한다.

  • PDF

Lasso Regression을 이용한 지역 경제 성장과 비만율의 상관관계 분석 (Analysis of the relationship between regional economic growth and obesity by using Lasso Regression)

  • 길은규;오수진;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.565-568
    • /
    • 2018
  • 본 연구에서는 Lasso Regression을 기반으로 하여 지역 경제 성장과 비만율을 예측한다. 연구는 3단계로 나누어 진행된다. 우선 지역성장을 대변할 수 있는 가상의 GDP 수치를 구한다. 그 다음 가상의 GDP 수치와 비만율 데이터를 이용하여 학습모델을 만든다. 마지막으로 이전의 데이터를 이용하여 앞으로의 성장을 예측하고 학습모델에 적용하여 비만율을 예측한다. 본 연구의 데이터는 학습데이터와 실험데이터를 구성된다. 학습데이터로는 국내의 8도 중 하나인 강원도의 데이터를 이용하며 실험데이터로는 강릉과 원주의 데이터를 이용한다. 평가 비교 대상으로는 과거의 흐름을 반영하는 최소자승법 예측기법을 선정하여 비교한다. 연구 결과 강릉의 경우 비교 데이터와의 오차율 평균은 1.22%로 큰 차이가 없음을 알 수 있다. 따라서 본 연구에서 제안하는 방법이 과거의 흐름을 기반으로 작성됨을 알 수 있다. 하지만 단순히 과거의 흐름만을 통해 예측하는 것은 여러 요소가 복합적으로 작용하는 비만율 예측에 알맞지 않기 때문에 본 연구 방법이 유의미하다고 여겨진다.

기업내 비정형 데이터의 가치 평가 모델에 관한 연구 (A Study on the Value Evaluation of the Unstructured Data within Enterprise)

  • 장만철;김정수;김종희;김종배
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 춘계학술대회
    • /
    • pp.367-369
    • /
    • 2014
  • 디지털 데이터에는 TEXT 파일, OFFICE 파일, 이미지 파일, 동영상 파일, 도면 파일 등과 같은 비정형 데이터가 대부분을 차지하고 있다. 최근 기업 내에서 생성되고 활용되는 디지털 데이터는 그 양이 급격히 증가하고 있다. 한편, 이들 디지털 데이터는 디지털 자산으로서의 중요성이 부각되고 있으나, 그 자산의 가치에 대한 평가는 제대로 이루어지지 않고 있는 실정이다. 따라서, 본 연구에서는 기업 내 디지털 자산으로서의 비정형 데이터의 가치 평가 모델을 제시한다. 또한, 이를 통해 자산으로서의 비정형 데이터에 대한 차별적 관리 방안을 제시한다.

  • PDF

빅데이터 환경에서 개인정보 비식별화에 대한 위험성 제기 및 대응 방안 제시 (Raising Risk and Suggesting Solution about Personal Information De-identification in Big-Data Environment)

  • 이수림;장웅태;배재영;신찬호;현범수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.297-300
    • /
    • 2016
  • 최근 빅데이터 산업이 발전하고 있는 상황에서 빅데이터 산업에 활용되는 개인정보의 보호에 관한 문제가 대두하고 있다. 빅데이터 산업에서 개인정보를 활용하기 위해서는 비식별화 조치를 해야 한다. 하지만 비식별화는 비식별화 평가 모델 자체의 취약성과 더불어 비식별화된 개인정보를 재식별화 하는 위험성도 존재한다. 본 논문은 적정성 평가 모델, 비식별화 조치 기술, 재식별에 관한 위험성을 연구하고 각 위험성에 대한 대응 방안을 통해 재식별화의 문제를 해결하여 빅데이터 산업에서 비식별화된 개인정보가 안전히 쓰일 수 있도록 해야 한다.

MOST 네트워크에서 비동기 데이터 전송의 신뢰성 향상 알고리즘 구현 (The Implementation of Improved Reliability Algorithm for Asynchronous Data Transmission in MOST Network)

  • 김창영;박유현;전영준;유윤식
    • 한국정보통신학회논문지
    • /
    • 제16권12호
    • /
    • pp.2635-2642
    • /
    • 2012
  • MOST(Media Oriented Systems Transports)Network는 차량용 멀티미디어 기기를 위한 통신 프로토콜로서 높은 대역폭과 신뢰성을 보장하는 차량용 네트워크이다. 그러나 기존의 MOST 디바이스는 데이터 제어나 전송을 위해 내부 버스 통신방식인 I2C나 I2S통신 방식만을 사용하여 왔으나, MOST 네트워크의 대역폭이 늘어나고 하나의 디바이스 내에 여러 장치들이 추가되면서 더 넓은 대역폭의 통신방식이 필요하게 되었다. 따라서 본 연구에서는 MediaLB 통신을 사용하여 비동기 데이터 전송 시 효율성 향상 방법을 제시하고, MOST 네트워크에서 비동기 데이터 전송 시에 발생할 수 있는 데이터 신뢰성 문제를 해결하기 위하여 비동기 데이터 영역의 데이터 형태를 개선하여 전송 데이터의 신뢰성을 향상할 수 있는 알고리즘을 제안하고자 한다.

대용량 데이터에 대한 효율적인 L-diversity 비식별화 구현 (Implementation of efficient L-diversity de-identification for large data)

  • 전민혁;;안진현;임동혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.465-467
    • /
    • 2019
  • 최근 많은 단체나 기업에서 다양하고 방대한 데이터를 요구로 하고, 그에 따라서 국가 공공데이터나 데이터 브로커등 데이터를 통해 직접 수집 하거나 구매해야 하는 경우가 많아지고 있다. 하지만 개인정보의 경우 개인의 동의 없이는 타인에게 양도가 불가능하여 이러한 데이터에 대한 연구에 어려움이 있다. 그래서 특정 개인을 추론할 수 없도록 하는 비식별 처리 기술이 연구되고 있다. 이러한 비식별화의 정도는 모델로 나타낼 수가 있는데, 현재 k-anonymity 와 l-diversity 모델 등이 많이 사용된다. 이 중에서 l-diversity 는 k-anonymity 의 만족 조건을 포함하고 있어 비식별화의 정도가 더욱 강하다. 이러한 l-diversity 모델을 만족하는 알고리즘은 The Hardness and Approximation, Anatomy 등이 있는데 본 논문에서는 일반화 과정을 거치지 않아 유용성이 높은 Anatomy 의 구현에 대해 연구하였다. 또한 비식별화 과정은 전체 데이터에 대한 특성을 고려해야 하기 때문에 데이터의 크기가 커짐에 따라 실질적인 처리량이 방대해지는데, 이러한 문제를 Spark 를 통해 데이터가 커짐에 따라서 최대한 안정적으로 대응하여 처리할 수 있는 시스템을 구현하였다.

비동기식 회로의 신호 천이 감소 방법 (Signal Transition Reducing method of Asynchronous Circuits)

  • 이원철;이제훈;조경록
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 II
    • /
    • pp.971-974
    • /
    • 2003
  • 본 논문은 DI(delay insensitive) 지연 모델을 적용한 비동기 회로의 데이터 전송시 발생되는 신호 천이의 수를 감소시키기 위한 새로운 데이터 인코딩 기법과 신호 천이 방법을 제시한다. DI 지연 모델을 적용한 비동기 시스템은 배선 지연에 관계없이 동작이 필요한 모듈에만 데이터와 핸드쉐이크를 위한 이벤트 신호를 전송하는 장점을 갖는다. 그러나 신호의 유효성과 동작 완료 검출을 위해 듀얼레일 데이터 인코딩이 필요하며 이는 비동기 회로의 크기를 증가시키고 이로 인해 전력 소비가 증가한다. 전력 소비를 감소시키기 위해 신호 천이의 수를 줄여야 하며, 본 논문에서는 제안한 신호 천이 기법을 적용하여 실험적으로 약 21%의 전력 소비 감소 결과를 얻었다.

  • PDF

ATSC 기반 데이터 방송 송출 시스템 설계 및 구현 (Design and Implementation of Data Broadcasting Emission System on ATSC)

  • 최지훈;박민식;이용주;최진수;김진웅
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2001년도 정기총회 및 학술대회
    • /
    • pp.15-19
    • /
    • 2001
  • 본 논문에서는 데이터 방송 송출 시스템 구조와 작동 방법에 관하여 기술한다. 또한 본 시스템을 통하여 다중화되어 전송된 비동기/동기화 비스트림(Non-stream)을 분석하고 데이터 방송 단말 화면에 재생되는 결과에 대하여 서술한다. 본 논문에서는 데이터 방송 서비스를 위하여 프로그램 다중화기 모듈을 변경하지 않고, 비동기/동기화 데이터를 전송할 수 있도록 데이터 인젝터라는 모듈을 개발하였다. 이와 관련하여 데이터 방송 송출 시스템을 제어하는 다중화 관리기/프로그램 스케줄러, 부가 데이터를 MPEG-2 부호화하는 데이터 서버, PSI/PSIP/SDF 테이블을 생성하는 PSIP 서버 모듈과의 연동을 통해 비동기/동기화된 비스트림 데이터를 전송할 수 있도록 데이터 방송 송출 시스템을 구현하였다.

  • PDF