• Title/Summary/Keyword: 대용자료

Search Result 456, Processing Time 0.025 seconds

Development of Clustering Algorithm based on Massive Network Compression (대용량 네트워크 압축 기반 클러스터링 알고리즘 개발)

  • Seo, Dongmin;Yu, Seok Jong;Lee, Min-Ho
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2016.05a
    • /
    • pp.53-54
    • /
    • 2016
  • 빅데이터란 대용량 데이터 활용 및 분석을 통해 가치 있는 정보를 추출하고, 이를 바탕으로 대응 방안 도출 또는 변화를 예측하는 기술을 의미한다. 그리고 빅데이터 분석에 활용되는 데이터인 페이스북과 같은 소셜 데이터, 유전자 발현과 같은 바이오 데이터, 항공망과 같은 지리정보 데이터들은 대용량 네트워크로 구성되어 있다. 네트워크 클러스터링은 서로 유사한 특성을 갖는 네트워크 내의 데이터들을 동일한 클러스터로 묶는 기법으로 네트워크 데이터를 분석하고 그 특성을 파악하는데 폭넓게 사용된다. 최근 빅데이터가 다양한 분야에서 활용되면서 방대한 양의 네트워크 데이터가 생성되고 있고, 이에 따라서 대용량 네트워크 데이터를 효율적으로 처리하는 클러스터링 기법의 중요성이 증가하고 있다. MCL(Markov Clustering) 알고리즘은 플로우 기반 무감독(unsupervised) 클러스터링 알고리즘으로 확장성이 우수해 다양한 분야에서 활용되고 있다. 하지만, MCL은 대용량 네트워크에 대해서는 많은 클러스터링 연산을 요구하며 너무 많은 클러스터를 생성하는 문제를 갖는다. 본 논문에서는 네트워크 압축을 기반으로 한 클러스터링 알고리즘을 제안함으로써 MCL보다 클러스터링 속도와 정확도를 향상시켰다. 또한, 희소행렬을 효율적으로 저장하는 CSC(Compressed Sparse Column) 자료구조와 MapReduce 기법을 제안한 클러스터링 알고리즘에 적용함으로써 대용량 네트워크에 대한 클러스터링 속도를 향상시켰다.

  • PDF

Nonparametric Detection Methods against DDoS Attack (비모수적 DDoS 공격 탐지)

  • Lee, J.L.;Hong, C.S.
    • The Korean Journal of Applied Statistics
    • /
    • v.26 no.2
    • /
    • pp.291-305
    • /
    • 2013
  • Collective traffic data (BPS, PPS etc.) for detection against the distributed denial of service attack on network is the time sequencing big data. The algorithm to detect the change point in the big data should be accurate and exceed in detection time and detection capability. In this work, the sliding window and discretization method is used to detect the change point in the big data, and propose five nonparametric test statistics using empirical distribution functions and ranks. With various distribution functions and their parameters, the detection time and capability including the detection delay time and the detection ratio for five test methods are explored and discussed via monte carlo simulation and illustrative examples.

Multiple Period Forecasting of Motorway Traffic Volumes by Using Big Historical Data (대용량 이력자료를 활용한 다중시간대 고속도로 교통량 예측)

  • Chang, Hyun-ho;Yoon, Byoung-jo
    • KSCE Journal of Civil and Environmental Engineering Research
    • /
    • v.38 no.1
    • /
    • pp.73-80
    • /
    • 2018
  • In motorway traffic flow control, the conventional way based on real-time response has been changed into advanced way based on proactive response. Future traffic conditions over multiple time intervals are crucial input data for advanced motorway traffic flow control. It is necessary to overcome the uncertainty of the future state in order for forecasting multiple-period traffic volumes, as the number of uncertainty concurrently increase when the forecasting horizon expands. In this vein, multi-interval forecasting of traffic volumes requires a viable approach to conquer future uncertainties successfully. In this paper, a forecasting model is proposed which effectively addresses the uncertainties of future state based on the behaviors of temporal evolution of traffic volume states that intrinsically exits in the big past data. The model selects the past states from the big past data based on the state evolution of current traffic volumes, and then the selected past states are employed for estimating future states. The model was also designed to be suitable for data management systems in practice. Test results demonstrated that the model can effectively overcome the uncertainties over multiple time periods and can generate very reliable predictions in term of prediction accuracy. Hence, it is indicated that the model can be mounted and utilized on advanced data management systems.

Applications of Cluster Analysis in Biplots (행렬도에서 군집분석의 활용)

  • Choi, Yong-Seok;Kim, Hyoung-Young
    • Communications for Statistical Applications and Methods
    • /
    • v.15 no.1
    • /
    • pp.65-76
    • /
    • 2008
  • Biplots are the multivariate analogue of scatter plots. They approximate the multivariate distribution of a sample in a few dimensions, typically two, and they superimpose on this display representations of the variables on which the samples are measured(Gower and Hand, 1996, Chapter 1). And the relationships between the observations and variables can be easily seen. Thus, biplots are useful for giving a graphical description of the data. However, this method does not give some concise interpretations between variables and observations when the number of observations are large. Therefore, in this study, we will suggest to interpret the biplot analysis by applying the K-means clustering analysis. It shows that the relationships between the clusters and variables can be easily interpreted. So, this method is more useful for giving a graphical description of the data than using raw data.

A Pragmatic Approach for Determining Overfishing and Overfished Condition for Assessing Data-deficient Fisheries (평가자료가 결핍된 어업의 과도어획상태와 자원의 남획여부를 결정하는 실용적인 방법)

  • Zhang, Chang-Ik;Lee, Jae-Min
    • Journal of Fisheries and Marine Sciences Education
    • /
    • v.25 no.5
    • /
    • pp.1009-1019
    • /
    • 2013
  • 본 연구는 어업자원이 건강한 상태에 있는지 아니면 남획된 상태에 있는지를 판단하고, 현재 어업활동이 과도한지 아닌지를 판단하기 위한 간단하고 실용적인 방법을 개발하였다. 자원평가를 수행시에는 고가의 자료와 고도의 기술력이 요구되는 어려움이 있는데, 특히 소규모 어업과 다종어업에서 어려움이 더욱 심하다. 본 연구에서 개발된 방법은 어업자원의 구체적인 상태와 어업활동의 객관적인 상태를 고려해서 어업자원을 보존하고 어업활동을 규제할 수 있는 실용적이고 신뢰할 수 있는 방법이다. 예를 들어, 자원량과 어획사망률을 추정하는데 필요한 자료가 없거나, 추정할 수있는 과학적 능력이 부족한 경우에는, 자원량을 대용해서 단위노력당어획량을 사용하고 어획사망률을 대용해서 어획노력량 자료를 사용할 수 있다. 본 연구에서 제시한 방법의 실현가능성과 유용성을 입증하기 위하여, 복수어종으로 집계된 어획량과 어획노력량 만으로 된 경우나 또는 개체군 특성치 정보와 체장자료 만이 이용 가능한 경우에 대해 적용하였다. 이 방법은 수산자원의 보존이라는 전지구적 목표를 달성하는데 있어서, 필요한 자원상태와 어업상태를 판단해서 어획활동을 규제하고 조정할 수 있는 유용한 방법이 될 수 있을 것으로 보인다.

공간데이터마이닝에서의 유전자알고리즘을 이용한 예측방법연구

  • 김효정;강한구;강창완
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2001.11a
    • /
    • pp.95-97
    • /
    • 2001
  • 공간자료의 예측문제에 있어 전통적 예측방법인 크리깅방법과 최근 통계적문제 적용되기 시작한 신경망분석방법 간의 비교를 사례연구를 통해 행하였다. 일반적으로 크리깅에 의한 선형예측은 공간자료에 대한 일반적 통계모형으로서 간주되어 왔다. 한편 예측문제에 있어 뉴럴네트워크에 기초한 비모수적 방법이 관심의 대상이 되고 있으며 특히 대용량 자료의 경우 데이터마이닝 기법의 한 분야로 널리 사용되고 있는 실정이다. 본 연구에서는 공간 자료의 예측에 있어 유전자 알고리즘을 신경망분석 모형을 결합하여 기존의 크리깅방법과의 예측력을 비교한다.

  • PDF

Analysis Method for Speeding Risk Exposure using Mobility Trajectory Big Data (대용량 모빌리티 궤적 자료를 이용한 과속 위험노출도 분석 방법론)

  • Lee, Soongbong;Chang, Hyunho;Kang, Taeseok
    • Journal of the Society of Disaster Information
    • /
    • v.17 no.3
    • /
    • pp.655-666
    • /
    • 2021
  • Purpose: This study is to develop a method for measuring dynamic speeding risks using vehicle trajectory big data and to demonstrate the feasibility of the devised speeding index. Method: The speed behaviors of vehicles were analysed in microscopic space and time using individual vehicle trajectories, and then the boundary condition of speeding (i.e., boundary speed) was determined from the standpoint of crash risk. A novel index for measuring the risk exposure of speeding was developed in microscopic space and time with the boundary speed. Result: A validation study was conducted with vehicle-GPS trajectory big data and ground-truth vehicle crash data. As a result of the analysis, it turned out that the index of speeding-risk exposure has a strong explanatory power (R2=0.7) for motorway traffic accidents. This directly indicates that speeding behaviors should be analysed at a microscopic spatiotemporal dimension. Conclusion: The spatial and temporal evolution of vehicle velocity is very variable. It is, hence, expected that the method presented in this study could be efficaciously employed to analyse the causal factors of traffic accidents and the crash risk exposure in microscopic space using mobility trajectory data.

Experiment of Searching Candidate Text Pair for Searching Similar Texts among Massive Document Repository (대용량 문서 집합에서 유사문서 탐색을 위한 후보 문서 쌍 검색 실험)

  • Park, Sun-Young;Chung, Woo-Keun;Cho, Hwan-Gue
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.275-278
    • /
    • 2010
  • 문서 표절과 관련된 이슈가 급증함에 따라 유사 문서 탐색과 관련한 연구가 활발히 진행되고 있다. 특히 인터넷의 발달로 인해 일반 사용자가 수많은 전자 문서에 쉽게 접근할 수 있게 됨에 따라 대용량 문서 집합에 대한 탐색 속도와 정확성의 중요성도 커지고 있다. 대용량 문서 집합 내에서 빠른 시간 내에 유사 문서를 탐색하는 방법에는 전역 사전을 이용하여 후보 문서 쌍(유사할 가능성이 높은 문서의 쌍)를 추출한 후 찾아낸 후보 문서 쌍에만 정밀한 검사를 수행함으로써 검사 시간을 줄이는 방법이 존재한다. 이 때, 후보 문서를 찾아내기 위하여 전역 사전(Global DICtionary, GDIC)이라는 자료 구조를 이용하게 되는데, 이 전역 사전을 효과적으로 사용하면 후보 문서 쌍을 찾아내는 시간을 기존보다 더욱 줄일 수 있다. 본 논문에서는 전역 사전을 더욱 효과적으로 활용하여 후보 문서 쌍 검색 시간을 대폭 줄이는 방법에 대해 기술하며, 어느 정도의 성능 향상이 있는지 실험을 통해 측정하였다. 20,000건의 실험용 말뭉치 자료와 6263건의 실존하는 보고 문서에 대해 실험한 결과, GDIC 생성에서 2.5~4,6%, 후보 문서 쌍 탐색에서 1%~15.4% 정도의 성능이 향상된 것을 확인할 수 있었다. 추후 update query를 최소화하여 GDIC 생성시간을 추가로 줄이는 방법에 대해 연구할 계획이다.

  • PDF

Analyzing Financial Data from Banks and Savings Banks: Application of Bioinformatical Methods (은행과 저축은행 관련 재정 지표 분석: 생물 정보학 분석 기법의 응용)

  • Pak, Ro Jin
    • The Korean Journal of Applied Statistics
    • /
    • v.27 no.4
    • /
    • pp.577-588
    • /
    • 2014
  • The collection and storage of a large volumes of data are becoming easier; however, the number of variables is sometimes more than the number of samples(objects). We now face the problem of dependency among variables(such as multicollinearity) due to the increased number of variables. We cannot apply various statistical methods without satisfying independency assumption. In order to overcome such a drawback we consider a categorizing (or discretizing) observations. We have a data set of nancial indices from banks in Korea that contain 78 variables from 16 banks. Genetic sequence data is also a good example of a large data and there have been numerous statistical methods to handle it. We discover lots of useful bank information after we transform bank data into categorical data that resembles genetic sequence data and apply bioinformatic techniques.

Information Retrieval System for Very Large Multimedia Docuement (대용량 멀티미디어 문서를 위한 정보검색 시스템)

  • 진두석;최윤수;안성수
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2002.11b
    • /
    • pp.190-193
    • /
    • 2002
  • 인터넷의 급속한 보급과 함께 멀티미디어 문서의 사용에 대한 사용자의 요구가 증가하고 이에 따라 멀티미디어 문서 정보 검색에 관련된 연구들이 국내외적으로 활발하게 진행되고 있다. 멀티미디어 문서는, 데이터의 양이 방대할 뿐 아니라 데이터가 비정형화되어 있기 때문에 분석이 복잡하며 또한 효율적으로 저장, 검색하기가 매우 어렵다. 그러므로 이를 위해서는 적절한 멀티미디어 자료 저장 구조를 지닌 정보 검색 시스템이 절실히 요구된다. 따라서 본 논문에서는 대용량 멀티미디어 문서에 적합한 저장 구조를 가진 정보검색 시스템을 제안한다.

  • PDF