• 제목/요약/키워드: Linear Regression Algorithm

검색결과 285건 처리시간 0.028초

통계계산에서의 갱신 알고리즘에 관한 연구 (Updating algorithms in statistical computations)

  • 전홍석
    • 응용통계연구
    • /
    • 제5권2호
    • /
    • pp.283-292
    • /
    • 1992
  • 개인용 컴퓨터의 보급이 급격히 늘어남에 따라 자료의 통계분석에 개인용 컴퓨터가 많이 이용되고 있다. 컴퓨터의 하드웨어가 하루가 다르게 발전하고 있음으로 웬만큼 많은 양의 자료를 분석하는 데에는 컴퓨터의 기억용량이나 처리속도등이 문제되지는 않는다. 자료가 축차적(sequentially)으로 주어질 때 어떤 통계량을 계산하기 위하여 매번 전체 자료를 다시 읽어야 한다면 이는 번거로운 작업이 될 것이며 기억용량의 낭비임에 틀림없다. 이러한 문제점을 S/W 적인 입장에서 해결하고자 하는 노력이 바로 갱신 알고리즘(Updating Algorithm)이다. 이 연구에서는 몇가지 통계량에 대한 갱신 알고리즘들을 알아보고 그들의 특성을 밝힘으로써 소형 및 개인용 컴퓨터를 이용하여서도 많은 양의 자료분석이 가능하도록 하고자 한다.

  • PDF

Eigenspace-based MLLR에 기반한 고속 화자적응 및 환경보상 (Fast Speaker Adaptation and Environment Compensation Based on Eigenspace-based MLLR)

  • 송화전;김형순
    • 대한음성학회지:말소리
    • /
    • 제58호
    • /
    • pp.35-44
    • /
    • 2006
  • Maximum likelihood linear regression (MLLR) adaptation experiences severe performance degradation with very tiny amount of adaptation data. Eigenspace- based MLLR, as an alternative to MLLR for fast speaker adaptation, also has a weak point that it cannot deal with the mismatch between training and testing environments. In this paper, we propose a simultaneous fast speaker and environment adaptation based on eigenspace-based MLLR. We also extend the sub-stream based eigenspace-based MLLR to generalize the eigenspace-based MLLR with bias compensation. A vocabulary-independent word recognition experiment shows the proposed algorithm is superior to eigenspace-based MLLR regardless of the amount of adaptation data in diverse noisy environments. Especially, proposed sub-stream eigenspace-based MLLR with bias compensation yields 67% relative improvement with 10 adaptation words in 10 dB SNR environment, in comparison with the conventional eigenspace-based MLLR.

  • PDF

링크 통행시간 추정을 위한 데이터 퓨젼 알고리즘의 개발 (A Data Fusion Algorithm for Link Travel Time Estimation)

  • 최기수;정연식
    • 대한교통학회지
    • /
    • 제16권2호
    • /
    • pp.177-195
    • /
    • 1998
  • 지능형교통체계(ITS:Intellegent Transport System)의 구현을 위한 가장 중요한 요소중의 하나는 교통정보의 생성이다. 교통정보의 생성은 루프 검지기, 폐쇄회로(CCTV), probe 차량, 경찰, 통신원 등을 수집된 제보자료들을 분석 및 가공함으로써 이루어진다. 그러나 이들 수집원은 주어진 시간에 있어 모든 네트웍을 통해서 자료가 완전히 수집되어지는 것은 아니다. 즉, 특정 지역에 수집원이 몰려 있는 경우가 있는 반면, 전혀 수집되어지지 않는 지역이 발생할 수도 있다. 이러한 공간적인 불균형적 특성은 동시에 발생한 다량의 자료를 처리하는 기술과 자료가 수집되지 않은 지역에 대한 처리기술을 요하게 된다. 본 논문은 전술한 바와 같은 사항에 대하여 ITS의 진행 단계별로 드러날 수 있는 문제점을 검토하고, 자료통합에 대한 일반적인 개념을 우선 설명한다. 다음에 특정시각에 주어진 자료의 통합을 위해 퍼지선형회귀모형(fuzzy linear regression model)과 데이터 퓨전(data fusion)기법의 내용을 소개하고, 신뢰성있는 단일 교통정보생성을 위한 테이터 퓨전 알고리즘을 제시한다. 또한 제시된 알고리즘을 토대로 가상의 자료를 이용하여 적용가능 봉? 타진해 보았다. 제시되어진 알고리즘은 향후 교통정보 수집환경이 어느 정도 형성된다고 볼 때, 예측치와 실측자료간의 자료검증을 통하여 신뢰도를 가질 경우 보다 광범위하게 사용되어질 수 있을 것으로 판단된다.

  • PDF

Modeling sulfuric acid induced swell in carbonate clays using artificial neural networks

  • Sivapullaiah, P.V.;Guru Prasad, B.;Allam, M.M.
    • Geomechanics and Engineering
    • /
    • 제1권4호
    • /
    • pp.307-321
    • /
    • 2009
  • The paper employs a feed forward neural network with back-propagation algorithm for modeling time dependent swell in clays containing carbonate in the presence of sulfuric acid. The oedometer swell percent is estimated at a nominal surcharge pressure of 6.25 kPa to develop 612 data sets for modeling. The input parameters used in the network include time, sulfuric acid concentration, carbonate percentage, and liquid limit. Among the total data sets, 280 (46%) were assigned to training, 175 (29%) for testing and the remaining 157 data sets (25%) were relegated to cross validation. The network was programmed to process this information and predict the percent swell at any time, knowing the variable involved. The study demonstrates that it is possible to develop a general BPNN model that can predict time dependent swell with relatively high accuracy with observed data ($R^2$=0.9986). The obtained results are also compared with generated non-linear regression model.

A Spectral-spatial Cooperative Noise-evaluation Method for Hyperspectral Imaging

  • Zhou, Bing;Li, Bingxuan;He, Xuan;Liu, Hexiong
    • Current Optics and Photonics
    • /
    • 제4권6호
    • /
    • pp.530-539
    • /
    • 2020
  • Hyperspectral images feature a relatively narrow band and are easily disturbed by noise. Accurate estimation of the types and parameters of noise in hyperspectral images can provide prior knowledge for subsequent image processing. Existing hyperspectral-noise estimation methods often pay more attention to the use of spectral information while ignoring the spatial information of hyperspectral images. To evaluate the noise in hyperspectral images more accurately, we have proposed a spectral-spatial cooperative noise-evaluation method. First, the feature of spatial information was extracted by Gabor-filter and K-means algorithms. Then, texture edges were extracted by the Otsu threshold algorithm, and homogeneous image blocks were automatically separated. After that, signal and noise values for each pixel in homogeneous blocks were split with a multiple-linear-regression model. By experiments with both simulated and real hyperspectral images, the proposed method was demonstrated to be effective and accurate, and the composition of the hyperspectral image was verified.

다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 미치는 영향 연구 (The Effect of Meta-Features of Multiclass Datasets on the Performance of Classification Algorithms)

  • 김정훈;김민용;권오병
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.23-45
    • /
    • 2020
  • 기업의 경쟁력 확보를 위해 판별 알고리즘을 활용한 의사결정 역량제고가 필요하다. 하지만 대부분 특정 문제영역에는 적합한 판별 알고리즘이 어떤 것인지에 대한 지식은 많지 않아 대부분 시행착오 형식으로 최적 알고리즘을 탐색한다. 즉, 데이터셋의 특성에 따라 어떠한 분류알고리즘을 채택하는 것이 적합한지를 판단하는 것은 전문성과 노력이 소요되는 과업이었다. 이는 메타특징(Meta-Feature)으로 불리는 데이터셋의 특성과 판별 알고리즘 성능과의 연관성에 대한 연구가 아직 충분히 이루어지지 않았기 때문이며, 더구나 다중 클래스(Multi-Class)의 특성을 반영하는 메타특징에 대한 연구 또한 거의 이루어진 바 없다. 이에 본 연구의 목적은 다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 유의한 영향을 미치는지에 대한 실증 분석을 하는 것이다. 이를 위해 본 연구에서는 다중 클래스 데이터셋의 메타특징을 데이터셋의 구조와 데이터셋의 복잡도라는 두 요인으로 분류하고, 그 안에서 총 7가지 대표 메타특징을 선택하였다. 또한, 본 연구에서는 기존 연구에서 사용하던 IR(Imbalanced Ratio) 대신 시장집중도 측정 지표인 허핀달-허쉬만 지수(Herfindahl-Hirschman Index, HHI)를 메타특징에 포함하였으며, 역ReLU 실루엣 점수(Reverse ReLU Silhouette Score)도 새롭게 제안하였다. UCI Machine Learning Repository에서 제공하는 복수의 벤치마크 데이터셋으로 다양한 변환 데이터셋을 생성한 후에 대표적인 여러 판별 알고리즘에 적용하여 성능 비교 및 가설 검증을 수행하였다. 그 결과 대부분의 메타특징과 판별 성능 사이의 유의한 관련성이 확인되었으며, 일부 예외적인 부분에 대한 고찰을 하였다. 본 연구의 실험 결과는 향후 메타특징에 따른 분류알고리즘 추천 시스템에 활용할 것이다.

화면간 영상 변화량을 고려한 H.264/AVC 비트율 제어 방법 (A Bitrate Control considering Interframe Variance of Image for H.264/AVC)

  • 손남례;이귀상
    • 정보처리학회논문지B
    • /
    • 제13B권3호
    • /
    • pp.245-254
    • /
    • 2006
  • H.264/AVC 표준은 기존의 부호화 기법보다 뛰어난 압축성능 때문에 비디오 데이터의 압축과 전송에 널리 응용될 것으로 전망된다. 그러나 H.264/AVC 표준도 기존의 비디오 압축표준과 마찬가지로 가변길이부호화방식을 따르기 때문에, 동영상을 부호화할 때 발생하는 데이터 량은 시간의 흐름에 따라 큰 폭으로 변할 수 있다. 이 때문에 PSTN이나 ISDN 망과 같이 대역폭이 고정된 네트워크를 통해 비디오 스트림을 전송하고자 할 경우에는 부호기로부터 출력되는 비트량을 제어할 필요가 있다. 본 논문에서는 전송율이 고정된 비디오 전송채널 환경에서 H.264/AVC 부호화 기법으로 압축된 영상 데이터를 전송할 때 필요한 새로운 비트율 제어방식을 제안한다. 제안하는 비트율 제어방식은 우선 화면간 영상 변화량 따른 프레임당 목표비트량과 MAD간의 관계를 선형회귀분석기법을 이용하여 분석한 다음, 이를 기반으로 프레임 단위로 효율적인 비트율 제어 방법을 제안한다. 실험결과 화면간 움직임이 많은 영상의 경우 기존의 비트율 제어 방법이 채널 전송에 부적합할 정도로 비트량을 초과하지만, 제안한 방법은 채널 전송에 적합하게 효율적으로 부호화한다. 또한 프레임 스킵 방법은 기존의 비트율 제어 방법에 비하여 제안한 방법이 평균 $1{\sim}15%$ 감소하였다.

움직임 벡터의 정규화 및 에지의 패턴 분석을 이용한 복수 영상 기반 초해상도 영상 생성 기법 (Multi-Frame-Based Super Resolution Algorithm by Using Motion Vector Normalization and Edge Pattern Analysis)

  • 권순찬;유지상
    • 한국통신학회논문지
    • /
    • 제38A권2호
    • /
    • pp.164-173
    • /
    • 2013
  • 본 논문에서는 움직임 벡터의 정규화 및 윤곽선(edge)의 패턴 분석을 이용한 새로운 복수영상 기반의 초해상도(super resolution) 영상 생성 기법을 제안한다. 기존의 복수영상 기반의 초해상도 기법의 경우 입력 동영상을 구성하는 각 영상 간 부화소(sub-pixel) 단위의 움직임과 병진이동(global translation)만이 발생한다고 가정하여 기법의 적용이 제한적이다. 또한 이러한 제한에 강한 단일영상 기반의 초해상도 영상 생성 기법의 경우 보간 시 사용할 수 있는 정보량이 제한적이라는 단점이 있다. 본 논문에서는 기존 기법의 단점인 부화소 단위의 움직임에 대한 제한을 움직임 벡터의 정규화 기법을 통해 해결하고, 윤곽선 패턴 분석을 기반으로 한 2*2 블록 단위의 움직임 추정을 통해 병진이동에 대한 제한을 해결하였다. 또한 실험을 통하여 제안하는 기법이 기존의 이중선형(bi-linear)보간법, 단일영상과 복수영상 기반 초해상도 기법보다 우수하다는 것을 확인하였다.

Assessment through Statistical Methods of Water Quality Parameters(WQPs) in the Han River in Korea

  • Kim, Jae Hyoun
    • 한국환경보건학회지
    • /
    • 제41권2호
    • /
    • pp.90-101
    • /
    • 2015
  • Objective: This study was conducted to develop a chemical oxygen demand (COD) regression model using water quality monitoring data (January, 2014) obtained from the Han River auto-monitoring stations. Methods: Surface water quality data at 198 sampling stations along the six major areas were assembled and analyzed to determine the spatial distribution and clustering of monitoring stations based on 18 WQPs and regression modeling using selected parameters. Statistical techniques, including combined genetic algorithm-multiple linear regression (GA-MLR), cluster analysis (CA) and principal component analysis (PCA) were used to build a COD model using water quality data. Results: A best GA-MLR model facilitated computing the WQPs for a 5-descriptor COD model with satisfactory statistical results ($r^2=92.64$,$Q{^2}_{LOO}=91.45$,$Q{^2}_{Ext}=88.17$). This approach includes variable selection of the WQPs in order to find the most important factors affecting water quality. Additionally, ordination techniques like PCA and CA were used to classify monitoring stations. The biplot based on the first two principal components (PCs) of the PCA model identified three distinct groups of stations, but also differs with respect to the correlation with WQPs, which enables better interpretation of the water quality characteristics at particular stations as of January 2014. Conclusion: This data analysis procedure appears to provide an efficient means of modelling water quality by interpreting and defining its most essential variables, such as TOC and BOD. The water parameters selected in a COD model as most important in contributing to environmental health and water pollution can be utilized for the application of water quality management strategies. At present, the river is under threat of anthropogenic disturbances during festival periods, especially at upstream areas.

토지 보상비 결정 요인 분석 - 건설CALS 데이터 중심으로 (Analysis on the Determinants of Land Compensation Cost: The Use of the Construction CALS Data)

  • 이상규;서명배;김진욱
    • 한국산학기술학회논문지
    • /
    • 제21권10호
    • /
    • pp.461-470
    • /
    • 2020
  • 본 연구는 건설 전주기 (기획, 설계, 시공, 관리) 과정에서 생성되는 건설 CALS(Continuous Acquisition & Life-Cycle Support) 시스템 내의 데이터 셋 (443개)을 활용하여 토지보상비에 영향을 주는 주요 결정 요인을 분석한다. 해당 분석을 위해 기존 토지 비용 관련 연구에서 활용된 주요 변수를 활용하였다. 이를 기반으로 8개 (토지면적, 개별 공시지가, 감정평가액, 지목, 용도지역 1, 지형 고저, 지형 형상, 도로 접면)의 주요 변수를 활용하였다. 더불어, 해당 변수는 기계학습 알고리즘 기반의 Xgboost 알고리즘을 통해 변수별 중요도 평가를 진행하였고, 해당 변수 중, 개별공시지가가 가장 중요도가 높은 변수로 확인하였다. 토지보상비 결정 요인에 대한 분석 및 검증을 위해 선형다중회귀분석을 사용하였다. 검증을 위해 구성되는 변수로 종속변수는 개별공시지가 변수를 활용하였고, 독립변수는 연속형 변수 1개 (면적), 범주형 변수는 5개 (지목, 용도지역1, 지형고저, 지형형상, 도로접면)를 활용하였다. 본 연구의 모델에 대한 검증결과, 지목, 용도지역 1, 도로접면에 대한 독립 변수가 유의미한 것으로 확인하였다.