초록
전통적인 사고예측모형은 통계적 회귀분석에 주로 의존하였으나, 이는 자료 분포 및 함수 형태에 대한 가정에 따른 한계를 가지고 있다. 이에 따라 일부 연구는 신경망 등의 비모수적 기법을 모형 구축에 활용하였으나, 이는 독립변수와 종속변수 간의 직접적인 관계 규명이 어렵다는 한계가 있다. 유전자 프로그래밍 기법은 모형 개발에 특별한 가정이 필요없고, 사고요인 규명이 가능하다는 장점이 있다. 따라서 본 연구에서는 고속도로의 사고예측에 유전자 프로그래밍 기법을 적용함으로써 이러한 한계를 극복하고자 하였다. 이를 위하여 경부고속도로에서 최근 3년간(2010-2012년) 구득된 자료를 활용하였으며, 보다 세밀한 사고 특성 규명을 위해 고속도로 구간을 직선 구간과 곡선 구간으로 구분하였다. 사고 발생에 중요한 영향을 미치는 변수를 선택하기 위하여 랜덤 포레스트 기법을 이용하였으며, 최종 선택된 변수들을 활용하여 사고예측을 위한 유전자 프로그래밍 모형을 구축하였다. 구축된 모형의 예측 성능을 평가하기 위해 음이항 회귀모형과 비교해본 결과, 유전자 프로그래밍 모형의 예측 성능이 더 우수한 것으로 나타났다.
The Statistical regression model has been used to construct crash prediction models, despite its limitations in assuming data distribution and functional form. In response to the limitations associated with the statistical regression models, a few studies based on non-parametric methods such as neural networks have been proposed to develop crash prediction models. However, these models have a major limitation in that they work as black boxes, and therefore cannot be directly used to identify the relationships between crash frequency and crash factors. A genetic programming model can find a solution to a problem without any specified assumptions and remove the black box effect. Hence, this paper investigates the application of the genetic programming technique to develope the crash prediction model. The data collected from the Gyeongbu expressway during the past three years (2010-2012), were separated into straight and curve sections. The random forest technique was applied to select the important variables that affect crash occurrence. The genetic programming model was developed based on the variables that were selected by the random forest. To test the goodness of fit of the genetic programming model, the RMSE of each model was compared to that of the negative binomial regression model. The test results indicate that the goodness of fit of the genetic programming models is superior to that of the negative binomial models.