Ⅰ. 서론
세계 조선 산업은 신조선 시장을 중심으로 높은 성장을 이어왔으나, 주기적인 경기 순환과 글로벌 경쟁 심화로 인해 많은 중소형 조선소들이 어려움을 격고 있으며, 2025년에는 신조선박 수주가 급락했다. 이러한 상황에서 수리조선 산업은 기존 조선소의 기술력과 인프라를 활용하여 안정적인 수익을 창출하고, 신조선 시장의 불황을 극복할 수 있는 효과적인 대안으로 부상하고 있다[1]. 그러나 수리조선 수요는 선박의 정기 검사 주기와 같은 예측 가능한 요인 외에도, 국제해사기구(IMO)의 환경 규제 강화에 따른 설비 개조, 글로벌 해운 시황, 국제 유가 등 복잡하고 예측하기 어려운 외부 요인에 의해 크게 변동하는 특성을 갖는다. 이러한 높은 변동성은 수리조선소의 도크(dock) 스케줄링, 자재 재고 관리, 인력 배분 등 핵심 운영 계획 수립에 큰 어려움을 발생시킨다. 부정확한 수요예측은 과도한 재고 비용 발생이나 수리 기회 손실로 이어져 조선소의 수익성에 직접적인 타격을 준다. 전통적인 통계기법만으로는 이처럼 복잡한 변수들이 얽혀있는 관계를 분석하고 정확한 수요를 예측하는데 한계가 있다. 따라서, 데이터에 기반한 머신러닝 기반의 정확한 수요예측 모델 개발은 수리소선소의 운영 효율성을 극대화하고 경쟁력을 확보하기 위한 핵심 과제이다. 그러나 머신러닝 기반의 수리조선소 수요예측을 위해 사용할만한 정제된 단일 데이터셋을 찾기는 거의 불가능하다. 이는 수리조선소의 상세한 입거 및 수리 내역과 같은 영업 데이터가 기업의 핵심 자산으로 취급되어 외부에 공개되지 않기 때문이다. 이러한 데이터 확보의 현실적인 어려움을 극복하고 연구의 실효성을 높이기 위해, 본 연구에서는 현실적으로 수집 가능한 거시 지표들을 중심으로 데이터셋을 구성하여 특정 선박이나 조선소에 국한되지 않는 수리조선 시장 전반의 수요 변동성을 예측하는데 초첨을 맞추었다. 이를 통해 데이터셋 구성의 타당성을 확보하고, 연구 결과의 일반화 가능성을 높이고자 했다. 본 연구의 목표는 이렇게 생성된 가상 데이터를 기반으로 최신 머신러닝 기법을 적용하여 신뢰도 높은 수리조선 수요예측 모델을 개발하고, 설명가능 인공지능(XAI) 기법을 통해 예측 결과에 영향을 미치는 주요 특성을 분석하는 것이다. 이를 통해 수리조선소의 운영 효율성을 제고하고, 데이터 기반의 합리적인 의사결정을 지원하는데 기여하고자 한다.
본 논문의 구성은 다음과 같다. 2장에서는 본 연구와 관련된 선행 연구에 대해 살펴보고, 3장에서는 머신러닝 기반 수리조선 수요예측을 위한 데이터 준비 및 정체, 모델 생성 및 튜닝에 대해 기술한다. 4장에서는 모델들의 성능평가 결과에 대한 고찰 및 XAI 기반 중요 특성 분석을 기술하고, 마지막 5장에서는 본 연구의 결론 및 향후 과제에 대해 기술한다.
Ⅱ. 관련 연구
수리조선 산업의 경쟁력에 관한 다수의 선행 연구들은 수리조선소 선택 요인으로 수리비용, 수리 기간(납기준수), 기술력, 입출항 안전성, 부품 조달 용이성 등을 주요하게 다루고 있다[1]. 특히, 세계 주요 항만들이 선박 운항과 연계하여 수리 서비스를 제공하는 것처럼, 수리조선소의 지리적 위치와 항만 인프라와의 연계성은 핵심 경쟁력으로 강조된다. 송하철 등[2]은 한국 수리조선 산업이 발전하기 위해서는 가격 경쟁력 확보와 함께 LNG선 등 고부가가치 특수선 수리에 특화해야 한다고 제안했다. 또한, IMO의 환경 규제 강화는 수리조선 시장의 중요한 변수로 작용하고 있다. NOx, SOx 등 배출가스 규제와 선박 평형수 관리 협력 발효에 따라 기존 선박에 친환경 설비를 장착하는 개조(retrofit) 수요가 꾸준히 증가하고 있으며, 이는 수리조선 시장의 새로운 성장 동력으로 평가된다[3]. 이은창 등[4]은 조선산업의 가치사슬 관점에서 R&D 및 설계, 기자재, 생산과 더불어 서비스(수리/개조) 분야의 중요성을 강조하고, 친환경 선박 개조 시장의 성장에 주목했다.
이처럼 수리조선 수요가 다양한 요인에 의해 결정됨에도 이를 정량적으로 예측하려는 연구는 주로 특정 지역의 수리 수요를 추정하는데 그치거나[5], 몬테카를로 시뮬레이션과 같은 특정 통계 기법에 의존하는 경우가 많았다. 이은창[6]은 국내 대형선박 수리·개조 산업의 목표 시장을 제시하고 유휴 인력 활용 방안을 제안했지만, 구체적인 수요예측 모델링까지는 수행하지 못했다.
수요예측에 머신러닝을 적용하는 연구는 타 산업 분야에서 활발히 진행되고 있지만, 수리조선 분야의 복잡한 특성과 데이터 확보의 어려움으로 인해 관련 연구는 아직 미흡한 실정이다. 따라서 본 연구는 머신러닝 기반 수리조선 수요예측을 위한 데이터 생성 단계에서부터 다중 계절성, 이벤트 충격, 거시 경제 지표 등 현실적인 요인들을 종합적으로 반영하고, 최신 하이퍼파라미터 튜닝 기법과 XAI 분석을 결합함으로써 기존 연구의 한계를 극복하고 수리조선 수요예측에 새로운 방법론을 제시하고자 한다.
Ⅲ. 연구 방법
3.1 데이터 준비 및 정제
본 연구에서는 현질적인 시계열 특성을 반영한 5년 기간의 일별 데이터셋(ship_repair_dataset.csv)을 생성했다. <표 1>과 같이, 데이터셋은 1개의 날짜, 1개의 타겟 변수, 그리고 5개의 피처로 구성된다.
<표 1> 생성된 데이터셋 구조

3.1.1 데이터셋 설계 및 변수 선정 근거
본 연구에서 가상 데이터셋을 설계하며 변수를 선정한 기준은 다음과 같다. 첫째, 수리 조선 수요에 직·간접적으로 영향을 미치면서 실제 업계에서 중요하게 모니터링하는 거시 경제 및 산업 지표를 우선적으로 고려했다. 둘째, 데이터 확보의 현실성을 감안하여 공개적으로 확인 가능하며 시계열적 특성을 반영할 수 있는 변수를 중심으로 구성했다. 이러한 기준에 의해 다음과 같이 선정된 5개의 피처는 수리조선 시장의 수요를 유발하는 핵심요인이다.
⦁ port_traffic_daily(일일 항만 트래픽): 항만 트래픽은 수리 기회의 총량을 가늠하는 가장 직접적인 지표이로, 입출항 선박이 많을수록 잠재적인 수리 수요가 증가하는 핵심 변수이다.
⦁ bdi(발틱운임지수) 및 wti_price(국제 유가): 이 두 지표는 글로벌 해운 시황과 선사의 운영비용을 대표하는 핵심 거시 경제 지표이다. 해운 경기가 좋을수록(bdi 상승) 선사들은 선박 유지보수에 적극적인 투자를 하며, 유가(wti_price) 상승은 선사 비용 부담을 가중시켜 비필수적인 수리를 연기하게 만드는 요인으로 작용할 수 있다.
⦁ old_ship_ratio(노후 선박 비율): 선령이 높은 선박은 정기 검사 및 부품 교체 주기가 짧아져 예측 가능한 수리 수요를 발생시키는 중요한 내부 요인이다.
⦁ env_regulation_shock(환경 규제 이벤트): IMO의 환경 규제 강화는 기존 선박의 개조 수요를 창출하는 강력한 외부 충격이다. 이는 시장의 구조적 변화를 이끄는 이벤트성 요인을 모델에 반영하기 위해 포함했다.
<표 2>는 이러한 기준에 의해 생성된 각 변수의 주요 통계치로, 이를 통해 데이터의 분포와 범위를 파악할 수 있다.
<표 2> 생성된 데이터의 각 변수에 대한 주요 통계치

3.1.2 데이터셋 제외 변수
데이터셋 구성 단계에서 다음과 같은 미시적 데이터들도 고려됐으나, 연구 범위와 가상 데이터 생성의 현실성을 고려하여 최종적으로 제외했다
⦁ 선박별 상세 제원(선종, 크기, 엔진 타입 등): 개별 선박의 특성은 수리 종류와 규모에 큰 영향을 미치지만, 수만 척에 달하는 선박 데이터를 가상으로 생성하는 것은 과도한 가정을 필요로 하며 데이터의 복잡성을 불필요하게 높일 수 있다.
⦁ 개별 선박의 수리 이력 및 정기 검사 스케줄: 이는 수리조선 수요예측에 가장 직접적인 정보이지만, 선주 및 조선소의 핵심 영업 기밀에 해당하여 현실적으로 확보가 불가능하다. 본 연구는 이러한 미시 데이터가 부재한 상황에서 거시 지표 기반의 총량적 수요 예측을 목표로 하므로 제외했다.
⦁ 조선소별 도크 점유율 및 경쟁사 가격 정보: 이는 개별 조선소의 운영 전략에 해당하는 변수로, 특정 기업이 아닌 산업 전체의 수요 예측을 목표로 하는 본 연구의 범위와는 다소 거리가 있어 포함하지 않았다. 이처럼 본 연구는 현실적으로 수집 가능한 거시 지표들을 중심으로 데이터셋을 구성하여, 특정 선박이나 조선소에 국한되지 않는 수리조선 시장 전반의 수요 변동성을 예측하는데 초점을 맞추었다. 이를 통해 데이터셋 구성의 타당성을 확보하고, 연구 결과의 일반화 가능성을 높이고자 했다.
3.1.3 피처 엔지니어링
생성된 데이터는 변수들이 공통된 시간적 추세를 공유하여 다중공선성(Multicollinearity)문제가 발생할 수 있다. 다중공선성은 모델의 안정성을 저해하고 변수 해석에 오류를 유발하므로, 분산 팽창 계수(VIF)를 통해 진단했다. 초기 VIF 측정 결과, old_ship_ratio를 비롯한 다수의 변수에서 VIF가 10을 훨씬 초월하는 심각한 다중공선성이 확인됐다. 이 문제를 해결하기 위해 모든 변수에 대해 1차 차분(differencing)을 적용하여 시간에 따른 추세를 제거(detrending)했다. 차분은 현재 시점의 값에서 이전 시점의 값을 뺀 변화량만을 데이터로 사용하는 기법이다. 차분 적용 후, 모든 변수의 VIF 값이 5 미만으로 안정화되어 다중공선성 문제가 해결된 것을 확인했다(<표 3> 참조). 모델 학습에는 이렇게 피처 엔지니어링을 수행한 결과 데이터셋을 사용했다.
<표 3> 피처 엔지니어링 전후 VIF 비교

3.2 모델 생성 및 튜닝
본 연구에서는 수리조선 수요예측을 위해 다음과 같은 머신러닝 및 시계열 모델의 성능을 비교했다.
1. Ridge[7]: L2 규제를 적용한 선형 회귀 모델로, 다중 공선성이 있는 데이터에 대해서도 안정적인 성능을 제공한다.
2. Random Forest[8]: 다수의 의사결정 트리를 활용하는 앙상블 모델로, 과적합을 방지하고 높은 안정성을 제공한다.
3. XGBoost[9]: Gradient Boosting 알고리즘을 병렬 처리 등으로 개선한 고성능 모델이다.
4. LightGBM[10]: XGBoost보다 빠르면서도 높은 정확도를 제공하는 최신 Gradient Boosting 모델이다.
5. SARIMAX[11]: 시계열 자체의 자기상관성, 계절성 패턴과 함께 외부 변수의 영향을 복합적으로 모델링하는 전통적인 시계열 분석 모델이다.
6. Stacking Ensemble[12]: 여러 개의 개별 베이스 모델(Base Model)의 예측 결과를 다시 입력으로 받아 최종 예측을 수행하는 메타 모델(Meta-Model)을 학습시키는 앙상블 기법이다.
모델의 예측 성능을 극대화하기 위해 넓은 탐색 후 좁은 탐색(Broad to Narrow Search) 전략을 사용해 각 모델에 최적화된 하이퍼파라미터 튜닝을 수행했다. 넓은 탐색 후 좁은 탐색의 2단계 접근법은 다음과 같다.
⦁ 1단계 넓은 탐색(RandomizedSearchCV): 넓은 범위의 하이퍼파라미터 공간을 무작위로 탐색하여 좋은 성능을 내는 유망한 영역을 빠르게 식별한다.
⦁ 2단계 좁은 탐색(GridSearchCV): 1단계에서 찾은 유망한 영역 주변으로 촘촘한 격자를 설정하고, 모든 조합을 체계적으로 검증하여 최적의 값을 정밀하게 탐색한다.
이러한 튜닝 전략은 베이지안 최적화 프레임워크인 Optuna를 사용한 방식과 비교 평가하였으며, 본 연구에서 사용한 데이터셋에서는 넓은 탐색 후 좁은 탐색 전략이 Optuna를 사용하는 방식보다 더 안정적이고 우수한 성능을 보였다. 따라서 본 연구에서는 예측 모델에 넓은 탐색 후 좁은 탐색 전략을 적용했다. Stacking Ensemble은 개별적으로 튜닝된 LightGBM, Random Forest, Ridge를 베이스 모델로 구성했고, RidgeCV를 메타 모델로 채택해 최종 성능을 평가했다.
<표 4>는 각 모델에 최종적으로 적용된 하이퍼파라미터를 정리한 것이다. 각 하이퍼파라미터의 상세한 의미와 적용 방식은 다음과 같다.
<표 4> 각 모델에 최종 설정된 하이퍼파라미터

⦁ LightGBM과 XGBoost: learning_rate는 각 트리가 이전 트리의 오차를 보정하는 학습률이며, max_depth는 과적합 방지를 위해 트리의 최대 깊이를 제한한다. n_estimators는 생성할 트리의 개수를 의미하며, LightGBM의 num_leaves는 트리의 복잡도를 제어하는 핵심 파라미터이다.
⦁ Random Forest: n_estimators와 max_depth는 각각 앙상블에 포함될 트리의 개수와 개별 트리의 최대 깊이를 의미하며, 모델의 안정성과 과적합 방지에 중요한 역할을 한다.
⦁ Ridge: alpha는 L2 규제의 강도를 조절하는 파라미터로, 값이 클수록 모델의 가중치를 작게 만들어 과적합을 방지하고 모델을 단순화시킨다.
⦁ SARIMAX: order(p,d,q)는 비계절성 자기회귀(AR), 차분(I), 이동평균(MA) 차수를 의미하며, seasonal_order(P,D,Q,s)는 계절성에 대한 AR, I, MA 차수와 계절의 주기(s)를 나타낸다. 본 연구에서는 데이터 정제 과정에서 이미 1차 차분을 수행했으므로 d와 D는 0으로 설정했다.
⦁ Stacking Ensemble: 베이스 모델로는 개별적으로 튜닝된 LightGBM, Random Forest, Ridge 모델을 사용하여 예측의 다양성을 확보했다. 메타 모델로는 베이스 모델들의 예측을 안정적으로 종합하기 위해 RidgeCV를 채택했다. RidgeCV는 모델 내에 교차 검증 기능이 포함되어 있어서 여러 alpha 후보 값 중에서 스스로 최적의 alpha 값을 찾아 학습한다.
Ⅳ. 결과 및 고찰
4.1 모델 성능 비교
머신러닝 및 시계열 모델에 대한 성능 평가한 결과는 <표 5>와 같다. 성능 평가 지표로는 R2 score, MAE(Mean Absolute Error), RMSE(Root Mean Squared Error)와 함께, 시계열 데이터의 특성을 위한 MAPE(Mean Absolute Percentage Error)와 SMAPE(Symmetric Mean Absolute Percentage Error)를 사용했다. 특히, 본 연구의 타겟 변수인 repaired_ships_daily의 실제값에 0이 포함될 수 있어, MAPE 계산 시 발생할 수 있는 문제(값이 무한대로 발산)를 방지하기 위해, 0값에 더 강건한 SMAPE를 함께 제시했다. 성능 분석 결과, SARIMAX, Stacking Ensemble, Ridge 세 모델이 R2 score 0.75 이상으로 가장 높은 성능을 보였다. 이는 생성된 데이터셋이 시계열 특성과 여러 변수 간의 선형 및 비선형 관계를 복합적으로 가지고 있음을 의미하며, 여러 모델의 장점을 결합한 Stacking 방식이 효과를 발휘했음을 보여준다. Ridge는 선형 모델임에도 매우 높은 성능을 보인 것은 데이터셋의 변수들이 타겟 변수와 강력한 선형 관계를 가지고 있음을 의미한다. XGBoost, LightGBM, Random Forest와 같은 트리 기반 앙상블 모델들 또한 강력한 성능을 보여주었지만, SARIMAX나 Stacking Ensemble보다는 약간 낮은 성능을 보였다. 이는 데이터의 순수한 시계열적 특성이나 선형적 특성 때문으로 판단된다. 또한, MAPE가 무한에 가까운 값이 나온 이유는 예측 대상인 repaired_ships_daily는 일일 수리 선박수의 변화량이므로 어제와 오늘의 수리 선박 수가 같을 경우 실제값이 0이 될 수 있기 때문이다. 실제 변화량이 0인데 모델이 1척의 변화를 예측했다면, MAPE 값은 무한대로 발산한다. 이는 실제 변화가 없던 날에 변화가 있을 것이라고 잘못 예측한 경우가 많았음을 의미하며, 이것은 이 데이터에는 MAPE가 적합하지 않은 지표임을 나타낸다. SMAPE는 MAPE의 단점을 보완했지만, 여전히 백분율 오차 지표로 실제 변화량과 예측 변화량의 크기가 모두 작을 때, 작은 오차도 매우 큰 백분율로 계산될 수 있다. SMAPE가 80점대라는 것은 모델이 평균적으로 변화의 크기가 작은 날들의 예측에서 실제 값 대비 매우 큰 비율의 오차를 보이고 있음을 의미한다.
<표 5> 모델별 예측 성능 비교

수리조선 수요예측과 같이 복잡한 경제/사회 현상을 다루는 문제에서는 R2 score가 0.6~0.8 정도면 매우 성공적인 모델로 평가받는다. 따라서 본 연구에서 0.75 이상의 성능을 보인 SARIMAX와 Stacking Ensemble 모델은 비즈니스 의사결정에 충분히 활용 가능한 수준의 신뢰도를 갖는다고 판단할 수 있다. 안정적이고 해석 가능한 예측을 원하는 경우에는 SARIMAX를 선택하고, 최고의 예측 정확도를 목표로 하는 경우에는 Stacking Ensemble이 효과적인 선택이 될 수 있다.
4.2 XAI 분석 결과
모델의 예측 결과를 해석하고 주요 영향 요인을 파악하기 위해 설명가능 인공지능(XAI) 기법인 SHAP[13]을 사용해 Stacking Ensemble의 핵심 모델인 LightGBM의 특성을 분석했다. <그림 1>은 각 특성이 수요예측에 미친 영향력의 평균적인 크기를 나타낸 것이다. 일일 항만 트래픽인 port_traffic_daily가 수요예측에 가장 중요한 변수로 나타났으며, 국제 유가인 wti_price와 해운 시황인 bdi가 그 다음으로 중요한 변수로 확인됐다. 이는 수리조선 수요가 거시 경제 지표와 산업의 장기적인 추세에 큰 영향을 받는다는 것을 의미한다. <그림 2>는 특성의 값에 따른 예측 영향의 방향성과 분포를 보여준다. LightGBM은 트리 기반 모델이므로, 주 효과와 함께 다른 변수와의 상호작용 효과를 학습한다. 따라서 그래프가 선형 모델처럼 한 방향으로 정렬되지 않는다. port_traffic_daily의 주 효과는 트래픽이 많을수록(빨간색) SHAP 값이 0보다 큰 양(+)의 방향에, 적을수록(파란색) 음(-)의 방향에 분포한다. 이는 상호작용 효과(예외 상황)로 아주 드물게 트래픽이 높아도(빨간색) SHAP 값이 음수(-)인 경우가 발생했다. 이 경우는 항만 트래픽은 매우 높지만, 동시에 국제 유가도 역시 최고치라면 선사들이 비용 부담으로 수리를 대거 연기하는 특수한 상황을 모델이 학습한 것으로, 트래픽의 긍정적 효과가 유가의 강력한 부정적 효과에 의해 상쇄되어 음의 영향을 미친 것으로 나타난다. wti_price의 주 효과로 유가가 높으면(빨간색) 비용 증가로 수리가 줄어들어 음(-)의 영향을 주는 것이 일반적이다. 그러나 이 역시 상호작용 효과로 유가가 높아도(빨간색) dbi 지수가 역대 최고치인 초호황기라면 선사들은 비싼 유가를 감수하고서라도 필수적인 수리를 즉시 진행할 수 있어서, 유가의 부정적 효과보다는 bdi의 긍정적 효과가 더 크게 작용하여 SHAP 값이 양(+)의 방향으로 나타난 것이다. bdi의 파란색이 양(+)의 방향에 나타난 이유도 위와 동일한 원리이다. env_regulation_shock에 파란색만 보이는 이유는 이 변수는 값이 0(규제 없음) 또는 1(규제 있음)인 이진 변수로, SHAP 그래프에서 파란색은 0, 빨간색은 1을 의미한다. 파란색 점(규제 없음)은 대부분 SHAP 값 0 근처에 모여있어 예측에 거의 영향을 주지 않음을 의미한다. 0점 바로 오른쪽에 소수의 빨간색 점(규제 있음)들이 있지만, 그 수가 적어 잘 나타나지 않았다. 이러한 SHAP 분석을 통해, 유가 상승기에는 선사의 비용 부담을 고려한 필수 정비 및 긴급 수리 중심의 비용 효율적 상품을 기획하고, 반대로 유가 하락기에는 선사의 투자 여력이 확보되는 만큼 고부가가치인 친환경 설비 개조나 선박 성능 개선 솔루션을 적극적으로 제안하는 이원화된 영업 전략을 구사할 수 있다.

<그림 1> SHAP 특성 중요도: 예측에 미치는 특성 중요도

<그림 2> SHAP 특성 요약: 특성 값에 따른 예측 영향 방향성 분포
이러한 SHAP 분석 결과는 모델이 데이터로부터 논리적이고 합리적인 패턴을 학습했음을 보여주며, 예측 결과의 신뢰도를 높여준다.
4.3 주요 모델의 예측 추종 분석
각 모델의 예측 성능 결과를 직관적으로 확인하기 위해 테스트 기간에 대한 예측값과 실제값을 시각화했다.
<그림 3>은 가장 좋은 성능을 보인 SARIMAX, Stacking Ensemble, Ridge와 낮은 성능을 보인 LightGBM 모델이 일별 수요 변동을 어떻게 추종하는지 시각적으로 보인 것이다. 그림의 (a) SARIMAX, (b) Stacking Ensemble, (c) Ridge 모델은 실제값(파란색선)의 변동 패턴을 예측값(주황색 선)이 매우 근접하게 추종하는 것을 확인할 수 있다. 반면, (d) LightGBM 모델은 전체적인 추세는 유사하게 추종하지만, 실제값의 최고점이나 최저점에서의 오차가 상대적으로 크게 발생해 상위 모델들에 비해 예측의 정교함이 조금 낮아지는 것을 확인할 수 있다.

<그림 3> 주요 모델의 예측 추종 분석
Ⅴ. 결론
본 연구에서는 머신러닝을 활용하여 변동성이 높은 수리조선 수요를 예측하는 모델을 개발하고, 주요 영향 요인을 분석했다. 이를 위해 시계열 특성을 반영한 5년 기간의 일별 가상 데이터셋을 생성하고, 다중공선성 문제 해결 및 고급 피처 엔지니어링을 통해 데이터의 품질을 높였다. 6개의 예측 모델의 성능을 비교한 결과, 시계열 분석에 특화된 SARIMAX 모델이 R2 0.7562로 가장 우수한 성능을 보였으며, 여러 모델을 결합한 Stacking Ensemble 역시 비슷한 수준의 높은 정확도를 달성했다. 이는 복잡한 시계열 예측 문제에서 단일 모델보다는 데이터의 다양한 측면을 학습할 수 있는 복합적인 접근 방식이 더 효과적일 수 있음을 의미한다. 또한, XAI 기법인 SHAP 분석을 통해 항만 트래픽(port_traffic_daily), 유가(wti_price), 해운 시황(bdi) 등이 수리조선 수요를 결정하는 핵심 요인임을 정량적으로 규명했다. 본 연구에서 개발한 수요예측 모델과 SHAP 분석은 수리조선 산업의 전략적 의사결정을 지원하는 핵심 기반이 될 수 있다. 기업 차원에서는 인력 및 재고 최적화, 차별화된 도크 운영 전략 수립 등 선제적 자원관리를 통해 운영 효율성을 극대화할 수 있다. 정책 차원에서는 항만 인프라 투자 계획이나 산업 경쟁력 강화 프로그램과 같은 거시적 지원 정책을 수립하는데 필요한 실증적 근거를 제공한다.
본 연구는 가상 데이터를 사용했다는 한계가 있지만, 데이터 생성부터 정제, 모델링, 튜닝, 해석에 이르는 체계적인 방법론을 제시했다는 점에서 의의가 있다. 향후 실제 수리조선소의 데이터를 확보하여 본 연구에서 제안한 모델을 검증하고 고도화한다면, 수리조선 산업의 운영 효율성을 획기적으로 개선하는데 기여할 수 있을 것이다.
References
- 김덕섭 ․ 신상훈 ․ 신용존, "우리나라 수리조선의 경쟁력 및 경재성 평가에 관한 연구," 한국항만경제학회지, 제38권, 제3호, 2022, pp.69-86. https://doi.org/10.38121/kpea.2022.3.38.3.69
- 송하철 ․ 서무천 ․ 염재선, "한국 수리조선산업의 국제경쟁력 분석," 한국항해항만학회지, 제34권, 제10호, 2010, pp.799-805. https://doi.org/10.5394/KINPR.2010.34.10.799
- 신한투자증권, 2025년 조선산업 전망 및 투자 기회분석, 2025.
- 이은창 ․ 오승환, "조선산업의 가치사슬별 경쟁력 진단과 정책 방향," 월간 KIET 산업경제, 제291권, 제3호, 2022, pp.46-57.
- 김원욱 ․ 윤대근, "남태평양 수리조선 산업 구축 타당성 분석," 수산해양교육연구, 제30권, 제3호, 2018, pp.1000-1009. https://doi.org/10.13000/JFMSE.2018.06.30.3.1000
- 이은창, "국내 조선산업의 혁신성장 모색-대형선박 수리·개조산업을 중심으로," 월간 KIET 산업경제, 제 239호, 2018, pp.32-44.
- A. E. Hoerl and R. W. Kennard, "Ridge Regression: Biased Estimation for Nonorthogonal Problems," Technometics, Vol.12, No.1, 2000, pp.55-67. https://doi.org/10.1080/00401706.1970.10488634
- L. Breiman, "Random Forest," Machine Learning, Vol.45, No.1, 2001, pp.5-32. https://doi.org/10.1023/A:1010933404324
- T. Chen and C. Guestrin, "XGBoost: A Scalable Tree Boosting System," Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016, pp.785-794.
- G. Ke, Q. Meng, T. Finley, T. Wang, W. Chen, W. Ma, T. Y. Liu, "LightGBM: A highly efficient gradient boosting decision tree," Proceedings of the 31st International Conference on Neural Information Processing Systems, 2017, pp.3149-3157.
- F. R. Alharbi and D. Csala, "A Seasonal Autoregressive Integrated Moving Average with Exogenous Factors (SARIMAX) Forecasting Model-based Time Series Approach," Inventions, Vol.7, No.94, 2022, pp.1-21. https://doi.org/10.3390/inventions7040094
- J. Brownlee, Ensemble Learning Algorithms for Machine Learning: Make Better Predictions with Bagging, Boosting, and Stacking, Machine Learning Mastery, 2021.
- S. M. Lundberg and S. I. Lee, "A Unified Approach to Interpreting Model Predictions," Proceedings of the 31st International Conference on Neural Information Processing Systems, 2017, pp.4768-4777.