• 제목/요약/키워드: Skewed Data

검색결과 205건 처리시간 0.028초

혈액내 Lipoprotein(a) 농도의 결정요인에 관한 연구 - 서울시 일부 초, 중, 고교 교사들을 대상으로 - (A Study on the Determinants of Liporotein(a) Level - Primary, Middle, and High School Teachers in Seoul -)

  • 최현오;이용욱;나승식;이후장
    • 한국식품위생안전성학회지
    • /
    • 제13권2호
    • /
    • pp.155-163
    • /
    • 1998
  • 본 연구는 정상 성인에서 관상동맥질환의 위험인자로 알려진 혈액내 Lipoprotein(a) 농도의 실태를 파악하고 이들 농도와 지질 농도, 섬유소원, 공복혈당 및 일상생활요인과의 관계를 알아보고자 수행되었다. 연구대상은 서울지역 일부 초, 중, 고교 교사들로 의료보험 관리 공단의 신검에서 건강상태가 양호하다고 판정 받은 남자 80명, 여자 60명을 대상으로 혈액분석과 설문 조사를 1996년 11월 2일부터 11월 7일에 걸쳐 실시하였다. 혈액 분석 결과에 따라 이들을 정상군과 위험군으로 나누고 이들 군들 사이에서 Lipoprotein(a) 농도와의 연관성을 알아보았다. 결과는 다음과 같다. 1. 전체 대상자들 중 관상동맥질환 유발의 위험수준인 30mg/dL을 초과하는 대상자는 140명중 37명으로 26.4%에 달했다. 대상자들의 Lipoprotein(a) 평균 농도는 남자는 $16.94{\pm}12.70\;mg/dL$, 여자는 $17.92{\pm}17.58\;mg/dL$로 성별간의 유의한 차이는 없었다. 2. 대상자의 연령에 따른 Lipoprotein(a) 농도의 경우 연령간의 유의한 차이를 보였다(p<0.05). 3. 대상자의 혈액을 분석하여 각 항목에 대해 정상군과 위험군으로 나눈 후 Lipoprotein(a) 농도와 각 항목들간의 유의성을 살펴 본 결과 1) Aspartate aminotransferase, Alanine amiontransferas와 Lipoprotein(a)농도 사이에는 유의한 차이가 나타나지 않았다. 2) 공복 혈당, 섬유소원과 Lipoprotein(a) 농도 사이에도 유의한 차이가 관찰되지 않았다. 3) 지질농도(총콜레스테롤, 고비중 지단백 콜레스테롤, 저비중 지단백 콜레스테롤 , 중성지방)와 Lipoprotein(a) 농도 사이에도 유의한 차이가 발견되지 않았다. 4) 일상생활요인과 Lipoprotein(a) 농도와의 경우 혈압, 비만도, 성별, 흡연 등에서는 유의한 차이가 나타나지 않았다. 그러나 육식 섭취, 음주, 염분 섭취의 정도에 따라서 이들과 Lipoprotein(a) 농도 사이에 유의한 차이가 있는 것으로 나타났다(p<0.05). 5) 혈액 분석 결과와 일상생활요소를 모두 통털어 Lipoprotein(a) 농도가 고려된 경우 나이와 육식섭취의 정도에 따라 정상군과 위험군에서 유의한 차이가 관찰되었다. (p<0.05, p<0.01).

  • PDF

무선 브로드캐스트 환경에서 편향된 데이터 접근 패턴을 갖는 모바일 트랜잭션을 위한 효율적인 동시성 제어 기법 (An Efficient Concurrency Control Scheme for Mobile Transactions with Skewed Data Access Patterns in Wireless Broadcast Environments)

  • 최근하;정성원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.136-138
    • /
    • 2005
  • 무선 브로드캐스트 환경에서는 모바일 클라이언트의 제한된 배터리와 클라이언트에서 서버로의 제한된 상향 대역폭 등의 문제로 기존의 동시성 제어 기법을 그대로 사용할 수 없다. 이런 문제를 해결하고자 많은 동시성 제어 기법들이 연구되어 왔는데, 지금까지 제안된 기법들은 편향된 데이터의 접근 패턴을 반영한 브로드캐스트 환경을 고려하지 못하고 있다. 무선 브로드캐스트 환경에서 서버는 일반적으로 모바일 클라이언트의 접근 패턴을 고려하여 편향된 접근 빈도를 갖는 데이터 아이템을 브로드캐스트 한다. 본 논문에서는 무선 브로드캐스트 환경에서 편향된 데이터 접근 패턴을 고려한 동시성 제어 기법을 제안한다. 제안하는 기법은 브로드캐스트 디스크 모델에서 전체 메이저 브로드캐스트 주기마다. 모바일 트랜잭션을 위한 제어 정보를 보내는 것이 아니라 일정한 마이너 브로드캐스트 주기마다. 제어 정보를 전송한다. 이는 접근 빈도가 놓은 데이터가 갱신된 경우 갱신된 내용을 마이너 그룹마다 반영하므로 읽기 전용 트랜잭션이 접근하는 데이터가 최신 정보임을 보장할 뿐만 아니라 갱신 트랜잭션이 최종 검증을 위해서 상향 통신 대역폭을 이용하는 횟수를 줄이고, 보다. 빠른 재실행을 통해 모바일 트랜잭션의 평균 응답시간을 줄여줄 수 있다. 또한 모바일 트랜잭션의 요청이 편향된 경우, 반복적인 트랜잭션의 중단, 재실행으로 인한 성능 저하를 개선하고자 정적 백오프 기법을 이용하여 모바일 트랜잭션 간 충돌 가능성을 줄여준다. 마지막으로 시뮬레이션을 통해 기존의 기법들에 비해 평균 접근 시간, 상향 통신 대역폭 등의 사용량이 현저히 줄어드는 것을 보임으로써 제안하는 기법의 성능을 검증한다.한 평균 access time을 최소화하는 동시에 클라이언트들의 제한된 에너지 소비를 최소화하는데 목적이 있다. 제안기법에 대한 평가는 수학적 분석을 통해 HIDAF 기법과 기존의 브로드캐스트 기법의 성능을 비교 분석한다.하였으나 사료효율은 증진시켰으며, 후자(사양, 사료)와의 상호작용은 나타나지 않았다. 이상의 결과는 거세비육돈에서 1) androgen과 estrogen은 공히 자발적인 사료섭취와 등지방 침적을 억제하고 IGF-I 분비를 증가시키며, 2) 성선스테로이드호르몬의 이 같은 성장에 미치는 효과의 일부는 IGF-I을 통해 매개될 수도 있을을 시사한다. 약 $70 {\~} 90\%$의 phenoxyethanol이 유상에 존재하였다. 또한, 미생물에 대한 항균력도 phenoxyethanol이 수상에 많이 존재할수록 증가하는 경향을 나타내었다. 따라서, 제형 내 oil tomposition을 변화시킴으로써 phenoxyethanol의 사용량을 줄일 수 있을 뿐만 아니라, 피부 투과를 감소시켜 보다 피부 자극이 적은 저자극 방부시스템 개발이 가능하리라 보여 진다. 첨가하여 제조한 curd yoghurt는 저장성과 관능적인 면에서 우수한 상품적 가치가 인정되는 새로운 기능성 신제품의 개발에 기여할 수 있을 것으로 사료되었다. 여자의 경우 0.8이상이 되어서 심혈관계 질환의 위험 범위에 속하는 수준이었다. 삼두근의 두겹 두께는 남녀 각각 $20.2\pm8.58cm,\;22.2\pm4.40mm$으로 남녀간에 유의한 차이는 없었다. 조사대상자의 식습관 상태는 전체 대상자의 $84.4\%$가 대부분

  • PDF

고령화 사회 농촌 노인의 노동과 여가의 시간 배분 (Allocation of Time between Work and Leisure of the Rural Elderly in Korea)

  • 이기영;김외숙;이연숙;이승미;홍두승;조흥식;김유경;김소영;정수인;조희금
    • 가족자원경영과 정책
    • /
    • 제10권3호
    • /
    • pp.131-148
    • /
    • 2006
  • The purpose of this study is to examine the allocation of time between work and leisure by the rural elderly in Korea. The data used for this study are collected from fm households during the peak ($17^{th}\;to\;30^{th}$ June) and off-peak ($28^{th}$ November to $10^{th}$ December) farming seasons of 2005 using time diary. The sample for this study consists of 120 elderly over 65 years old living in rural area in eight provinces. The major findings are as follows. (1) The time spent of farm work by rural elderly in much longer than average work hours of elderly in general regardless of farming season. The indicates that the elderly farmers are the sustaining forces of agriculture as the urban industrial sector absorbs the younger labor force rural area. (2) There are significant differences in the work time(including form work, housework, and farm work plus house work) by gender, age, education, marital status, living arrangements. (3) The rural elderly spends less time in leisure compared to the elderly in general even during the off-peak season. (4) Especially during the peak season, time allocation between work and leisure by the rural elderly is heavily skewed, resulting in an inadequate amount of time for reproduction of labor. (5) There is only significant age difference in the amount leisure time regardless of farming season. (6) Male elderly farmers work approximately 30 minutes to 1 hour longer on farm than the females do, but the total work time (farm work plus housework) of female elderly is longer than that of the male elderly. There is no significant gender difference in the amount of leisure time during the peak season, whereas the men have more leisure than the women during the off-peak season. To conclude, the gender differences in time allocation among the rural elderly are minimal. However, the rural elderly of both genders suffers from excessive work hours and heavy workload compared to the urban counterpart.

  • PDF

낙동강 하구역 퇴적구조 및 원소조성 변화에 관한 연구 (Changes in sedimentary structure and elemental composition in the Nakdong Estuary, Korea)

  • 김윤지;강정원;박선영
    • 한국습지학회지
    • /
    • 제23권3호
    • /
    • pp.213-223
    • /
    • 2021
  • 낙동강 하구 새섬매자기 식생지역의 수리역학적 퇴적환경을 알아보기 위하여 명지와 을숙도 조간대에서 6개의 퇴적물 코어를 채취하여 퇴적물 입도와 원소분석 (주원소, 미량원소, 희토류 원소)을 수행하였다. 명지 조간대의 퇴적환경은 낙동강 하구둑 좌측 수문의 영향 때문에 퇴적물 상부 (~ 15 cm)에서 분급도가 불량하고 왜도 및 첨도는 양의 값을 보였다. 반면에 을숙도 조간대는 주 수문뿐만 아니라 좌측 수문의 방류 영향으로 정점 별로 서로 다른 퇴적상을 보였다. 퇴적환경의 변화를 알아보기 위하여 분급도, 왜도 및 첨도 등을 이용하여 Linear Discriminate Function (LDF) 분석을 진행하였으며, 그 결과 퇴적물 상부에서 주로 에너지가 강한 퇴적환경이 나타났다. 을숙도 조간대의 ES05 (식생지역)와 ES11 (비 식생지역) 정점의 원소분포는 크게 Al, Fe 및 Ca 주요원소들의 분포와 관련하는 광물구성의 영향을 받는다. 알루미노실리케이트(Aluminosilicate)를 포함하는 쇄설성 광물들은 퇴적물의 희토류 함량을 희석시키며, 특히 ES05 정점 퇴적물의 원소조성을 결정하는 주요 요인으로 작용하였다. 반면에 ES11 정점의 원소조성은 점토광물과 철수산화물, 그리고 희토류 함량이 높은 중광물에 의해 조절되는 것으로 나타났다. 따라서 새섬매자기 조간대 퇴적물의 원소조성은 광물 분별 과정의 영향을 받으며, 이는 담수-해수 혼합 지역의 퇴적환경을 반영한다.

균형 랜덤 포레스트를 이용한 이륜차 보험사기 적발 모형 개발 (Bike Insurance Fraud Detection Model Using Balanced Randomforest Algorithm)

  • 김승훈;이수일;김태호
    • 디지털융복합연구
    • /
    • 제20권2호
    • /
    • pp.241-250
    • /
    • 2022
  • COVID-19 여파로 인한 비대면 서비스와 가정 재정 불안정성의 증가로 이륜차 보험사기 발생이 예상되고 있다. 이와 함께 보험사기 수법도 갈수록 교묘해지고 있다. 하지만 비대면 배달 수요와 연관된 이륜차 교통사고와 보험사기 적발 모형 관련 연구는 매우 미흡한 실정이다. 이에 본 연구는 보험사기의 표본 편중문제를 해결하기 위해 균형 랜덤포레스트 알고리즘을 이용하고 보험사기 조사 전문가의 정성적인 판단 기준을 반영한 변수를 모델에 포함하여 적용성을 향상시키며 적발력 높은 이륜차 보험사기 모형을 개발하고자 한다. 보험사기 적발 모형 개발 결과, 기존의 비균형 랜덤 포레스트 모형에 비해 균형 랜덤 포레스트가 보험 사기혐의자를 분류하는 데 있어 통계적으로 우수한 점을 확인할 수 있었다. 특히, 총 26개의 변수를 토대로 탐색적 변수 조합을 적용한 모형의 예측 성능이 가장 높았지만 일부 변수만을 사용한 확인적 모형의 예측 성능도 크게 떨어지지 않은 와중에, 정성적인 보험사기 전문가가 선정한 변수만을 사용한 확인적 모형은 예측력이 떨어지는 것을 확인하였다. 또한, 총 26개의 변수 중 운전자 성별, 연령, 운전자 피보험자 일치 여부, 미수선 청구금액, 대인보험금 등이 중요한 변수로 확인되어 이를 활용해 이륜차 보험사기 혐의자 선별을 위한 적극적인 대처가 필요해 보인다.

회사채 신용등급 예측을 위한 SVM 앙상블학습 (Ensemble Learning with Support Vector Machines for Bond Rating)

  • 김명종
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.29-45
    • /
    • 2012
  • 회사채 신용등급은 투자자의 입장에서는 수익률 결정의 중요한 요소이며 기업의 입장에서는 자본비용 및 기업 가치와 관련된 중요한 재무의사결정사항으로 정교한 신용등급 예측 모형의 개발은 재무 및 회계 분야에서 오랫동안 전통적인 연구 주제가 되어왔다. 그러나, 회사채 신용등급 예측 모형의 성과와 관련된 가장 중요한 문제는 등급별 데이터의 불균형 문제이다. 예측 문제에 있어서 데이터 불균형(Data imbalance) 은 사용되는 표본이 특정 범주에 편중되었을 때 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류경계영역이 왜곡되므로 분류자의 학습성과가 저하되게 된다. 본 연구에서는 데이터 불균형 문제가 존재하는 다분류 문제를 효과적으로 해결하기 위한 다분류 기하평균 부스팅 기법 (Multiclass Geometric Mean-based Boosting MGM-Boost)을 제안하고자 한다. MGM-Boost 알고리즘은 부스팅 알고리즘에 기하평균 개념을 도입한 것으로 오분류된 표본에 대한 학습을 강화할 수 있으며 불균형 분포를 보이는 각 범주의 예측정확도를 동시에 고려한 학습이 가능하다는 장점이 있다. 회사채 신용등급 예측문제를 활용하여 MGM-Boost의 성과를 검증한 결과 SVM 및 AdaBoost 기법과 비교하여 통계적으로 유의적인 성과개선 효과를 보여주었으며 데이터 불균형 하에서도 벤치마킹 모형과 비교하여 견고한 학습성과를 나타냈다.

신뢰성에 기초한 하수처리장 운전효율 평가 (Performance Evaluation of WWTP Based on Reliability Concept)

  • 이두진;선상운
    • 대한환경공학회지
    • /
    • 제29권3호
    • /
    • pp.348-356
    • /
    • 2007
  • 본 연구에서는 변동적인 특성을 지닌 자료 분석에 효과적인 확률, 통계기법을 도입하여, 하수처리장의 처리효율을 분석하고 그 결과를 설계에 반영할 수 있는 방법을 제시하였다. 이를 위하여 3개 대상하수처리장의 유입수와 처리수 자료(BOD, COD, SS, TN, TP)를 대상으로 통계분석을 실시하였다. 유입수의 표준편차는 $9.7\sim34.9$ mg/L로 평균농도 대비 약 $16.7\sim54.7%$의 범위를 보였으며, BOD와 SS가 상대적으로 큰 편차를 보였다. 처리수는 전 항목에 걸쳐 표준편차 $0.28\sim4.48$ mg/L, 평균수질 대비 $13.9\sim125%$의 범위를 보였고, SS의 변동이 큰 것으로 나타났다. 각 처리장 처리수의 분포는 일정한 양상을 보이지 않았지만 BOD와 COD의 경우 전반적으로 정규분포 형태를, SS와 TN, TP는 대수정규분포에 근접한 형태를 나타냈으며, 오른쪽으로 치우친 경향을 나타내었다. 위와 같은 기본적인 통계처리 결과를 바탕으로 신뢰도 계수(coefficient of reliability, COR)를 도입하여 처리효율을 평가한 결과, 각 항목의 처리수질은 백분위 50% 수준에서 방류수 수질기준의 절반에 해당하는 농도를 보였으며, 모든 처리장에서 연간 방류수 수질기준 달성확률이 100%로 나타났다. 처리공정의 설계와 운전시 각 공정이 가지는 고유의 변동성을 반영하기 위해서는 성능결과를 객관화 할 수 있는 확률적 접근이 필요하며, 특히 방류수 수질기준에 대한 처리성능을 보다 과학적으로 평가하기 위해서는 신뢰성계수를 도입하여 기준달성의 신뢰성을 분석하는 것이 적절할 것으로 판단되었다.30nm$ 조건)와 347 nm(${\Delta}\lambda=60nm$ 조건)에서의 형광 세기가 현장에서 톱밥 침출수 오염을 식별하는 가장 이상적인 식별지표로 밝혀졌다. 비록 이 연구가 제한된 대표시료와 오염원 종류에 국한되었지만 여기에 사용된 식별지표 평가 과정 및 구체적인 실험방법은 향후 형광측정을 이용한 실시간 오염원 추적 연구에 중요한 기초자료를 제공할 것으로 기대한다. 공정의 효율면에서도 훨씬 효율적인 것으로 조사되었다..문에, 이 연구에서 개발된 수치모델은 퇴적물에서 일어나는 미량 오염 물질의 거동을 파악하기 위해 유용하게 사용되어질 수 있을 것으로 사료된다.on between instantaneous attack angle of blade section and the resultants real time force components. Through these investigation it is found out that the conventional imagination that the 7cull motion should be effective in generating lift force must be reconsidered because the attack angle of scull blade are too great to free from stall phenomena during the sculling operation.잠119>잠113>잠120의 순이었다.지방산의 조성이 많은 차이를 보였다.{2+}$ 26 및 $Na^+$ 26 mg $L^{-1}$이었다. 양액 재배 후 버려지는 폐양액 중의 무기성분 함량은 양액재배에

우리나라 신생아의 재태 연령에 따른 출생체중의 정상치 : Finite Mixture Model을 이용하여 (Birth Weight Distribution by Gestational Age in Korean Population : Using Finite Mixture Modle)

  • 이정주;박창기;이광선
    • Clinical and Experimental Pediatrics
    • /
    • 제48권11호
    • /
    • pp.1179-1186
    • /
    • 2005
  • 목 적 : 재태 연령에 따른 신생아 출생체중의 정상치를 아는 것은 자궁내 발육부전과 과출생 체중아를 진단하여 의사들은 고위험 신생아를 조기에 진단하고 치료하여 이들의 유병률과 사망률을 줄일 수 있고, 의료정책 입안자들은 이들에 대한 적절한 의료서비스의 개발과 건강관리 프로그램을 개발하고 시행하는데 도움을 줄 수 있다. 이에 저자들은 우리나라의 재태 연령에 따른 출생체중의 기준치를 구하고자 본 연구를 시행하였다. 방 법 : 2001년 1월 1일부터 2003년 12월 31일까지 3년간 통계청의 인구동태자료 중 출생 자료에 기록되어 있는 1,552,375명 중 재태 연령이 24주에서 44주 사이의 단태아 1,509,763명을 대상으로 재태 연령에 따른 평균값과 표준편차를 구하고 10, 25, 50, 75, 90 백분위수를 구하였다. 또한 각 재태 연령별 분포곡선이 정규분포를 따르는지 알아보았다. 이중 정규분포를 따르지 않거나 쌍봉형을 나타내는 재태 연령에서 유한 혼합 모델을 이용하여 오류의 값을 제거하고 다시 평균과 표준편차 그리고 10, 25, 50, 75, 90 백분위수를 구하고 이에 따른 곡선을 그렸다. 결 과 : 원시자료를 통해 얻은 재태 연령에 따른 출생체중 곡선은 27주에서 32주 사이에 심한 혹이 나타난다. 이에 따라 재태 연령별 출생체중의 분포를 그렸을 때 24주에서 27주까지는 우측으로 긴 꼬리를 가지는 치우친 곡선을 보였고 28주에서 32주까지는 상봉형의 곡선을 보였다. 그리고 그 이후에는 거의 정규 분포를 따르는 곡선을 보였다. 이는 33주 미만에서 재태 연령의 기록에 오류가 있음을 나타내는 것으로 저자들은 유한 혼합 모델을 이용해서 재태 연령별 출생체중 분포를 분석한 후 오류의 부분을 제거 후 재태 연령에 따른 출생체중 곡선을 완성하였다. 이렇게 완성된 출생체중 곡선은 Lubchenco 등의 결과에 비해 10 백분위수에서 높은 값을 보였고 노르웨이나 북미의 연구 결과에 비해서는 전반적으로 낮은 값을 보였다. 결 론 : 본 연구에서 얻은 재태 연령에 의한 출생체중의 기준치와 곡선은 3년간 우리나라의 출생아 전수를 대상으로 오류를 객관적인 기준에 의해 제거하여 만든 것이다. 그러므로 우리나라를 대표하난 신생아의 재태 연령에 의한 출생체중의 기준 및 자궁내 발육부전이나 과출생 체중아의 진단의 기준으로 사용 할 수 있으리라 생각된다.

잣나무 인공림의 1차 및 2차 간벌에 따른 입목생장 특성 분석 (Analysis of Tree Growth Characteristics by First and Second Thinning in Korean White Pine Plantations)

  • 이대성;정성훈;최정기
    • 한국산림과학회지
    • /
    • 제111권1호
    • /
    • pp.150-164
    • /
    • 2022
  • 본 연구는 잣나무(Pinus koraiensis Siebold & Zucc.) 인공림을 대상으로 1차 및 2차 간벌에 따른 입목의 생장특성을 규명하여 산림시업지침 및 매뉴얼 개발을 위한 기초자료를 제공하고자 수행되었다. 사용된 연구자료는 간벌강도에 따라 설치된 잣나무 인공림 영구고정표준지로부터 수집되었으며, 각 간벌시험림별 4~5회 반복조사된 자료를 토대로 임령 19~43년생 시기의 흉고직경, 재적, 고사목 등 주요 입목 및 임분 현황을 분석하였다. 간벌강도에 따른 일원분산분석에서 개체목의 흉고직경 및 재적 변화는 유의적인 차이를 보였으며(p<0.05), 특히 간벌강도가 클수록 시간이 경과함에 따라 경급분포는 더 오른쪽에 위치하여 입목의 경급이 더 큰 것으로 관측되었다. 흉고직경 정기평균생장량의 경우, 간벌강도가 강하고 간벌 후 경과기간이 짧을수록 생장량이 높았는데, 구체적으로 임령 19~24년생 때 간벌강도별 생장량 범위는 0.48~0.95 cm/year이었다. 이후 2차 간벌에 따른 정기평균생장량도 강도간벌구에서 더 큰 것으로 분석되었으며, 임령 37~42년생 때 간벌강도별 생장량 범위는 0.29~0.67 cm/year이었다. 개체목 재적의 정기평균생장량은 간벌강도에 따라 차이가 있었으며, 흉고직경과 달리 시간이 지나도 크게 줄어들지 않는 경향이 나타났다. 임분 재적은 전반적으로 임분밀도가 밀한 표준지에서 높은 경향이었으나, 임분재적 정기평균생장량은 시기에 따라 무간벌뿐만 아니라 약도간벌이 이루어진 임분에서 더 높은 것으로도 분석되었다. 고사목은 무간벌구에서 가장 많이 발생하였으며, 반복조사가 진행될수록 임분밀도에 따른 고사목 본수 차이는 더욱 증가하였다. 종합적으로 임분밀도가 밀할수록 개체목의 흉고직경과 재적 생장량은 낮아지는 경향이었으나, 적절한 1차 및 2차 간벌이 시행되면 생장량은 다시 촉진되었다.

분리학습 모델을 이용한 수출액 예측 및 수출 유망국가 추천 (Export Prediction Using Separated Learning Method and Recommendation of Potential Export Countries)

  • 장영진;원종관;이채록
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.69-88
    • /
    • 2022
  • 최근 코로나19 팬데믹으로 인해 전 세계 경제와 외교 상황에 급격한 변화가 일어나고 있으며, 수출 의존도가 높은 한국은 이러한 변화에 큰 영향을 받고 있다. 본 연구에서는 기업의 수출전략 수립 및 의사결정 지원을 위해 차년도 수출액 예측 모델을 구축하고, 모델의 예측 결과를 바탕으로 수출 유망국가 추천 방식을 제안한다. 본 연구에서는 모델이 다양한 정보를 학습할 수 있도록 국가별, 품목별, 거시경제 변수 등 선행 연구에서 중요하게 사용된 변수를 다방면으로 수집하였다. 수집한 데이터를 분석한 결과, 국가와 품목에 따라서 수출액의 분포가 매우 비대칭적인 것을 확인할 수 있었다. 따라서, 모델의 예측 성능을 향상시키고 설명력을 확보하기 위해서 분리학습 방식을 사용하였다. 분리학습은 전체 데이터를 동질적인 하위 그룹으로 분리하고 개별 모델을 구축하는 방식으로, 본 연구에서는 수출액을 기준으로 5개 구간으로 데이터를 분리하였다. 모델 학습 과정에서 구간별 특성을 반영하여 구간1부터 구간4까지는 LightGBM을 사용하고, 구간5는 지수이동평균을 사용하였으며 이를 통해 모델의 예측 성능을 향상시킬 수 있었다. 모델의 설명력 확보를 위해서 추가로 구간별 모델의 SHAP-value를 계산하고 중요도가 높은 변수를 제시했다. 또한, 본 연구에서는 예측 모델을 기반으로 2단계 수출 유망국가 추천 방식을 제안했다. 효율적인 수출 전략 수립을 위해서 BCG 매트릭스와 국가별 점수 산출 방식을 사용하였고, 품목별 유망 국가 순위와 수출 관련 주요 정보들을 제공하였다. 본 연구는 다양한 정보를 학습한 머신러닝 모델로 여러 국가와 품목에 대한 예측을 실시하고, 이 과정에서 분리학습 방식으로 예측 성능을 향상시켰다는 점에서 의의가 있다. 또한, 현재 무역 관련 서비스들이 과거 데이터에 기반한 정보를 제공하고 있음을 고려할 때, 본 연구에서 제안한 예측 모델과 유망국가 추천 방식은 기업들의 미래 수출 전략 수립 및 동향 파악에 유용하게 사용될 수 있을 것으로 기대된다.