DOI QR코드

DOI QR Code

Improving BMI Classification Accuracy with Oversampling and 3-D Gait Analysis on Imbalanced Class Data

  • Beom Kwon (Div. of Interdisciplinary Studies in Cultural Intelligence (Data Science Major), Dongduk Women's University)
  • Received : 2024.07.24
  • Accepted : 2024.09.19
  • Published : 2024.09.30

Abstract

In this study, we propose a method to improve the classification accuracy of body mass index (BMI) estimation techniques based on three-dimensional gait data. In previous studies on BMI estimation techniques, the classification accuracy was only about 60%. In this study, we identify the reasons for the low BMI classification accuracy. According to our analysis, the reason is the use of the undersampling technique to address the class imbalance problem in the gait dataset. We propose applying oversampling instead of undersampling to solve the class imbalance issue. We also demonstrate the usefulness of anthropometric and spatiotemporal features in gait data-based BMI estimation techniques. Previous studies evaluated the usefulness of anthropometric and spatiotemporal features in the presence of undersampling techniques and reported that their combined use leads to lower BMI estimation performance than when using either feature alone. However, our results show that using both features together and applying an oversampling technique achieves state-of-the-art performance with 92.92% accuracy in the BMI estimation problem.

본 연구에서는 3차원 보행 데이터 기반 체질량지수(Body Mass Index, BMI) 추정 기술의 분류 정확도를 향상시킬 수 있는 방법을 제안한다. BMI 추정 기술에 관해 기존 연구에서는 BMI 분류 정확도가 약 60%에 불과했다. 이에 본 연구에서는 먼저 BMI 분류 정확도가 낮았던 원인을 규명한다. 본 연구의 분석 결과에 따르면, 그 원인은 보행 데이터 세트의 클래스 불균형(Class Imbalance) 문제를 해결하기 위해 언더샘플링(Undersampling) 기법을 사용한 것에 있었다. 이에 본 연구에서는 언더샘플링 기법 대신 오버샘플링(Oversampling) 기법을 적용해 클래스 불균형 문제를 해결하는 것을 제안한다. 또한, 보행 데이터 기반 BMI 추정 기술에서 인체 측정학(Anthropometric) 특징과 시공간적(Spatiotemporal) 특징의 유용성을 재입증한다. 기존 연구에서는 언더샘플링 기법이 적용된 상태에서 인체 측정학 특징과 시공간적 특징의 유용성이 평가됐고, 두 특징을 함께 사용하면 단독으로 사용했을 때보다 BMI 추정 성능이 낮아진다고 보고됐다. 하지만 본 연구 결과에 따르면, 두 특징을 함께 사용하고 오버샘플링 기법을 적용했을 때 BMI 추정 문제에서 92.92%의 정확도로 SOTA(State-Of-The-Art) 성능을 달성하는 것을 보인다.

Keywords

I. Introduction

비만이란 건강을 해칠 정도로 과도한 지방이 축적된 상태를 일컫는다. 비만의 원인은 신체활동 기회 감소, 고열량 식품의 가용성 증가, 불규칙한 식습관 등으로 다양하지만, 궁극적으로 비만은 신체에서 요구하는 열량보다 더 많은 열량을 섭취하기 때문에 발생한다[1].

비만이 위험한 이유는, 비만은 여러 가지 합병증을 동반하고, 그로 인한 사망률을 증가시키는 데 있다. 비만이 동반하는 합병증으로 잘 알려진 것에는, 당뇨병, 고혈압, 고지혈증, 담석증, 무호흡증, 관절염, 우울증, 불안증 등이 있다[2]. 이처럼, 비만과 비만이 동반하는 여러 합병증은 신체적 건강뿐만 아니라 정신적 건강까지, 개인의 건강 전반에 걸쳐 부정적인 영향을 미치므로, 비만인에 관한 체계적인 관리와 비만 예방을 위한 노력이 필요한 상황이다.

이에 전 세계 각국에서는 자국민의 건강한 일상을 위해 비만을 예방하고 치료해야 하는 질병으로 여기고 있으며, 비만의 유병률을 조사하여 비만인의 분포 및 실태를 파악하고 있다. 대한민국 정부에서도 비만의 위험성을 인지하고, 중앙행정기관 중 하나인 질병관리청을 통해 비만에 관한 조사·시험·연구에 관한 사무를 관장하고 있다[3].

비만에 대한 측정은 비만의 정의에 따라, 체내 지방량을 직접적으로 측정해 비만도를 평가하는 것이 가장 정확하다. 하지만, 체내 지방량을 정확히 측정하는 것은 쉽지 않기 때문에 허리둘레를 측정하는 방법과 체질량지수(Body Mass Index, BMI)를 측정하는 방법을 통해 비만도를 간접적으로 평가하는 방식이 보편적으로 사용되고 있다. 특히, 국제 공중보건을 책임지는 유엔 전문 기구인 세계보건기구(World Health Organization, WHO)에서도 BMI를 사용하여 비만도를 간접적으로 평가하는 방식을 채택해 사용하고 있다[4].

BMI는 사람의 몸무게와 신장 제곱의 비율로 계산되며, 여기서 몸무게의 단위는 킬로그램(Kilogram, kg)이고 신장의 단위는 미터(Meter, m)다. 따라서, BMI를 계산하려면 체중계와 신장계를 사용해 몸무게와 신장을 측정하는 절차가 필요한데, 만약 체중계와 신장계, 둘 중 하나라도 없다면 BMI를 계산할 수 없게 되는 문제가 발생한다. 이 문제를 해결하기 위해서, 그동안 컴퓨터 비전(Computer Vision) 분야의 많은 연구자들은 체중계와 신장계를 사용하지 않고도 BMI를 추정할 수 있는 다양한 방법을 연구해 왔다.

기존의 BMI 추정 연구들에서는 얼굴 또는 전신 이미지 데이터(Image Data)가 주로 사용됐다. 얼굴 이미지 기반 BMI 추정 기술의 경우, 대부분 통제된 환경에서 구축된 얼굴 이미지 데이터 세트(Dataset)가 연구에 활용됐다. 예를 들어, 얼굴 이미지 기반 BMI 추정 기술 연구에서 널리 사용되는 데이터 세트 중 하나인 MORPH-II 데이터 세트[5]의 경우, 깨끗한 배경에서 피험자를 정면에서 촬영해서 얻은 얼굴 이미지로 데이터 세트를 구축했다. 그러나 실제 상황에서 얼굴 이미지는 통제되지 않은 상황에서 촬영될 수도 있다. 예를 들어, 얼굴 이미지가 정면이 아닌 측면에서 촬영될 수 있고, 배경이 복잡할 수도 있다. 또한 마스크(Mask)를 착용해 얼굴의 일부가 가려질 수도 있다. 그러나 기존의 얼굴 이미지 기반 BMI 추정 기술에서 사용된 특징(Features)의 대부분은 가려짐 없는 정면 얼굴 이미지에서만 추출할 수 있다. 따라서, 실제 상황에서 해당 기술의 BMI 추정 실효성은 검증이 필요하다.

전신 이미지 기반 BMI 추정 기술에서도 얼굴 이미지 기반 기술과 유사하게, 대부분 통제된 환경에서 구축된 전신 이미지 데이터 세트가 연구에 활용됐다. 피험자는 전신 이미지를 촬영하는 동안 차렷 자세로 서 있을 것을 요청받았으며, 모두 정면에서 촬영됐다. 따라서 기존의 전신 이미지 기반 BMI 추정 기술에서도, 사용된 특징의 대부분은 정면 전신 이미지에서만 얻을 수 있다. 그러므로 실제 상황에서 해당 기술로 BMI를 추정하려면, 정면 전신 이미지를 촬영할 수 있도록 사용자의 협조가 필수적이다.

최근, 인간 자세 추정(Human Pose Estimation) 기술의 발전 덕분에, 사람의 정밀한 전신 움직임 데이터(Whole-Body Motion Data)를 빠르고 쉽게 획득하는 것이 가능해졌다[6-8]. 그 결과 다양한 응용 분야에서 움직임 데이터를 활용한 연구들이 활발히 수행되고 있으며, 대표적인 응용 분야에는 행동 인식, 애니메이션 생성, 개인식별 등이 있다. 기존의 얼굴 및 전신 이미지 기반 BMI 추정과 비교했을 때, 움직임 데이터 기반 BMI 추정은 사용자가 평소와 같은 방식으로 자연스럽게 움직이기만 하면 사용자의 협조 없이도 수행될 수 있다는 장점이 있다. 또한, 움직임 데이터는 정면뿐만 아니라 다양한 각도에서 촬영한 영상에서도 획득할 수 있어, 사용자가 반드시 카메라를 정면으로 향해 서있을 필요가 없다. 그 결과 사용자가 불편함을 거의 느끼지 않는 상태에서 BMI를 추정할 수 있다.

하지만 움직임 데이터 기반 BMI 추정 기술이 처음 제시됐던 2015년도 당시, 문헌에서 제시된 결과에 따르면 BMI 분류 정확도는 약 60%에 불과했다[9]. 이는 얼굴 및 전신 이미지 기반 BMI 추정 기술의 정확도에 훨씬 미치지 못하는 수준이었으며, 많은 연구자가 움직임 데이터 기반 BMI 추정 기술을 등한시하게 된 원인이 됐다. 그리고 그 결과 움직임 데이터 기반 BMI 추정 기술에 관해서, 현재까지 발표된 연구 논문의 수는 그리 많지 않다.

이에 본 연구에서는 움직임 데이터 기반 BMI 추정 기술의 분류 정확도를 향상시킬 수 있는 방법을 연구했다. 본 연구의 주요 기여 포인트는 다음과 같이 요약할 수 있다.

⦁ [9]에서 제시됐던 BMI 분류 정확도가 약 60%에 불과했던 원인을 규명했다. 본 연구의 조사 결과에 따르면 BMI 분류 정확도가 낮았던 원인은 랜덤 언더샘플링(Random Undersampling) 기법의 사용에서 비롯된 것으로 규명됐다.

⦁ [9]에서 공개된 움직임 데이터 세트에서 언더샘플링 기법 대신 오버샘플링(Oversampling) 기법을 적용하면, BMI 분류 정확도가 향상되는 것을 확인했다. 3가지 오버샘플링 기법에 대해, 6가지 머신러닝(Machine Learning) 모델에 대한 BMI 분류 성능 평가 결과를 제공한다.

⦁ 움직임 데이터 기반 BMI 추정 기술에서 인체 측정학(Anthropometric) 특징과 시공간적(Spatiotemporal) 특징의 유용성을 입증한다. 실험 결과에 따르면, 두 특징을 함께 모델의 입력 특징으로 사용했을 때 92.92%의 BMI 분류 정확도로 가장 우수한 성능을 달성했다.

본 논문의 구성은 다음과 같다. Ⅱ장에서는 얼굴 이미지, 전신 이미지, 움직임 데이터 기반 BMI 추정에 관련된 선행연구 검토 내용이 기술되어 있다. Ⅲ장에서는 본 연구의 동기가 기술되어 있다. Ⅳ장에서는 본 연구에서 제안하는 움직임 데이터 기반 BMI 분류 방법이 기술되어 있다. Ⅴ장에서는 성능 평가를 위해서 사용한 데이터 세트, 실험 환경 및 결과가 기술되어 있다. Ⅵ장에서는 본 논문의 결론 및 향후 과제가 기술되어 있다.

II. Preliminaries

1. Related Work

지난 수십 년간, 체중계와 신장계를 사용하지 않고도 BMI를 추정할 수 있는 다양한 방법들이 꾸준히 연구됐다. BMI 분류 기술에 관한 대부분의 선행연구는 주로 얼굴 이미지에서 사람의 체중 또는 BMI를 계산하는 데 중점을 두었다. 예를 들어, Coetzee et al.은 [10]에서 얼굴 이미지에서 추출한 1) 폭 대 높이 비율, 2) 둘레 대 면적 비율, 3) 볼 대 턱 너비 비율의 세 가지 얼굴 특징이 사람의 체중 및 BMI와 높은 상관관계를 갖는다는 것을 보였다. 그리고 이 세 가지 특징을 이용해 사람의 체중과 BMI를 추정할 것을 제안했다. [10]의 연구에서 영감을 받은 Pham et al.은 [11]에서 911명의 피험자의 얼굴 이미지를 사용해 [10]에서 제안된 세 가지 얼굴 특징과 BMI 사이의 관계를 평가했다. 평가 결과에 따르면, 세 가지 얼굴 특징뿐만 아니라 눈 크기와 평균 눈썹 높이도 BMI와 관련이 있는 것으로 밝혀졌다. Wen과 Guo는 [12]에서 얼굴 이미지로부터 사람의 BMI를 예측하는 방법을 제안했다. 이 방법에서는, 먼저 [10,11]에서 제안된 얼굴 특징을 배경이 깨끗한 여권 스타일(Style)의 정면 얼굴 이미지로부터 추출한다. 그다음 추출한 특징을 사용해 서포트 벡터 회귀(Support Vector Regression, SVR) 모델을 훈련하고, BMI를 예측할 수 있게 한다.

앞서 [10-12]에서 제안된 기술은 모두 깨끗한 배경을 갖는 정면 얼굴 이미지로부터 BMI를 추정하는 상황을 가정하고 있다. 따라서, 얼굴 이미지가 측면에서 촬영되거나 복잡한 배경을 갖는 상황에는, [10-12]에서 제안된 기술을 적용하는 데 제약이 있을 수 있다. 이에 기존 연구들과는 달리, Kocabey et al.은 [13]에서 소셜 미디어에서 수집한 저품질 얼굴 이미지로부터 BMI를 예측하는 방법을 제안했다. 제안 방법에는 합성곱 신경망(Convolutional Neural Network, CNN)이 사용됐으며, CNN의 여섯 번째 완전 연결 계층의 출력이 BMI 예측을 위한 특징으로 활용됐다. 그리고 상기 특징을 활용해 SVR 모델을 훈련하고, 소셜 미디어에서 수집한 얼굴 데이터 세트를 사용하여 훈련된 모델을 평가했다. 평가 결과는 제안 기술을 활용하면 저품질 얼굴 이미지로부터 BMI를 예측할 수 있음을 보여주었다.

[13]의 연구에 영감을 받은 Aarotale et al.은 [14]에서 6개의 CNNs을 앙상블(Ensemble)하여, 정면 얼굴 이미지로부터 BMI를 예측하는 방법을 제안했다. 제안된 방법에서 얼굴 이미지는 이마, 좌우 눈, 좌우 볼, 턱의 6가지 패치(Patches)로 분할되며, 분할된 영역마다 CNN이 BMI를 예측할 수 있도록 독립적으로 훈련된다. 그리고 6개의 분할 패치로부터 CNNs이 예측한 BMI 값을 평균하여 최종 BMI 예측값을 얻는다.

얼굴 이미지 이외에도 전신 이미지로부터 BMI를 예측 및 분류하는 방법에 관한 연구들도 진행됐다. 예를 들어, Bipembi et al.은 [15]에서 전신 실루엣(Silhouette) 이미지로부터 BMI를 예측하는 방법을 제안했다. 제안된 방법에서는 차렷 자세로 서 있는 피험자의 정면 전신 이미지를 촬영하고, 이 이미지를 실루엣 이미지로 변환시킨다. 그다음 실루엣 이미지로부터 피험자의 면적과 신장을 계산하는데, 여기서 면적은 실루엣이 차지하는 픽셀(Pixel) 수로 계산되며 신장은 실루엣에서 가장 높이 위치한 픽셀과 가장 낮게 위치한 픽셀 사이의 거리로 계산된다. 마지막으로, 계산된 면적과 신장 값을 이용해 BMI를 계산한다.

Amador et al.도 [16]에서 실루엣 이미지로부터 BMI를 분류하는 방법을 제안했다. 제안된 방법에서는 먼저 실루엣 이미지로부터 총 57개의 형상 특징(Shape Features)을 추출한다. 그다음 추출한 특징을 사용해 머신러닝 모델을 훈련하고, BMI를 분류할 수 있게 한다. 실험에서 평가된 머신러닝 모델은 로지스틱 회귀(Logistic Regression), 베이지안 분류기(Bayesian Classifier), 인공신경망(Artificial Neural Network), 서포트 벡터 머신(Support Vector Machine, SVM)이었으며, 실험 결과에 따르면 4가지 모델 중에서 SVM이 약 72%의 정확도로 가장 우수한 성능을 보였다.

앞서 [15,16]의 연구에 영감을 받은 Pantanowitz et al.은 [17]에서 전신 이미지 기반 BMI 분류 기술의 정확도를 높이는 방법을 제안했다. 제안된 방법에서는 먼저 정확한 실루엣 이미지를 얻기 위해서, 피험자에게 팔을 양쪽으로 벌리고 다리를 약간 벌린 상태로 카메라 앞에 서 있을 것을 요구했다. 그다음 피험자의 정면 이미지를 촬영하고, 이 이미지로부터 실루엣 이미지를 생성했다. 피험자가 차렷 자세였을 때보다 팔과 다리를 벌렸을 때, 정확한 실루엣 이미지를 획득할 수 있었다. 그리고 이렇게 얻은 실루엣 이미지를 활용해, BMI를 분류할 수 있도록 CNN을 훈련했다.

Kim et al.도 [18]에서 전신 이미지 기반 BMI 분류 기술의 정확도를 높이는 방법을 제안했다. [17]에서 제안된 접근 방법과는 달리 Kim et al.은 다시점(Multi-View)에서 촬영한 피험자의 전신 이미지를 사용하는 방법에 주목했다. 제안된 방법에 따르면, 먼저 정면, 측면, 후면의 총 3가지 시점(View)에서 피험자의 전신 이미지를 촬영한다. 그다음 촬영을 통해 얻은 3개의 이미지를 활용해, CNN이 BMI를 예측할 수 있도록 훈련한다. 실험 결과에 따르면, 제안된 방법은 BMI 예측에 관해 약 3.12의 평균 절대 오차(Mean Absolute Value, MAE)를 달성했다.

Jin et al.은 [19]에서 전신 이미지로부터 BMI를 예측하기 위해서, 어텐션 메커니즘(Attention Mechanism)과 CNN을 결합한 방법을 제안했다. 그리고 제안하는 방법을 평가하기 위해서, 레딧 웹사이트(Reddit Website)로부터 4,190장의 전신 이미지를 수집했다. 수집한 전신 이미지는 모두 정면에서 촬영한 이미지였으며 이를 이용한 실험 결과에 따르면, 어텐션 메커니즘과 CNN을 결합한 방식은 BMI 예측에 관해 3.85의 MAE를 달성했다.

움직임 데이터로부터 BMI를 분류하는 방법은 2015년에 Andersson et al.이 [9]에서 처음 제안했다. Andersson et al.은 먼저 112명의 피험자로 구성된 3차원 보행 데이터 세트를 구축했다. 그다음 보행 데이터로부터 인체 측정학 특징과 걸음걸이 특징을 추출했다. 또한, 피험자의 몸무게와 신장으로부터 BMI를 계산해 이들을 저체중, 정상체중, 과체중의 세 가지 범주로 구분했다. 그러나 데이터 세트에서 저체중 범주로 분류된 피험자의 수가 너무 적었으며, 대부분은 정상 체중으로 분류됐다. 일반적으로 클래스별 샘플(Sample) 수가 불균등한 데이터 세트를 사용해 분류기를 학습시키면, 샘플 수가 적은(Minority) 소수 클래스에 대한 분류 성능이 저하된다는 것은 널리 잘 알려져 있다[20-22]. 이에 Andersson et al.은 데이터 세트의 클래스 불균형(Class Imbalance)을 해결하기 위해서 다수(Majority) 클래스에서 일부 샘플을 무작위로 제거하는 언더샘플링 기법을 적용했다. 그리고 언더샘플링된 특징을 사용해 머신러닝 모델을 훈련하고, BMI를 세 가지 범주 중 하나로 분류할 수 있게 했다. 실험에서는 SVM, k-Nearest Neighbors(k-NN), 다층 퍼셉트론(Multilayer Perceptron, MLP)의 세 가지 머신러닝 모델의 BMI 분류 정확도가 평가됐다. 실험 결과에 따르면, SVM, k-NN, MLP의 BMI 분류 정확도는 각각 53.3%, 51.6%, 60%였다. 세 가지 모델 모두 정확도가 낮았기 때문에 Andersson et al.은 보행 데이터로부터 BMI를 분류하는 것은 매우 어려운 문제라고 결론지었다.

2. Oversampling Techniques

1) Random Oversampling

오버샘플링 기법은 데이터 세트의 클래스 분포를 조정하는 데 사용되는 기술 중의 하나다. 초창기에는 랜덤 오버샘플링 기법이 널리 사용됐으며, 이름에서 알 수 있듯이 일부 소수 클래스에 속하는 샘플들 중에서 일부 샘플을 무작위로 선택 및 복사하는 형태로 훈련 세트(Training Set)에 존재하는 클래스 불균형 문제를 해결한다. 하지만 소수 클래스 샘플의 중복으로 인해, 머신러닝 모델이 중복된 샘플을 실제보다 더 중요한 것으로 취급하는 형태로 훈련이 진행될 수 있어, 과적합(Overfitting)이 쉽게 발생할 수 있다. 또한 랜덤 오버샘플링 기법은 훈련 세트 내 기존 샘플을 단순히 복제할 뿐이므로, 훈련 세트에 새로운 샘플이 추가되지 않는다. 그리고 그 결과 머신러닝 모델은 새로운 패턴이나 관계를 학습하지 못한다는 한계를 갖는다. 게다가 소수 클래스의 샘플을 복제해서 만든 훈련 세트로 학습된 머신러닝 모델은 소수 클래스 쪽으로 편향될 수 있다. 실제로 편향되게 될 경우, 머신러닝 모델은 다수 클래스에 속하는 샘플에 대한 레이블(Label)을 소수 클래스의 레이블로 잘못 예측하게 된다.

2) Synthetic Minority Oversampling Technique

랜덤 오버샘플링의 한계와 단점을 극복하기 위해 다양한 기법들이 개발됐는데, 대표적으로 SMOTE(Synthetic Minority Oversampling Technique)가 있다. SMOTE의 동작 원리는 설명하기 위해서 임의의 훈련 세트가 있다고 가정해 보자. 소수 클래스의 샘플을 오버샘플링하기 위해서 먼저 훈련 세트 내 소수 클래스에서 1개의 샘플을 추출하고, 추출된 샘플과 가장 가까운 r개의 이웃 샘플을 찾는다. 그다음 r개의 이웃 샘플 중에서 1개를 선택하고, 처음 추출됐던 샘플 사이의 벡터를 구한다. 그리고 벡터에 0과 1사이의 난수를 곱하고, 그 결과를 소수 클래스의 새로운 합성(Synthetic) 샘플로써 훈련 세트에 추가한다. 이와 같은 방식으로 새로운 합성 샘플을 추가하는 것은, 랜덤 오버샘플링처럼 단순히 샘플을 복제해 추가하는 방식에 비해 과적합 발생을 완화하는 데 도움이 된다고 알려져 있다. 하지만, 생성된 합성 샘플이 원본 샘플과 유사한 경우 합성 샘플로 인해 과적합이 발생할 위험성이 여전히 있다.

3) Adaptive Synthetic Sampling Approach

SMOTE로부터 생성된 합성 샘플은 클래스 간 경계 근처에 놓일 수 있다. 그 결과로 만약 소수 클래스와 다수 클래스가 특징 공간(Feature Space)상에서 잘 분리되지 않게 될 경우, 흐릿한 결정 경계(Decision Boundary)가 찾아져 머신러닝 모델의 분류 성능이 저하될 수 있다. 이러한 문제점을 해결하기 위해서 개발된 오버샘플링 기법에는 대표적으로 ADASYN(Adaptive Synthetic Sampling Approach)가 있다. ADASYN은 기본적으로 SMOTE의 합성 샘플을 생성하는 방식을 따르되, 다음과 같은 차이점이 있다. 우선 ADASYN에서는 소수 클래스에서 추출한 1개의 샘플에 대해서 이웃 샘플들의 클래스를 확인한다. 이웃 샘플들 내 다른 클래스에 속한 샘플이 많을 경우, 합성 샘플을 적게 생성한다. 반대로, 다른 클래스에 속한 샘플이 적을 경우, 합성 샘플을 많이 생성한다. 이런 방식으로 합성 샘플을 훈련 세트에 추가하게 되면, SMOTE 방식보다 클래스 간 경계를 명확하게 만들 수 있다. 하지만, ADASYN 또한 SMOTE와 마찬가지로 합성 샘플로 인해 과적합이 발생할 위험성은 여전히 남아 있다.

III. Motivation

언더샘플링에 관한 일부 연구 결과에 따르면, 클래스 불균형 문제에 대한 좋은 해결책이 되지 못하는 경우도 존재한다고 한다[23-25]. 특히 언더샘플링 기법을 적용하면 다수 클래스에서 중요하고 유용한 샘플이 제거될 수 있고, 이 경우 다수 클래스와 소수 클래스 모두에 대해 분류기의 성능 저하가 발생할 수 있다고 한다.

이에 본 연구에서는 먼저, Andersson et al.이 [9]에서 제시한 3차원 보행 데이터 기반 BMI 분류 기술의 정확도가 낮았던 원인이 Andersson et al.이 적용한 언더샘플링 기법에 있는지 규명하고자 했다. 이를 위해서, [9]에서 사용된 언더샘플링 기법을 포함한 총 3가지의 언더샘플링 기법을 적용해 3차원 보행 데이터 기반 BMI 분류 기술을 평가했다. 실험 결과에 따르면, 언더샘플링 기법을 통해 보행 데이터 세트 내 클래스 불균형 문제는 해결됐지만, 다수 클래스에서 샘플이 제거됨에 따라 언더샘플링된 훈련 세트의 총 샘플 수는 큰 폭으로 감소했다. 그리고 모든 언더샘플링 기법에 대해 [9]에서 제시된 실험 결과와 유사한, 낮은 BMI 분류 성능을 재현해 확인했다.

다음으로 BMI 분류 성능을 향상시킬 수 있는 방법을 연구했다. 연구 결과에 따르면, 오버샘플링 기법을 적용해 데이터 세트 내 클래스 불균형 문제를 해결하는 것이, BMI 분류 성능 향상에 도움이 되는 것을 보였다. 오버샘플링 기법은 다수 클래스에서 일부 샘플을 제거하는 대신에 새로운 합성 샘플을 생성하여 소수 클래스의 샘플을 보강하는 방식으로 클래스 불균형 문제를 해결한다. 오버샘플링 방식에 따른 BMI 분류 성능 향상 정도를 살펴보기 위해 총 3가지 오버샘플링 방식을 적용 및 평가했다. 머신러닝 모델에 따라 성능 향상 정도는 차이가 있었으나, 오버샘플링 기법을 적용할 경우, 언더샘플링 기법을 적용했을 때보다 성능이 향상되는 것을 확인했다.

마지막으로, 3차원 보행 데이터 기반 BMI 추정 기술에서 인체 측정학 특징과 시공간적 특징의 유용성을 재입증했다. 이를 위해서, 먼저 3차원 보행 데이터로부터 인체 측정학 특징과 시공간적 특징을 추출하고, 각 특징이 BMI 분류 정확도에 미치는 영향을 애블레이션 연구(Ablation Study)를 통해 확인했다. 실험 결과에 따르면, 모델 훈련 과정에서, 인체 측정학 특징과 시공간적 특징을 각각 단독으로 사용했을 때보다 이 둘을 함께 사용했을 때 SOTA(State-Of-The-Art) 성능을 달성할 수 있었다.

IV. Proposed Method

그림 1은 본 연구에서 제안하는 3차원 보행 데이터 기반 BMI 분류 방법의 개요를 도식화해 보여준다. 제안하는 방법에서는, 먼저 입력된 3차원 보행 데이터에 대해 인체 측정학 특징 및 시공간적 특징을 추출한다. 그다음 오버샘플링 기법을 적용해 BMI 클래스마다 샘플 수를 균등하게 만들어 클래스 불균형 문제를 해결한다. 그리고 클래스마다 샘플 수가 균형을 이룬 상태에서 머신러닝 모델을 훈련해, BMI를 분류할 수 있게 한다.

CPTSCQ_2024_v29n9_9_6_f0001.png 이미지

Fig. 1. Schematic Overview of the Proposed Method

제안하는 방법에서 입력으로 사용되는 3차원 보행 데이터는 시계열(Time Series) 데이터로, 프레임(Frame)마다 기록된 데이터는 3차원 인체 골격(Human Skeleton) 모델의 순간 자세(Pose)로 이해할 수 있다. 3차원 인체 골격 모델의 자세는 (x, y, z)좌표로 구성된 M개의 관절로 표현되며, M의 값은 모션 캡처 장비(Motion Capture Device)의 종류 및 버전(Version)에 따라 다를 수 있다. 예를 들어, 널리 사용되는 모션 캡처 장비 중 하나인 Microsoft의 키넥트(Kinect)의 경우 버전 1은 M = 20, 버전 2는 M = 25이다. 또한, 가장 최신 버전인 애저(Azure) 키넥트의 경우 M = 32이다[26].

본 연구에서 사용한 3차원 보행 데이터 세트는 [9]에서 Andersson et al.이 온라인(Online)상에 공개한 데이터 세트로, 상기 보행 데이터 수집에는 키넥트 버전 1이 사용됐다. 그리고 키넥트 버전 1이 제공하는 3차원 인체 골격 모델의 각 관절 정보는 그림 2에 제시돼 있다.

CPTSCQ_2024_v29n9_9_6_f0002.png 이미지

Fig. 2. Three-Dimensional Human Skeleton Model Consisting of Twenty Joints

제안하는 3차원 보행 데이터 기반 BMI 분류 방법에서 활용한 인체 측정학 특징 및 시공간적 특징의 추출 과정을 설명하기 위해, 관절 인덱스(Index)의 집합을 J = {j|j is an integer, and 1 ≤ j ≤ 20}라 하자. 그리고 xj[n], yj[n], zj[n]를 각각 n번째 프레임에서 j번째 관절의 x축, y축, z축 좌푯값이라고 하자. 그러면 n번째 프레임에서 j번째 관절의 3차원 공간에서의 좌표는 Pj[n] = (xj[n], yj[n], zj[n])로 표현된다[27-35].

인체 측정학 특징은 3차원 보행 데이터의 프레임마다 추출한 보행자의 보디 세그먼트(Body Segment)별 평균 길이와 평균 신장으로 구성된다. 여기서 보디 세그먼트는 두 관절 사이의 에지(Edge)으로 정의되며, 각 보디 세그먼트에 대한 정의는 표 1에 기술돼 있다. 표 1에서 B는 보디 세그먼트를 결정짓는 관절 쌍(Pair)의 집합을 의미하며, B = {(i, j)|i ≠ j, i ∈ J, j ∈ J}로 정의된다. 그러면 보디 세그먼트의 평균 길이 \(\begin{align}\bar {s}_{(i,j)}\end{align}\)는 수식 (1)과 같이 계산된다.

\(\begin{align}\bar{s}_{(i, j)}=\frac{1}{N} \sum_{n=1}^{N}\left\|P_{i}[n]-P_{j}[n]\right\|,(i, j) \in B\end{align}\).       (1)

Table 1. Information about nineteen body segments

CPTSCQ_2024_v29n9_9_7_t0001.png 이미지

수식 (1)에서 N은 입력 보행 데이터의 전체 프레임 수를, ∥ ∥은 유클리디안 노름(Euclidean Norm)을 의미한다. 그다음 n번째 프레임에서 보행자의 신장 h[n]은 수식 (2)와 같이 계산된다.

h[n] = s(1,2)[n] + s(2,11)[n] + s(11,12)[n] + (s(12,13)[n] + s(12,14)[n])/2 + (s(13,15)[n] + s(14,16)[n])/2 + (s(15,17)[n] + s(16,18)[n])/2.       (2)

수식 (2)에서 s(i,j)[n]는 두 관절 (i,j) ∈ B에 의해 정의되는 보디 세그먼트의 n번째 프레임에서의 길이를 의미한다. 그리고 수식 (2)로부터, 평균 신장 \(\begin{align}\bar {h}\end{align}\)는 수식 (3)과 같이 계산된다.

\(\begin{align}\bar{h}=\frac{1}{N} \sum_{n=1}^{N} h[n]\end{align}\).       (3)

인체 측정학 특징은 19개의 보디 세그먼트에 대해 수식 (1)을 이용해 계산된 평균 길이 19개와 수식 (3)으로부터 계산된 평균 신장 1개, 즉 총 20개의 원소로 구성된 벡터로 표현된다.

시공간적 특징은 보행자의 Step Length와 키넥트의 프레임률(Frame Rate)을 활용해 계산된다. 일반적으로, Step Length는 그림 3에서와 같이 한쪽(왼쪽) 발의 초기 접촉 지점과 반대쪽(오른쪽) 발의 초기 접촉 지점 사이의 거리로 정의된다. 본 연구에서는 Step Length를 계산하기 위해서 두 발의 초기 접촉 지점을 그림 2의 Ankle Right와 Ankle Left로 설정하고, n번째 프레임에서 Ankle Right와 Ankle Left 사이의 거리 Diff[n]을 수식 (4)와 같이 계산한다.

Diff[n] = ∥P17[n] - P18[n]∥.       (4)

CPTSCQ_2024_v29n9_9_7_f0001.png 이미지

Fig. 3. Step Length and Stride Length

그림 4는 프레임에 따른 Diff[n]의 변화를 보여준다. Ankle Right와 Ankle Left가 서로 가장 멀리 떨어져 있는 시점에서 Diff[n]은 극댓값(Local Maximum Value)을 가지며, 해당 시점을 기준으로 한쪽 발이 발자국을 떼어 앞으로 움직이게 되면 반대쪽 발과 거리가 가까워지게 돼 Diff[n]의 값이 줄어든다. 그리고 양쪽 발이 포개지는 시점에서 Diff[n]은 극솟값(Local Minimum Value)을 갖게 된다. 해당 시점 이후부터는 다시 양쪽 발이 서로 멀어져 Diff[n]의 값은 극대점(Local Maximum Point)에 도달할 때까지 증가한다. 이 과정은 보행 중에 반복적으로 일어나며, 결과적으로 그림 4에서 확인할 수 있는 것과 같이 Diff[n]은 프레임에 따라 극대점과 극소점(Local Minimum Point)이 번갈아 가며 반복적으로 나타나는 형태로 표현된다.

CPTSCQ_2024_v29n9_9_7_f0002.png 이미지

Fig. 4. Trajectory of Diff[n] During Walking

보행 중 Diff[n]가 k번째 극대점이 되는 시점(즉, 프레임 인덱스)을 nmax,k라고 하자. 그리고 보행 중 극대점이 총 K번 존재했을 때, nmax,k, k ∈ {1, 2, …, K}의 집합을 Nmax = {nmax,1, nmax,2, …, nmax,K}라 하자. 본 논문에서는 보행 중 Diff[n]의 극댓값들의 평균값으로 Step Length를 정의한다. 따라서, Step Length는 수식 (5)와 같이 계산된다.

\(\begin{align}\text {Step Length}=\frac{1}{K} \sum_{k=1}^{K} \operatorname{Diff}\left[n_{\max , k}\right]\end{align}\).       (5)

그리고 일반적으로 그림 3에서와 같이 Stride Length는 Step Length에 2배에 해당하므로, 수식 (5)를 사용해 Stride Length를 수식 (6)과 같이 계산한다.

Stride Length = 2 × Step Length.       (6)

본 연구에서는 수식 (6)의 Stride Length를 첫 번째 시공간적 특징으로 사용한다. 그리고 보행 중 연속하는 두 Diff[nmax,k]와 Diff[nmax,k+1]의 합으로, Local(국소) Stride Length를 수식 (7)과 같이 계산한다.

Local Stride Length [l] = Diff[nmax,l] + Diff[nmax,l+1], l ∈ {1, 2, … K - 1).       (7)

그다음 수식 (7)을 사용해 Local Stride Length의 평균값을 수식 (8)과 같이 계산한다.

\(\begin{align}\begin{array}{l} \overline {\text {Local Stride Length}}=\\ \frac{1}{K-1} \sum_{l=1}^{K-1} \text {Local Stride Length} [l].\end{array}\end{align}\)       (8)

본 연구에서는 수식 (8)의 \(\begin{align}\overline { \text {Local Stride Length}}\end{align}\)를 두 번째 시공간적 특징으로 사용한다. 그다음으로는 그림 3의 보행 주기(Gait Cycle)를 계산하는 데, 보행 주기는 수식 (9)와 같이 보행 중 연속하는 두 극대점 사이의 프레임 차이로 계산된다.

Gait Cycle [l] = nmax,l+1 - nmax,l, l ∈ {1, 2, …, K - 1}.       (9)

그다음 수식 (9)을 사용해 보행 주기의 평균값을 수식 (10)과 같이 계산한다.

\(\begin{align}\overline{\text { Gait Cycle }}=\frac{1}{K-1} \sum_{l=1}^{K-1} \text {Gait Cycle}[l].\end{align}\)       (10)

Microsoft의 키넥트는 프레임률이 30fps(Frames Per Second)이므로, 수식 (10)에서 구한 \(\begin{align}\overline {\text {Gait Cycle}}\end{align}\)을 수식 (11)과 같이 단위가 초(Second)인 보행 주기(단위가 프레임인 Gait Cycle과 구분을 위해, 단위가 초인 보행 주기는 Gait Period라고 표기함)로 환산해 구할 수 있다.

\(\begin{align}\overline{\text { Gait Period }}=\frac{\overline{\text { Gait Cycle }}}{30 \mathrm{fps}}.\end{align}\)       (11)

본 연구에서는 수식 (11)의 \(\begin{align}\overline {\text {Gait Period}}\end{align}\)를 세 번째 시공간적 특징으로 사용한다. 그다음 수식 (8)로부터 구한 \(\begin{align}\overline {\text {Local Stride Length}}\end{align}\)과 수식 (11)의 \(\begin{align}\overline {\text{Gait Period}}\end{align}\)를 사용해, 평균 보행 속력 \(\begin{align}\overline {\text {Speed}}\end{align}\)를 수식 (12)와 같이 계산 한다.

\(\begin{align}\overline {\text {Speed}} = \frac{\overline {\text {Local Stride Length}}} {\overline {\text {Gait Period}}}.\end{align}\)       (12)

본 연구에서는 수식 (12)의 \(\begin{align}\overline {\text {Speed}}\end{align}\)를 마지막 네 번째 시공간적 특징으로 사용한다.

수식 (1), (3)으로부터 구한, 20개의 원소로 구성된 인체 측정학 특징 벡터를 AF라 하자. 그리고 수식 (6), (8), (11), (12)로부터 구한, 4개의 원소로 구성된 시공간적 특징 벡터를 SF라 하자. 제안하는 방법에서는 AF와 SF를 결합하여(Concatenate) 만든 특징 벡터를 BMI 분류에 활용하며, 이렇게 만들어진 특징 벡터의 차원은 24다.

상기 기술한 특징 추출 과정을 3차원 보행 데이터 세트 내 보행 데이터에 적용하여 AF+SF 특징 벡터를 구한다. 하지만 데이터 세트 내 BMI 클래스마다 샘플 수가 서로 달라, 클래스 불균형 문제가 있는 상태다. 클래스 불균형 문제가 있는 상태에서 앞서 구한 특징 벡터와 BMI 레이블 데이터로 머신러닝 모델을 훈련하면, 소수 클래스에 대한 성능이 저하되는 문제가 발생한다. 따라서 제안하는 방법에서는 모델 훈련 전에 오버샘플링 기법을 적용해 BMI 클래스마다 샘플 수를 균등하게 만들어 클래스 불균형 문제를 해결한다. 그리고 클래스마다 샘플 수가 균형을 이룬 상태에서 머신러닝 모델을 훈련해, BMI를 분류할 수 있게 한다. 오버샘플링 기법 그리고 머신러닝 모델의 종류에 따른 제안하는 방법의 BMI 분류 성능은 다음 장에서 구체적으로 다룬다.

V. Experimental Results

1. Dataset and Evaluation Protocol

본 연구에서는 제안하는 방법의 성능을 평가하기 위해서, [9]에서 소개된 3차원 보행 데이터 세트1)를 이용했다. 상기 데이터 세트에는 112명의 피험자로부터 수집된 BMI 정보와 3차원 보행 데이터가 있다. 피험자마다 총 5개의 3차원 보행 데이터가 기록돼 있는데, ‘Person158’로 표기된 피험자의 경우 4개의 보행 데이터만 제공됐다. 또한, ‘Person034,’ ‘Person036,’ ‘Person053,’ ‘Person096’으로 표기된 4명의 피험자에 대해서는 각각 보행 데이터가 6개씩 제공됐다. 그 결과 데이터 세트 내 3차원 보행 데이터의 개수는 총 563개였다.

본 연구에서는 WHO에서 공시하고 있는 BMI에 따른 비만 단계 구분 기준을 따라, 피험자의 비만 단계를 3단계로 구분했다. 구체적으로는, BMI가 25 미만인 피험자는 ‘정상체중(Normal Weight),’ BMI가 25 이상인 피험자는 ‘과체중(Overweight),’ BMI가 30 이상인 피험자는 ‘비만(Obesity)’으로 구분했다. 그 결과 그림 5에서 확인할 수 있듯이 ‘정상 체중’에 해당하는 3차원 보행 데이터는 398개, ‘과체중’에 해당하는 보행 데이터는 130개, ‘비만’에 해당하는 데이터는 35개였다. 그리고 ‘정상 체중,’ ‘과체중,’ ‘비만’에 해당하는 보행 데이터에 대해서, 각각 0, 1, 2의 레이블 값을 지정했다.

CPTSCQ_2024_v29n9_9_8_f0001.png 이미지

Fig. 5. Distribution of 3-D Gait Data According to the BMI of the Subjects

전처리(Preprocessing) 과정으로, 3차원 보행 데이터로 부터 추출한 인체 측정학 특징 AF와 시공간적 특징 SF에 대해서 표준화(Standardization)를 수행해, 각 특징을 정규화했다. 또한, 머신러닝 모델의 일반화(Generalization) 성능을 도출하기 위해서, 4-겹 교차 검증(4-Fold Cross Validation)을 수행했다. 그리고 검증 과정에 머신러닝 모델의 하이퍼파라미터 튜닝(Hyperparameter Tuning) 과정을 적용해, 검증 과정 동안 최적의 하이퍼파라미터 조합을 찾을 수 있게 했다. 전체 데이터의 80%를 사용하여 4-겹 교차 검증을 수행했으며, 나머지 20%의 데이터는 4-겹 교차 검증 수행 후 하이퍼파라미터 최적화된 최종 머신러닝 모델을 평가하는 데 사용했다[36-52].

본 연구에서는 3가지 클래스(정상 체중, 과체중, 비만) 마다 True Positive Rate(TPR), Positive Predictive Value(PPV), F1 Score(F1)을 각각 계산하고, 이 값들의 평균값인 Macro-Average TPR, Macro-Average PPV, Macro-Average F1를 최종 성능 평가지표로 사용했다. 또한, 정확도(Accuracy, ACC)도 평가지표로 사용했다.

2. Results

그림 5에서 확인할 수 있듯이 3차원 보행 데이터 세트에는 클래스 불균형 문제가 있는 상태다. 그리고 본 연구에서는 클래스 불균형 문제를 해결하기 위해서 오버샘플링 기법을 적용하는 것을 제안했다. 제안하는 방법의 타당성을 입증하기 위해서, 본 연구에서는 Imbalanced-learn 라이브러리(Library)를 활용하여 3가지의 언더샘플링 기법과 3가지의 오버샘플링 기법에 대해 실험을 수행했으며, 각 기법의 이름과 본 논문에서의 표기법(Notion)은 표 2에 제시돼 있다. 또한 기법별 파라미터 설정값은 표 3에 제시돼 있으며, 파라미터별 의미는 Imbalanced-learn 라이브러리 공식 홈페이지2)에서 확인 가능하다.

Table 2. Undersampling and oversamling techniques

CPTSCQ_2024_v29n9_9_9_t0001.png 이미지

Table 3. Simulation parameters

CPTSCQ_2024_v29n9_9_9_t0002.png 이미지

또한, 본 연구에서는 3차원 보행 데이터 기반 BMI 추정 기술에서 보행 데이터로부터 추출한 인체 측정학 특징 AF와 시공간적 특징 SF의 유용성을 입증하기 위해 각 특징이 머신러닝 모델의 BMI 분류 정확도에 미치는 영향을 애블레이션 연구를 통해 분석했다. 이를 위해서, 본 연구에서는 k-NN, SVM, 랜덤 포레스트(Random Forest, RF), 엑스트라 트리(Extra Trees, ET), 그레이디언트 부스팅(Gradient Boosting, GB), 히스토그램 기반 그레이디언트 부스팅(Histogram-Based Gradient Boosting, HGB)의 총 6가지 머신러닝 모델을 사용했다. scikit-learn 라이브러리를 활용해 각 모델을 생성했으며, 앞서 기술한 4-겹 교차 검증 및 하이퍼파라미터 튜닝을 수행하기 위해서, HalvingGridSearchCV 함수를 사용했다. 본 연구에서 제안하는 방법의 평가 실험을 위해 구현한 모든 소스 코드(Source Codes), 참고 매뉴얼(Manual), 세부 사항들은 모두 저자의 깃허브(Github)에 공개돼 있다3).

1) Anthropometric Feature

첫 번째 애블레이션 연구로, 여기서는 수식 (1), (3)으로 부터 구한, 20개의 원소로 구성된 인체 측정학 특징 벡터 AF만을 활용해 머신러닝 모델을 훈련하고, BMI를 분류할 수 있게 했다. 표 4는 AF만을 활용했을 때, 언더샘플링 & 오버샘플링 기법 종류와 머신러닝 모델 종류에 따른 성능 평가 결과를 보여준다. 표 4의 평가 결과에 따르면, 3가지 언더샘플링 기법이 적용됐을 때보다 3가지 오버샘플링 기법이 적용됐을 때, 6가지 머신러닝 모델 모두에서 BMI 분류 성능이 향상되는 것을 관찰할 수 있었다. [9]에서 Andersson et al.이 적용했던 언더샘플링 기법은 랜덤 언더샘플링, 즉 U3에 해당하며, U3가 사용됐을 때 가장 우수한 성능을 보인 머신러닝 모델은 SVM으로 정확도는 0.5221였다. 3가지 언더샘플링 기법 중에서는 U1이 적용됐을 때, k-NN 모델이 정확도 0.7257로 가장 우수한 성능을 보였다. 3가지 오버샘플링 기법 중에서는 O3가 적용됐을 때, RF와 ET 모델이 정확도 0.8938로 가장 우수한 성능을 보였다. 그림 6은 표 4의 언더샘플링 및 오버샘플링 기법과 머신러닝 모델 사이의 조합 중에서 가장 높은 정확도를 달성했던 조합을 추려 막대그래프로 시각화한 결과를 보여준다. 그래프를 통해서 언더샘플링 기법 대신 오버 샘플링 기법을 사용하면 더 높은 BMI 분류 정확도를 달성할 수 있음을 확인할 수 있다.

Table 4. Results of ablation study 1. For each sampling method, the best records are highlighted in bold. The highest values across sampling methods are highlighted in red.

CPTSCQ_2024_v29n9_9_10_t0001.png 이미지

CPTSCQ_2024_v29n9_9_10_f0001.png 이미지

Fig. 6. The Highest Accuracies among All Combinations in Ablation Study 1

2) Spatiotemporal Feature

두 번째 애블레이션 연구에서는 수식 (6), (8), (11), (12)로부터 구한, 4개의 원소로 구성된 시공간적 특징 벡터 SF만을 활용해 머신러닝 모델을 훈련하고, BMI를 분류할 수 있게 했다. 표 5는 SF만을 활용했을 때, 언더샘플링 & 오버샘플링 기법 종류와 머신러닝 모델 종류에 따른 성능 평가 결과를 보여준다. 표 5의 평가 결과에 따르면, 애블레이션 연구 1에서의 결과와 유사하게 3가지 언더샘플링 기법이 적용됐을 때보다 3가지 오버샘플링 기법이 적용됐을 때, 6가지 머신러닝 모델 모두에서 BMI 분류 성능이 향상되는 것을 관찰할 수 있었다. 하지만, AF을 사용했을 때와 비교하여 SF만으로 머신러닝 모델을 훈련 및 평가했을 때는 오버샘플링 기법이 적용되더라도 머신러닝 모델의 BMI 성능이 전반적으로 크게 좋지는 않았다. 3가지 언더샘플링 기법 중에서는 U1이 적용됐을 때 GB 모델 그리고 U3가 적용됐을 때 RF 모델이 모두 정확도 0.3982로 가장 우수한 성능을 보였다. 3가지 오버샘플링 기법 중에서는 O1이 적용됐을 때, HGB 모델이 정확도 0.6018로 가장 우수한 성능을 보였다. 그림 7은 표 5의 언더샘플링 및 오버샘플링 기법과 머신러닝 모델 사이의 조합 중에서 가장 높은 정확도를 달성했던 조합을 추려 막대그래프로 시각화한 결과를 보여준다. AF를 활용하는 애블레이션 연구 1의 결과와 비교했을 때, 전반적으로 낮은 정확도가 정확도를 보였으나, 애블레이션 연구 2에서도 언더샘플링 기법 대신 오버샘플링 기법을 사용하면 더 높은 BMI 분류 정확도를 달성할 수 있음을 확인할 수 있다.

Table 5. Results of ablation study 2. For each sampling method, the best records are highlighted in bold. The highest values across sampling methods are highlighted in red.

CPTSCQ_2024_v29n9_9_11_t0001.png 이미지

CPTSCQ_2024_v29n9_9_11_f0001.png 이미지

Fig. 7. The Highest Accuracies among All Combinations in Ablation Study 2

3) Anthropometric and Spatiotemporal Features

마지막 세 번째 애블레이션 연구에서는 본 연구에서 제안하는 방법인, 즉 수식 (1), (3)으로부터 구한, 20개의 원소로 구성된 인체 측정학 특징 벡터 AF와 수식 (6), (8), (11), (12)로부터 구한, 4개의 원소로 구성된 시공간적 특징 벡터 SF을 함께 활용해 머신러닝 모델을 훈련하고, BMI를 분류할 수 있게 했다. 표 6은 AF와 SF를 함께 활용했을 때, 언더샘플링 & 오버샘플링 기법 종류와 머신러닝 모델 종류에 따른 성능 평가 결과를 보여준다. 표 6의 평가 결과에 따르면, 앞서 애블레이션 연구 1과 2에서의 결과와 유사하게 3가지 언더샘플링 기법이 적용됐을 때보다 3가지 오버샘플링 기법이 적용됐을 때, 6가지 머신러닝 모델 모두에서 BMI 분류 성능이 향상되는 것을 관찰할 수 있었다. 특히, AF만을 사용하거나 SF만을 사용하는 경우와 비교했을 때 AF와 SF을 함께 사용해서 머신러닝 모델을 훈련 및 평가했을 때, BMI 분류에서 SOTA 성능을 달성할 수 있었다. 해당 SOTA 성능은 표 6에서 O1이 적용됐을 때, k-NN 모델이 정확도 0.9292를 달성한 것에서 확인할 수 있다. 이외에도 비록 SOTA 성능은 아니지만, O1이 적용됐을 때 SVM 모델이 정확도 0.9115를 달성했으며, O2가 적용됐을 때 RF 모델이 정확도 0.9027을, 그리고 O3가 적용됐을 때 k-NN 모델이 정확도 0.9027을 달성했다. 이 결과를 토대로 3차원 보행 데이터 기반 BMI 분류 문제에서 AF와 SF를 함께 사용해 머신러닝 모델을 훈련하는 것이 각 특징을 단독으로 사용하는 것보다 훨씬 효과적이라는 것을 알 수 있다. 그림 8은 표 6의 언더샘플링 및 오버샘플링 기법과 머신러닝 모델 사이의 조합 중에서 가장 높은 정확도를 달성했던 조합을 추려 막대그래프로 시각화한 결과를 보여준다. AF를 활용하는 애블레이션 연구 1 그리고 SF를 활용하는 애블레이션 연구 2의 결과들과 비교했을 때, AF와 SF를 모두 활용하게 될 경우, 오버샘플링 기법들에서 BMI 분류 정확도가 90%를 넘는 것을 확인 수 있다.

Table 6. Results of ablation study 3. For each sampling method, the best records are highlighted in bold. The highest values across sampling methods are highlighted in red.

CPTSCQ_2024_v29n9_9_11_t0002.png 이미지

CPTSCQ_2024_v29n9_9_12_f0001.png 이미지

Fig. 8. The Highest Accuracies among All Combinations in Ablation Study 3

VI. Limitations

비만 판정에 관한 BMI 기준 수치는 동서양에 따라 다르며, 동양 내에서도 국가마다 다르다. 그리고 성별, 나이(유아, 성인 등)에 따라서도 BMI 기준 수치를 달리해 비만을 판정하고 있다. 본 연구에서 사용한 보행 데이터 세트에는 112명의 피험자로부터 수집된 BMI 정보와 보행 데이터가 있다. 112명의 피험자 중에서 남성과 여성은 각각 75명, 37명이다. 그리고 피험자의 나이는 17세부터 45세까지이며, 평균 나이는 21.52세이다. 안타깝게도, 인종에 관한 정보는 기록돼 있지 않다. 따라서 본 연구의 결과는 다양한 인종과 나이대를 포함하지 못한 데이터 세트를 이용해 도출됐다는 한계점을 갖고 있다. 그리고 이러한 한계점으로 인해 본 연구에서 제안하는 기술을 활용해 특정 인종 및 나이대의 BMI를 추정하는 데에는 제한이 있다. 따라서 향후 연구에서는 다양한 인종과 나이대에 대해서 남녀 BMI 정보와 보행 데이터 세트를 구축하고, 이를 토대로 제안 방법을 확장해 연구를 이어나가고자 한다.

VII. Conclusions

본 연구에서는 3차원 보행 데이터 기반 BMI 추정 기술의 분류 정확도를 향상시킬 수 있는 방법을 제안했다. 이를 위해서, 먼저 기존 연구에서 BMI 분류 정확도가 낮았던 원인을 규명했다. 그리고 그 원인은 보행 데이터 세트의 클래스 불균형 문제를 해결하기 위해 언더샘플링 기법을 사용한 것에 있었다. 이에 본 연구에서는 언더샘플링 기법 대신 오버샘플링 기법을 적용해 클래스 불균형 문제를 해결하는 것을 제안했으며, 실험 결과에 따르면 오버샘플링 기법을 적용하면 6가지 머신러닝 모델 모두에서 BMI 추정 성능이 개선되는 것을 확인했다. 또한, 보행 데이터 기반 BMI 추정 기술에서 인체 측정학 특징과 시공간적 특징의 유용성을 재입증했다. 기존 연구에서는 언더샘플링 기법이 적용된 상태에서 인체 측정학 특징과 시공간적 특징의 유용성이 평가됐고, 두 특징을 함께 사용하면 단독으로 사용했을 때보다 BMI 추정 성능이 낮아진다고 보고됐다. 하지만 본 연구 결과에 따르면, 두 특징을 함께 사용하고 상기 오버샘플링 기법을 적용했을 때 BMI 추정 문제에서 92.92%의 정확도로 SOTA 성능을 달성하는 것을 보였다.

ACKNOWLEDGEMENT

This study was supported by the Dongduk Women's University grant in 2024.

References

  1. G. Muscogiuri et al., "Obesity: A gender-view," J. Endocrinol. Invest., Vol. 47, pp. 299-306, Feb. 2024. DOI: 10.1007/s40618-023-02196-z 
  2. J. H. Jeong et al., "DeepHealthNet: Adolescent obesity prediction system based on a deep learning framework," IEEE J. Biomed. Health Inform., Vol. 28, No. 4, pp. 2282-2293, Apr. 2024. DOI: 10.1109/JBHI.2024.3356580 
  3. Y. Han, H. Sung, Y. Choi, and Y. S. Kim, "Trends in obesity, leisure-time physical activity, and sedentary behavior in Korean adults: Korea national health and nutritional examinations survey from 2014 to 2021," PLoS One, Vol. 19, No. 1, pp. 1-15, Jan. 2024. DOI: 10.1371/journal.pone.0296042 
  4. D. Mohajan and H. K. Mohajan, "Body mass index (bmi) is a popular anthropometric tool to measure obesity among adults," J. Innov. Med. Res., Vol 2, No. 4, pp. 25-33, Apr. 2023. DOI: 10.56397/JIMR/2023.04.06 
  5. K. Ricanek and T. Tesafaye, "MORPH: A longitudinal image database of normal adult age-progression," in Proc. 7th Int. Conf. Automatic Face and Gesture Recognit., pp. 341-345, Southampton, UK, Apr. 2006. 
  6. Q. Peng, C. Zheng, and C. Chen, "A dual-augmentor framework for domain generalization in 3d human pose estimation," in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., pp. 2240-2249, Seattle WA, USA, Jun. 2024.
  7. Z. Jiang et al., "Back to optimization: diffusion-based zero-shot 3d human pose estimation," in Proc. IEEE/CVF Winter Conf. Appl. Comput. Vis., pp. 6142-6152, Waikoloa, Hawaii, Jan.2024.
  8. S. Mehraban, V. Adeli, and B. Taati, "MotionAGFormer: Enhancing 3d human pose estimation with a transformer-gcnformer network," in Proc. IEEE/CVF Winter Conf. Appl. Comput. Vis., pp. 6920-6930, Waikoloa, Hawaii, January 2024.
  9. V. O. Andersson, L. S. Amaral, A. R. Tonini, and R. M. Araujo, "Gender and body mass index classification using a Microsoft Kinect sensor," in Proc. 28th Int. Florida Artificial Intelligence Res. Society Conf., pp. 103-106, Hollywood, FL, USA, May 2015. 
  10. V. Coetzee, J. Chen, D. I. Perrett, and I. D. Stephen, "Deciphering faces: Quantifiable visual cues to weight," Perception, Vol. 39, No. 1, pp. 51-61, Jan. 2010. DOI: 10.1068/p6560 
  11. D. D. Pham et al., "Body mass index and facial cues in sasang typology for young and elderly persons," Evid.-based Complement Altern. Med., Vol. 2011, No. 1, pp. 1-9, Feb. 2011. DOI: 10.1155/2011/749209 
  12. L. Wen and G. Guo, "A computational approach to body mass index prediction from face images," Image Vis. Comput., Vol. 31, No. 5, pp. 392-400, May 2013. DOI: 10.1016/j.imavis.2013.03.001 
  13. E. Kocabey et al., "Face-to-bmi: Using computer vision to infer body mass index on social media," in Proc. Int. AAAI Conf. Web and Social Media, pp. 572-575, Montreal, Canada, May 2017. 
  14. P. N. Aarotale, T. Hill, and A. Rattani, "PatchBMI-Net: Lightweight facial patch-based ensemble for bmi prediction," in Proc. IEEE Int. Conf. Bioinformatics and Biomed., pp. 4022-4028, Istanbul, Turkiye, Dec. 2023. 
  15. H. Bipembi, J. B. Hayfron-Acquah, J. K. Panford, and O. Appiah, "Calculation of body mass index using image processing techniques," Int. J. Artif. Intell. Mechatron., Vol. 4, No. 1, pp. 1-7, Jul. 2015. 
  16. J. D. Amador, J. Espejel Cabrera, J. Cervantes, L. D. Jalili, and J. S. Ruiz Castilla, "Automatic calculation of body mass index using digital image processing," in Proc. 5th Workshop on Engineering Appl., pp. 309-319, Medellin, Colombia, Oct. 2018. 
  17. A. Pantanowitz et al., "Estimation of body mass index from photographs using deep convolutional neural networks," Informatics in Medicine Unlocked, Vol. 26, pp. 1-8, Sep. 2021. DOI: 10.1016/j.imu.2021.100727 
  18. S. Kim, K. Lee, and E. C. Lee, "Multi-view body image-based prediction of body mass index and various body part sizes," in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., pp. 6033-6040, Vancouver, Canada, Jun. 2023. 
  19. Z. Jin et al., "Attention guided deep features for accurate body mass index estimation," Pattern Recognit. Lett., Vol. 154, pp. 22-28, Feb. 2022. DOI: 10.1016/j.patrec.2022.01.002 
  20. N. U. Niaz, K. N. Shahariar, and M. J. Patwary, "Class imbalance problems in machine learning: A review of methods and future challenges," in Proc. Int. Conf. Comput. Advan., pp. 485-490, Dhaka, Bangladesh, Jan. 2022. 
  21. K. Ghosh et al., "The class imbalance problem in deep learning," Mach. Learn., Vol. 113, pp. 4845-4901, Jul. 2024. DOI: 10.1007/s10994-022-06268-8 
  22. S. Goswami and A. K. Singh, "A literature survey on various aspect of class imbalance problem in data mining," Multimed. Tools Appl., pp. 1-26, Feb. 2024. DOI: 10.1007/s11042-024-18244-6 
  23. Y. Chen, W. Pedrycz, J. Wang, C. Zhang, and J. Yang, "A new oversampling method based on triangulation of sample space," IEEE Trans. Syst. Man Cybern.-Syst., Vol. 54, No. 2, pp. 774-786, Feb. 2024. DOI: 10.1109/TSMC.2023.3319694 
  24. W. Pei et al., "A survey on unbalanced classification: How can evolutionary computation help?" IEEE Trans. Evol. Comput., Vol. 28, No. 2, pp. 353-373, Apr. 2024. DOI: 10.1109/TEVC.2023.3257230 
  25. Z. A. Huang, Y. Sang, Y. Sun, and J. Lv, "Neural network with a preference sampling paradigm for imbalanced data classification," IEEE Trans. Neural Netw. Learn. Syst., Vol. 35, No. 7, pp. 9252-9266, Jul. 2024. DOI: 10.1109/TNNLS.2022.3231917 
  26. P. Abdelnour et al., "Comparing the drop vertical jump tracking performance of the Azure Kinect to the Kinect V2," Sensors, Vol. 24, No. 12, pp. 1-12, Jun. 2024. DOI: 10.3390/s24123814 
  27. B. Kwon et al., "Implementation of human action recognition system using multiple Kinect sensors," in Proc. Pacific-Rim Conf. Multimed. (PCM), pp. 334-343, Gwangju, Republic of Korea, Sep. 2015. DOI: 10.1007/978-3-319-24075-6_32 
  28. B. Kwon, J. Kim, and S. Lee, "An enhanced multi-view human action recognition system for virtual training simulator," in Proc. Asia-Pacific Signal Inf. Process. Assoc. Annu. Summit Conf. (APSIPA ASC), pp. 1-4, Jeju, Republic of Korea, Dec. 2016. DOI: 10.1109/APSIPA.2016.7820895 
  29. B. Kwon et al., "Implementation of a virtual training simulator based on 360° multi-view human action recognition," IEEE Access, Vol. 5, pp. 12496-12511, Jul. 2017. DOI: 10.1109/ACCESS.2017.2723039 
  30. B. Kwon and S. Lee, "Human skeleton data augmentation for person identification over deep neural network," Appl. Sci., Vol. 10, No. 14, pp. 1-22, Jul. 2020. DOI: 10.3390/app10144849 
  31. B. Kwon and S. Lee, "Ensemble learning for skeleton-based body mass index classification," Appl. Sci., Vol. 10, No. 21, pp. 1-23, Nov. 2020. DOI: 10.3390/app10217812 
  32. B. Kwon and S. Lee, "Joint swing energy for skeleton-based gender classification," IEEE Access, Vol. 9, pp. 28334-28348, Feb. 2021. DOI: 10.1109/ACCESS.2021.3058745 
  33. B. Kwon, J. Huh, K. Lee, and S. Lee, "Optimal camera point selection toward the most preferable view of 3-D human pose," IEEE Trans. Syst. Man Cybern.-Syst., Vol. 52, No. 1, pp. 533-553, Jan. 2022. DOI: 10.1109/TSMC.2020.3004338 
  34. B. Kwon and T. Oh, "Multi-time window feature extraction technique for anger detection in gait data," Journal of the Korea Society of Computer and Information, Vol. 28, No. 4, pp. 41-51, Apr. 2023. DOI: 10.9708/JKSCI.2023.28.04.041 
  35. B. Kwon, "Gait-based gender classification using a correlation-based feature selection technique," Journal of the Korea Society of Computer and Information, Vol. 29 No. 3, pp. 55-66, Mar. 2024. DOI: 10.9708/JKSCI.2024.29.03.055 
  36. B. Kwon and Y. W. Chung, "An improved energy saving scheme in IEEE 802.16e," Journal of Korean Institute of Information Technology, Vol. 10, No. 8, pp. 43-51, Aug. 2012. 
  37. B. Kwon, J. Park, and S. Lee, "A target position decision algorithm based on analysis of path departure for an autonomous path keeping system," Wirel. Pers. Commun., Vol. 83, pp. 1843-1865, Aug. 2015. DOI: 10.1007/s11277-015-2485-0 
  38. B. Kwon, S. Kim, H. Lee, and S. Lee, "A downlink power control algorithm for long-term energy efficiency of small cell network," Wirel. Netw., Vol. 21, pp. 2223-2236, Oct. 2015. DOI: 10.1007/s11276-015-0907-2 
  39. B. Kwon, J. Park, and S. Lee, "Virtual MIMO broadcasting transceiver design for multi-hop relay networks," Digit. Signal Prog., Vol. 46, pp. 97-107, Nov. 2015. DOI: 10.1016/j.dsp.2015.08.003 
  40. B. Kwon et al., "Framework implementation of image-based indoor localization system using parallel distributed computing," The Journal of Korean Institute of Communications and Information Sciences, Vol. 41, No. 11, pp. 1490-1501, Nov. 2016. DOI: 10.7840/KICS.2016.41.11.1490 
  41. B. Kwon, S. Kim, D. Jeon, and S. Lee, "Iterative interference cancellation and channel estimation in evolved multimedia broadcast multicast system using filter-bank multicarrier-quadrature amplitude modulation," IEEE Trans. Broadcast., Vol. 62, No. 4, pp. 864-875, Dec. 2016. DOI: 10.1109/TBC.2016.2617294 
  42. B. Kwon, M. Gong, and S. Lee, "Novel error detection algorithm for LZSS compressed data," IEEE Access, Vol. 5, pp. 8940-8947, May 2017. DOI: 10.1109/ACCESS.2017.2704900 
  43. B. Kwon, S. Kim, and S. Lee, "Scattered reference symbol-based channel estimation and equalization for FBMC-QAM systems," IEEE Trans. Commun. Vol. 65, No. 8, pp. 3522-3537, Aug.t 2017. DOI: 10.1109/TCOMM.2017.2710310 
  44. B. Kwon and S. Lee, "Effective interference nulling virtual MIMO broadcasting transceiver for multiple relaying," IEEE Access, Vol. 5, pp. 20695-20706, Oct. 2017. DOI: 10.1109/ACCESS.2017.2752198 
  45. B. Kwon and S. Lee, "Cross-antenna interference cancellation and channel estimation for MISO-FBMC/QAM-Based eMBMS," Wirel. Netw., Vol. 24, pp. 3281-3293, Nov. 2018. DOI: 10.1007/s11276-017-1531-0 
  46. B. Kwon, and S. Lee, "Error detection algorithm for Lempel-Ziv-77 compressed data," J. Commun. Netw., Vol. 21, No. 2, pp. 100-112, Apr. 2019. DOI: 10.1109/JCN.2019.000021 
  47. B. Kwon, H. Song, and S. Lee, "Accurate blind Lempel-Ziv-77 parameter estimation via 1-D to 2-D data conversion over convolutional neural network," IEEE Access, Vol. 8, pp. 43965-43979, Mar. 2020. DOI: 10.1109/ACCESS.2020.2977827 
  48. B. Kwon, M. Gong, and S. Lee, "EDA-78: A novel error detection algorithm for Lempel-Ziv-78 compressed data," Wirel. Pers. Commun., Vol. 111, pp. 2177-2189, Apr. 2020. DOI: 10.1007/s11277-019-06979-7 
  49. B. Kwon and T. Kim, "Toward an online continual learning architecture for intrusion detection of video surveillance," IEEE Access, Vol. 10, pp. 89732-89744, Aug. 2022. DOI: 10.1109/ACCESS.2022.3201139 
  50. B. Kwon, M. Gong, J. Huh, and S. Lee, "Identification and restoration of LZ77 compressed data using a machine learning approach," in Proc. Asia-Pacific Signal Inf. Process. Assoc. Annu. Summit Conf. (APSIPA ASC), pp. 1787-1790, Honolulu, HI, USA, Nov. 2018. DOI: 10.23919/APSIPA.2018.8659755 
  51. B. Kwon and H. Son, "Accurate path loss prediction based on a neural network ensemble method," Sensors, Vol. 24, No. 1, pp. 1-20, Jan. 2024. DOI: 10.3390/s24010304 
  52. B. Kwon and E. Noh, "Path loss prediction using an ensemble learning approach," Journal of the Korea Society of Computer and Information, Vol. 29, No. 2, pp. 1-12, Feb. 2024. DOI: 10.9708/JKSCI.2024.29.02.001