DOI QR코드

DOI QR Code

Bender Gestalt Test Image Recognition with Convolutional Neural Network

합성곱 신경망을 이용한 Bender Gestalt Test 영상인식

  • Chang, Won-Du (School of Electronic and Biomedical Engineering, Tongmyong University) ;
  • Yang, Young-Jun (School of Naval Architecture & Ocean Engineering, Tongmyong University) ;
  • Choi, Seong-Jin (Department of Counselling Psychology, Tongmyong University)
  • Received : 2018.12.20
  • Accepted : 2019.03.16
  • Published : 2019.04.30

Abstract

This paper proposes a method of utilizing convolutional neural network to classify the images of Bender Gestalt Test (BGT), which is a tool to understand and analyze a person's characteristic. The proposed network is composed of 29 layers including 18 convolutional layers and 2 fully connected layers, where the network is to be trained with augmented images. To verify the proposed method, 10 fold validation was adopted. In results, the proposed method classified the images into 9 classes with the mean f1 score of 97.05%, which is 13.71%p higher than a previous method. The analysis of the results shows the classification accuracy of the proposed method is stable over all the patterns as the worst f1 score among all the patterns was 92.11%.

1. 서 론

심리평가는 개인의 심리 특성을 이해하기 위한 전문적 과정이다. 심리평가를 위해 심리학자는 심리검사, 면담, 행동관찰을 통해 필요한 자료를 수집한다. 아울러 정신병리와 인간행동에 대한 지식을 통합하여 해석한다. 그 중 심리검사는 개인의 정서, 성격, 인지와 같은 다양한 행동특성을 파악하기 위해 도구를 이용하여 측정을 한다. Bender Gestalt Test (BGT)는 Fig.1과 같이 간단한 도형이 그려져 있는 9개의 카드를 피검자에게 한 장씩 보여 주면서 도형을 종이에 따라 그리게 해서 개인의 인지, 정서, 성격과 같은 심리적 특성을 분석하는 투사검사다[1]. 본래 BGT는 정신병리와 지각과의 관계를 연구하려는 목적으로 개발되었으나, 해석에 대한 경험적 증거나 신뢰도가 부족한 채 사용되어 오다, 임상가들이 관심을 가지게 되면서 신뢰성이 높고 객관적인 채점 체계의 필요성이 제기되었다. 이에 BGT의 심리측정 연구가 활발하게 이루어져 왔는데, 주로 심리문제와 신경학적 손상을 확인하기 위한 채점 체계나 신뢰도, 타당도 및 규준에 대한 연구가 진행되어 왔다.Pascal과 Suttell[2]이 BGT에 대한 객관적인 채점 방식을 처음 개발한 이후로 Peek-Quast, Hutt, Hutt-Briskin, Koppitz, Hain, Cooper-Barnes, Pauker, Lacks, Perticone 등에 의해 여러 채점 체계가 개발되어 왔다[3]. 현재 임상에서 BGT는 검사자에 의해 수동으로 실시되고 채점 및 해석이 이루어지고 있다.

그러나 검사 자료를 수동으로 채점하고 해석하는 것은 시간이 많이 걸리고, 검사자의 채점 편향이 검사 신뢰도에 부정적인 영향을 미칠 가능성이 있어 검사자의 부담을 줄이고 채점의 정확성 및 효율성을 높이는 자동 분석의 필요성이 대두된다.

MTMDCW_2019_v22n4_455_f0001.png 이미지

Fig. 1. BGT shapes.

BGT 응답의 자동 분석을 위해서는 이미지의 분할(segmentation), 분류, 왜곡정도 인식과 채점 등의 세부 기술이 필요하다. 먼저, 분할 단계에서는 A4용지에 무작위로 배치된 이미지를 각 도형별로 잘라내고, 분류 단계에서는 각각의 이미지가 어느 도형인지 알아내며, 왜곡정도 인식과 채점 단계에서는 피검자의 정신병리에 따라 왜곡된 이미지의 정도를 인식하여 점수를 계산한다. 검사자는 왜곡정도와 자동채점된결과를 확인하고, 그 결과를 해석하는 작업만을 수행하므로 검사시간이 단축되고, 왜곡정도가 디지털화되어 측정되므로 전통적인 방법에 비해 보다 객관적으로 검사결과를 도출할 수 있다.

BGT 이미지의 자동 분석에 관한 연구는 [4,5]에 의해서 이루어진 바 있으며,[4]는 전통적인 이미지처리 기법을 사용하여 BGT의 6개 채점 항목(단순화, 중첩, 지각적 회전, 고집화, 폐쇄곤란, 고립)에 대한 점수를 자동 채점하였는데,83.31%의 정확도로 점수를 예측할 수 있었다.[4]는 침식, 팽창 등의 모폴로지 기법과 이진영상에서 뼈대를 추출하는 스켈레톤 기법을 통해, 겹침 영역(overlappingregion)의 크기, 교차 여부, 도형의 회전각도 등을 수치화하였으며, 이 수치화된 정보로부터 점수를 계산하였다. 점수의 채점은 각 도형의 번호를 올바르게 알고 있다고 가정된 상태에서 진행되었으며, 별도의 분류 알고리즘은 제시되지 않았다.[5]는 shapecontext를 사용하여 9개의 BGT이미지를 분류하는 연구를 수행하였으며,18

개 검사반응에 대해 84.31%의 분류정확도(accur-acy)를 나타내었다.[5]는 BGT 패턴의 분류에 대해 알려진 최초의 연구라는 측면에서 그 가치를 가지지만, 90% 미만의 낮은 인식률로 인해 실제 임상에서 활용되기에는 어렵다. 이 연구에서의 낮은 정확도는 대체로 A와 1번 도형의 낮은 정확도(A: 64.7%, 1:41.2%)에 기인하는데, 에러를 발생시킨 응답에 대해서는 자세히 기술되어 있지 않아 그 원인을 추측하기 어렵다.

본 연구에서는 합성곱신경망(Convolutional Neural Network: CNN)[6-8]을 사용하여 9개 BGT 이미지의 인식률 개선을 시도하였으며, 그 결과를 분석 평가하였다. CNN은 다층신경망(Multi-Layer Percep-tron: MLP)과는 달리 레이어의 뉴런 중 일부만을 연결하는 인공신경망이다. 적은 수의 뉴런들만을 연결하므로 가중치 학습에 대한 부담이 줄어, 깊은 구조의 네트워크를 보다 안정적으로 학습시킬 수 있으며, 인접한 뉴런들 간의 관계를 보다 잘 학습할 수 있어 영상인식문제에 적합하다. 또한, CNN은 데이터가 충분할 경우 가중치 조정을 통해 이미지의 주요 영역에 집중하고, 부가적인 부분은 무시하게 되는데, 심리검사의 특성상 형태 왜곡이 많은 BGT이미지의 인식에 적합할 것으로 기대된다.

본 논문의 구성은 다음과 같다.2장에서는 관련 연구에 대해,3장에서는 BGT 영상 인식을 위한 전체 시스템과 각 단계별 알고리즘에 대해 설명한다. 4장에서는 제안된 알고리즘을 통한 BGT 영상 인식 결과를 제시하고 이를 다각도로 분석하였고, 5장에서 결론을 맺었다.

2. 연구 방법

2.1 데이터 수집

BGT 실시 방법은 다음과 같다. 먼저 A4 용지를피검자 앞에 세로로 놓고, 검사 카드는 피검자가 볼수 없게 차례로 엎어둔다. 연필과 지우개를 주며 다음과 같이 지시한다.“지금부터 카드를 한 번에 한 장씩 보여 드리겠습니다. 각 카드에는 간단한 그림이 있습니다. 될 수 있는 대로 그 그림을 종이에 잘 그리십시오. 그리고 좋을 대로 어떤 방법으로든 그리십시오. 이것은 미술능력의 검사는 아닙니다. 그러나 될수 있는 대로 정확하게 그리십시오. 빨리 그리든 천천히 그리든 상관없습니다.” 이후 검사자는 BGT 그림 카드를 한 장씩 제시하며 피검자가 그림을 그리도록 한다.

본 연구에 참가한 피검자는 인지기능 저하에 대한 주관적 보고와 객관적 인지 손상을 보인다는 증거가 없고, 일상생활 활동에 능력 손상이 없는 건강한 정상 성인이었다. 피검자의 인구통계학적 변인은 다음과 같다. 총 75명으로 남자27명, 여자48명이었다. 연령의 범위는 18세에서 52세였고, 평균연령은 27.81± 9.19세, 교육연령은 16.03±1.70년이었다. 오른손잡이는 69명, 왼손잡이는 6명이었다. 그리고 다른 정신장애 여부를 확인하기 위해 간이정신상태검사를 실시하여 문제가 있는 피검자의 자료는 배제하였다. Fig. 2는 수집된 75개 검사지 중 한 샘플 이미지다.

MTMDCW_2019_v22n4_455_f0002.png 이미지

Fig. 2. Sample image of collected BGT responses.

2.2 알고리즘 개요

영상 인식을 위한 알고리즘의 개요는 Fig.3과 같다. 알고리즘은 크게 전처리, 학습이미지 생성, 학습과 검증의 3단계로 나누어진다. 전처리 단계에서는 스캔된 영상을 회색조(gray)로 변환한 후 CNN의 학습에 사용될 수 있도록 크기를 정규화한다. 데이터증강 단계에서는 다양한 형태의 변형에 대응할 수 있도록 아핀 변환과 영상의 명도를 조절하여 변형된 학습 영상들을 생성한다. 마지막 단계에서는 생성된 학습 영상들을 사용하여 CNN을 학습시키고 학습된 모델을 검증한다.

2.3 전처리

스캔된 영상은 데이터의 차원을 줄이기 위해 회색조 영상으로 변환하였으며,256×256크기로 정규화되었다. 영상크기는 원영상의 가로, 세로 비율을 고정한 채로 가로, 세로 길이 중 큰 값이 256 픽셀이 되도록 먼저 조정되었으며, 이후 가로, 세로의 길이가 동일하게 되도록 흰색 값을 패딩(padding)하였다. CNN에서의 영상 학습은 가로, 세로의 길이가 동일한 영상을 사용하는 것이 일반적이다[6-11].

2.4 영상 증강 (Data Augmentation)

BGT 영상은 Fig.4와 같이 검사의 특성상 피검자의 정신병리에 따라 독특한 형태의 패턴이 나오는 경우가 많다. 이와 같은 여러 변형들에 대응하기 위해서는 다양한 형태의 BGT 반응을 사용하여 신경망을 학습시켜야 하나, 수많은 변형들에 대한 실제 데이터를 확보하는 것은 비용이나 시간과 같은 현실적인 어려움이 있다. 이 문제를 해결하기 위해 사용되는 것이 아핀 변환을 사용하는 영상증강기법이다[12]. 본 연구에서는 아핀변환 중 크기변환, 회전변환과 전단변환을 사용하여 영상을 생성하였으며, 크기변환은 0.5∼1.5, 회전은 -180°∼180°, 전단변환은 -0.5& sim; 0.5 범위에서 랜덤하게 적용하였다. 아핀변환을 사용하여 증강된 데이터의 예는 Fig.5에 제시하였다.

MTMDCW_2019_v22n4_455_f0003.png 이미지

Fig. 3. Overal structure of proposed method.

MTMDCW_2019_v22n4_455_f0004.png 이미지

Fig. 4. Atypical BGT responses: (a) additional signs (b) lack of dots and filled dots (c) flipped pattern (d) simplified image (e) box out of pattern and stroke lines.

2.5 합성곱 신경망 모델

본 연구에서는 MatlabTM에서 제공하는 Deep Learning Toolbox를 사용하여 네트워크를 구성하고 학습하였다. VGGNet[10]의 형태로 구성하되, 클래스의 수가 적은 관계로 레이어의 개수를 축소하였다.

구성된 네트워크는 Fig.6과 같이 1개의 영상입력 레이어, 18개의 합성곱 레이어,5개의 풀링 레이어, 2개의 완전연결레이어, 각각 1개의 소프트맥스 레이어, 분류 레이어의 총 28개 레이어로 구성하였다. 네트워크의 학습 파라메터는 Table1과 같다.CNN의 네트워크 구조, 학습 파라메터는 반복적인 테스트를 통해 결정되었다.

MTMDCW_2019_v22n4_455_f0005.png 이미지

Fig. 5. Illustration of data augmentation: (a) source images, (b) augmented images.

MTMDCW_2019_v22n4_455_f0006.png 이미지

Fig. 6. Structure of artificial neural networks. Colored boxes indicate max pulling layers, and a set of three white boxes in a row indicates convolutional layer, batch-normalization layer, and ReLU layer in sequence.

2.6 데이터 학습 및 결과 검증

제안된 방법의 검증은 사용자-독립(user-inde-pendent) 및 ten-fold-validation 방식으로 이루어졌다. 즉, 전체 데이터를 학습-테스트용으로 분리하여 검증하였으며, 이 검증을 총 10회 반복함으로써, 전체 데이터에 대한 검증이 이루어 질 수 있게 하였다. 데이터의 분리 시에는 같은 사용자의 데이터가 분리되지 않도록 하여, 학습 데이터와 테스트 데이터에 같은 사용자의 데이터가 사용되는 것을 방지하였다. 제안된 방법의 정밀도(precision), 재현율(recall), 정밀도와 재현율로부터 도출되는 F1점수(F1score)

는 식 1과 같다. 여기서 임의의 클래스 에 대해 TP은 데이터를 올바르게 분류한 횟수, FP는 다른 클래스의 데이터를 로 인식한 횟수, FN은 클래스

\(\text { Precision }=\frac{|\mathrm{TP}|}{|\mathrm{TP}|+|\mathrm{FP}|}\)

\(\text { Recall }=\frac{|\mathrm{TP}|}{|\mathrm{TP}|+|\mathrm{FN}|}\)

\(\mathrm{F} 1 score =2 \cdot \frac{\text { Precision } \cdot \text { Recall }}{\text { Precision }+\text { Recall }}\)       (1)

\(c\)의 데이터를 다른 클래스로 분류한 횟수이며, \( |N|\)은전체 데이터의 개수다.

Table 1. Parameters for training network

MTMDCW_2019_v22n4_455_t0001.png 이미지

3. 실험 결과 및 고찰

Table 2와 3은 제안된 방법을 사용한 영상 분류 결과를 기존 방법[5]과 비교하여 보여주고 있다. BGT도형의 자동 인식 알고리즘은 기존에 거의 연구되지 않은 주제로, 현재까지 알려진 기존 방법은 2016년에 Moetesuma 등에 의해 제안된 shapecontext[13]를 사용하는 방법이 유일하다. 제안된 방법은 각각의 패턴에 대해 평균 97.05%의 인식률(F1score, 표준편차 1.49)로 BGT 영상을 분류할 수 있었으며, 이 결과는 기존 인식률인 83.34%에 비해 14%p 이상 개선된 것이다. 제안된 방법은 증강된 데이터를 사용하였을 때보다 더 높은 인식률을 보이는 것으로 나타났다. 데이터 증강을 사용하지 않은 경우의 인식률(F1score)은 평균 95.12%로, 데이터 증강을 통해 에러의 개수를 33개에서 20개로 대폭(60.61%) 감소시킬 수 있었다. 본 연구는 기존 연구에 비해 4배 이상 되는 데이터에 대해 진행되었으며,75명 피험자 중 보편적이지 않은 방식으로 그림을 그린 경우가 Fig.4와 같이 관찰되었음에도 97% 이상의 높은 성능을 달성하며 제안된 방법의 우수성을 나타내었다. 본 결과에서 특히더욱 고무적인 것은 Table3에서와 같이 9개 패턴간에 정확도 차이가 5%p 내로, 전체 패턴에 대해94% 이상의 정확도를 보였다.

Table 2. Comparison to conventional method.

MTMDCW_2019_v22n4_455_t0002.png 이미지

Table 3. Classifiication results according to type of patterns

MTMDCW_2019_v22n4_455_t0003.png 이미지

Fig.7은 675개의 영상 중 잘못 분류된 20개의 영상을 보여준다. 여기에서는 선명도가 떨어지는 영상이 많아, 색상 커브를 조정하여 영상의 선명도를 증대시켜 표시하였다. 이 중 3개의 영상(a,l,q)의 오인식은 스캔된 영상의 선명도가 매우 떨어지는 것에 기인한 것으로 추정되며,(c),(d)는 동그라미 대신점으로 표기한 것,(e),(f)는 점 개수의 차이, (g), (j), (m)은 점을 선으로 단순화시킨 것으로 인해 오인식된 것으로 판단된다.6번 패턴(n,o,p,q)은 열린 사각형과 단순한 웨이브 모양의 조합인데 4번 패턴으로 오인식된 경우가 높은 빈도(4회)로 발생하였다. 이는, 사용자에 따라 다양한 웨이브 모양을 학습하면서 4번 패턴의 웨이브(6번에 비해 단순화된 형태)로 오인식을 하게 된 것으로 생각된다. 그 외의 에러 영상에서는 오인식을 발생시킬 만한 요인이 발견되지는 않아 원인을 추정하기 어려우며, 향후, 네트워크의 구조와 파라메터 등을 다변화시켜 그 결과를 분석하여야 할 것으로 판단된다.

한편,Fig.8은 제안된 방법을 활용하여 전체적인 인식률을 향상시킬 수 있는 아이디어에 대한 힌트를 보여준다. 제안된 방법은 20개의 이미지를 오인식하였으나, 오인식은 많은 경우 (10건)1개의 문서에 대해 1개만 발생하였으며,2건 발생한 경우가 5건, 3건이상 발생한 경우는 없었다.BGT 이미지의 특성상한 개의 문서에는 9개의 서로 다른 패턴이 존재해야 하며, 하나의 패턴이 2개 이상 존재하는 경우는 거의 발생하지 않는다.CNN으로 데이터를 분류할 때에는 각 패턴으로 분류될 확률이 함께 도출되므로, 이 정보를 활용하여 각각의 이미지에 대해 가장 높은 확률을 가지는 패턴으로 분류한다면 전체적인 인식 정확도를 향상시킬 수 있을 것이다.

MTMDCW_2019_v22n4_455_f0007.png 이미지

Fig. 7. Full list of misclassified drawings. Color curves are adjusted for visibility. Image index, target image class, and classified output are described under each image.

MTMDCW_2019_v22n4_455_f0008.png 이미지

Fig. 8. Document distribution over number of classification errors in a document, compared to results without data augmentation.

4. 결론 및 향후 연구

BGT는 임상 장면에서 심리적 문제 및 신경학적 손상을 확인하기 위해 표준화된 채점 체계를 사용한다. 통상적으로 검사 자료는 수동으로 채점, 해석되므로, 분석 및 채점 과정의 자동화를 통해 검사 시간의 단축 및 검사자 채점 편향의 차단 효과가 기대된다. 본 연구에서는 BGT 이미지 자동분석에 필요한 기본 단계 중 하나인 9개 BGT 이미지의 자동 분류기법을 제시하고, 이를 분석 평가하였다. 그 결과, 제안된 방법은 75명의 피검자가 그린 9개 이미지를97.05%의 정확도로 인식할 수 있었으며, 이는 기존 문헌을 통해 보고된 83.34%를 상회한다. 본 연구에서는 이미지 데이터의 부족을 증강(augmentation)기법을 통해 보완하였으나, 보편적인 사용을 위해서는 더 많은 수의 BGT응답 데이터가 필요하다.

추후, 네트워크 구조 개선과 다양한 데이터의 수집을 통해 인식률을 향상시킬 수 있을 것으로 예상된다. 심리학적 측면에서 BGT 이미지의 자동 분석은 검사자의 부담을 줄이고 정확성 및 효율성을 높일 수 있다는 장점이 있으며, 더 나아가 사람이 인지하기 어려운 채점 변인을 새롭게 파악하는 것도 가능할 것으로 기대된다. 본 연구는 자동 분석 및 채점을 위한 전 단계로써, 이후 각 이미지의 변형 정도를 디지털화하는 알고리즘을 연구할 예정이다.

Acknowledgement

Supported by : National Research Foundation of Korea (NRF)

References

  1. L. Bender, A Visual Motor Gestalt Test and I ts Clinical Use, American Orthopsychiatirc Association, New York, 1938.
  2. G.R. Pascal and B.J. Suttell, The Bender Gestalt Test: I t's Quantification and Validity for Adults, Grune and Stratton, New York, 1951.
  3. I.B. Weiner and W.B. Craighead, The Corsini Encyclopedia of Psychology, Vol. 1, Wiley, Hoboken, 2010.
  4. M. Moetesuma, I. Siddiqia, U. Masroora, and C. Djeddi, "Automated Scoring of Bender Gestalt Test Using Image Analysis Techniques," Proceedings of 13th International Conference on Document Analysis and Recognition, pp. 666-670, 2015.
  5. M. Moetesuma, I. Siddiqia, U. Masroora, N. Vincentb, and F. Cloppetb, "Segmentation and Classification of Offline Hand Drawn Images for the BGT Neuropsychological Screening Test," Proceedings of 8th International Conference on Digital Image Processing, Vol. 10033, 2016.
  6. K. Fukushima, “Cognitron: A Self-organizing Multilayered Neural Network,” Biological Cybernetics, Vol. 20, No. 3-4, pp. 121-136, 1975. https://doi.org/10.1007/BF00342633
  7. K. Simonyan and A. Zisserman, "Very Deep Convolutional Networks for Large-Scale Image Recognition," Proceedings of International Conference on Learning Representations, pp. 1-14, 2015.
  8. J.U. Kim and Y.M. Ro, "Object Tracking based on Weight Sharing CNN Structure according to Search Area Setting Method Considering Object Movement," Journal of Korea Multimedia Society, Vol. 20, No. 7, pp. 986-993, 2017. https://doi.org/10.9717/KMMS.2017.20.7.986
  9. C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, et al., "Going Deeper with Convolutions," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1-9, 2015.
  10. K. He, X. Zhang, S. Ren, and J. Sun, "Deep Residual Learning for Image Recognition," Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, pp. 770-778, 2016.
  11. A. Krizhevsky, I. Sutskever, and G.E. Hinton, "Imagenet Classification with Deep Convolutional Neural Networks," Proceedings of the 25th International Conference on Neural Information Processing Systems, pp. 1097-1105, 2012.
  12. A. Fawzi, H. Samulowitz, D. Turaga, and P. Frossard, "Adaptive Data Augmentation for Image Classification," Proceedings of 2016 IEEE International Conference on Image Processing, pp. 3688-3690, 2016.
  13. S. Belongie, J. Malik, and J. Puzicha, “Shape Matching and Object Recognition Using Shape Contexts,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 4, pp. 509-522, 2002. https://doi.org/10.1109/34.993558