DOI QR코드

DOI QR Code

Acoustic Identification of Six Fish Species using an Artificial Neural Network

인공 신경망에 의한 6개 어종의 음향학적 식별

  • Lee, Dae-Jae (Division of Marine Production System Management, Pukyong National University)
  • 이대재 (부경대학교 해양생산시스템관리학부)
  • Received : 2016.03.18
  • Accepted : 2016.03.29
  • Published : 2016.04.30

Abstract

The objective of this study was to develop an artificial neural network (ANN) model for the acoustic identification of commercially important fish species in Korea. A broadband echo acquisition and processing system operating over the frequency range of 85-225 kHz was used to collect and process species-specific, time-frequency feature images from six fish species: black rockfish Sebastes schlegeli, black scraper Thamnaconus modesutus [K], chub mackerel Scomber japonicus, goldeye rockfish Sebastes thompsoni, konoshiro gizzard shad Konosirus punctatus and large yellow croaker Larimichthys crocea. An ANN classifier was developed to identify fish species acoustically on the basis of only 100 dimension time-frequency features extracted by the principal components analysis (PCA). The overall mean identification rate for the six fish species was 88.5%, with individual identification rates of 76.6% for black rockfish, 82.8% for black scraper, 93.8% for chub mackerel, 90.6% for goldeye rockfish, 96.9% for konoshiro gizzard shad and 90.6% for large yellow croaker, respectively. These results demonstrate that individual live fish in well-controlled environments can be identified accurately by the proposed ANN model.

Keywords

서 론

어로현장에서 어획대상 어류의 어종이나 체장 등과 같은 생물학적 정보를 알 수 있다면, 어업자가 이들 어류를 선택적으로 어획할 수 있기 때문에 어업자원의 남획이나 부가가치가 낮은 부수 어획물이 현장에서 폐기되는 문제를 예방할 수 있어 어업자원의 관리적인 측면에서 매우 중요한 요소가 된다. 그러나, 이와 같은 필요성에도 불구하고 아직도 어종의 식별에 관한 연구는 상업적인 기술로서 정착되지 못한 상태로 여러 방법론적인 연구가 세계 여러 나라에서 진행되고 있는 실정이다. 즉, 여러 주파수에서 측정한 체적산란강도의 차이(Woillez et al., 2012)나 echo trace의 차이(Fernandes, 2009)를 이용하는 방법, echogram의 판별분석법에 의한 방법(Tasgarakis et al., 2015), 광대역 echo 신호의 산란 주파수 특성에 의한 방법(simmonds et al., 1996; Lee et al., 2015; Lee, 2015a; Lee, 2015b) 등에 대한 연구가 있다. 그러나, 이들의 연구는 매우 제한된 조건하에서 수행된 관계로 상업적인 관점에서 활용되기에는 많은 문제가 있다. 어종의 식별에 있어 가장 중요한 요소는 음향학적으로 수집되는 정보 중에서 어종 의존적인 정보를 어떻게 정량적으로 추출해낼 것인가와 이렇게 수집된 정보로부터 어떻게 어종을 분류, 식별해내는가의 문제이다(Lee et al., 2015; Lee, 2015a; Lee, 2015b). 본 연구에서는 넓은 주파수 대역의 chirp 어군탐지시스템을 사용하여 어종 의존적인 정보가 내포된 시간-주파수 echo 이미지의 데이터 셋(set)을 작성한 후, 이들 각 이미지에 대한 특징적인 패턴을 인공 신경망(artificial neural network, ANN)을 이용하여 분류하면, 어종의 식별이 가능하다는 점에 주목하였다. 일반적으로 인공 신경망을 구축할 때, 학습의 정도(accuracy)는 신경망 구조, 입력층 및 은닉층의 뉴런 수, 활성화 함수(activation function), 목표출력에 대한 입력 데이터 셋의 적절성, 연결강도(weight)의 갱신 등과 같은 회로망의 파라미터의 선택에 의존하는 바가 매우 크다. 이 중에서 특히, 입력층에 대한 뉴런의 수를 너무 적게 선택하면 복잡한 데이터 셋에 포함되어 있는 신호의 특징과 변동성을 적절하게 추출할 수 없어 큰 식별오차가 유발된다. 반면, 뉴런 수를 너무 많게 설정하면, 현재의 입력 뉴런에 연결된 학습 데이터 셋에 대한 식별성능은 향상되지만, 학습시간에 많은 시간이 소비되어 인공 신경망의 효율성이 오히려 저하하는 문제가 발생한다(Lee et al., 2016). 이 때문에 이미지 패턴을 해석하는데 있어서는 데이터에 내포된 주성분의 많은 축들이 3차원 데이터 공간에서 어떤 패턴으로 전개되는가를 분석하여 데이터 차원을 축소하는 주성분 분석법(principal components analysis, PCA)이 널리 이용되고 있다(Zuo et al., 2006; Santo, 2012). 본 연구의 chirp 어군탐지 시스템으로부터 실시간으로 수록되는 3차원의 시간-주파수 echo 이미지(Imberger and Boashash, 1986; Dong and Cui, 2012; Sui et al., 2007)는 35×75 픽셀의 echo 패턴이다. 이들 이미지 데이터를 그대로 인공 신경망의 입력층 뉴런에 연결하면 2,625차원의 입력 데이터가 되기 때문에 학습과정에서 매우 많은 시간이 소요되어 비효율적이다. 따라서, 각 어종별 시간-주파수 echo 이미지의 데이터 속성을 나타내는 PCA 계수 matrix를 추출하고, 원래의 데이터 셋에 내포되어 있는 데이터 속성이 손상되지 않는 범위 내에서 데이터 차원을 축소시킬 필요가 있다.

본 연구에서는 이와 같은 점에 주목하여 조피볼락, 말쥐치, 고등어, 불볼락, 전어, 부세 등의 6개 어종에 대하여 각 어종당 16마리씩 총 96마리의 개체어로부터 85-225 kHz의 주파수 대역에 대한 시간-주파수 echo 이미지를 수록하고, 이들 이미지 데이터의 차원을 저감시킨 후, PCA matrix의 차원에 따른 어종의 음향학적 식별성능의 변화를 인공 신경망 모델을 구축하여 분석, 고찰하였다.

 

재료 및 방법

어류에 의한 시간-주파수 echo 이미지의 데이터 차원 축소

본 연구에서는 우리나라 주변 수역에서 어획되는 조피볼락, 말쥐치, 고등어, 불볼락, 전어, 부세 등의 6개 어종을 대상으로 85-225 kHz의 주파수 대역에서 각 어종당 16마리씩 총 96마리의 개체어에 대한 시간-주파수 echo 이미지를 수록하였다(Lee et al., 2016). 이 때, 각 개체어에 대한 chirp echo 이미지는 등방향(dorsal aspect)을 기준으로 ±25° 자세각 범위내에서 약 2.5° 간격으로 수록하였고, 각 어종당 총 320개(16마리×20개의 이미지/마리), 즉, 6개 어종에 대하여 얻어진 총 1,920개의 시간-주파수 echo 스펙트럼 패턴을 바탕으로 어종식별을 위한 데이터 베이스를 구축하였다. 이들 6개의 어종에 대한 활어 상태의 각 어류로부터 수록한 chirp echo 신호로부터 SPWVD(smoothed pseudo-Wigner-Ville distribution) 기법에 의해 시간-주파수 이미지를 추출하고, 이들 이미지의 0-0.3 ms의 시간 영역과 85-225 kHz의 주파수 영역을 i (column)×j (row) 픽셀(pixel) 사이즈 (N = i×j) 로 이미지 커팅(cutting)하여 인공 신경망의 학습용 및 테스트용 이미지로 사용하였다. 각 어종의 개체어 활어로부터 수집되는 시간-주파수 이미지 패턴의 행렬을 I1 라 할 때, 이 행렬은

이 되고, 각 이미지의 column 벡터 F1은

이다. 모든 어종에 대한 개체어로부터 수록된 시간-주파수 이미지의 총수를 M이라 할 때, 이미지 데이터의 집합 SM은

이 된다. 여기서, [*]T는 [*]의 전치행열(transposed matrix)이다

한편, 모든 어종의 이미지 데이터 집합 SM을 대상으로 PCA 기법을 이용하여 주성분 계수 행렬을 구하고, 그것의 전치행렬을 W라 하면, 이 행렬은

이 된다. 즉, 분산이 큰 값으로부터 작은 값의 순으로 배열되는 주성분 계수 행렬을 얻을 수 있다. 또한, 이 행렬에서 분산이 큰 전반부의 K 차원까지의 주성분 행렬 (WK)을 추출하여 나타내면

이 된다.

본 연구에서는 이와 같이 K 차원으로 축소된 PCA 계수 행렬 WK을 이용하여 모든 어종으로부터 수록된 N 차원의 시간-주파수 이미지 데이터 셋을 K 차원의 시간-주파수 이미지 데이터 셋으로 축소시켜 인공 신경망의 입력층의 뉴런에 전달하였다. 즉, 인공 신경망의 입력 데이터 행렬 Sinput는

에 의해 구하였다.

다중 퍼셉트론 인공 신경망과 어류의 시간-주파수 이미지 데이터의 학습

일반적으로 인공 신경망 모델에서는 뉴런(neuron, 또는 node)이라 불리는 신경세포와 유사한 처리소자들의 병렬분산처리를 통해 학습하고, 예측을 수행하게 된다. 본 연구에서는 입력층과 출력층 사이에 하나의 은닉층을 갖는 신경회로망, 즉 다중 퍼셉트론 회로망(multilayer perceptron network, MLP)을 이용하여 어종식별 시스템을 구현하였는데, 그 MLP 구조는 Fig. 1과 같다. Fig. 1에서 은닉층의 j 번째 노드가 입력층의 i 번째 노드로부터 전달받은 입력 신호를 xi , 이들 입력층과 은닉층 사이의 연결 가중치(connection weight)를 wji , 은닉층의 j 번째 노드에 연결된 임계치(bias)를 bj라 하면, Fig. 1의 MLP 신경망에서는 입력층의 노드로부터 입력되는 외부신호에 가중치와 임계치를 반영한 가중 합을 먼저 계산한다. 그 후, 이 값은 활성화 함수(activation function)에 의해 변환되어 (7)식의 출력을 출력층에 전달한다(Saad et al., 2007: Bai et al., 2009; Latha el al., 2009).

Fig. 1.Architecture of multilayer perceptron (MLP) neural network with one hidden layer and basic block of error back-propagation process. The architecture represents a three-layered MLP with h neurons in the hidden layer and d neurons in the input layer corresponding to the time-frequency echo patterns of 6 fish species. The m nodes in the output layer indicate the m different fish species to be predicted.

여기서, netj는 은닉층의 j 번째 노드에 들어오는 외부자극에 가중치와 임계치를 반영한 가중 합, 즉, 순입력의 값이다. f 는 활성화 함수이고, yj는 은닉층의 j 번째 노드에 대한 순입력 netj가 활성화 함수에 의해 처리된 후, 출력층으로 전달되는 값이다.

한편, Fig. 1에서 출력층의 k 번째 노드에 은닉층의 j 번째 노드로부터 입력신호 yi가 전달되면, 이들 은닉층과 출력층 사이의 연결 가중치를 wkj, 출력층의 j 번째 노드에 연결된 임계치(bias) bk가 반영된 순입력 값 netk가 산출되고, 이 값은 다시 활성화 함수 f ( netk )를 통해 최초의 인공 신경망의 출력 zk이 된다.

이와 같은 과정을 거쳐 산출되는 인공 신경망의 실제의 출력 zk는 목표치 tk과 차이가 발생하기 때문에 이들 두 값의 차이, 즉, (9)식으로 정의되는 오차가 설정한 오차역치(error threshold)보다 적게 될 때까지 반복적인 학습이 수행된다.

즉, Fig. 1의 신경회로망의 학습을 통해 (9)식의 오차 값 E를 최소로 하는 연결 가중치 벡터가 산출된다(Bai et al., 2009; Latha el al., 2009). 본 연구에서는 MLP 기법과 오류 역전파(error backpropagation, BP) 알고리즘을 바탕으로 지도학습(supervised learning)을 통해 입력층과 은닉층, 또한, 은닉층과 출력층의 각 노드 사이의 연렬 가중치를 수정함으로써 다음 학습시의 목표치에 더욱 근접하는 출력 값을 산출하였다. 즉, 입력층과 은닉층 사이 및 은닉층과 출력층 사이의 가중치 및 임계치의 변화량 ∆w와 ∆b을 구하면, 과거의 가중치 w (old)와 임계치 b (old )로부터 새로운 가중치 w (new)와 임계치 b (new)를 (10)식과 (11)식에 의해 추정할 수 있다(Latha el al., 2009; Pinjare and Arun Kumar, 2012).

본 연구에서 인공 신경망의 지도학습은 Matlab 신경망 툴(tool) 함수 newff (feed-forward backpropagation network)를 이용하여 수행하였는데(Demuth et al., 2009), 이 때, Fig. 1의 BP 신경망에 대한 각층 사이의 최적의 연결 가중치를 계산하기 위한 학습은 traingdx 함수(gradient descent with variable learning rate and momentum)를 이용하여 수행하였다. 또한, 이 계산은 (9)식의 오차함수(performance function) E 값, 즉 평균제곱오차 (mean square error, MSE)가 설정치 이하로 감소할 때까지 반복적으로 수행하였다(Kuruvilla and Gunavathi, 2014). 본 연구에서 이용한 traingdx 함수의 학습에 사용한 파라미터는 Table1과 같다(Shilbayeh et al., 2013).

Table 1.The function “traingdx” parameters

Table 1에서 알 수 있는 바와 같이 matlab의 툴 함수 newff가 인공 신경망의 모든 구조를 생성하여 신경망 변수 net에 관련 함수 및 파라미터 등을 셋팅하면, train 함수가 변수 net에 저장되어 있는 net.trainFcn과 net.trainParam의 설정치를 바탕으로 회로망 net를 학습시키고, 이로부터 리턴(return)되는 net 회로망을 sim 함수를 이용하여 시뮬레이션함으로써 어종을 식별하였다. 한편, 본 연구에서는 은닉층과 출력층에 대한 활성화(activation) 함수로서는 hyperbolic tangent 함수를 이용하였는데, 이 tan-sigmoid 함수는 −1과 +1 사이의 값을 출력한다(Bai et al., 2009)

 

결과 및 고찰

어종별 학습용 및 테스트용 이미지의 특징적인 패턴

본 연구에서는 6개 어종, 96 마리의 활어 개체어로부터 수록 한 시간-주파수 echo 이미지에 대한 데이터 베이스를 크게 두 그룹으로 분류하였다. 하나는 인공 신경망의 지도학습을 위한 학습용 데이터 베이스이고, 다른 하나는 목표어종의 식별에 이용하기 위한 테스트용 데이터 베이스이다. 먼저, 학습용 데이터 베이스는 각 어종별로 수록한 320개의 시간-주파수 echo 패턴 중에서 무작위로 80%(256 이미지)를 추출하여 구축하였다. 또한, 나머지 20%는 데스트용으로 할당하여 목표어종의 식별을 위한 데이터 셋으로서 활용하였는데, 조피볼락에 대한 학습용과 데스트용 데이터 셋의 일례는 각각 Fig. 2와 같다. Fig. 2의 (a) 및 (b)에 나타낸 각 어종의 개체어로부터 수록한 chirp echo 신호에 대한 모든 시간-주파수 echo 이미지는 모두 RGB 영상 패턴이다. 실제 이들 이미지는 35×75 픽셀의 gray 이미지 패턴으로 변환되어 인공 신경망의 입력 데이터로서 사용하였다. Fig. 2(a)는 조피볼락에 대한 학습용 이미지 데이터 셋이고, Fig. 2(b)는 테스트용 이미지 데이터 셋이다. 본 연구에서는 각 이미지 패턴의 윤곽(contour), 스펙트럼의 구조 및 형상, 이미지 픽셀의 진폭변동, echo 에너지가 집중되는 영역, echo 신호의 출현과 소멸 구간 등의 차이 등에 주목하여 분석을 행하였다. 이들 각 어종에 대한 시간-주파수 이미지 정보를 비교, 분석한 결과, 각 이미지 상호간에 매우 유사한 공통점이 있음을 알 수 있었다. 즉, 저주파수 영역에서 고주파수 영역을 향해 일정한 기울기를 갖는 다양한 형상의 echo contour 패턴이 연속하여 출현하였다. 이들 contour 패턴의 형상은 조사 대상으로 한 6개의 어종에 있어 각각 서로 다른 양상을 나타내었다. 또한, 이들 각 이미지 contour 패턴에서 feature 성분이 강하게 집중되어 나타나는 영역이 서로 다른 점으로부터 이들의 스펙트럼 성분들은 어종에 매우 의존적인 특징을 갖고 있음을 알 수 있었다.

Fig. 2.Original train image sets for black rockfish Sebastes schlegeli consisting of 320 color-scale images each with a matrix dimension of 35×75 pixels in the frequency and time domains. These SPWVD images were obtained from the broadband echoes by 16 live individuals over the frequency range of 85 to 225 kHz. (a) The 256 train images, for the supervised learning of ANN, corresponding to 80% of 320 images were selected by random process. (b) The 64 test images corresponding to 20% of 320 images were used as an image set for identifying the target fish species.

따라서, 본 연구에서는 각 어종에 대한 시간-주파수 이미지 패턴 속에 내포되어 있는 어종 의존적인 특징들을 어떻게 추출하여 이것을 어종식별인자로서 활용할 것인가에 초점을 두고 연구를 수행하였다.

Fig. 2에 나타낸 SPWVD 기법을 이용하여 얻어진 각 어종당 320개의 35×75 픽셀 이미지에 대한 2차원 feature 패턴을 학습용과 데스트용으로 분류하여 재성형(reshaping)한 결과는 Fig. 3의 (a) 및 (b)와 같다. Fig. 3(a)는 Fig. 2(a)의 학습용 이미지를 대상으로 주파수 축의 35개 픽셀 column을 서로 체인 형으로 1번부터 35번까지 순서대로 결합시켜 2,625 픽셀을 갖는 새로운 이미지를 생성한 후, 이들 학습용의 256개의 이미지 전체를 이미지 번호 순으로 배열한 결과이다. 한편, Fig. 3(b)는 Fig. 2(b)의 테스트용 이미지 셋을 대상으로 Fig. 3(a)에서와 같은 재성형 처리를 수행하여 얻은 64개의 새로운 이미지 패턴을 이미지 번호 순으로 배열하여 나타낸 결과이다. Fig. 3의 (a) 및 (b)에서 종축은 이미지 데이터의 번호이고, 횡축의 1-2,625는 주파수 축의 35개 column (75 픽셀/column)을 서로 체인 형으로 순서대로 연결하여 생성한 2,625픽셀의 번호이다. 이들 이미지 feature 패턴에는 각 어종 고유의 생물학적, 형태학적, 음향학적 성질 등을 나타내는 어종 의존적인 정보들이 내포되어 있다(Gavrovska et al., 2010; Han and Kim, 2010). 따라서, 이들 이미지 패턴으로부터 각 어종이 갖는 고유의 특징적인 픽셀 패턴 및 변동성 등을 얼마나 정확하게 정량적으로 추출해 내는가는 어종의 식별성능을 결정하는 중요한 요소가 된다. Fig. 3의 (a)와 (b)에서 조피볼락의 16 개체어로부터 추출된 학습용 및 테스트용 이미지 패턴을 살펴볼 때, 개체어에 따라 1,000 픽셀 이하의 이미지 영역에서는 매우 불규칙한 진폭변동이 관찰되었지만, 1,000-2,300 픽셀의 영역에서는 픽셀 번호가 증가함에 따라 어종 고유의 공통적인 변동 패턴이 나타나고 있음을 알 수 있었다. 또한, 2,300 픽셀 이상의 영역에서는 이미지 패턴이 급속히 소멸해가는 경향을 나타내었다. 특히, 이들 이미지 패턴은 어종마다 서로 다른 변동 특성을 나타내고 있기 때문에 어종을 식별하기 위해서는 어종 고유의 이미지 패턴의 특징을 정량적으로 추출할 필요가 있다. 그러나, Fig. 3의 (a)와 (b)에서 알 수 있는 바와 같이 각 개체어의 이미지는 2,625 픽셀로 구성되는 픽셀 패턴이고, 각 어종당 256개의 이미지를 인공 신경망의 지도학습을 위한 데이터 셋으로서 이용하는 경우, 처리해야 할 차원이 한 어종당 256×2,625 차원이 된다. 즉, 인공 신경망의 지도학습에 너무 많은 시간 소요된다. 따라서, 본 연구에서는 PCA 분석을 통해 이들 6개 어종의 각각에 대한 학습용과 테스트용 이미지 셋의 데이터 차원을 적극 저감시키면서도 어종 의존적인 정보의 손상은 최소화시키기 위한 방안을 고안하였다. 즉, Fig. 3(a)의 학습용의 이미지 데이터 셋을 대상으로 계산된 PCA 계수 행렬로부터 (5)식에서 제시한 적정수준의 차원을 갖는 PCA 계수 행렬 WK을 추출하였다. 그 후, 이 계수행렬을 Fig. 3(b)의 테스트용 이미지 데이터 셋에 적용하여 본 연구에서 구축한 인공 신경망의 학습시간을 단축시키는 기법을 도입하여 어종을 식별하였다. 이 때, 지나치게 feature space의 차원을 낮추면, 어종 의존적인 정보의 손실이 초래되어 어종 식별율이 저하하게 되고, 반면, 지나치게 feature space의 차원을 높이면, 식별율은 향상되지만, 학습시간의 증가에 따른 식별시스템의 효율이 저하하는 문제가 발생한다. 이 때문에 본 연구에서는 이미지 데이터의 차원축소에 따른 어종 식별율의 변화를 먼저 분석, 고찰한 후, 본 연구에 가장 적합한 최적의 차원을 추출하여 최종적인 어종식별시스템을 구축하였다.

Fig. 3.(a) A reshaped image set of 256 train images for the supervised learning of ANN (Fig. 2a). (b) A reshaped image set of 64 test images for identifying the target fish species (Fig. 2b). Each matrix for train and test images of black rockfish Sebastes schlegeli was reshaped as a set of 2,625-dimensional feature pixels by concatenating the 35 columns of the 35×75 image matrix.

시간-주파수 이미지 데이터의 차원 축소에 따른 어종 식별율의 변화

시간-주파수 이미지 데이터의 차원 축소

본 연구에서는 6개 어종의 각각에 대하여 256개의 시간-주파수 이미지를 학습용 데이터 셋으로 준비하였고, 이들을 본 연구에서 구축한 인공 신경망의 입력층의 뉴런에 전송하여 지도학습을 수행하였다. 이 때, 1개의 시간-주파수 echo 이미지 패턴은 75×35 픽셀의 크기이기 때문에 이들 이미지를 그대로 입력층의 뉴런에 접속하려면 총 2,625개의 뉴런이 필요하다. 이 경우, 신경망의 학습에 소요되는 연산시간이 급격하게 증대되는 문제가 발생한다. 따라서, 신경망의 학습에 소요되는 연산시간을 절감하기 위해서는 입력층의 뉴런 수, 즉, 입력 데이터의 차원 수를 감소시킬 필요가 있다. 이를 위해 먼저 PCA 분석을 통해 얻어진 입력 이미지 데이터의 PCA 계수 차원이 인공 신경망에 의한 어종 식별율에 미치는 영향을 분석, 고찰하였는데, 그 결과는 Fig. 4와 같다. Fig. 4는 16마리의 조피볼락으로부터 수록한 총 320개의 시간-주파수 echo 패턴 중에서 학습용으로 무작위 추출된 256개의 시간-주파수 echo 이미지 패턴을 대상으로 PCA 분석을 통해 echo 이미지 패턴의 데이터 차원을 축소시켜 나타낸 결과이다. 즉, 각 어종에 대한 각 개체어로부터 얻어지는 시간-주파수 echo 이미지 패턴은 75×35 픽셀의 2,625 차원이지만, PCA 분석을 통해 250차원의 PCA 계수 행렬 W250을 추출하여 나타낸 결과이다. 인공 신경망의 입력층 뉴런에 전달되는 입력 이미지 행렬(Sinput)의 차원은 계수 행렬 W250에 의해 결정되고, Sinput에 포함되어 있는 어종 의존적인 echo feature에 의해 어종의 음향학적 식별이 이루어지는 시스템이다. 따라서, 본 연구에서 구축될 어종식별시스템에서는 Fig. 4에 나타낸 PCA 계수 행렬의 차원을 어느 정도의 수준에서 끊어 인공 신경망의 뉴런에 연결시킬 것인가를 결정해야만 한다. 이 때, 인공 신경망에 입력시킬 시간-주파수 echo 패턴의 데이터 수, 즉 입력층의 뉴런 수를 결정하는 문제는 신경망의 식별성능이 안정성 등을 좌우하는 중요한 요소이기 때문에 본 연구에서는 먼저 PCA 계수 행렬의 변동성에 대하여 분석, 고찰하였다.

Fig. 4.A lower dimensional representation of the reduced feature matrix for the time-frequency echo pattern of black rockfish Sebastes schlegeli as a function of the number of principal components (eigenvectors). By only considering the first 250 eigenvectors of 2,526 eigenvectors, the dimensionality of the image feature space (matrix) was greatly reduced. The supervised learning of ANN for identifying the fish species was accomplished by only using a truncated set of the first 100 eigenvectors.

Fig. 4에 나타낸 PCA 계수 행렬에서 전반부, 즉, 변동성(분산)이 큰 주성분 그룹은 각 개체어별 시간-주파수 이미지 패턴 상호간의 공통적인 특징을 나타내고, 전반부로부터 후반부로 갈수록 각 개체어의 시간-주파수 이미지 패턴 속에 내포되어 있는 세부적인 특징을 나타낸다. Fig. 4에서 관찰할 수 있는 바와 같이 PCA 계수에 대한 강한 변동성은 주로 50 차원 이내의 전반부 영역에서 집중적으로 출현하였고, 이로부터 250 차원까지의 후반부 영역에서는 차원이 증가함에 따라 변동성이 급격히 약화되는 경향을 나타내었다. 따라서, 본 연구에서 대상으로 한 6개 어종에 대한 시간 및 주파수 영역의 어종 의존적인 식별 feature는 Fig. 4에 나타낸 주성분의 변동성이 크게 나타나는 전반부의 영역에 주로 포함되어 있을 것으로 추정된다.

PCA 계수 matrix의 차원에 따른 어종 식별율의 변화

본 연구에서는 PCA 계수의 차원이 어종의 식별율에 미치는 영향을 정량적으로 분석, 고찰하기 위하여 Fig. 4에 나타낸 PCA 계수의 차원을 각각 75, 100, 125, 150, 175, 200 차원으로 설정한 후, 인공 신경망을 이용하여 조피볼락, 말쥐치, 고등어, 불볼락, 전어, 부세 등을 대상으로 어종을 식별한 결과는 Table 2와 같다. Table 2는 인공 신경망의 은닉층의 뉴런 수를 75 뉴런으로 고정시킨 상태에서 테스트용으로 준비된 각 어종별 64개의 이미지 패턴를 대상으로 인공 신경망의 지도학습을 통해 얻어진 결과이다. Table 2에서 알 수 있는 바와 같이 각 어종에 대한 시간-주파수 이미지 테이터를 각각 75, 100, 125, 150, 175, 200 차원으로 축소시킨 경우, 조피볼락, 말쥐치, 고등어, 불볼락, 고등어, 전어, 부세에 대한 대한 평균 식별율은 각각 86.7, 87.0, 87.8, 87.5, 86.7 및 87.5%이었다.

Table 2.Confusion matrix of species classification rates (%) by artificial neural network with one hidden layer of 75 neurons as a function of the number of reduced feature matrix dimensions by PCA

이들 어종에 대한 평균 식별율은 echo 이미지 패턴을 125차원으로 축소시켰을 때가 87.8%로서 가장 높았고, 75 및 175 차원으로 축소시켰을 때는 86.7%로서 가장 낮았으나, 이들 모든 이미지 데이터 차원에 있어서 최대 및 최소 식별율의 차이는 1.1%로서 크지 않았다. 한편, 어종의 평균 식별율이 가장 높았던 125 차원의 경우, 조피볼락, 말쥐치, 고등어, 불볼락, 고등어, 전어, 부세의 식별율은 각각 81.3, 89.1, 89.1, 87.5, 89.1 및 90.6% 로서, 부세에서 가장 높았고, 조피볼락에서 가장 낮았다. 특히, Table 2는 입력층, 은닉층, 출력층으로 구성되는 3층 구조의 인공 신경망에 있어서 은닉층의 뉴런 수를 75개로 고정시켜 얻은 결과이지만, 만일 은닉층의 뉴런수를 변화시키면 어종의 식별율도 변화한다. 이 점에 주목하여 입력 이미지 패턴의 차원 수와 3층 구조 인공 신경망의 은닉층에 대한 뉴런 수가 어종의 식별 성능에 미치는 영향을 분석, 고찰할 목적으로 입력 테이터의 차원과 은닉층의 노드 수를 변화시키면서 어종 식별율을 추적하였다. 그 결과, 각 어종별 시간-주파수 echo 이미지 패턴의 차원를 100 차원, 은닉층의 뉴런 수를 100개로 설정하였을 때, 어종의 식별율이 가장 높았다. 따라서, 본 연구에서는 6개 어종에 대한 어종식별시스템을 구축할 때, 입력층 100 뉴런, 은닉층 100 뉴런, 출력층 6 뉴런으로 구성되는 3층 구조의 인공 신경망이 최적의 식별시스템이라 판단하였다.

최적의 인공 신경망 모델 구축 및 어종의 음향학적 식별

본 연구에서는 Fig. 4 및 Table 2의 결과를 바탕으로 구축된 인공 신경망, 즉, 입력층 100 뉴런, 은닉층 100 뉴런, 출력층 6 뉴런으로 구성되는 3층 구조의 오류 역전파 인공 신경망을 이용하여 조피볼락, 말쥐치, 고등어, 불볼락, 전어, 부세 등의 6개 어종에 대한 음향학적 식별을 수행한 결과는 Table 3과 같다. Table 3에서 알 수 있는 바와 같이 각 어종의 식별에 사용한 테스트용 시간-주파수 echo 이미지는 64개로서 지도학습에 사용한 이미지 셋(256개)의 25%에 상당한다. 또한, 이들 64개 이미지를 바탕으로 추정한 조피볼락, 말쥐치, 고등어, 불볼락, 전어, 부세에 대한 식별율은 각각 76.6%, 82.8%, 93.8%, 90.6%, 96.9%, 90.6%이었고, 그 평균 식별율은 88.5%로서 매우 우수한 식별율을 달성하였다. 이들 중에서 전어에 대한 식별율이 가장 높았고, 조피볼락의 식별율이 가장 낮았다. 특히, 본 연구에서 구축한 3층 구조의 인공 신경망은 조피볼락을 고등어로 잘못 식별하는 비율이 약 7.8%, 불볼락과 부세로 잘못 식별하는 비율이 약 4.7%이었다. 또한, 말쥐치의 경우에 있어서는 전어와 불볼락으로 잘못 식별하는 비율이 각각 7.4%, 4.7%이었다. 고등어의 경우는 전어로 잘못 식별하는 비율이 4.7%, 불볼락의 경우에 있어서는 조피볼락으로 잘못 식별하는 비율이 4.7%이었다.

Table 3.1The C. rate represent the percentage of successful classification. The bottom-right corner provides the overall mean classification rate (88.5%).

한편, Table 3의 연구성과를 토대로 본 연구에서 제안한 인공 신경망 모델을 현장에 적용하는데 있어서는 어장에 따라 서식하는 어종의 생물학적 조성이 매우 상이하기 때문에 입력층, 은닉층 및 출력층의 노드 수, PCA 계수 행렬의 차원 등과 같은 각종 파라미터 등을 새롭게 설정하여 인공 신경망 회로를 정밀하게 tuning 할 필요가 있다. 또한, 현장에서 목표 어종의 시간-주파수 echo 이미지 패턴에 내포되어 있는 어종 의존적인 정보를 추출한 후, 이를 토대로 새롭게 입력되는 미지의 어종을 식별해 내기 위해서는 지도학습에 필요한 이미지 데이터를 충분히 확보할 필요가 있다. 특히, 대상어종의 식별율을 향상시키기 위해서는 현장에서 실시간으로 수집되는 시간-주파수 이미지 패턴으로부터 각 어종 고유의 특징적인 정보를 정확하게 추출해 내는 것이 가장 바람직하지만, 식별시스템에서 echo 신호처리에 많은 시간을 소비해야 하는 문제가 있기 때문에 현실적으로는 매우 어렵다. 따라서, 이를 해결하기 위해서는 사전에 목표대상 어종에 대한 생물학적, 형태학적, 음향학적 및 습성적인 패턴 등에 대한 선행연구를 체계적으로 수행하여 이에 대한 데이터 베이스를 공고히 구축하는 것이 무엇보다도 중요하다고 판단된다(Foote, 1980; Clay and Horne, 1994; Jaffe, 2006; Nesse et al., 2009; Stanton et al., 2010; Fassler et al., 2012).

본 연구에서 구축한 인공 신경망을 이용하여 학습횟수(epoch)를 5,000회, MSE의 목표치를 0.001로 설정하여 6개 어종에 대한 학습용 데이터 이미지 셋을 학습시켰을 때, 학습횟수에 따른 MSE의 변화율은 Fig. 5와 같다. Fig. 5에서 알 수 있는 바와 같이 인공 신경망의 학습이 목표횟수 5,000회에 도달 하였음에도 MSE 값은 목표치 0.001에 도달하지 못하고 0.024에서 학습이 종료되었는데, 이 때, 6개 어종에 대한 평균 식별율은 Table 3에 나타낸 바와 같이 88.5%이었다. 만일, 어종의 식별율을 더 높이기 위해 Fig. 5에 나타낸 학습회수를 더 크게 설정할 경우, 학습시간의 증대에 따른 어종식별시스템의 효율성 저하와 식별율의 개선 사이에서 어떤 선택을 해야 하는가는 시스템 운용자에게 있어서 매우 중요한 요소가 될 것이다. 이 때문에 Fig. 5의 학습횟수에 따른 MSE의 변화율과 식별율의 개선 정도 사이의 관계 등을 종합적으로 고찰해본 결과, epoch의 증가에 따른 식별율의 개선 정도가 매우 미소하여 epoch의 증가에 대한 실효성은 거의 없다고 판단하였다.

Fig. 5.Performance curve of the artificial neural network with the input layer of 100 neurons, one hidden layer of 100 neurons and the output layer of 6 neurons used in identifying the target species based on the time-frequency images obtained from the broadband echoes of six fish species.

본 연구에서는 각 개체어에 대한 2,625차원의 이미지 행렬을 PCA 기법을 이용하여 100 차원으로 축소시킴으로써 어종식별시스템의 연산시간을 단축시켰다. 또한, 본 연구에서 제안한 인공 신경망에 대한 어종의 식별율은 어종에 따라 다소의 차이는 있지만, 그 평균 식별율이 88.5%로서 매우 높은 수준에 도달하는 연구성과를 달성하였다. 따라서, 이와 같은 연구성과의 활용은 우리나라 주변해역에 서식하는 주요 어종의 식별을 어획에 의존하는 직접적인 방법이 아닌 음향학적 기법을 바탕으로 매우 효과적으로, 또한 매우 신뢰할 수 있는 수준으로 달성할 수 있음을 알 수 있었다. 향후에는 이 연구성과를 토대로 더욱 고도화된 식별 알고리즘의 개발과 식별시스템의 성능개선을 통하여 상업적으로 실용화하기 위한 연구를 지속적으로 수행하고자 한다.

References

  1. Bai Y, Zhang H and Hao Y. 2009. The performance of the backpropagation algorithm with varying slope of the activation function. Chaos, Solutions Fractals 40, 69-77. https://doi.org/10.1016/j.chaos.2007.07.033
  2. Clay CS and Horne JK. 1994. Acoustic models of fish: The Atlantic cod (Gadus morhua). J Acoust Soc Am 96, 1161-1668.
  3. Demuth H, Beale M and Hagan M. 2009. Neural Network ToolboxTM 6 User’s Guide. The MathWorks Inc, Massachusetts, USA, 84-226.
  4. Dong Y and Cui Y. 2012. Analysis of a new joint time-frequency distribution of suppressing cross-term. Res J Appl Sci Eng Technol 4, 1580-1584.
  5. Fassler SMM, Fernandes PG, Semple SIK and Brierley AS. 2009. Depthe-dependent swimbladder compression in herring Clupea haengus obserbed using magnetic resonance imaging. J Fish Bio 74, 296-303. http://dx.doi.org/10.1111/j.1095-8649.2008.02130.x.
  6. Fernandes PG. 2009. Classification trees for species identification of fish-school echotraces. ICES J Mar Sci 66, 1073-1080. http://dx.doi.org/10.1093/icesjms/fsp060.
  7. Foote KG. 1980. Importance of the swimbladder in acoustic scattering by fish: A Comparison of gadoid and mackerel target strengths. J Acoust Soc Am 67, 2084-2089. https://doi.org/10.1121/1.384452
  8. Gavrovska AM, Paskas MP and Reljin IS. 2010. Determination of morphologically characteristic PCG segments from spectrogram image. Teflor J 2, 74-77.
  9. Han SK and Kim HT. 2010. Efficient radar target recognition using a combination of range profile and time-frequency analysis. Progress Electrom Res 108, 131-141. https://doi.org/10.2528/PIER10071601
  10. Imberger J and Boashash B. 1986. Application of the Wigner-Ville distribution to temperature gradient microstructure: A new technique to study small-scale variations. J Physic Oceanography 16, 1997-2012. https://doi.org/10.1175/1520-0485(1986)016<1997:AOTWDT>2.0.CO;2
  11. Jaffe JS. 2006. Using multi-angle scattered sound to size fish swimbladders. ICES J Mar Sci 63, 1397-1404. http://dx.doi.org/ 10.1016/j.icesjms.2006.04.024.
  12. Kuruvilla J and Gunavathi K. 2014. Lung cancer classification using neural networks for CT images. Computer Methods Programs Biomedicine 113, 202-209. https://doi.org/10.1016/j.cmpb.2013.10.011
  13. Latha P, Ganesan L and Annadurai S. 2009. Face recognition using neural networks. Signal Processing: An International J 3, 153-160.
  14. Lee DJ, Kang HY and Kwak MS. 2015. Analysis and classification of broadband acoustic echoes from individual live fish using the pulse compression technique. Korean J Fish Aquat Sci 48, 207-220. http://dx.doi.org/10.5657/KFAS.2015.0207.
  15. Lee DJ. 2015a. Time-frequency analysis of broadband acoustic scattering from chub mackerel Scomber japonicas, goldeye rockfish Sebestes thompsoni, and fat greenling Hexagrammos otakii. Korean J Fish Aquat Sci 48, 221-232. http://dx.doi.org/10.5657/KFAS.2015.0221.
  16. Lee DJ. 2015b. Changes in the orientation and frequency dependence of target strength due to morphological differences in the fish swim bladder. Korean J Fish Aquat Sci 48, 233-243. http://dx.doi.org/10.5657/KFAS.2015.0233.
  17. Lee DJ, Kang HY and Pak YY. 2016. Time-frequency feature extraction of broadband echo signals from individual live fish for species identification. Kor J Fish Aquat Sci 49, 214-223. http://dx.doi.org/10.5657/KFAS.2016.0214.
  18. Nesse TL, Hobek H and Korneliussen RJ. 2009. Measurement of acoustic-scattering spectra from the whole and pars of Atlantic mackerel. ICES J Mar Sci 66, 1169-1175. http://dx.doi.org/ 10.1093/icesjms/fsp087.
  19. Pinjare SL and Arun Kumar M. 2012. Implementation of neural network back propagation training algorithm on FPGA. International J Computer Appl 52, 1-7.
  20. Saad MHM, Nor MJM, Bustami FRA and Ngadiran R. 2007. Classification of heart abnormalities using artificial neural network. J Appl Sci 7, 820-825. https://doi.org/10.3923/jas.2007.820.825
  21. Santo RdE. 2012. Principal component analysis applied to digital image compression. Eistein 10, 135-139.
  22. Shilbayeh NF, Alwakeel MM and Naser MM. 2013. An efficient neural network for recognition gestural Hindi digits. American J Appl Sci 10, 938-951. https://doi.org/10.3844/ajassp.2013.938.951
  23. Shui PL, Shang HY and Zhao YB. 2007. Instantaneous frequency estimation based on directionally smoothed pseudo-Wegner-Ville distribution bank. IET Radar Sonar Navig 1, 317-325. http://dx.doi.org/10.1049/rsn:20060123.
  24. Simmons EJ, Armstong F and Copland PJ. 1996. Species identification using wideband backscattering with neural network and discriminant analysis. ICES J Mar Sci 53, 189-195. https://doi.org/10.1006/jmsc.1996.0021
  25. Stanton TK, Chu D, Jech JM and Irish JD. 2010. New broad-band methods for resonance classification and high-resolution imagery of fish with swimbladders using a modified commercial broadband echosounder. ICES J Mar Sci 67, 365-378. http://dx.doi.org/10.1093/icesjms/fsp262.
  26. Tsagarakis K, Giannoulaki, M, Pyrounaki M and Machias A. 2015. Species identification of small pelagic fish schools by means of hydroacoustics in the Eastern Mediterranean Sea. Medit Mar Sci 16, 151-161. http://dx.doi.org/10.12681/mms.799.
  27. Woillez M, Ressler PH and Wilson CD. 2012. Multifrequency species classification of acoustic- trawl survey data using semi-supervised learning with class discovery. J Acoust Soc Am 131, EL184-EL190. http://dx.doi.org/10.1121/1.3678685.
  28. Zuo W, Zhang D and Wang K. 2006. Bidirectional PCA with assembled matrix distance metric for image recognition. IEEE Trans Sys Man Cyber 36, 863-872. https://doi.org/10.1109/TSMCB.2006.872274