전이학습 기반 다중 컨볼류션 신경망 레이어의 활성화 특징과 주성분 분석을 이용한 이미지 분류 방법 (Transfer Learning using Multiple ConvNet Layers Activation Features with Principal Component Analysis for Image Classification)
-
- 지능정보연구
- /
- 제24권1호
- /
- pp.205-225
- /
- 2018
Convolutional Neural Network (ConvNet)은 시각적 특징의 계층 구조를 분석하고 학습할 수 있는 대표적인 심층 신경망이다. 첫 번째 신경망 모델인 Neocognitron은 80 년대에 처음 소개되었다. 당시 신경망은 대규모 데이터 집합과 계산 능력이 부족하여 학계와 산업계에서 널리 사용되지 않았다. 그러나 2012년 Krizhevsky는 ImageNet ILSVRC (Large Scale Visual Recognition Challenge) 에서 심층 신경망을 사용하여 시각적 인식 문제를 획기적으로 해결하였고 그로 인해 신경망에 대한 사람들의 관심을 다시 불러 일으켰다. 이미지넷 첼린지에서 제공하는 다양한 이미지 데이터와 병렬 컴퓨팅 하드웨어 (GPU)의 발전이 Krizhevsky의 승리의 주요 요인이었다. 그러므로 최근의 딥 컨볼루션 신경망의 성공을 병렬계산을 위한 GPU의 출현과 더불어 ImageNet과 같은 대규모 이미지 데이터의 가용성으로 정의 할 수 있다. 그러나 이러한 요소는 많은 도메인에서 병목 현상이 될 수 있다. 대부분의 도메인에서 ConvNet을 교육하기 위해 대규모 데이터를 수집하려면 많은 노력이 필요하다. 대규모 데이터를 보유하고 있어도 처음부터 ConvNet을 교육하려면 많은 자원과 시간이 소요된다. 이와 같은 문제점은 전이 학습을 사용하면 해결할 수 있다. 전이 학습은 지식을 원본 도메인에서 새 도메인으로 전이하는 방법이다. 전이학습에는 주요한 두 가지 케이스가 있다. 첫 번째는 고정된 특징점 추출기로서의 ConvNet이고, 두번째는 새 데이터에서 ConvNet을 fine-tuning 하는 것이다. 첫 번째 경우, 사전 훈련 된 ConvNet (예: ImageNet)을 사용하여 ConvNet을 통해 이미지의 피드포워드 활성화를 계산하고 특정 레이어에서 활성화 특징점을 추출한다. 두 번째 경우에는 새 데이터에서 ConvNet 분류기를 교체하고 재교육을 한 후에 사전 훈련된 네트워크의 가중치를 백프로퍼게이션으로 fine-tuning 한다. 이 논문에서는 고정된 특징점 추출기를 여러 개의 ConvNet 레이어를 사용하는 것에 중점을 두었다. 그러나 여러 ConvNet 레이어에서 직접 추출된 차원적 복잡성을 가진 특징점을 적용하는 것은 여전히 어려운 문제이다. 우리는 여러 ConvNet 레이어에서 추출한 특징점이 이미지의 다른 특성을 처리한다는 것을 발견했다. 즉, 여러 ConvNet 레이어의 최적의 조합을 찾으면 더 나은 특징점을 얻을 수 있다. 위의 발견을 토대로 이 논문에서는 단일 ConvNet 계층의 특징점 대신에 전이 학습을 위해 여러 ConvNet 계층의 특징점을 사용하도록 제안한다. 본 논문에서 제안하는 방법은 크게 세단계로 이루어져 있다. 먼저 이미지 데이터셋의 이미지를 ConvNet의 입력으로 넣으면 해당 이미지가 사전 훈련된 AlexNet으로 피드포워드 되고 3개의 fully-connected 레이어의 활성화 틀징점이 추출된다. 둘째, 3개의 ConvNet 레이어의 활성화 특징점을 연결하여 여러 개의 ConvNet 레이어의 특징점을 얻는다. 레이어의 활성화 특징점을 연결을 하는 이유는 더 많은 이미지 정보를 얻기 위해서이다. 동일한 이미지를 사용한 3개의 fully-connected 레이어의 특징점이 연결되면 결과 이미지의 특징점의 차원은 4096 + 4096 + 1000이 된다. 그러나 여러 ConvNet 레이어에서 추출 된 특징점은 동일한 ConvNet에서 추출되므로 특징점이 중복되거나 노이즈를 갖는다. 따라서 세 번째 단계로 PCA (Principal Component Analysis)를 사용하여 교육 단계 전에 주요 특징점을 선택한다. 뚜렷한 특징이 얻어지면, 분류기는 이미지를 보다 정확하게 분류 할 수 있고, 전이 학습의 성능을 향상시킬 수 있다. 제안된 방법을 평가하기 위해 특징점 선택 및 차원축소를 위해 PCA를 사용하여 여러 ConvNet 레이어의 특징점과 단일 ConvNet 레이어의 특징점을 비교하고 3개의 표준 데이터 (Caltech-256, VOC07 및 SUN397)로 실험을 수행했다. 실험결과 제안된 방법은 Caltech-256 데이터의 FC7 레이어로 73.9 %의 정확도를 얻었을 때와 비교하여 75.6 %의 정확도를 보였고 VOC07 데이터의 FC8 레이어로 얻은 69.2 %의 정확도와 비교하여 73.1 %의 정확도를 보였으며 SUN397 데이터의 FC7 레이어로 48.7%의 정확도를 얻었을 때와 비교하여 52.2%의 정확도를 보였다. 본 논문에 제안된 방법은 Caltech-256, VOC07 및 SUN397 데이터에서 각각 기존에 제안된 방법과 비교하여 2.8 %, 2.1 % 및 3.1 %의 성능 향상을 보였다.
최근 인터넷 기반의 웹 및 모바일 기기를 통한 소비 패턴의 다양화와 개성화가 급진전됨에 따라 전통적 유통채널인 오프라인 매장의 효율적 운영이 더욱 중요해졌다. 매장의 매출과 수익 모두를 제고하기 위해 매장은 소비자에게 가장 매력적인 상품을 적시에 공급-판매 해야 하는데 많은 상품들 중에서 어떤 SKU를 취급하는 것이 판매 확률을 높이고 재고 비용을 낮출 수 있는지에 대한 연구가 부족한 실정이다. 특히, 여러 지역에 걸쳐 다수의 오프라인 매장을 통해 상품을 판매하는 기업의 경우 고객에게 매력적인 적절한 SKU를 추천 받아 취급할 수 있다면 매장의 매출 및 수익률 제고에 도움이 될 것이다. 본 연구에서는 개인화 추천에 이용되어 왔던 협업 필터링과 하이브리드 필터링 등의 추천 시스템(Recommender System)을 국가별, 지역별로 복수의 판매 매장을 통해 동종 브랜드를 취급하는 유통 기업의 매장 단위 취급 SKU 추천 방식을 제안하였다. 각 매장의 취급 품목별 구매 데이터를 활용하여 각 매장 별 유사성(Similarity)을 계산하고 각 매장의 SKU별 판매 이력에 따라 협업 필터링을 하여 최종적으로 매장에 개별 SKU를 추천하였다. 또한 매장 프로파일 데이터를 활용하여 주변수 분석 (PCA : Principal Component Analysis) 및 군집 분석(Clustering)을 통하여 매장을 4개의 군집으로 분류한 뒤 각 군집 내에서 협업 필터링을 적용한 하이브리드 필터링 방식으로 추천 시스템을 구현하고 실제 판매 데이터를 바탕으로 두 방식의 성능을 측정하였다. 현존하는 대부분의 추천 시스템은 사용자에게 영화, 음악 등의 아이템을 추천하는 방식으로 연구가 진행되어 왔고 실제로 산업계에서의 적용 또한 개인화 추천 시스템이 주류를 이루고 있다. 그 동안 개인화 서비스 영역에서 주로 다루어져 왔던 이러한 추천 시스템을 동종 브랜드를 취급하는 유통 기업의 매장 단위에 적용하여 각 매장의 취급 SKU를 추천하는 방식에 대한 연구는 거의 이루어지지 않고 있는 실정이다. 기존 추천 방법론의 추천 적용 대상이 '개인의 영역이었다면 본 연구에서는 국가별, 지역별로 복수의 판매 매장을 통해 개인의 영역을 넘어 매장의 영역으로 확대하여 동종 브랜드를 취급하는 유통 기업의 매장 단위 취급 SKU 추천 방식을 제안하고 있다. 또한 기존의 추천시스템은 온라인에 한정되었다면 이를 오프라인으로 활용 범위를 넓히고, 기존 개인을 기반으로 분석을 하는 것보다 매장영역으로 확대 적용하기에 적합한 알고리즘을 개발하기 위해 데이터마이닝 기법을 적용하여 추천 방법을 제안한다. 본 연구의 결과가 갖는 의의는 개인화 추천 알고리즘을 동일 브랜드를 취급하는 복수의 판매 매장에 적용하여 의미 있는 결과를 도출하고 실제 기업을 대상으로 시스템으로 구축하여 활용할 수 있는 구체적 방법론을 제시했다는 데에 있다. 개인화 영역을 위주로 이루어졌던 기존의 추천 시스템과 관련한 학계의 연구 영역을 동종 브랜드를 취급하는 기업의 판매 매장으로 확장시킨 첫 시도라는 데에도 의미가 있다. 2014년 03주차 ~ 05주차 전(全) 매장 판매 수량 실적 Top 100개 SKU로 추천의 대상을 한정하여 협업 필터링과 하이브리드 필터링 방식으로 52개 매장 별로 취급 SKU를 추천하고, 추천 받은 SKU에 대한 2014년 06주차 매장별 판매 실적을 집계하여 두 추천 방식의 성과를 비교하였다. 두 추천 방식을 비교한 이유는 본 연구의 추천 방법이 기존 추천 방식 보다 높은 성과를 입증하기 위해 단순히 오프라인에 협업필터링을 적용한 것을 기준 모델로 정의하였다. 이 기준 모델에 오프라인 매장 관점의 특성을 잘 반영한 본 연구 모델인 하이브리드 필터링 방법과 비교 함으로써 성과를 입증한다. 연구에서 제안한 방식은 기존 추천 방식보다 높은 성과를 나타냈으며, 이는 국내 대기업 의류업체의 실제 판매데이터를 활용하여 입증하였다. 본 연구는 개인 수준의 추천시스템을 그룹수준으로 확장하여 효율적으로 접근하는 방법을 이론적인 프레임 워크를 만들었을 뿐 아니라 실제 데이터를 기반으로 분석하여 봄으로써 실제 기업들이 적용해 볼 수 있다는 점에서 연구의 가치가 크다.
According as the automation of clerical work(OA ; Office Automation) develops, the use of VDT(Visual or Video Display Terminal) is increasing suddenly. But, in proportion to the spread of office automation(OA tendency), the self-conciousness syptom attendant upon the work is appearing also (Kim, Jung Tae, Lee, Young Ook, 1990). The apparatuses of office enable the clerical workers to be convenient and perform mass businesses. But, they are increasing the opportunity to be exposed to VDT syndrom, techno stress, computer terminal disease, pain by muscle strain(RSI), bradycausia of noise nature, and electromagnetic waves, etc. which are referred to as the new type of occupational diseases to the workers. It is the real situation that the workers to use VDT is complaining of the physical inconvenience sense in the recent newspaper and literature, it is the point of time that the sydrome to come from VDT use and computer terminal disease, etc. must be classified into the occupational disease(Lee, Kwang Young 1990, Lee, Kyoo Hak 1990, Lee, Won Ho 1991, Lee, Si Young 1991, Lee, Joon 1991, Choi, Young Tae 1991, Heo, Seung Ho 1989). In addition, it is the real situation that the scientifitic study result about the scope that electromagnetic waves has influence on the human body has not been suggested yet, and criticism on the stable exposure permission standard about electromagnetic waves to be emitted from VDT and on the problem in the health about electromagnetic waves is continuing. (IEEE Spectrum, 1990). In addition according to the experience of nursery business of industry field, it is the real situation that the patients who consult complaining of physical and mental inconvenience sence, among the users of apparatus of office automation, are reaching 10% of the patients coming to doctor's room. Therefore, it is necessary to confirm the self-consciousness symptom that the clerical workers complain of multilaterally with the actual state examination about the use of the apparatuses of offices automaton. Thus, this study was tried as th basic data for the cosultation and education for the maintenance and furtherance of the health of workers as the nurse of industry field, by confirming the contents of self-consciousness symptom attendant upon the use of the apparatus for office outomation making the financial institution in which the spparatus for office automation in most frequently used as the subject, and by examining whether there is the difference according to the subject of study, the data were collected, by using the questionnaire method, making 200 workers who consented to the study participation as the subject, among the persons who have spent over 3 months since they used the apparatuses for office automation and didn't receive the treatment in hospital due to the clerical disease for recent 3 years. The period of data collection was from Oct. 9, 1991 to Oct. 12. As for the measurement instrument about the complaint if self-consciousness symptom attendant upon the use of apparatuses fo office automation, the question item on the complaint symptom of health problem attendant upon the treatment of VDT that Kim(1991) developed and on CMI health problem and the question items on the fatigue degree due to industry were used by previous examination to 25 persons. Collected data were analyzed with the statistical method such as percentage, arithmetic mean, Person correlation coeffient, Kai square verfication, t-test, ANOVA, etc. by using SPSS/PC+ program, and the result is as follows : 1. The self-consciousness symptom that the clerical workers complained of most frequetly appeared high in 'My eyes are tired'(99.4%), 'I feel fatigue and weariness'(99.4%), 'I feel that my head is heavy5(90.0%), 'eyesight fell'(88.8%), 'I have a stiff neck'(88.8%), 'I fell pain in the shoulder'(85.0%), 'I feel cold and painful in the eyes'(76.9%), 'I feel the dry sense of eyeball'(76.2%), 'My nerves are edgy, and I an fretful, (75.6%), 'I feel pain in the waist'(73.2%) and 'I fell pain in the back'(72.8%). It emerged that the subject use the apparatuses for office automation complained of self-consciousness symptoms related to visual symptoms and musculoskeletal symptoms. 2. As for the general feature of examination subjects, the result to see the distribution by classifying into sex, age, school career, use career of apparatuses for office automation, skillfulness degree of the use of apparatus for office automation, use hours of the apparatuses for office automation per 1 day, type of business of the apparatus for office automation, rest hours during the use of apparatus for office automation, satifaction degree of business of office automation, and work circumstance, etc. emerged as follows : As for the sex of subjects, the distribution showed that men were 58.8% and women were 41.3%, Age was average 26.9. As the distribution of school career, the distribution showed that4below the graduation of high school' was 58.8%, 'graduation from junior college-university' was 35.0%, and 'over graduate school' was 6.3%. In the question to ask the existence or non-existence of experience of health consultation in connection with the work of office automation, the response that I had the consultation exprience and I feel the necessity emergerd as 90.1% And, the case that the subject who didn't wear the glasses or lens before using the OA apparatus wear glasses or lens after using OA apparatus emerged as 28.3% of whole. As for the existence or non-existence of use career of OA apparatus, the case under 3 years was highest as 52. 7%. As for the skillfulnness degree about the use of apparatus for office automation, most of them are skillful with the fact that 'common' was 44.4%, 'skill' was 42.5%, and 'unskillful' was 13.1% As for the use average hours of the apparatus for office automation per 1 day, the distribution showed that the case under 3-6 hours was 33.1%, the case under 6-9 hours was 28.1%, the case under 3 hours was 30.6%, and the case over 9 hours was 8.1% Main OA business and the use hours for 1 day showed in the order of keeping and retrieval, business of information transmission(162min), business of information transmission(79.3 min), business of document framing(55.5 min), and business of duplication and printing(25.4min). as for the rest during the use of apparatus for affice automation, that I take rest occasion demands the major portion, but that I take after completing the work emerged as 33.8%. Though the subiness gets to be convenient by the use of the apparatus for of office automation, respondents who showed the dissatisfaction about the present OA business emergd high as 78.1%. The work circumstances of each office was good with the fact that the temperature of office was 21.8, noise was average 42.7db, and the illumination was average 364.4 lx, in the light of ANSi/HFS 100 Standard. 3. Sight syptom, musculoskeletal symptom, skin and other symptoms showed the significant difference according to the extent of skillfulness of the apparatus for office automation. All the symptoms exept skin symptom showed the difference according to the use hours of the apparatus for office automation. All the question items exept the sytoms of digestive organs and the rest hours during the apparatus for office automation showed the signicant difference. The question item which showed the signicant difference from the satisfaction degree of present OA business showed the significant difference from all the question item classified into 6 groups. But, age and school career didn't significant difference from the complaint of any self-consciousness symptoms.