• 제목/요약/키워드: Intelligence Based Society

검색결과 2,914건 처리시간 0.033초

RFM 다차원 분석 기법을 활용한 암시적 사용자 피드백 기반 협업 필터링 개선 연구 (A Study on Improvement of Collaborative Filtering Based on Implicit User Feedback Using RFM Multidimensional Analysis)

  • 이재성;김재영;강병욱
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.139-161
    • /
    • 2019
  • 전자상거래 시장의 이용이 보편화 되며 고객들에게 좋은 품질의 물건을 어디서, 얼마나 합리적으로 구매할 수 있는지가 중요해졌다. 이러한 구매 심리의 변화는 방대한 정보 속에서 오히려 고객들의 구매 의사결정을 어렵게 만드는 경향이 있다. 이때 추천 시스템은 고객의 구매 행동을 분석하여 정보 검색에 드는 비용을 줄이고 만족도를 높이는 효과가 있다. 하지만 대부분 추천 시스템은 책이나 영화 등 동종 상품 분류 내에서만 추천이 이뤄진다. 왜냐하면 추천 시스템은 특정 상품에 매긴 구매 평점 데이터를 기반으로 해당 상품 분류 내 유사한 상품에 대한 구매 만족도를 추정하기 때문이다. 그밖에 추천 시스템에서 사용하는 구매 평점의 신뢰성에 대한 문제도 제시되고 있으며 오프라인에선 평점 확보 자체가 어렵다. 이에 본 연구에서는 일련의 문제를 개선하기 위해 RFM 다차원 분석 기법을 활용하여 기존에 사용하던 고객의 구매 평점을 객관적으로 대체할 수 있는 새로운 지표의 활용 가능성을 제안하는 바이다. 실제 기업의 구매 이력 데이터에 해당 지표를 적용해서 검증해본 결과 높게는 약 55%에 해당하는 정확도를 기록했다. 이는 총 4,386종에 달하는 이종 상품들 중 한번도 이용해 본 적 없는 상품을 추천한 결과이기 때문에 검증 결과는 상대적으로 높은 정확도와 활용가치를 의미한다. 그리고 본 연구는 오프라인의 다양한 상품데이터에서도 적용할 수 있는 범용적인 추천 시스템의 가능성을 시사한다. 향후 추가적인 데이터를 확보한다면 제안하는 추천 시스템의 정확도 향상도 기대할 수 있다.

사용자 선호도 변화에 따른 추천시스템의 다양성 적용 (Application of diversity of recommender system accordingtouserpreferencechange)

  • 나혜연;남기환
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.67-86
    • /
    • 2020
  • 추천시스템은 시간이 흐를수록 사용자와 기업에게 점점 더 큰 영향을 주고 있다. 최근 코로나(COVID-19) 팬데믹 현상이 전 세계적으로 일어나면서 세대를 뛰어넘어 E-Commerce의 중요성이 증대되었고 추천시스템은 E-Commerce 활성화의 최중심에 있다. 추천시스템이 개발된 이래로 다수의 알고리즘이 추천시스템의 정확도를 올리는 것에 집중되어 있었고, 추천시스템의 희귀성, 다양성, 우연성 등과 같은 다른 가치들이 간과되고 있다. 본 논문에서는 사용자의 만족도는 추천시스템의 정확도에만 달려있지 않고 다양한 성능을 겸비했을 때 고객에게 만족스러운 추천서비스 경험을 제공할 것이라 생각하여 다양성을 위한 그래프 기반의 추천시스템을 개발하였다. 사용자 네트워크를 구성한 뒤 카테고리를 활용한 무게중심변화를 통해 유사도가 낮은 이질적인 사용자를 찾아 추천상품의 유사성을 낮추는 방식으로 다양성을 도모하였다. 또한, 추천의 다양성은 사용자의 다양성 선호 수준에 따라 상이할 것이라는 가정에 따라 사용자의 다양성 선호 수준을 구별하였고 다양성 모델 성능이 사용자 특성별로 다름을 확인할 수 있었다. 전체 연구 결과, 추천시스템의 정확성과 다양성이 트레이드 오프 관계에 놓여있다는 것을 확인할 수 있었지만 본 연구모델을 통해 근소한 정확도 손실 대비 높은 다양성을 얻을 수 있었다. 본 연구는 그래프 기반의 추천시스템을 통해 사용자의 만족도를 향상시키는 다양성을 실현하였다는 연구적 의의와 사용자 수준을 고려한 추천의 다양성을 적용 결과를 통해 기업의 장기적 이윤을 상승시킬 수 있는 모델 개발이라는 실무적 의의를 꼽을 수 있다.

전문어의 범용 공간 매핑을 위한 비선형 벡터 정렬 방법론 (Nonlinear Vector Alignment Methodology for Mapping Domain-Specific Terminology into General Space)

  • 김준우;윤병호;김남규
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.127-146
    • /
    • 2022
  • 최근 워드 임베딩이 딥러닝 기반 자연어 처리를 다루는 다양한 업무에서 우수한 성능을 나타내면서, 단어, 문장, 그리고 문서 임베딩의 고도화 및 활용에 대한 연구가 활발하게 이루어지고 있다. 예를 들어 교차 언어 전이는 서로 다른 언어 간의 의미적 교환을 가능하게 하는 분야로, 임베딩 모델의 발전과 동시에 성장하고 있다. 또한 핵심 기술인 벡터 정렬(Vector Alignment)은 임베딩 기반 다양한 분석에 적용될 수 있다는 기대에 힘입어 학계의 관심이 더욱 높아지고 있다. 특히 벡터 정렬은 최근 수요가 높아지고 있는 분야간 매핑, 즉 대용량의 범용 문서로 학습된 사전학습 언어모델의 공간에 R&D, 의료, 법률 등 전문 분야의 어휘를 매핑하거나 이들 전문 분야간의 어휘를 매핑하기 위한 실마리를 제공할 수 있을 것으로 기대된다. 하지만 학계에서 주로 연구되어 온 선형 기반 벡터 정렬은 기본적으로 통계적 선형성을 가정하기 때문에, 본질적으로 상이한 형태의 벡터 공간을 기하학적으로 유사한 것으로 간주하는 가정으로 인해 정렬 과정에서 필연적인 왜곡을 야기한다는 한계를 갖는다. 본 연구에서는 이러한 한계를 극복하기 위해 데이터의 비선형성을 효과적으로 학습하는 딥러닝 기반 벡터 정렬 방법론을 제안한다. 제안 방법론은 서로 다른 공간에서 벡터로 표현된 전문어 임베딩을 범용어 임베딩 공간에 정렬하는 스킵연결 오토인코더와 회귀 모델의 순차별 학습으로 구성되며, 학습된 두 모델의 추론을 통해 전문 어휘를 범용어 공간에 정렬할 수 있다. 제안 방법론의 성능을 검증하기 위해 2011년부터 2020년까지 수행된 국가 R&D 과제 중 '보건의료' 분야의 문서 총 77,578건에 대한 실험을 수행한 결과, 제안 방법론이 기존의 선형 벡터 정렬에 비해 코사인 유사도 측면에서 우수한 성능을 나타냄을 확인하였다.

차원축소를 활용한 해외제조업체 대상 사전점검 예측 모형에 관한 연구 (Preliminary Inspection Prediction Model to select the on-Site Inspected Foreign Food Facility using Multiple Correspondence Analysis)

  • 박혜진;최재석;조상구
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.121-142
    • /
    • 2023
  • 수입식품의 수입 건수와 수입 중량이 꾸준히 증가함에 따라 식품안전사고 방지를 위한 수입식품의 안전관리가 더욱 중요해지고 있다. 식품의약품안전처는 통관단계의 수입검사와 더불어 통관 전 단계인 해외제조업소에 대한 현지실사를 시행하고 있지만 시간과 비용이 많이 소요되고 한정된 자원 등의 제약으로 데이터 기반의 수입식품 안전관리 방안이 필요한 실정이다. 본 연구에서는 현지실사 전 부적합이 예상되는 업체를 사전에 선별하는 기계학습 예측 모형을 마련하여 현지실사의 효율성을 높이고자 하였다. 이를 위해 통합식품안전정보망에 수집된 총 303,272건의 해외제조가공업소 기본정보와 2019년도부터 2022년 4월까지의 현지실사 점검정보 데이터 1,689건을 수집하였다. 해외제조가공업소의 데이터 전처리 후 해외 제조업소_코드를 활용하여 현지실사 대상 데이터만 추출하였고, 총 1,689건의 데이터와 103개의 변수로 구성되었다. 103개의 변수를 테일유(Theil-U) 지표를 기준으로 '0'인 변수들을 제거하였고, 다중대응분석(Multiple Correspondence Analysis)을 적용해 축소 후 최종적으로 49개의 특성변수를 도출하였다. 서로 다른 8개의 모델을 생성하고, 모델 학습 과정에서는 5겹 교차검증으로 과적합을 방지하고, 하이퍼파라미터를 조정하여 비교 평가하였다. 현지실사 대상업체 선별의 연구목적은 부적합 업체를 부적합이라고 판정하는 확률인 검측률(recall)을 최대화하는 것이다. 머신러닝의 다양한 알고리즘을 적용한 결과 Recall_macro, AUROC, Average PR, F1-score, 균형정확도(Balanced Accuracy)가 가장 높은 랜덤포레스트(Random Forest)모델이 가장 우수한 모형으로 평가되었다. 마지막으로 모델에 의해서 평가된 개별 인스턴스의 부적합 업체 선정 근거를 제시하기 위해 SHAP(Shapley Additive exPlanations)을 적용하고 현지실사 업체 선정 시스템에의 적용 가능성을 제시하였다. 본 연구결과를 바탕으로 데이터에 기반한 과학적 위험관리 모델을 통해 수입식품 관리체계의 구축으로 인력·예산 등 한정된 자원의 효율적 운영방안 마련에 기여하길 기대한다.

분리학습 모델을 이용한 수출액 예측 및 수출 유망국가 추천 (Export Prediction Using Separated Learning Method and Recommendation of Potential Export Countries)

  • 장영진;원종관;이채록
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.69-88
    • /
    • 2022
  • 최근 코로나19 팬데믹으로 인해 전 세계 경제와 외교 상황에 급격한 변화가 일어나고 있으며, 수출 의존도가 높은 한국은 이러한 변화에 큰 영향을 받고 있다. 본 연구에서는 기업의 수출전략 수립 및 의사결정 지원을 위해 차년도 수출액 예측 모델을 구축하고, 모델의 예측 결과를 바탕으로 수출 유망국가 추천 방식을 제안한다. 본 연구에서는 모델이 다양한 정보를 학습할 수 있도록 국가별, 품목별, 거시경제 변수 등 선행 연구에서 중요하게 사용된 변수를 다방면으로 수집하였다. 수집한 데이터를 분석한 결과, 국가와 품목에 따라서 수출액의 분포가 매우 비대칭적인 것을 확인할 수 있었다. 따라서, 모델의 예측 성능을 향상시키고 설명력을 확보하기 위해서 분리학습 방식을 사용하였다. 분리학습은 전체 데이터를 동질적인 하위 그룹으로 분리하고 개별 모델을 구축하는 방식으로, 본 연구에서는 수출액을 기준으로 5개 구간으로 데이터를 분리하였다. 모델 학습 과정에서 구간별 특성을 반영하여 구간1부터 구간4까지는 LightGBM을 사용하고, 구간5는 지수이동평균을 사용하였으며 이를 통해 모델의 예측 성능을 향상시킬 수 있었다. 모델의 설명력 확보를 위해서 추가로 구간별 모델의 SHAP-value를 계산하고 중요도가 높은 변수를 제시했다. 또한, 본 연구에서는 예측 모델을 기반으로 2단계 수출 유망국가 추천 방식을 제안했다. 효율적인 수출 전략 수립을 위해서 BCG 매트릭스와 국가별 점수 산출 방식을 사용하였고, 품목별 유망 국가 순위와 수출 관련 주요 정보들을 제공하였다. 본 연구는 다양한 정보를 학습한 머신러닝 모델로 여러 국가와 품목에 대한 예측을 실시하고, 이 과정에서 분리학습 방식으로 예측 성능을 향상시켰다는 점에서 의의가 있다. 또한, 현재 무역 관련 서비스들이 과거 데이터에 기반한 정보를 제공하고 있음을 고려할 때, 본 연구에서 제안한 예측 모델과 유망국가 추천 방식은 기업들의 미래 수출 전략 수립 및 동향 파악에 유용하게 사용될 수 있을 것으로 기대된다.

Generative Adversarial Network-Based Image Conversion Among Different Computed Tomography Protocols and Vendors: Effects on Accuracy and Variability in Quantifying Regional Disease Patterns of Interstitial Lung Disease

  • Hye Jeon Hwang;Hyunjong Kim;Joon Beom Seo;Jong Chul Ye;Gyutaek Oh;Sang Min Lee;Ryoungwoo Jang;Jihye Yun;Namkug Kim;Hee Jun Park;Ho Yun Lee;Soon Ho Yoon;Kyung Eun Shin;Jae Wook Lee;Woocheol Kwon;Joo Sung Sun;Seulgi You;Myung Hee Chung;Bo Mi Gil;Jae-Kwang Lim;Youkyung Lee;Su Jin Hong;Yo Won Choi
    • Korean Journal of Radiology
    • /
    • 제24권8호
    • /
    • pp.807-820
    • /
    • 2023
  • Objective: To assess whether computed tomography (CT) conversion across different scan parameters and manufacturers using a routable generative adversarial network (RouteGAN) can improve the accuracy and variability in quantifying interstitial lung disease (ILD) using a deep learning-based automated software. Materials and Methods: This study included patients with ILD who underwent thin-section CT. Unmatched CT images obtained using scanners from four manufacturers (vendors A-D), standard- or low-radiation doses, and sharp or medium kernels were classified into groups 1-7 according to acquisition conditions. CT images in groups 2-7 were converted into the target CT style (Group 1: vendor A, standard dose, and sharp kernel) using a RouteGAN. ILD was quantified on original and converted CT images using a deep learning-based software (Aview, Coreline Soft). The accuracy of quantification was analyzed using the dice similarity coefficient (DSC) and pixel-wise overlap accuracy metrics against manual quantification by a radiologist. Five radiologists evaluated quantification accuracy using a 10-point visual scoring system. Results: Three hundred and fifty CT slices from 150 patients (mean age: 67.6 ± 10.7 years; 56 females) were included. The overlap accuracies for quantifying total abnormalities in groups 2-7 improved after CT conversion (original vs. converted: 0.63 vs. 0.68 for DSC, 0.66 vs. 0.70 for pixel-wise recall, and 0.68 vs. 0.73 for pixel-wise precision; P < 0.002 for all). The DSCs of fibrosis score, honeycombing, and reticulation significantly increased after CT conversion (0.32 vs. 0.64, 0.19 vs. 0.47, and 0.23 vs. 0.54, P < 0.002 for all), whereas those of ground-glass opacity, consolidation, and emphysema did not change significantly or decreased slightly. The radiologists' scores were significantly higher (P < 0.001) and less variable on converted CT. Conclusion: CT conversion using a RouteGAN can improve the accuracy and variability of CT images obtained using different scan parameters and manufacturers in deep learning-based quantification of ILD.

딥러닝 기반 구름 및 구름 그림자 탐지를 통한 고해상도 위성영상 UDM 구축 가능성 분석 (Applicability Analysis of Constructing UDM of Cloud and Cloud Shadow in High-Resolution Imagery Using Deep Learning)

  • 김나영;윤예린;최재완;한유경
    • 대한원격탐사학회지
    • /
    • 제40권4호
    • /
    • pp.351-361
    • /
    • 2024
  • 위성영상은 구름, 구름 그림자, 지형 그림자 등을 포함한 다양한 요소를 포함하고 있으며, 이러한 요소들을 정확히 식별하고 제거하는 것은 원격 탐사 분야에서 위성영상의 신뢰성을 유지하기 위해 필수적이다. 이를 위해 Landsat-8, Sentinel-2, Compact Advanced Satellite 500-1 (CAS500-1)과 같은 위성들은 분석준비자료(Analysis Ready Data)의 일환으로 영상과 함께 사용가능한 데이터 마스크(Usable Data Mask, UDM)를 제공하고 있으며, UDM 데이터의 정확한 구축을 위해 구름 및 구름 그림자 탐지가 필수적이다. 기존의 구름 및 구름 그림자 탐지 기법은 임계값 기반 기법과 인공지능 기반 기법으로 나뉘며, 최근에는 많은 양의 데이터를 처리하는 데 유리한 딥러닝 네트워크를 활용한 인공지능 기법이 많이 사용되고 있다. 본 연구에서는 오픈소스 데이터 셋을 통해 훈련된 딥러닝 네트워크 기반 구름 및 구름 그림자 탐지를 통해 고해상도 위성영상의 UDM 구축 가능성을 분석하고자 하였다. 딥러닝 네트워크의 성능을 검증하기 위해 Landsat-8, Sentinel-2, CAS500-1 위성영상과 함께 제공된 기구축된 UDM 데이터와 딥러닝 네트워크가 생성한 탐지 결과 간의 유사성을 분석하였다. 그 결과, 딥러닝 네트워크가 생성한 탐지 결과는 높은 정확도를 나타냈다. 또한 UDM을 제공하지 않는 고해상도 위성영상인 KOMPSAT-3/3A 영상에 적용하였다. 실험 결과, 딥러닝 네트워크를 통하여 고해상도 위성영상 내에 존재하는 구름 및 구름 그림자를 효과적으로 탐지한 것을 확인하였다. 이를 통해 고해상도 위성영상에서도 딥러닝 네트워크를 사용하여 UDM 데이터를 구축할 수 있는 가능성을 확인하였다.

한국 기록관리행정의 변천과 전망 (Records Management and Archives in Korea : Its Development and Prospects)

  • 남효채
    • 한국기록관리학회지
    • /
    • 제1권1호
    • /
    • pp.19-35
    • /
    • 2001
  • 조선왕조의 기록관리 전통의 맥이 끊어진지 거의 한세기가 지난 1999년도에 한국은 "공공기관의 기록물관리에 관한 법률"을 제정 시행함으로써 기록관리의 새로운 시대를 맞이했다. 조선왕조실록에는 국사 전반에 걸쳐 오백년 간의 중요한 역사적 사실들이 기록되었다. 이것은 인류역사상 주요한 업적이며 전세계적으로 귀한 사례이다. 이것이 가능했던 것은 실록이 누대(累代)의 사관들이 저술하고 편찬한 일차자료인 기록물을 수집, 선정한 것이기 때문이다. 근대적 기록보존소에서는 중요한 공공기록물이 원형대로 보존될 필요가 있기 때문에 기록보존을 위해 중요한 국가 기록물을 평가 선별하는 근대적 기록보존제도를 확립해야 했다. 그러나 일제에 의한 식민지화로 그 기회를 빼앗겼고 우리의 훌륭한 기록보전 전통은 계승되지 못했다. 중앙화된 기록보존제도는 1969년 총무처에 정부기록보존소를 설립함으로써 발전하기 시작했다. 정부기록보존소는 조선왕조의 사고 전통을 계승해서 1984년 부산에 현대적 사고시설을 건축했다. 1998년 정부기록보존소는 대전정부종합청사로 본부를 이전하고 첨단 시청각기록물 서고를 갖추었다. 1996년부터 정부기록보존소는 마이크로필름 보존을 보완하고 수작업 등록시스템을 개선하기 위하여 기록물 관리시스템 전산화를 도입했다. 소장 기록물의 디지털화는 이용자에게 디지털 이미지를 제공하기 위한 주요한 사업이었다. 이를 위해 정부기록보존소는 새로 컴퓨터/서버 시스템을 구입하고 응용 소프트웨어를 개발했다. 이와 병행하여 정부기록보존소는 역사학 및 문헌정보학 배경을 가진 아키비스트들을 증원하여 고도의 전문화를 이루는 방향으로 인력구조를 크게 혁신하였다. 보존연구직과 전산직 역시 채용되었다. 새로운 기록물관리법은 2000년 1월 1일부터 시행되고 있다. 이 법은 한국의 기록물관리에 있어 다음과 같은 변화를 가져왔다. 첫째, 이 법은 입법 사법 행정부, 헌법기관, 육해공군, 국가정보원 등 모든 공공기관의 기록물을 규정한다. 범국가적으로 통일된 기록물관리체계가 갖추어지게 되었다. 둘째, 각 기관의 수준별로 공공기록물 관리 기관을 두게 되었다. 중앙기록물관리기관, 국회 및 사법부에 특수기록물관리기관, 대도시 및 도에 지방기록물 관리기관, 공공기관에 자료관 또는 특수자료관, 각 과단위에서는 기록물관리책임자가 기록관리를 책임지게 되었다. 셋째, 공공기관의 기록물은 생산시에 컴퓨터에 등록된다. 따라서 인터넷이나 컴퓨터망을 통해 기록물을 쉽게 추적, 검색할 수 있게 될 것이다. 넷째, 기록관리학 분야에서 전문적 훈련을 받은 기록물관리 전문요원 배치를 의무화함으로써 기록물의 전문적 관리를 보장하게 된다. 다섯째, 공공기록물의 불법적 처리는 처벌을 받을 수 있는 범죄를 구성한다. 앞으로 공공기록물관리는 한국정부의 '전자정부 추진정책'과 함께 발전할 것이다. 다음과 같은 변화가 예상된다. 첫째 공공기관에서는 전자결재 문서 외에 종이문서, 시청각기록물, 간행물 등도 모두 디지털화하여 행정의 효율화 및 생산성을 제고할게 될 것이다. 둘째, 국회는 이미 특수기록관을 설립하였다. 법원과 국가정보원도 뒤를 따를 것이다. 시도 차원에서 더 많은 기록관들이 설립될 것이다. 셋째, 우리 사회가 지식정보사회화 될수록 기록관리기능은 더욱 중요한 국가기능이 될 것이다. 더 많은 대학교, 학회, 시민단체들이 기록보존에 고한 인식제고에 참여하고, 기록보존운동이 범국민적 차원으로 심화될수록 한국의 기록물관리는 현재보다 눈에 띄게 발전할 것이다.

신규시장 성장모형의 모수 추정을 위한 전문가 시스템 (An Expert System for the Estimation of the Growth Curve Parameters of New Markets)

  • 이동원;정여진;정재권;박도형
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.17-35
    • /
    • 2015
  • 시장 수요 예측은 일정 기간 동안 소비자에게 판매되는 동종 제품 또는 서비스의 수량 혹은 매출액의 규모를 추정하는 활동으로서, 기업경영활동에 있어 효율적인 의사결정을 내릴 수 있는 근거로 활용된다는 점에서 중요하게 인식되고 있다. 신규 시장의 수요를 예측하기 위해 다양한 시장성장모형이 개발되어 왔다. 이런 모형들은 일반적으로 시장의 크기 변화의 동인을 신기술 확산으로 보고 소비자인 개인에게 기술이 확산되는 과정을 통해 시장 크기가 변하는 과정을 확산모형으로 구현하게 된다. 그러나, 시장이 형성된 직후에는 수요 관측치의 부족으로 인해 혁신계수, 모방계수와 같은 예측모형의 모수를 정확하게 추정하는 것이 쉽지 않다. 이런 경우, 전문가의 판단 하에 예측하고자 하는 시장과 유사한 시장을 결정하고 이를 참고하여 모수를 추정하게 되는데, 어떤 시장을 유사하다고 판단하느냐에 따라 성장모형은 크게 달라지게 되므로, 정확한 예측을 위해서는 유사 시장을 찾는 것은 매우 중요하다. 그러나, 이런 방식은 직관과 경험이라는 정성적 판단에 크게 의존함으로써 일관성이 떨어질 수밖에 없으며, 결국, 만족할 만한 수준의 결과를 얻기 힘들다는 단점을 지닌다. 이런 정성적 방법은 유사도가 더 높은 시장을 누락시키고 유사도가 낮은 시장을 선택하는 오류를 일으킬 수 있다. 이런 이유로, 본 연구는 신규 시장의 모수를 추정하기 위해 필요한 유사시장을 누락 없이 효과적으로 찾아낼 수 있는 사례기반 전문가 시스템을 설계하고자 수행되었다. 제안된 모형은 데이터 마이닝의 군집분석 기법과 추천 시스템의 내용 기반 필터링 방법론을 기반으로 전문가 시스템으로 구현되었다. 본 연구에서 개발된 시스템의 유용성을 확인하고자 정보통신분야 시장의 모수를 추정하는 실험을 실시하였다. 전문가를 대상으로 실시된 실험에서, 시스템을 사용한 모수의 추정치가 시스템을 사용하지 않았을 때와 비교하여 실제 모수와 더 가까움을 보임으로써 시스템의 유용성을 증명하였다.

러프집합분석을 이용한 매매시점 결정 (Rough Set Analysis for Stock Market Timing)

  • 허진영;김경재;한인구
    • 지능정보연구
    • /
    • 제16권3호
    • /
    • pp.77-97
    • /
    • 2010
  • 매매시점결정은 금융시장에서 초과수익을 얻기 위해 사용되는 투자전략이다. 일반적으로, 매매시점 결정은 거래를 통한 초과수익을 얻기 위해 언제 매매할 것인지를 결정하는 것을 의미한다. 몇몇 연구자들은 러프집합분석이 매매시점결정에 적합한 도구라고 주장하였는데, 그 이유는 이 분석방법이 통제함수를 이용하여 시장의 패턴이 불확실할 때에는 거래를 위한 신호를 생성하지 않는다는 점 때문이었다. 러프집합은 분석을 위해 범주형 데이터만을 이용하므로, 분석에 사용되는 데이터는 연속형의 수치값을 이산화하여야 한다. 이산화란 연속형 수치값의 범주화 구간을 결정하기 위한 적절한 "경계값"을 찾는 것이다. 각각의 구간 내에서의 모든 값은 같은 값으로 변환된다. 일반적으로, 러프집합 분석에서의 데이터 이산화 방법은 등분위 이산화, 전문가 지식에 의한 이산화, 최소 엔트로피 기준 이산화, Na$\ddot{i}$ve and Boolean reasoning 이산화 등의 네 가지로 구분된다. 등분위 이산화는 구간의 수를 고정하고 각 변수의 히스토그램을 확인한 후, 각각의 구간에 같은 숫자의 표본이 배정되도록 경계값을 결정한다. 전문가 지식에 의한 이산화는 전문가와의 인터뷰 또는 선행연구 조사를 통해 얻어진 해당 분야 전문가의 지식에 따라 경계값을 정한다. 최소 엔트로피 기준 이산화는 각 범주의 엔트로피 측정값이 최적화 되도록 각 변수의 값을 재귀분할 하는 방식으로 알고리즘을 진행한다. Na$\ddot{i}$ve and Boolean reasoning 이산화는 Na$\ddot{i}$ve scaling 후에 그로 인해 분할된 범주값을 Boolean reasoning 방법으로 종속변수 값에 대해 최적화된 이산화 경계값을 구하는 방법이다. 비록 러프집합분석이 매매시점결정에 유망할 것으로 판단되지만, 러프집합분석을 이용한 거래를 통한 성과에 미치는 여러 이산화 방법의 효과에 대한 연구는 거의 이루어지지 않았다. 본 연구에서는 러프집합분석을 이용한 주식시장 매매시점결정 모형을 구성함에 있어서 다양한 이산화 방법론을 비교할 것이다. 연구에 사용된 데이터는 1996년 5월부터 1998년 10월까지의 KOSPI 200데이터이다. KOSPI 200은 한국 주식시장에서 최초의 파생상품인 KOSPI 200 선물의 기저 지수이다. KOSPI 200은 제조업, 건설업, 통신업, 전기와 가스업, 유통과 서비스업, 금융업 등에서 유동성과 해당 산업 내의 위상 등을 기준으로 선택된 200개 주식으로 구성된 시장가치 가중지수이다. 표본의 총 개수는 660거래일이다. 또한, 본 연구에서는 유명한 기술적 지표를 독립변수로 사용한다. 실험 결과, 학습용 표본에서는 Na$\ddot{i}$ve and Boolean reasoning 이산화 방법이 가장 수익성이 높았으나, 검증용 표본에서는 전문가 지식에 의한 이산화가 가장 수익성이 높은 방법이었다. 또한, 전문가 지식에 의한 이산화가 학습용과 검증용 데이터 모두에서 안정적인 성과를 나타내었다. 본 연구에서는 러프집합분석과 의사결정 나무분석의 비교도 수행하였으며, 의사결정나무분석은 C4.5를 이용하였다. 실험결과, 전문가 지식에 의한 이산화를 이용한 러프집합분석이 C4.5보다 수익성이 높은 매매규칙을 생성하는 것으로 나타났다.