• 제목/요약/키워드: Optimization Techniques

검색결과 1,433건 처리시간 0.027초

전기비저항 탐사를 이용한 매립지의 재주입 침출수 모니터링 (Monitoring of Reinjected Leachate in a Landfill using Electrical Resistivity Survey)

  • 이철희;전수인;김영규;김원기
    • 지구물리와물리탐사
    • /
    • 제27권3호
    • /
    • pp.159-170
    • /
    • 2024
  • 매립된 폐기물의 빠른 분해 및 안정화를 위해 매립지에 침출수를 재주입하는 바이오리액터 공법은 많은 장점을 가지고 있어, 여러 매립지에서 시도되고 적용되고 있다. 매립지에 바이오리액터 공법을 성공적으로 적용하기 위해서는 주입된 침출수의 거동 특성을 파악하는 것이 중요하다. 본 논문에서는 바이오리액터 공법이 적용된 국내 매립장에서 침출수 거동을 파악하기 위해 전기비저항 모니터링을 수행하였다. 전기비저항 모니터링은 침출수가 주입되기 전인 2013년 8월에 기준 탐사를 수행하였고, 이후 주입에 따른 시간 경과 모니터링 탐사를 4회 수행하였다. 전기비저항 모니터링 결과로부터 침출수 주입에 따른 매립지 전기비저항 감소를 확인하였고, 시간에 따른 변화양상을 파악하였다. 또한, 전기비저항 변화비를 새롭게 정의하고 적용함으로써 침출수의 시간에 따른 공간적 분포 및 거동을 효과적으로 파악하였다. 향후에는 자료획득 최적화 연구와 다양한 기법들을 활용한 복합 모니터링 연구가 추가로 진행되어야 할 것으로 판단된다.

재무예측을 위한 Support Vector Machine의 최적화 (Optimization of Support Vector Machines for Financial Forecasting)

  • 김경재;안현철
    • 지능정보연구
    • /
    • 제17권4호
    • /
    • pp.241-254
    • /
    • 2011
  • Support vector machines(SVM)은 비교적 최근에 등장한 데이터마이닝 기법이지만, 재무, CRM 등의 경영학 분야에서 많이 연구되고 있다. SVM은 인공신경망과 필적할 만큼의 예측 정확도를 보이는 사례가 많았지만, 암상자로 불리는 인공신경망 모형에 비해 구축된 예측모형의 구조를 이해하기 쉽고, 인공신경망에 비해 과도적합의 가능성이 적어서 적은 수의 데이터에서도 적용 가능하다는 장점을 가지고 있다. 하지만, 일반적인 SVM을 이용하려면, 인공신경망과 마찬가지로 여러 가지 설계요소들을 설계자가 선택하여야 하기 때문에 임의성이 높고, 국부 최적해에 수렴할 가능성도 크다. 또한, 많은 수의 데이터가 존재하는 경우에는 데이터를 분석하고 이용하는데 시간이 소요되고, 종종 잡음이 심한 데이터가 포함된 경우에는 기대하는 수준의 예측성과를 얻지 못할 가능성이 있다. 본 연구에서는 일반적인 SVM의 장점을 그대로 유지하면서, 전술한 두 가지 단점을 보완한 새로운 SVM 모형을 제안한다. 본 연구에서 제안하는 모형은 사례선택기법을 일반적인 SVM에 융합한 것으로 대용량의 데이터에서 예측에 불필요한 데이터를 선별적으로 제거하여 예측의 정확도와 속도를 제고할 수 있는 방법이다. 본 연구에서는 잡음이 많고 예측이 어려운 것으로 알려진 재무 데이터를 활용하여 제안 모형의 유용성을 확인하였다.

비대칭 오류비용을 고려한 분류기준값 최적화와 SVM에 기반한 지능형 침입탐지모형 (An Intelligent Intrusion Detection Model Based on Support Vector Machines and the Classification Threshold Optimization for Considering the Asymmetric Error Cost)

  • 이현욱;안현철
    • 지능정보연구
    • /
    • 제17권4호
    • /
    • pp.157-173
    • /
    • 2011
  • 최근 인터넷 사용의 증가에 따라 네트워크에 연결된 시스템에 대한 악의적인 해킹과 침입이 빈번하게 발생하고 있으며, 각종 시스템을 운영하는 정부기관, 관공서, 기업 등에서는 이러한 해킹 및 침입에 의해 치명적인 타격을 입을 수 있는 상황에 놓여 있다. 이에 따라 인가되지 않았거나 비정상적인 활동들을 탐지, 식별하여 적절하게 대응하는 침입탐지 시스템에 대한 관심과 수요가 높아지고 있으며, 침입탐지 시스템의 예측성능을 개선하려는 연구 또한 활발하게 이루어지고 있다. 본 연구 역시 침입탐지 시스템의 예측성능을 개선하기 위한 새로운 지능형 침입탐지모형을 제안한다. 본 연구의 제안모형은 비교적 높은 예측력을 나타내면서 동시에 일반화 능력이 우수한 것으로 알려진 Support Vector Machine(SVM)을 기반으로, 비대칭 오류비용을 고려한 분류기준값 최적화를 함께 반영하여 침입을 효과적으로 차단할 수 있도록 설계되었다. 제안모형의 우수성을 확인하기 위해, 기존 기법인 로지스틱 회귀분석, 의사결정나무, 인공신경망과의 결과를 비교하였으며 그 결과 제안하는 SVM 모형이 다른 기법에 비해 상대적으로 우수한 성과를 보임을 확인할 수 있었다.

3단계(段階) 분할기법(分割技法)에 의한 평면(平面)트러스 구조물(構造物)의 형상(形狀) 최적화(最適化)에 관한 연구(硏究) (Optimal Configuration of the Truss Structures by Using Decomposition Method of Three-Phases)

  • 이규원;송기범
    • 대한토목학회논문집
    • /
    • 제12권3호
    • /
    • pp.39-55
    • /
    • 1992
  • 본(本) 연구(硏究)에서는 트러스구조물(構造物)의 효율적(效率的)인 형상최적화(形狀最適化)를 위해서 3단계분할최적화(段階分割最適化) 기법(技法)을 유도(誘導)하였다. 3단계분할최적화(段階分割最適化) 기법(技法)을 적용(適用)하기 위하여 제(第)1단계(段階)에서 설계변수(設計變數)로 목적함수(目的函數)는 구조물(構造物)이 에너지를 최대(最大)로 흡수(吸收)할 수 있도록 변형(變形)에너지를 택하였으며 제약조건식(制約條件式)으로는 허용응력(許容應力), 좌굴응력(挫屈應力), 변위제약(變位制約) 및 다(多) 재하조건(載荷條件)을 고려(考慮)하여 최적화문제(最適化問題)를 형성(形成)하였다. 제(第) 2단계(段階)에서 설계변수(設計變數)는 부재단면적(部材斷面積)으로하여 목적함수(目的函數)는 구조물(構造物)의 중량(重量)이 최소(最小)가 되도록 중량함수(重量函數)를 택하였으며 제약조건식(制約條件式)으로는 제(第)1단계(段階)에서 얻은 최대변위(最大變位)를 대입(代入)한 평형조건식(平衡條件式) 및 다재하조건(多載荷條件)을 고려(考慮)하여 최적화문제(最適化問題)를 형성(形成)하였다. 제(第) 3단계(段階)에서는 조정변수(調整變數)를 절점좌표(節點座標)로 하고 목적함수(目的函數)로는 중량함수(重量函數)로 하여 최적화(最適化) 문제(問題)를 형성(形成)하였다. 이와같이 형성(形成)된 제(第)1, 제(第)2단계(段階)의 최적화(最適化) 문제(問題)는 선형계획문제(線形計劃問題)로 된다. 따라서 3단계(段階) 분할최적화(分割最適化) 기법(技法)은 최적화(最適化) 과정(過程)이 간편(簡便)하고 구조해석(構造解析) 및 감도분석(感度分析)을 위한 기법(技法)을 적용(適用)할 필요(必要)가 없으므로 최적화(最適化) 과정중(過程中) 구조해석(構造解析) 및 감도분석(感度分析)에 요구(要求)되는 시간(時間)을 줄일 수 있는 효율적(效率的)인 기법(技法)이었다. 제(第) 3단계(段階)에서는 절점좌표(節點座標)를 설계변수(設計變數)로 하므로서 무제약최적화문제(無制約最適化問題)로 형성(形成)되므로 최적화과정(最適化過程)이 용이(容易)하다. 또한 본(本) 연구(硏究)는 각(各) 단계(段階)에 각각(各各) 다른 최적화기준(最適化基準)을 사용함으로써 수염속도(收斂速度)를 향상(向上)시키고 있다. 본(本) 연구(硏究)의 기법(技法)을 4종(種)으 트러스 구조물(構造物)에 적용(適用)한 결과 트러스 구조물(構造物)의 형태(形態), 제약조건식(制約條件式)에 구애받지 않고 효율적(效率的)으로 최적해(最適解)에 수염(收斂)함과 동시(同時)에 타(他)의 연구(硏究)와 거의 동일(同一)한 연구결과(硏究結果)를 얻었다.

  • PDF

N- and P-doping of Transition Metal Dichalcogenide (TMD) using Artificially Designed DNA with Lanthanide and Metal Ions

  • Kang, Dong-Ho;Park, Jin-Hong
    • 한국진공학회:학술대회논문집
    • /
    • 한국진공학회 2016년도 제50회 동계 정기학술대회 초록집
    • /
    • pp.292-292
    • /
    • 2016
  • Transition metal dichalcogenides (TMDs) with a two-dimensional layered structure have been considered highly promising materials for next-generation flexible, wearable, stretchable and transparent devices due to their unique physical, electrical and optical properties. Recent studies on TMD devices have focused on developing a suitable doping technique because precise control of the threshold voltage ($V_{TH}$) and the number of tightly-bound trions are required to achieve high performance electronic and optoelectronic devices, respectively. In particular, it is critical to develop an ultra-low level doping technique for the proper design and optimization of TMD-based devices because high level doping (about $10^{12}cm^{-2}$) causes TMD to act as a near-metallic layer. However, it is difficult to apply an ion implantation technique to TMD materials due to crystal damage that occurs during the implantation process. Although safe doping techniques have recently been developed, most of the previous TMD doping techniques presented very high doping levels of ${\sim}10^{12}cm^{-2}$. Recently, low-level n- and p-doping of TMD materials was achieved using cesium carbonate ($Cs_2CO_3$), octadecyltrichlorosilane (OTS), and M-DNA, but further studies are needed to reduce the doping level down to an intrinsic level. Here, we propose a novel DNA-based doping method on $MoS_2$ and $WSe_2$ films, which enables ultra-low n- and p-doping control and allows for proper adjustments in device performance. This is achieved by selecting and/or combining different types of divalent metal and trivalent lanthanide (Ln) ions on DNA nanostructures. The available n-doping range (${\Delta}n$) on the $MoS_2$ by Ln-DNA (DNA functionalized by trivalent Ln ions) is between $6{\times}10^9cm^{-2}$ and $2.6{\times}10^{10}cm^{-2}$, which is even lower than that provided by pristine DNA (${\sim}6.4{\times}10^{10}cm^{-2}$). The p-doping change (${\Delta}p$) on $WSe_2$ by Ln-DNA is adjusted between $-1.0{\times}10^{10}cm^{-2}$ and $-2.4{\times}10^{10}cm^{-2}$. In the case of Co-DNA (DNA functionalized by both divalent metal and trivalent Ln ions) doping where $Eu^{3+}$ or $Gd^{3+}$ ions were incorporated, a light p-doping phenomenon is observed on $MoS_2$ and $WSe_2$ (respectively, negative ${\Delta}n$ below $-9{\times}10^9cm^{-2}$ and positive ${\Delta}p$ above $1.4{\times}10^{10}cm^{-2}$) because the added $Cu^{2+}$ ions probably reduce the strength of negative charges in Ln-DNA. However, a light n-doping phenomenon (positive ${\Delta}n$ above $10^{10}cm^{-2}$ and negative ${\Delta}p$ below $-1.1{\times}10^{10}cm^{-2}$) occurs in the TMD devices doped by Co-DNA with $Tb^{3+}$ or $Er^{3+}$ ions. A significant (factor of ~5) increase in field-effect mobility is also observed on the $MoS_2$ and $WSe_2$ devices, which are, respectively, doped by $Tb^{3+}$-based Co-DNA (n-doping) and $Gd^{3+}$-based Co-DNA (p-doping), due to the reduction of effective electron and hole barrier heights after the doping. In terms of optoelectronic device performance (photoresponsivity and detectivity), the $Tb^{3+}$ or $Er^{3+}$-Co-DNA (n-doping) and the $Eu^{3+}$ or $Gd^{3+}$-Co-DNA (p-doping) improve the $MoS_2$ and $WSe_2$ photodetectors, respectively.

  • PDF

유방암 환자의 3D-CRT, TOMO 방법에 따른 선량 분포 평가 (Dosimetric Comparison of Three Dimensional Conformal Radiation Radiotherapy and Helical Tomotherapy Partial Breast Cancer)

  • 김대웅;김종원;최윤경;김정수;황재웅;정경식;최계숙
    • 대한방사선치료학회지
    • /
    • 제20권1호
    • /
    • pp.11-15
    • /
    • 2008
  • 목 적: 방사선치료계획에 있어서 정상조직과 치료부위의 선량 분포는 매우 중요하다. 이에 본원에서는 유방암 환자를 대상으로 Three-dimensional conformal radiation therapy (3D-CRT), Helical tomotherapy (TOMO)의 방법으로 방사선치료계획을 세웠으며 이에 선량분포를 분석하여 실제 임상에서의 적용여부를 알아보고자 한다. 대상 및 방법: 20명의(좌측: 10명, 우측: 10명) 유방보존절제술 환자를 대상으로 시행하였으며 방법으로는 같은 조건에서 3D-CRT는 Philips사의 Pinnacle을, TOMO는 TomoTherapy사의 TOMO Planning System을 이용해 치료계획을 세웠다. Dose-Volume Histogram (DVH)의 prescribed dose (PD)에 대한 PTV의 Homogeneity index (HI)와 Conformity index (CI)를 구하였고, 정상조직의 dose- volume 관계를 비교하였다. 결 과: Homogeneity index (HI)와 Conformity, index (CI)는 TOMO에서 우수한 결과를 나타났다. $V_{-50-IB-NPTV}$ (the percentage ipsilateral non-PTV breast volume that was delivered 50% of the prescribed dose)는 3D-CRT: 40.4%, TOMO: 18.3%, $V_{20-IL}$ (the average ipsilateral lung volume percentage receiving 20% of the prescribed dose)는 3D-CRT: 4.8%, TOMO: 14.2%, $V_{20-10H}$ (the average heart volume percentage delivered 20% and 10% of the prescribed dose in left breast cancer)는 3D-CRT: 1.6%, 3% TOMO: 9.7%, 26.3%의 결과를 보여준다. 결 론: 유방암 환자의 방사선치료계획 방법들은 PTV에서 원하는 선량분포를 보여줬다. 그러나 TOMO는 좋은 Homogeneity index (HI), Conformity index (CI)와 Breast를 보호하는 장점이 있는 반면에 Lung과 Heart에서는 많은 피폭선량이 있음을 알 수 있기에 TOMO의 방사선치료계획시 주의해야 할 점으로 사료된다.

  • PDF

유방암 환자의 방사선 치료시 Energy와 Wedge를 combine한 Hybrid plan의 유용성 평가 (Usefulness evaluation of Hybrid planning through dosimetric comparision of Three Dimensinal Conformal Radiation Radiotherapy and Hybrid planning for left breast cancer)

  • 채문기;박병수;안종호;송기원
    • 대한방사선치료학회지
    • /
    • 제26권1호
    • /
    • pp.91-98
    • /
    • 2014
  • 목 적 : 본 연구에서는 기존의 방사선 치료 기법인 3D-CRT 방법을 기반으로 치료 Energy와 Wedge를 변형 시킨 Hybrid 치료계획을 세워, open rectangular field를 사용한 2D-RT와 현재 가장 많이 시행되고 있는 방사선치료의 형태인 3D-CRT, 그리고 Hyrid paln 의 각각의 치료계획에 따른 선량분포, 선량-체적 히스토그램을 이용하여 산출된 값들을 비교, 분석하여 Hybrid 치료계획의 유용성을 평가하고자 한다. 대상 및 방법 : 본원에서 방사선 치료를 받은 환자 5명을 대상으로 전산화 단층촬영장치(RT-16GE)를 이용해 CT모의치료를 시행하여 영상을 획득하였다. 치료계획실에서는 이미지 관심영역표시는 종양은 CTV으로, 정상장기는 폐, 심장으로 나타냈다. 치료계획은(pinncle-ver 9.2)은 표적에는 충분한 선량을 정상장기에는 선량이 최소화 되도록 치료계획을 세웠다. 결 과 : Homogeneity Index의 선량비교는 2D-RT (open rectangular field): 38.32, TW(conformal wedge field): 32.01 FIF(field in field): 29.22, HYBRID(energy combine, wedge combine): 30.57으로 나타났다. 2D-RT, TW, FIF Hybrid $V_{75_-lung}$은 각각 112.33, 125.14, 121.3, 123.78. $V_{50_-lung}$은 155.43, 159.62, 157.96, 159.06. $V_{25_-lung}$은 199.86, 200.22, 198.65, 200.31. $V_{50_-heart}$는 각각 26.07, 27.1, 26.85, 27.17 $V_{30_-heart}$ 33.71, 34.37, 34.15, 34.65로 나타났다. 결 론 : HYBRID planning에서 표적에는 3D-CRT 에 비해 비교적 뛰어난 선량분포와 유방을 보호함을 보여주지만 폐와 심장에 많은 선량이 조사됨을 치료계획 시 주의해야 하고 앞으로 해결해야 할 과제라 생각된다. HYBRID 으로 Energy를 혼합하여 사용한다면, 타겟에 보다 더 적절한 coverage가 이루어질 수 있을 것으로 보인다. breast 뿐만 아닌 Lung cacner 치료와 같이 불균질한 부위의 치료에 적용한다면 보다 더 최적을 결과를 이루어낼 수 있을 것으로 사료된다.

입력변수 및 학습사례 선정을 동시에 최적화하는 GA-MSVM 기반 주가지수 추세 예측 모형에 관한 연구 (A Study on the Prediction Model of Stock Price Index Trend based on GA-MSVM that Simultaneously Optimizes Feature and Instance Selection)

  • 이종식;안현철
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.147-168
    • /
    • 2017
  • 오래 전부터 학계에서는 정확한 주식 시장의 예측에 대한 많은 연구가 진행되어 왔고 현재에도 다양한 기법을 응용한 예측모형들이 연구되고 있다. 특히 최근에는 딥러닝(Deep-Learning)을 포함한 다양한 기계학습기법(Machine Learning Methods)을 이용해 주가지수를 예측하려는 많은 시도들이 진행되고 있다. 전통적인 주식투자거래의 분석기법으로는 기본적 분석과 기술적 분석방법이 사용되지만 보다 단기적인 거래예측이나 통계학적, 수리적 기법을 응용하기에는 기술적 분석 방법이 보다 유용한 측면이 있다. 이러한 기술적 지표들을 이용하여 진행된 대부분의 연구는 미래시장의 (보통은 다음 거래일) 주가 등락을 이진분류-상승 또는 하락-하여 주가를 예측하는 모형을 연구한 것이다. 하지만 이러한 이진분류로는 추세를 예측하여 매매시그널을 파악하거나, 포트폴리오 리밸런싱(Portfolio Rebalancing)의 신호로 삼기에는 적합치 않은 측면이 많은 것 또한 사실이다. 이에 본 연구에서는 기존의 주가지수 예측방법인 이진 분류 (binary classification) 방법에서 주가지수 추세를 (상승추세, 박스권, 하락추세) 다분류 (multiple classification) 체계로 확장하여 주가지수 추세를 예측하고자 한다. 이러한 다 분류 문제 해결을 위해 기존에 사용하던 통계적 방법인 다항로지스틱 회귀분석(Multinomial Logistic Regression Analysis, MLOGIT)이나 다중판별분석(Multiple Discriminant Analysis, MDA) 또는 인공신경망(Artificial Neural Networks, ANN)과 같은 기법보다는 예측성과의 우수성이 입증된 다분류 Support Vector Machines(Multiclass SVM, MSVM)을 사용하고, 이 모델의 성능을 향상시키기 위한 래퍼(wrapper)로서 유전자 알고리즘(Genetic Algorithm)을 이용한 최적화 모델을 제안한다. 특히 GA-MSVM으로 명명된 본 연구의 제안 모형에서는 MSVM의 커널함수 매개변수, 그리고 최적의 입력변수 선택(feature selection) 뿐만이 아니라 학습사례 선택(instance selection)까지 최적화하여 모델의 성능을 극대화 하도록 설계하였다. 제안 모형의 성능을 검증하기 위해 국내주식시장의 실제 데이터를 적용해본 결과 ANN이나 CBR, MLOGIT, MDA와 같은 기존 데이터마이닝 기법들이나 인공지능 알고리즘은 물론 현재까지 가장 우수한 예측 성과를 나타내는 것으로 알려져 있던 전통적인 다분류 SVM 보다도 제안 모형이 보다 우수한 예측성과를 보임을 확인할 수 있었다. 특히 주가지수 추세 예측에 있어서 학습사례의 선택이 매우 중요한 역할을 하는 것으로 확인 되었으며, 모델의 성능의 개선효과에 다른 요인보다 중요한 요소임을 확인할 수 있었다.

M&W 파동 패턴과 유전자 알고리즘을 이용한 주식 매매 시스템 개발 (Development of a Stock Trading System Using M & W Wave Patterns and Genetic Algorithms)

  • 양훈석;김선웅;최흥식
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.63-83
    • /
    • 2019
  • 투자자들은 기업의 내재가치 분석, 기술적 보조지표 분석 등 복잡한 분석보다 차트(chart)에 나타난 그래프(graph)의 모양으로 매매 시점을 찾는 직관적인 방법을 더 선호하는 편이다. 하지만 패턴(pattern) 분석 기법은 IT 구현의 난이도 때문에 사용자들의 요구에 비해 전산화가 덜 된 분야로 여겨진다. 최근에는 인공지능(artificial intelligence, AI) 분야에서 신경망을 비롯한 다양한 기계학습(machine learning) 기법을 사용하여 주가의 패턴을 연구하는 사례가 많아졌다. 특히 IT 기술의 발전으로 방대한 차트 데이터를 분석하여 주가 예측력이 높은 패턴을 발굴하는 것이 예전보다 쉬워졌다. 지금까지의 성과로 볼 때 가격의 단기 예측력은 높아졌지만, 장기 예측력은 한계가 있어서 장기 투자보다 단타 매매에서 활용되는 수준이다. 이외에 과거 기술력으로 인식하지 못했던 패턴을 기계적으로 정확하게 찾아내는 데 초점을 맞춘 연구도 있지만 찾아진 패턴이 매매에 적합한지 아닌지는 별개의 문제이기 때문에 실용적인 부분에서 취약할 수 있다. 본 연구는 주가 예측력이 있는 패턴을 찾으려는 기존 연구 방법과 달리 패턴들을 먼저 정의해 놓고 확률기반으로 선택해서 매매하는 방법을 제안한다. 5개의 전환점으로 정의한 Merrill(1980)의 M&W 파동 패턴은 32가지의 패턴으로 시장 국면 대부분을 설명할 수 있다. 전환점만으로 패턴을 분류하기 때문에 패턴 인식의 정확도를 높이기 위해 드는 비용을 줄일 수 있다. 32개 패턴으로 만들 수 있는 조합의 수는 전수 테스트가 불가능한 수준이다. 그래서 최적화 문제와 관련한 연구들에서 가장 많이 사용되고 있는 인공지능 알고리즘(algorithm) 중 하나인 유전자 알고리즘(genetic algorithm, GA)을 이용하였다. 그리고 미래의 주가가 과거를 반영한다 해도 같게 움직이지 않기 때문에 전진 분석(walk-forward analysis, WFA)방법을 적용하여 과최적화(overfitting)의 실수를 줄이도록 하였다. 20종목씩 6개의 포트폴리오(portfolio)를 구성하여 테스트해 본 결과에 따르면 패턴 매매에서 가격 변동성이 어느 정도 수반되어야 하며 패턴이 진행 중일 때보다 패턴이 완성된 후에 진입, 청산하는 것이 효과적임을 확인하였다.

Word2Vec을 활용한 제품군별 시장규모 추정 방법에 관한 연구 (A Study on Market Size Estimation Method by Product Group Using Word2Vec Algorithm)

  • 정예림;김지희;유형선
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.1-21
    • /
    • 2020
  • 인공지능 기술의 급속한 발전과 함께 빅데이터의 상당 부분을 차지하는 비정형 텍스트 데이터로부터 의미있는 정보를 추출하기 위한 다양한 연구들이 활발히 진행되고 있다. 비즈니스 인텔리전스 분야에서도 새로운 시장기회를 발굴하거나 기술사업화 주체의 합리적 의사결정을 돕기 위한 많은 연구들이 이뤄져 왔다. 본 연구에서는 기업의 성공적인 사업 추진을 위해 핵심적인 정보 중의 하나인 시장규모 정보를 도출함에 있어 기존에 제공되던 범위보다 세부적인 수준의 제품군별 시장규모 추정이 가능하고 자동화된 방법론을 제안하고자 한다. 이를 위해 신경망 기반의 시멘틱 단어 임베딩 모델인 Word2Vec 알고리즘을 적용하여 개별 기업의 생산제품에 대한 텍스트 데이터를 벡터 공간으로 임베딩하고, 제품명 간 코사인 거리(유사도)를 계산함으로써 특정한 제품명과 유사한 제품들을 추출한 뒤, 이들의 매출액 정보를 연산하여 자동으로 해당 제품군의 시장규모를 산출하는 알고리즘을 구현하였다. 실험 데이터로서 통계청의 경제총조사 마이크로데이터(약 34만 5천 건)를 이용하여 제품명 텍스트 데이터를 벡터화 하고, 한국표준산업분류 해설서의 산업분류 색인어를 기준으로 활용하여 코사인 거리 기반으로 유사한 제품명을 추출하였다. 이후 개별 기업의 제품 데이터에 연결된 매출액 정보를 기초로 추출된 제품들의 매출액을 합산함으로써 11,654개의 상세한 제품군별 시장규모를 추정하였다. 성능 검증을 위해 실제 집계된 통계청의 품목별 시장규모 수치와 비교한 결과 피어슨 상관계수가 0.513 수준으로 나타났다. 본 연구에서 제시한 모형은 의미 기반 임베딩 모델의 정확성 향상 및 제품군 추출 방식의 개선이 필요하나, 표본조사 또는 다수의 가정을 기반으로 하는 전통적인 시장규모 추정 방법의 한계를 뛰어넘어 텍스트 마이닝 및 기계학습 기법을 최초로 적용하여 시장규모 추정 방식을 지능화하였다는 점, 시장규모 산출범위를 사용 목적에 따라 쉽고 빠르게 조절할 수 있다는 점, 이를 통해 다양한 분야에서 수요가 높은 세부적인 제품군별 시장정보 도출이 가능하여 실무적인 활용성이 높다는 점에서 의의가 있다.