• 제목/요약/키워드: combined algorithm

검색결과 1,601건 처리시간 0.034초

빅데이터 기반 추천시스템 구현을 위한 다중 프로파일 앙상블 기법 (A Multimodal Profile Ensemble Approach to Development of Recommender Systems Using Big Data)

  • 김민정;조윤호
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.93-110
    • /
    • 2015
  • 기존의 협업필터링 추천시스템 연구는 상품에 대한 고객의 평점(rating)이나 구매 여부 데이터로부터 하나의 프로파일을 생성하고 이를 기반으로 추천 성능을 향상시킬 수 있는 새로운 알고리즘을 개발하는 위주로 진행되어 왔다. 그러나 빅데이터 환경이 도래하면서 기업이 수집할 수 있는 고객 데이터가 풍부해지고 다양해짐에 따라, 보다 정확하게 고객의 선호도나 행태를 파악하는 것이 가능하게 되었고 이러한 데이터, 즉 퍼스널 빅데이터(personal big data)를 추천시스템에 활용하는 연구의 필요성이 대두되고 있다. 본 연구에서는 마케팅의 시장세분화 이론에 근거하여 퍼스널 빅데이터로부터 고객의 선호도나 행태를 다양한 관점에서 표현할 수 있는 5종의 다중 프로파일(multimodal profile)을 개발하고, 이를 활용하여 협업필터링 추천시스템의 성능을 개선하고자 한다. 제안하는 5종의 다중 프로파일은 프로파일 통합 유사도, 개별 프로파일 유사도 평균, 개별 프로파일 유사도 가중 평균이라는 세 가지 앙상블 기법을 통해 협업필터링의 이웃(neighborhood) 탐색과정에 적용된다. 실제 퍼스널 빅데이터에 본 연구에서 제안하는 방법론을 적용한 결과, 단일 프로파일을 사용하는 협업필터링 알고리즘보다 추천 성능이 상당히 개선되었으며 앙상블 방법 중에서는 개별 프로파일 유사도 가중 평균 기법이 가장 높은 추천 성능을 보여주었다. 본 연구는 빅데이터 환경에서 추천시스템을 개발하고자 할 때, 어떠한 성격의 데이터로부터 고객의 특성을 규명하는 프로파일을 만들고 이를 어떻게 결합하여 사용하는 것이 효과적인 지 처음으로 제안하였다는 점에서 그 의의가 있다.

VRML을 이용한 융합 영상에서 간질환자 발작 진원지의 3차원적 가시화와 위치 측정 구현 (Visualization and Localization of Fusion Image Using VRML for Three-dimensional Modeling of Epileptic Seizure Focus)

  • 이상호;김동현;유선국;정해조;윤미진;손혜경;강원석;이종두;김희중
    • 한국의학물리학회지:의학물리
    • /
    • 제14권1호
    • /
    • pp.34-42
    • /
    • 2003
  • World Wide Web (WWW)에서 Virtual Reality Modeling Language (VRML)를 이용하는 3차원 (3D) 디스플레이는 사용자에게 직관적인 정보를 더 효과적으로 제공해 준다. 웹을 기반으로 하는 해부학적 영상과 융합되는 기능적 영상의 3D 가시화는 아직까지 체계적인 방식으로 연구가 활발히 진행되지 않았다. 이 연구의 목적은 2D 영상들과 함께 웹에서 VRML을 이용하여 구현되는 3D 해부학적 표면 영상들과 기능적 표면 영상들을 동시적으로 관찰할 수 있게 하고 VRML을 통해 만들어진 거리 측정 도구를 가지고 관심영역의 공간적인 위치 정보를 제공하는 것이다. 본 연구에서는 한 명의 간질 환자로부터 Magnetic Resonance (MR) 축면 영상과 발작기 및 발작간기 Single Photon Emission Computed Tomography (SPECT) 축면 영상들을 각각 획득하였다. 발작 진원지의 확인을 향상시키기 위해서 subtractionictal SPECT coregistered to MRI (SISCOM)을 수행하였다 SISCOM 결과로 나타난 각 2D 영상들은 모든 voxel들의 평균값 위로 1-표준편차와 2-표준편차에 해당하는 문턱 이상의 영상 값을 갖도록 하였다. SISCOM으로 나타나는 간질 발작 진원지들과 MRI 영상에서 회색질, 백색질 및 뇌척수액의 경계들을 각각 분할하고 marching cube 알고리즘에 의해 VRML 표면 영상들로 나타내었다. 축면 영상에서 실제 거리를 나타내는 x, y축의 길이를 획득하고 z축선의 길이를 계산하였다. VRML을 이용한 거리 측정도구를 만들어 이전의 VRML 표면 영상들과 융합하였다. MRI 영상을 이용하여 3D 표면 영상들의 단면을 나타내고 3D 표면 영상들의 투명도를 설정하기 위해 Java Script 루틴을 사용자 인터페이스 도구로서 삽입하였다 웹 페이지에서 구현되는 3D 표면 영상들의 투명도와 관찰 위치를 조절함에 따라 모델들 사이의 공간적인 정보를 직관적으로 알 수 있었다. 간질 발작 진원지에 대응하는 해부학적 구조를 3D 표면 영상들을 가로지르는 MRI 평면 영상들을 통해서 확인하였다 간질 발작 진원지는 뇌의 오른쪽 측두엽에서 나타났고 공간적으로 발작 진원지의 실제 위치를 VRML 거리 측정 도구에 의해 알 수 있었다. 결론적으로 본 연구에서 제시하는 웹에 근거한 3D 융합 영상의 가시화와 위치 측정은 진단 및 치료 방사선학과 외과학 등의 분야에서 온라인 방식의 연구와 교육에 있어 많은 도움을 줄 것이다.

  • PDF

$^{17}O$ NMR 기법을 이용한 상자성 자기공명조영제의 물분자 교환에 관한 연구 ($^{17}O$ NMR Study On Water Excharge Rate of Paramagnetic Contrast Agents)

  • Yongmin Chang;Sung Wook Hong;Moon Jung Hwang;Il Soo Rhee;Duk-Sik Kang
    • Investigative Magnetic Resonance Imaging
    • /
    • 제5권1호
    • /
    • pp.33-37
    • /
    • 2001
  • 목적 : 자성 자기공명조명제의 효율을 결정하는데는 상자성물질의 물분자 결합위치에 구속되어 있는 물분자와 자유 물분자사이의 물분자 교환율이 매우 중요한 역할을 담당한다. 따라서 본 연구에서는 $^{17}O-NMR$기법을 사용하여 현재 상용화 되어 있는 Gd 자기공명조영제 및 최근 간특이성 자기공명조영제로 제안되고 있는 Gd-EOB-DTPA의 물분자 교율을 측정하고자 하였다. 대상 및 방법 본 연구에 사용된 조영제는 Gd-DTPA, Gd-DTPA-BMA, Gd-DOTA, Gd-EOB-DTPA 이며 여기에 Isotech 사의 5% $^{17}O$로 치환된 증류수를 혼합하여 사용하였다. 결과적인 시료의 pH는 buffer용액을 사용하여 pH=7로 고정하였으며 다양한 온도에서 Bruker-600 (14.1 T, 81.3 MHz)모델의 NMR장비를 사용하여 측정하였다. 에코열 24개의 Carr-Purcell-Meiboom-Gill (CPMG) 펄스 시권스를 사용하여 $^{17}O$의 스핀-스핀 이완시간(T2)을 측정하고 이렇게 얻어진 T2 데이터는 최소자승법을 이용하여 Solomon-Bloembergen방정식에 fitting시켜서 최종적으로 각 조명제의 물분자 교환율을 계산하였다. 결과 : 측정된 각 조영제의 물분자 교환시간은 300k의 온도에서는 Gd-DTPA의 경우 0.427, Gd-DTPA-BMA의 경우 $1.99{\;}{\mu}s$, Gd-DOTA의 경우 $0.27{\;}{\mu}s$, Gd-EOB-DTPA의 경우 $0.11{\;}{\mu}s$로 나타났으며 이러한 물분자 교환시간은 온도에 따라 변화함을 알았다. 물분자 교환시간의 온도 의존성은 모든 조영제에서 지수함수의 형태로 나타났으나 조영제에 따라 온도가 올라감에 따라 물분자 교환시간이 감소하는 감소율에서는 차이를 나타내었다. 결론 : 상자성 조영제의 relaxation enhancement 기전을 이해하는데는 물분자 교환율에 대한 정보가 매우 중요하며 이러한 물분자 교환율을 정확히 측정하는데는 $^{17}O-NMR$기법이 매우 유용함을 알 수 있었다.

  • PDF

국내 식물 형태 연구에 사용된 다변량분석 논문에 대한 재고 (A Review of Multivariate Analysis Studies Applied for Plant Morphology in Korea)

  • 장계선;오하나;김휘;이흥수;장진성
    • 한국산림과학회지
    • /
    • 제98권3호
    • /
    • pp.215-224
    • /
    • 2009
  • 최근 10여년간(1997-2008년) 국내 식물 형태관련 연구논문중 주요 3개 학회지(한국임학회지, 한국식물분류학회지, 한국육종학회지)와 기타학회지(한국자원식물학회지, 생명과학학회지, 약용작물학회지, 한국양봉학회지, 원예과학기술지, 원예학회지) 등에 발표된 다변량 분석 54개 논문을 재검토하였다. 이들 논문에서 주성분 분석(PCA), 유집분석(CA)이 가장 많이 사용되었는데 본 연구는 이와 관련된 분석방법과 기초 통계 분석의 문제점을 검토하였다. 주성분 분석의 문제점은 기존 표본에 추출과 자료의 정규분포성에 대한 가설을 무시하는 것으로서 분산과 공분산을 구할 수 없는 정성형질을 섞어 사용하여 주성분 분석의 결과를 왜곡하여 분석하는 것이었다. 또한, 유집분석은 분석방법론에 따라 상당한 차이를 보여 정량적 형질 보다는 정성적 형질로 계수화하여 분석함을 권장하지만 대부분 정량적 형질로 분석하여 실제 상호 분석 대상군 간의 관계가 형성되지 않는 계단상 모양을 보였다. 또한, 일부 연구논문에서는 통계적 가설을 무시하고 임의로 자료를 해석하는 것도 자주 발견되는 문제점 중 하나였다. 주성분분석에서 주의해야 할 점은 주로 정량적 형질 사용이 권장되며, 이외 일정 수 이상의 변량(20여개 이상)과 적절한 개체수(40-50개 이상)가 필요하다는 것이다. 유집분석(혹은 군집분석)은 분석 대상을 강제로 유집시키는 성향이 있어 통계적 검증 방법을 사용하지 않고 단순히 거리 계산법 혹은 알고리즘 분석 방법에 의해 결과에 상당한 차이를 보이기 때문에 정량적 형질만을 근간으로 한 유집분석은 자제할 필요가 있다. 모든 자료를 쉽게 분석하기 위해서 단순히 통계적 방법론에 의존하기 보다는 연구목적과 일치한 분석 방법론을 적용하고자 하는 노력이 필수적이다.

동적 통행배정모형을 위한 교통류 부하모형의 개발 (Development of A Network loading model for Dynamic traffic Assignment)

  • 임강원
    • 대한교통학회지
    • /
    • 제20권3호
    • /
    • pp.149-158
    • /
    • 2002
  • 동적 통행배정모형에서 주로 사용되는 링크 통행비용함수가 현실상황을 제대로 표현하지 못함에 따라, 최근 교통류의 특성을 현실적으로 묘사할 수 있는 여러 형태의 교통류모형(Traffic model)들이 제시되고 있다. 현재까지 개발된 모형들을 차량의 동적 움직임을 표현하는 가장 특징적인 요소인 교통류 전파(flow propagation) 과정에 따라 구분하면 교통량-통행시간(Flow-travel time)간의 관계를 명시적인 함수 형태로 사용하는 경우 (Functional approach)와 Cell transmission model이나 개별차량 또는 몇 개의 차량을 1개의 그룹으로 묶은 미시적인 패킷(package)에 기초한 시뮬레이션 형태로 표현하는 경우로(Non-functional approach) 나눌 수 있다. 그러나 함수형태의 비용함수는 여러 연구에서 실제 차량의 행태를 묘사하는 데에는 한계가 있음을 보여주고 있다. 따라서, 본 연구에서는 차량의 통행시간을 패킷기초의 시뮬레이션으로 묘사하는 기법을 개발하는 데, 수직형 대기행렬모형(Vertical queue model 또는 Point Queue model)으로 개발한다. 개발된 모형의 동적 교통류 표현능력을 검토하기 위하여 교통류의 전파를 시간 종속적으로 재현하는 시뮬레이션 부하기법(Simulation loading algorithm)을 개발하고 개발된 모형을 상용 프로그램과 비교한다. 본 연구에서는 교통류의 기본 변수인 교통량-속도-밀도간의 관계와 통행시간간의 관계를 살펴본다. 분석결과, 미시적모형에 비해 상대적으로 간단한 전파규칙(propagation rule)을 사용함에도 불구하고 현실적인 교통류에서 나타나는 중요한 특성들을 모두 확인할 수 있었다.FA비율에 있어서 D$_2$, D$_3$, D$_{6}$이 D$_1$에 비해 유의적으로 높게 나타났지만 D$_1$, D$_4$, D$_{5}$, D$_{7}$, 실험구간 그리고 D$_2$-D$_{7}$, 실험구간 사이에서는 각각 유의적인 차이가 없었다(P<0.05). DHA/EPA의 비율에 있어서 D$_{7}$이 유의적으로 높았으며, D$_{5}$가 유의적으로 낮았다(P<0.05). 상기의 결과를 토대로, 성장과 전어체내 지방산조성에 있어서 뱀장어 치어의 사료내 EPA와 DHA의 첨가효과 미약한 것으로 판단되며, 사료내 LNA (n-3)와 LA(n-6) HUFA을 각각 0.35%, 0.65% 첨가했을 때 WG, SGR, FE, PER이 가장 높았으나, 이전의 실험(Takeuchi, 1980)과 동일한 수준인 n-3와 n-6를 각각 0.5%씩 첨가한 실험구와는 유의적인 차이를 보이지 않았다. 이렇게 볼 때, 뱀장어 치어의 필수지방산은 LNA (n-3), LA (n-6)이고, 그 적정수준은 각각 0.35-0.5%, 0.5-0.65%임을 보여준다.George W, Bush)가 새로운 지도자로 취임하여 얼마 되지 않은 2001년 9월 11일 사상 초유로 본토에서 알 카에다 테러리스트 조직에 의해 공격받게 되었다. 뉴욕의 세계무역센터 빌딩 2개가 완전히 붕괴되고, 펜타곤에 민간 여객기가 충돌하여 많은 사람이 살상 당하고, 전체적으로 세계 80여 개국으로부터의 6천여 명이 살상되었다. 전 세계와 미국은

사용자 리뷰 마이닝을 결합한 협업 필터링 시스템: 스마트폰 앱 추천에의 응용 (A Collaborative Filtering System Combined with Users' Review Mining : Application to the Recommendation of Smartphone Apps)

  • 전병국;안현철
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.1-18
    • /
    • 2015
  • 협업 필터링은 학계나 산업계에서 우수한 성능으로 인해 많이 사용되는 추천기법이지만, 정량적 정보인 사용자들의 평가점수에만 국한하여 추천결과를 생성하므로 간혹 정확도가 떨어지는 문제가 발생한다. 이에 새로운 정보를 추가로 고려하여, 협업 필터링의 성능을 개선하려는 연구들이 지금까지 다양하게 시도되어 왔다. 본 연구는 최근 Web 2.0 시대의 도래로 인해 사용자들이 구입한 상품에 대한 솔직한 의견을 인터넷 상에 자유롭게 표현한다는 점에 착안하여, 사용자가 직접 작성한 리뷰를 참고하여 협업 필터링의 성능을 개선하는 새로운 추천 알고리즘을 제안하고, 이를 스마트폰 앱 추천 시스템에 적용하였다. 정성 정보인 사용자 리뷰를 정량화하기 위해 본 연구에서는 텍스트 마이닝을 활용하였다. 구체적으로 본 연구의 추천시스템은 사용자간 유사도를 산출할 때, 사용자 리뷰의 유사도를 추가로 반영하여 보다 정밀하게 사용자간 유사도를 산출할 수 있도록 하였다. 이 때, 사용자 리뷰의 유사도를 산출하는 접근법으로 중복 사용된 색인어의 빈도로 산출하는 방안과 TF-IDF(Term Frequency - Inverse Document Frequency) 가중치 합으로 산출하는 2가지 방안을 제시한 뒤 그 성능을 비교해 보았다. 실험결과, 제안 알고리즘을 통한 추천, 즉 사용자 리뷰의 유사도를 추가로 반영하는 알고리즘이 평점만을 고려하는 전통적인 협업 필터링과 비교해 더 우수한 예측정확도를 나타냄을 확인할 수 있었다. 아울러, 중복 사용 단어의 TF-IDF 가중치의 합을 고려했을 때, 단순히 중복 사용 단어의 빈도만을 고려했을 때 보다 조금 더 나은 예측정확도를 얻을 수 있음도 함께 확인할 수 있었다.

적외선 분광스펙트럼 및 기체크로마토그라피 분석 데이터의 다변량 통계분석을 이용한 대두 종자 지방산 함량예측 (Simultaneous estimation of fatty acids contents from soybean seeds using fourier transform infrared spectroscopy and gas chromatography by multivariate analysis)

  • 안명숙;지은이;송승엽;안준우;정원중;민성란;김석원
    • Journal of Plant Biotechnology
    • /
    • 제42권1호
    • /
    • pp.60-70
    • /
    • 2015
  • 본 연구의 목적은 적외선 분광스펙트럼 데이터를 이용하여 대두 종자내의 지방산 함량을 동시에 예측할 수 있는지 여부를 조사하기 위한 것이다. 총 153종의 대두(Glycine max Merrill) 종자로부터 적외선 분광스펙트럼 및 지방산의 함량을 기체크로마토그라피 분석을 통하여 확인하였다. 적외선 분광스펙트럼 조사결과 대두는 단백질이나 아미노산의 amide bond region ($1,700{\sim}1,500cm^{-1}$), 핵산이나 인지질의 phosphodiester groups ($1,500{\sim}1,300cm^{-1}$) 그리고 탄수화물 등 다당류의 sugar region ($1,200{\sim}1,000cm^{-1}$)에서 계통별로 큰 차이가 이루어짐을 알 수 있었다. 총 29라인의 대두 계통별 시료로부터 지방산 함량을 조사한 결과 총 지방산의 함량은 건조 시료 0.1 g 당 $185.57{\mu}g$에서 $325.9{\mu}g$으로 계통간에 차이가 있었음을 알 수 있었으며 평균 함량은 $244.48{\mu}g$이었다. PLS regression 분석을 이용하여 총 5개 지방산(팔미틱산, 스테아릭산, 올레익산, 리노레익산 그리고 리노레닉산) 함량 예측 calibration models의 실측 검증 결과, 팔미틱산($R^2=0.8002$), 올레익산($R^2=0.8909$) 그리고 리노레익산($R^2=0.815$)은 회귀분석 상관계수가 0.8 이상으로 정확도 높음을 알 수 있었다. 그러나 스테아릭산($R^2=0.4598$)과 리노레닉산($R^2=0.6868$)의 경우 상관계수가 0.7 이하로 상대적으로 예측정확도가 낮음을 알 수 있었다. 본 연구에서 확립된 기술은 지방산의 조성 변환을 통하여 새로운 대두 품종 개발을 위한 계통선발 과정에서 매우 효율적인 수단으로 활용이 가능할 것으로 사료된다. 더 나아가 본 기술은 대두는 물론 대두 유래 농산물이나 식품의 품질 검증 수단으로 활용이 가능할 것으로 기대된다.

독도 MIROS Wave Radar를 이용한 파랑관측 및 품질관리 (Measurement and Quality Control of MIROS Wave Radar Data at Dokdo)

  • 전현정;민용침;정진용;도기덕
    • 한국해안·해양공학회논문집
    • /
    • 제32권2호
    • /
    • pp.135-145
    • /
    • 2020
  • 해양에서의 파랑관측은 부이나 압력계 등을 이용하여 수면변위를 관측하는 직접관측방법과 Radar를 이용하여 관측하는 원격관측방법으로 구분된다. 직접관측방법은 정확도가 높지만, 악기상 시 파손 및 유실 위험이 크며 외해 설치 시 많은 유지 보수비용이 필요하다는 단점을 가지고 있다. 반면 Radar와 같은 원격관측방법은 장비를 육지에 계류하여 유지관리가 용이하지만 직접관측방법과 비교하면 정확도가 다소 낮은 단점이 있다. 본 연구에서는 원격파랑관측자료의 품질을 개선하기 위해 독도에 설치되어 운영 중인 MIROS Wave and Current Radar(MWR) 관측자료의 수집 및 분석을 하였으며, 이를 기상청에서 운영 중인 해양파고부이(CWB)의 관측자료와 비교하였다. 그리고 MWR 관측자료의 품질을 개선하기 위해 1) MIROS사에서 개발한 필터(Reduce Noise Frequency, Phillips Check, Energy Level Check)의 복합적인 사용(최적필터; Optimal Filter), 2) OOI(Ocean Observatories Initiative)에서 개발한 Spike Test 알고리즘(Spike Test) 그리고 3) 유의파고-주기 관계식을 이용한 새로운 필터(H-Ts QC)를 사용하여 신뢰도가 낮은 이상자료(Noise; 시계열 자료 중 급격하게 자료가 발산하여 정상자료가 아닌 것으로 판단되는 자료)의 제거 및 보정을 수행하였다. 결과적으로 3가지의 품질관리기법을 적용한 MWR의 파랑관측자료는 유의파고에 대해서는 일정 부분 신뢰도를 가지지만 유의파주기에서는 여전히 오차가 존재하며 이에 대한 개선이 요구된다. 또한, MWR의 파랑관측자료는 3 m 이상의 고파랑에서는 CWB와 다소 양상이 달라지는 한계가 발생하므로 이를 위한 장기간의 원격파랑관측 자료의 수집과 분석, 그리고 필터 개발 등에 관한 지속적인 연구가 필요하다.

사전과 말뭉치를 이용한 한국어 단어 중의성 해소 (Korean Word Sense Disambiguation using Dictionary and Corpus)

  • 정한조;박병화
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.1-13
    • /
    • 2015
  • 빅데이터 및 오피니언 마이닝 분야가 대두됨에 따라 정보 검색/추출, 특히 비정형 데이터에서의 정보 검색/추출 기술의 중요성이 나날이 부각되어지고 있다. 또한 정보 검색 분야에서는 이용자의 의도에 맞는 결과를 제공할 수 있는 검색엔진의 성능향상을 위한 다양한 연구들이 진행되고 있다. 이러한 정보 검색/추출 분야에서 자연어처리 기술은 비정형 데이터 분석/처리 분야에서 중요한 기술이고, 자연어처리에 있어서 하나의 단어가 여러개의 모호한 의미를 가질 수 있는 단어 중의성 문제는 자연어처리의 성능을 향상시키기 위해 우선적으로 해결해야하는 문제점들의 하나이다. 본 연구는 단어 중의성 해소 방법에 사용될 수 있는 말뭉치를 많은 시간과 노력이 요구되는 수동적인 방법이 아닌, 사전들의 예제를 활용하여 자동적으로 생성할 수 있는 방법을 소개한다. 즉, 기존의 수동적인 방법으로 의미 태깅된 세종말뭉치에 표준국어대사전의 예제를 자동적으로 태깅하여 결합한 말뭉치를 사용한 단어 중의성 해소 방법을 소개한다. 표준국어대사전에서 단어 중의성 해소의 주요 대상인 전체 명사 (265,655개) 중에 중의성 해소의 대상이 되는 중의어 (29,868개)의 각 센스 (93,522개)와 연관된 속담, 용례 문장 (56,914개)들을 결합 말뭉치에 추가하였다. 품사 및 센스가 같이 태깅된 세종말뭉치의 약 79만개의 문장과 표준국어대사전의 약 5.7만개의 문장을 각각 또는 병합하여 교차검증을 사용하여 실험을 진행하였다. 실험 결과는 결합 말뭉치를 사용하였을 때 정확도와 재현율에 있어서 향상된 결과가 발견되었다. 본 연구의 결과는 인터넷 검색엔진 등의 검색결과의 성능향상과 오피니언 마이닝, 텍스트 마이닝과 관련한 자연어 분석/처리에 있어서 문장의 내용을 보다 명확히 파악하는데 도움을 줄 수 있을 것으로 기대되어진다.

시스템적인 군집 확인과 뉴스를 이용한 주가 예측 (Predicting stock movements based on financial news with systematic group identification)

  • 성노윤;남기환
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.1-17
    • /
    • 2019
  • 빅데이터 시대에 정보의 양이 급증하고, 그중 많은 부분을 차지하는 문자열 정보를 정량화하여 의미를 찾아 낼 수 있는 인공지능 방법론이 함께 발전하면서, 텍스트 마이닝을 통해 주가 예측에 적용해 온라인 뉴스로 주가를 예측하려는 시도가 다양해지고 있다. 이러한 주가 예측의 방법은 대개 예측하고자 하는 기업의 뉴스로 주가를 예측하는 방식이다. 하지만 특정 회사의 뉴스만이 그 회사의 주가에 영향을 주는 것이 아니라, 그 회사와 관련성이 높은 회사들의 뉴스 또한 주가에 영향을 줄 수 있다. 그러나 관련성이 높은 기업을 찾는 것은 시장 전반의 공통적인 영향과 무작위 신호 때문에 쉽지 않다. 따라서 기존 연구들은 주로 미리 정해진 국제 산업 분류 표준에 기반을 둬 관련성이 높은 기업을 찾았다. 하지만 최근 연구에 따르면, 국제 산업 분류 표준은 섹터에 따라 동질성이 다르며, 동질성이 낮은 섹터는 그들을 모두 함께 고려하여 주가를 예측하는 것이 성능에 악영향을 줄 수 있다는 한계점을 가진다. 이러한 한계점을 극복하기 위해, 본 논문에서는 주가 예측 연구에서 처음으로 경제물리학에서 주로 사용되는 무작위 행렬 이론을 사용하여 시장 전반 효과와 무작위 신호를 제거하고 군집 분석을 시행하여 관련성이 높은 회사를 찾는 방법을 제시하였다. 또한, 이를 기반으로 관련성이 높은 회사의 뉴스를 함께 고려하며 다중 커널 학습을 사용하는 인공지능 모형을 제시한다. 본 논문의 결과는 무작위 행렬 이론을 통해 시장 전반의 효과와 무작위 신호를 제거하여 정확한 상관 계수를 찾아 군집 분석을 시행한다면 기존 연구보다 더 좋은 성능을 보여 준다는 것을 보여준다.