• 제목/요약/키워드: random forest classification

검색결과 298건 처리시간 0.023초

기계학습을 활용한 주식 가격의 이동 방향 예측 (Prediction of the direction of stock prices by machine learning techniques)

  • 김용환;송성주
    • 응용통계연구
    • /
    • 제34권5호
    • /
    • pp.745-760
    • /
    • 2021
  • 금융시장에서 주식 가격 자체 또는 가격의 방향성에 대한 예측은 오래 전부터 관심의 대상이 되어 왔기에 여러 방면에서 다양한 연구가 이어져 왔다. 특히 1960년대에 들어서며 많은 연구가 진행되었고 예측가능성에 대해 찬반의 의견들이 있었는데, 1970년대에 나타난 효율적 시장 가설이 지지를 받으면서 주식 가격의 예측은 불가능하다는 의견이 주를 이루었다. 그러나 최근 기계학습 등 예측기술의 발달로 인해 주식 시장에서 미래를 예측해 보려는 새로운 시도가 이어져, 주식시장의 효율성을 부정하고 높은 예측력을 주장하는 연구들이 등장하고 있다. 이 논문에서는 과거 연구들을 평가방법 별로 정리하고, 새로운 주장의 신빙성을 확인하기 위해 이차판별분석, support vector machine, random forest, extreme gradient boost, 심층신경망 등 다양한 기계학습 모형을 적용하여 한국유가증권시장에 상장된 종목 중 삼성전자, LG화학, Naver 주식 가격의 방향성을 예측해보았다. 이때, 널리 사용되는 기술적 지표 변수들과 더불어 price earning ratio, price book-value ratio 등 회계지표를 활용한 변수와, 은닉마르코프모형의 출력값 변수를 사용하였다. 분석결과, 이번 연구의 조건 하에서는 통계적으로 유의미한 예측력을 제시하는 모형이 존재하지 않았고, 현 시점에서 단기 주가 방향성의 예측은 어렵다고 판단되었다. 비교적 단순한 이차판별분석 모형과 회계지표를 활용한 변수를 추가한 모형이 상대적으로 높은 예측력을 보였다는 점에서, 복잡한 모형을 시도하기 보다는 주식 가격에 대한 투자자들의 의견 및 심리가 반영될 수 있는 다양한 변수를 개발하여 활용한다면 향후 유의미한 예측이 가능할 수도 있을 것이다.

분광분석과 기계학습기법을 활용한 조선누층군 타이타늄 함유 면산층 탐지 (Detection of Titanium bearing Myeonsan Formation in the Joseon Supergroup based on Spectral Analysis and Machine Learning Techniques)

  • 박찬혁;유재형;오민규;이길재;이기연
    • 자원환경지질
    • /
    • 제55권2호
    • /
    • pp.197-207
    • /
    • 2022
  • 본 연구는 조선누층군 내 타이타늄 광체의 모암이 되는 면산층 암석을 기계학습기법을 분광분석 결과에 적용하여 탐지하였다. 이를 위해 면산층과 타 층들의 구성 광물을 파악하고, 타이타늄 함량을 측정하였으며, 전자기파 반응 특성을 분석하였다. 면산층은 다른 층들에 비해 불투명 광물을 많이 함유하고, 석영 입자와 점토광물로 구성된다. X선 형광분석 결과, 면산층의 평균 타이타늄 함량은 타 층들에 비해 최소 10배 이상의 타이타늄 함량을 보이며 낮은 함량군과 높은 함량군의 다봉분포를 갖는다. 이는 면산층 내의 타이타늄이 함유되는 사질과 이질이 교호 반복되는데 사질 부분은 이질 부분보다 타이타늄의 함량이 상대적으로 높기 때문이다. 분광분석 결과, 면산층은 산화철의 흡광 특성이 근적외선 영역에서, 점토광물에 의한 흡광 특성이 단파적외선 영역에서 관찰되며, 풍화면의 경우 점토광물 특성이 보다 강해지는 경향을 보인다. 타이타늄 광화대의 탐지는 티탄철석 자체의 분광 특성이 특징적이지 않아 광체를 탐지의 대상으로 보기보다는 모암인 면산층을 탐지하는 것이 적절할 것으로 생각된다. 랜덤포레스트 기계학습 기법을 이용한 면산층의 탐지 정확도는 84%, 전체정확도 97%를 보였으며, 산화철의 분광 특성과 점토광물 분광 특성이 가장 중요한 역할을 하는 것으로 분석되었다. 이는 분광 특성이 타이타늄 모암인 면산층 암석을 효율적으로 탐지할 수 있음을 지시하고, 확대 적용 될경우 무인항공기반 타이타늄 광체 탐사에 적용할 수 있을 것으로 기대한다.

온라인 게임 로그 데이터 클러스터링 기반 일일 단위 게임봇 판별 (Detecting Daily-Driven Game-Bot Based on Online Game Play Log Clustering)

  • 김주환;최진영
    • 정보보호학회논문지
    • /
    • 제31권6호
    • /
    • pp.1097-1104
    • /
    • 2021
  • 온라인 게임 봇은 이미 수 많은 방식을 통해 사람들에게 알려져 왔으며, 사용자의 게임 흥미 저하, 게임 내 경제 순환 파괴, 게임 컨텐츠 및 수명 단축 등 많은 문제점을 야기한다. 정상적이지 않은 게임 봇 운영을 방치하는 것은 장기적으로 게임 제작사와 게임 플레이어에게 모두 악영향을 미치게 되므로 이에 대한 탐지 및 제재는 필수가 되었다. 하지만 제재 단계에서 생기는 오인 제재의 딜레마를 피하기 쉽지 않다. 게임사 측에서 유저를 제재하기 위해서는 객관적인 분석 지표인 로그를 가지고 제재 여부를 판단해야 하며, 로그에서 추출한 정보를 근거로 확보해야 한다. 본 연구에서는 탐지 대상 기간의 로그에 대하여 이를 일일 단위로 나누어서 게임봇 유저 판별을 수행할 것이다. 일일 단위 탐지를 위해 탐지 기간을 하루 단위로 나누어 해당 일자에 대한 게임봇 여부를 우선 판별하고, 이후 최종 결과를 판단하였다. 제안한 방법론을 통해 일반 유저 스타일과 게임봇 유저 스타일이 섞여 있는 경우를 쉽게 탐지해 낼 수 있을 것이다. 본 논문에서 제안한 방법론으로 테스트한 결과, 분류 정확도를 확인할 수 있는 지표 중 하나인 F1-score가 0.898에서 0.945로 향상되었다.

하천 관리를 위한 원격탐사 자료 기반 식생 분류 기법 (Vegetation classification based on remote sensing data for river management)

  • Lee, Chanjoo;Rogers, Christine;Geerling, Gertjan;Pennin, Ellis
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.6-7
    • /
    • 2021
  • 하천에서의 식생 활착은 지형, 생태, 수리학 등의 학문 분야 뿐만 아니라 하천 관리 실무에서도 중요한 이슈 중에 하나로서 하천 식생 문제는 홍수 관리와 생태계 보전이라는 상반되는 가치의 조화에 직결된다. 국내에서는 2000년대 이후 댐 하류 조절하천, 부영화된 소규모 지류하천, 4대강 사업 대상지 고수부지 등 다양한 조건에서 하천 식생 활착과 육역화 문제가 지속적으로 제기되어 왔다. 이러한 배경에서 본 연구에서는 하천 내의 식생 분포를 원격탐사 자료를 기반으로 분류하는 기법을 제안하고 이를 내성천에 적용한 결과를 제시하였다. 내성천은 2014년부터 최근까지 지속적으로 식생 활착이 발생하여 하천 경관이 변화한 대표적인 사례 하천이다. 원격탐사 자료는 유럽항공우주국(ESA)에서 운영 중이며, Google Earth Engine에서 제공하는 Sentinel 1, 2 위성 영상을 사용하였다. 지상 참값(ground truth)으로는 수역, 사주, 초본, 목본 등을 포함한 8가지 유형으로 구분되어 있는 2016년 내성천 지표 피복 자료를 사용하였다. 분류를 위한 방법은 머신러닝 알고리듬의 하나인 랜덤 포레스트 분류 기법을 사용하였으며, 미리 선정된 10개 폴리곤 영역으로부터 1,000개의 표본을 추출하여 1/2씩 나누어 훈련 및 검증 자료로 사용하였다. 검증 자료 기반의 정확도는 82~85 %로 나타났다. 훈련을 통해 수립한 모형을 2016~2020년 자료에도 적용하여 연도에 따른 식생역의 변화 과정을 제시하였다. 본 논문의 기술적 한계와 개선 방안을 고찰하였다. 이 기법은 정량적인 식생 분포를 제공함으로써 하천에서의 홍수위 계산, 식생-수리모델링 등의 기술 분야 뿐만 아니라 간벌이나 하천 식생 회춘 유도(rejuvenation)과 같은 식생의 실무적 관리 측면에서도 활용도가 클 것으로 판단된다.

  • PDF

카테고리 중립 단어 활용을 통한 주가 예측 방안: 텍스트 마이닝 활용 (Stock Price Prediction by Utilizing Category Neutral Terms: Text Mining Approach)

  • 이민식;이홍주
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.123-138
    • /
    • 2017
  • 주식 시장은 거래자들의 기업과 시황에 대한 기대가 반영되어 움직이기에, 다양한 원천의 텍스트 데이터 분석을 통해 주가 움직임을 예측하려는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 것이기에 단순히 주가의 등락 뿐만이 아니라, 뉴스 기사나 소셜 미디어의 반응에 따라 거래를 하고 이에 따른 수익률을 분석하는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 연구들도 다른 분야의 텍스트 마이닝 접근 방안과 동일하게 단어-문서 매트릭스를 구성하여 분류 알고리즘에 적용하여 왔다. 문서에 많은 단어들이 포함되어 있기 때문에 모든 단어를 가지고 단어-문서 매트릭스를 만드는 것보다는 단어가 문서를 범주로 분류할 때 기여도가 높은 단어들을 선정하여야 한다. 단어의 빈도를 고려하여 너무 적은 등장 빈도나 중요도를 보이는 단어는 제거하게 된다. 단어가 문서를 정확하게 분류하는 데 기여하는 정도를 측정하여 기여도에 따라 사용할 단어를 선정하기도 한다. 단어-문서 매트릭스를 구성하는 기본적인 방안인 분석의 대상이 되는 모든 문서를 수집하여 분류에 영향력을 미치는 단어를 선정하여 사용하는 것이었다. 본 연구에서는 개별 종목에 대한 문서를 분석하여 종목별 등락에 모두 포함되는 단어를 중립 단어로 선정한다. 선정된 중립 단어 주변에 등장하는 단어들을 추출하여 단어-문서 매트릭스 생성에 활용한다. 중립 단어 자체는 주가 움직임과 연관관계가 적고, 중립 단어의 주변 단어가 주가 상승에 더 영향을 미칠 것이라는 생각에서 출발한다. 생성된 단어-문서 매트릭스를 가지고 주가의 등락 여부를 분류하는 알고리즘에 적용하게 된다. 본 연구에서는 종목 별로 중립 단어를 1차 선정하고, 선정된 단어 중에서 다른 종목에도 많이 포함되는 단어는 추가적으로 제외하는 방안을 활용하였다. 온라인 뉴스 포털을 통해 시가 총액 상위 10개 종목에 대한 4개월 간의 뉴스 기사를 수집하였다. 3개월간의 뉴스 기사를 학습 데이터로 분류 모형을 수립하였으며, 남은 1개월간의 뉴스 기사를 모형에 적용하여 다음 날의 주가 움직임을 예측하였다. 본 연구에서 제안하는 중립 단어 활용 알고리즘이 희소성에 기반한 단어 선정 방안에 비해 우수한 분류 성과를 보였다.

매장 문화재 공간 분포 결정을 위한 지하투과레이더 영상 분석 자동화 기법 탐색 (Automated Analyses of Ground-Penetrating Radar Images to Determine Spatial Distribution of Buried Cultural Heritage)

  • 권문희;김승섭
    • 자원환경지질
    • /
    • 제55권5호
    • /
    • pp.551-561
    • /
    • 2022
  • 지구물리탐사기법은 매장 문화재 조사에 필요한 높은 해상도의 지하 구조 영상 생성과 매장 유구의 정확한 위치 결정하는 데 매우 유용하다. 이 연구에서는 경주 신라왕경 중심방의 고해상도 지하투과레이더 영상에서 유구의 규칙적인 배열이나 선형 구조를 자동적으로 구분하기 위하여 영상처리 기법인 영상 특징 추출과 영상분할 기법을 적용하였다. 영상 특징 추출의 대상은 유구의 원형 적심과 선형의 도로 및 담장으로 캐니 윤곽선 검출(Canny edge detection)과 허프 변환(Hough Transform) 알고리듬을 적용하였다. 캐니 윤곽선 검출 알고리듬으로 검출된 윤곽선 이미지에 허프 변환을 적용하여 유구의 위치를 탐사 영상에서 자동 결정하고자 하였으나, 탐사 지역별로 매개변수를 달리해서 적용해야 한다는 제약이 있었다. 영상 분할 기법의 경우 연결요소 분석 알고리듬과 QGIS에서 제공하는 Orfeo Toolbox (OTB)를 이용한 객체기반 영상분석을 적용하였다. 연결 요소 분석 결과에서, 유구에 의한 신호들이 연결된 요소들로 효과적으로 인식되었지만 하나의 유구가 여러 요소로 분할되어 인식되는 경우도 발생함을 확인하였다. 객체기반 영상분석에서는 평균이동(Large-Scale Mean-Shift, LSMS) 영상 분할을 적용하여 각 분할 영역에 대한 화소 정보가 포함된 벡터 레이어를 우선 생성하였고, 유구를 포함하는 영역과 포함하지 않는 영역을 선별하여 훈련 모델을 생성하였다. 이 훈련모델에 기반한 랜덤포레스트 분류기를 이용해 LSMS 영상분할 벡터 레이어에서 유구를 포함하는 영역과 그렇지 않은 영역이 자동 분류 될 수 있음을 확인하였다. 이러한 자동 분류방법을 매장 문화재 지하투과레이더 영상에 적용한다면 유구 발굴 계획에 활용가능한 일관성 있는 결과를 얻을 것으로 기대한다.

1시간 호우피해 규모 예측을 위한 AI 기반의 1ST-모형 개발 (Development of 1ST-Model for 1 hour-heavy rain damage scale prediction based on AI models)

  • 이준학;이하늘;강나래;황석환;김형수;김수전
    • 한국수자원학회논문집
    • /
    • 제56권5호
    • /
    • pp.311-323
    • /
    • 2023
  • 집중호우, 홍수 및 도시침수와 같은 재해를 저감시키기 위하여 자연 재난으로 인한 재해의 발생 여부를 사전에 파악하는 것은 중요하다. 현재 국내는 기상청에서 운영하고 있는 호우주의보 및 호우경보를 발령하고 있지만, 이는 전국에 일괄적인 기준으로 적용하고 있어 사전에 호우로 인한 피해를 명확하게 인지하지 못하고 있는 실정이다. 따라서, 일괄된 기준을 지역적 특성을 반영한 호우특보 기준으로 재설정하고 1시간 후에 강우로 발생할 수 있는 피해의 규모를 예측하고자 하였다. 연구 대상 지역으로는 호우피해가 가장 빈번하게 발생하였던 경기도 지역으로 선정하였고, 강우량 및 호우 피해액 자료를 활용하여 지역적 특성을 고려한 시간단위 재해 유발 강우를 설정하였다. 강우에 의한 호우피해 발생 여부를 예측하는 모형을 개발하기 위해 재해 유발 강우 및 강우 자료를 활용하였으며, 머신러닝 기법인 의사 결정 나무 모형과 랜덤 포레스트 모형을 활용하여 분석 및 비교하였다. 또한 1시간 후의 강우를 예측하기 위한 모형으로는 장단기 메모리, 심층 신경망 모형을 활용하여 분석 및 비교하였다. 최종적으로 예측 모형을 통해 예측된 강우를 훈련된 분류 모형에 적용하여 1시간 후 호우에 의한 규모별 피해 발생 여부를 예측하였고, 이를 1ST-모형이라고 정의하였다. 본 연구를 통해 개발된 1ST-모형을 활용하여 예방 및 대비 차원의 재난관리를 실시한다면 호우로 인한 피해를 저감하는데 기여 할 수 있을 것으로 판단된다.

텍스트 마이닝을 활용한 지역 특성 기반 도시재생 유형 추천 시스템 제안 (Suggestion of Urban Regeneration Type Recommendation System Based on Local Characteristics Using Text Mining)

  • 김익준;이준호;김효민;강주영
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.149-169
    • /
    • 2020
  • 현 정부의 주요 국책사업 중 하나인 도시재생 뉴딜사업은 매년 100 곳씩, 5년간 500곳을대상으로 50조를 투자하여 낙후된 지역을 개발하는 것으로 언론과 지자체의 높은 이목이 집중되고 있다. 그러나, 현재 이 사업모델은 면적 규모에 따라 "우리동네 살리기, 주거정비지원형, 일반근린형, 중심시가지형, 경제기반형" 등 다섯 가지로 나뉘어 추진되어 그 지역 본래의 특성을 반영하지 못하고 있다. 국내 도시재생 성공 키워드는 "주민 참여", "지역특화" "부처협업", "민관협력"이다. 성공 키워드에 따르면 지자체에서 정부에게 도시재생 사업을 제안할 때 지역주민, 민간기업의 도움과 함께 도시의 특성을 정확히 이해하고 도시의 특성에 어울리는 방향으로 사업을 추진하는 것이 가장 중요하다는 것을 알 수 있다. 또한 도시재생 사업 후 발생하는 부작용 중 하나인 젠트리피케이션 문제를 고려하면 그 지역 특성에 맞는 도시재생 유형을 선정하여 추진하는 것이 중요하다. 이에 본 연구는 '도시재생 뉴딜 사업' 방법론의 한계점을 보완하기 위해, 기존 서울시가 지역 특성에 기반하여 추진하고 있는 "2025 서울시 도시재생 전략계획"의 도시재생 유형을 참고하여 도시재생 사업지에 맞는 도시재생 유형을 추천하는 시스템을 머신러닝 알고리즘을 활용하여 제안하고자 한다. 서울시 도시재생 유형은 "저이용저개발, 쇠퇴낙후, 노후주거, 역사문화자원 특화" 네 가지로 분류된다 (Shon and Park, 2017). 지역 특성을 파악하기 위해 총 4가지 도시재생 유형에 대해 사업이 진행된 22개의 지역에 대한 뉴스 미디어 10만여건의 텍스트 데이터를 수집하였다. 수집된 텍스트를 이용하여 도시재생 유형에 따른 지역별 주요 키워드를 도출하고 토픽모델링을 수행하여 유형별 차이가 있는 지 탐색해 보았다. 다음 단계로 주어진 텍스트를 기반으로 도시재생 유형을 추천하는 추천시스템 구축을 위해 텍스트 데이터를 벡터로 변환하여 머신러닝 분류모델을 개발하였고, 이를 검증한 결과 97% 정확도를 보였다. 따라서 본 연구에서 제안하는 추천 시스템은 도시재생 사업을 진행하는 과정에서 신규 사업지의 지역 특성에 기반한 도시재생 유형을 추천할 수 있을 것으로 기대된다.