• 제목/요약/키워드: task classification

검색결과 575건 처리시간 0.019초

증권신고서의 TF-IDF 텍스트 분석과 기계학습을 이용한 공모주의 상장 이후 주가 등락 예측 (The prediction of the stock price movement after IPO using machine learning and text analysis based on TF-IDF)

  • 양수연;이채록;원종관;홍태호
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.237-262
    • /
    • 2022
  • 본 연구는 개인투자자들의 투자의사결정에 도움을 주고자, 증권신고서의 TF-IDF 텍스트 분석과 기계학습을 이용해 공모주의 상장 5거래일 이후 주식 가격 등락을 예측하는 모델을 제시한다. 연구 표본은 2009년 6월부터 2020년 12월 사이에 신규 상장된 691개의 국내 IPO 종목이다. 기업, 공모, 시장과 관련된 다양한 재무적 및 비재무적 IPO 관련 변수와 증권신고서의 어조를 분석하여 예측했고, 증권신고서의 어조 분석을 위해서 TF-IDF (Term Frequency - Inverse Document Frequency)에 기반한 텍스트 분석을 이용해 신고서의 투자위험요소란의 텍스트를 긍정적 어조, 중립적 어조, 부정적 어조로 분류하였다. 가격 등락 예측에는 로지스틱 회귀분석(Logistic Regression), 랜덤 포레스트(Random Forest), 서포트벡터머신(Support Vector Machine), 인공신경망(Artificial Neural Network) 기법을 사용하였고, 예측 결과 IPO 관련 변수와 증권신고서 어조 변수를 함께 사용한 모델이 IPO 관련 변수만을 사용한 모델보다 높은 예측 정확도를 보였다. 랜덤 포레스트 모형은 1.45%p 높아진 예측 정확도를 보였으며, 인공신공망 모형과 서포트벡터머신 모형은 각각 4.34%p, 5.07%p 향상을 보였다. 추가적으로 모형간 차이를 맥니마 검정을 통해 통계적으로 검증한 결과, 어조 변수의 유무에 따른 예측 모형의 성과 차이가 유의확률 1% 수준에서 유의했다. 이를 통해, 증권신고서에 표현된 어조가 공모주의 가격 등락 예측에 영향을 미치는 요인이라는 것을 확인할 수 있었다.

KB-BERT: 금융 특화 한국어 사전학습 언어모델과 그 응용 (KB-BERT: Training and Application of Korean Pre-trained Language Model in Financial Domain)

  • 김동규;이동욱;박장원;오성우;권성준;이인용;최동원
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.191-206
    • /
    • 2022
  • 대량의 말뭉치를 비지도 방식으로 학습하여 자연어 지식을 획득할 수 있는 사전학습 언어모델(Pre-trained Language Model)은 최근 자연어 처리 모델 개발에 있어 매우 일반적인 요소이다. 하지만, 여타 기계학습 방식의 성격과 동일하게 사전학습 언어모델 또한 학습 단계에 사용된 자연어 말뭉치의 특성으로부터 영향을 받으며, 이후 사전학습 언어모델이 실제 활용되는 응용단계 태스크(Downstream task)가 적용되는 도메인에 따라 최종 모델 성능에서 큰 차이를 보인다. 이와 같은 이유로, 법률, 의료 등 다양한 분야에서 사전학습 언어모델을 최적화된 방식으로 활용하기 위해 각 도메인에 특화된 사전학습 언어모델을 학습시킬 수 있는 방법론에 관한 연구가 매우 중요한 방향으로 대두되고 있다. 본 연구에서는 금융(Finance) 도메인에서 다양한 자연어 처리 기반 서비스 개발에 활용될 수 있는 금융 특화 사전학습 언어모델의 학습 과정 및 그 응용 방식에 대해 논한다. 금융 도메인 지식을 보유한 언어모델의 사전학습을 위해 경제 뉴스, 금융 상품 설명서 등으로 구성된 금융 특화 말뭉치가 사용되었으며, 학습된 언어 모델의 금융 지식을 정량적으로 평가하기 위해 토픽 분류, 감성 분류, 질의 응답의 세 종류 자연어 처리 데이터셋에서의 모델 성능을 측정하였다. 금융 도메인 말뭉치를 기반으로 사전 학습된 KB-BERT는 KoELECTRA, KLUE-RoBERTa 등 State-of-the-art 한국어 사전학습 언어 모델과 비교하여 일반적인 언어 지식을 요구하는 범용 벤치마크 데이터셋에서 견줄 만한 성능을 보였으며, 문제 해결에 있어 금융 관련 지식을 요구하는 금융 특화 데이터셋에서는 비교대상 모델을 뛰어넘는 성능을 보였다.

중국과 베트남의 문화유산 특성 비교 연구 (A Comparative Study on the Characteristics of Cultural Heritage in China and Vietnam)

  • 신현실;전다슬
    • 한국전통조경학회지
    • /
    • 제40권2호
    • /
    • pp.34-43
    • /
    • 2022
  • 본 연구는 역사상 상호 지정학적·문화적 영향관계 속에서 발전해 온 중국과 베트남의 문화유산 특성을 비교한 결과 다음과 같은 결론을 얻었다. 첫째, 중국과 베트남의 문화유산 정의는 양국이 유사한 의미를 지닌다. 문화유산 분류의 경우 양국 모두 무형문화유산의 법적 개념을 유네스코를 통해 본격적으로 도입하게 되면서, 무형문화유산 진흥정책 측면에서 유사성을 지니고 있다. 둘째, 중국은 유형문화유산과 무형문화유산을 관리하는 법이 각각 따로 존재하는 반면, 베트남은 두 유형의 문화유산을 단일 법령에 의해 통합적으로 관리하고 있다. 베트남은 중국에 비해 문화유산 개념의 도입은 늦은 면이 있지만, 체계적인 측면에서는 높은 통합성을 보이고 있다. 셋째, 중국과 베트남의 유산은 모두 등급화가 나타나며, 이는 유산의 유형에 따라 다르게 적용된다. 지정방식은 양국이 수직적 구조를 가지고 단계를 높여가는 유사성을 지니고 있다. 이러한 단계적 검토를 통한 유산의 가치 복원 및 완전성의 보완으로 관광을 통한 유산 향유, 경제적 효과 창출을 통한 전국의 균형적 발전을 꾀하고 있다. 넷째, 문화유산 관리기구는 양국 모두 중앙정부의 관리기관이 존재하지만, 중국의 경우 베트남에 비해 지방정부의 권한이 높은 것으로 확인되었다. 또한, 유형문화유산과 무형문화유산을 통합적인 기관에서 관리하는 베트남과 달리 중국은 무형문화유산을 관장하는 기관이 별도로 존재하였다. 다섯째, 중국은 유산의 보호와 활용을 조화롭게 한 지속가능성에 초점을 맞추어 보존관리 정책을 수립하고 있다. 베트남은 협약의 내용과 정신을 문화유산, 특히 무형문화유산과 경제·사회 전반에 관련된 법률, 프로그램, 프로젝트에 통합하고 이를 발전시키기 위해 노력을 기울이고 있다. 그러나 아직은 선진국의 원조와 국제기구의 영향에 의존하고 있는 실정이다. 여섯째, 중국과 베트남은 유형문화유산 중심의 문화유산 보호정책에서 벗어나 현재는 근래 도입한 무형문화유산에 관심을 기울이고 있다. 또한, 문화유산을 통해 국민을 결집시키고 국가의 통일된 정책 목표를 달성하고자 한다. 양국은 무형문화유산을 지역 공동체나 지역을 보존하는 효율적 보존 수단으로 활용할 필요가 있다. 무형문화유산의 구성요소를 하나의 단위로 통합할 수 있는 각 주체별 문화유산 보존 네트워크를 구축하여 국민들의 향유 기반을 마련하여야 한다. 본 연구는 중국과 베트남의 문화유산 체제와 보존관리 현황에 주목해 비교한 연구의 단계로 한계를 지니며 유형별 문화유산 정책의 특성비교는 차후 연구과제로 남긴다.

서·남해 연안성 조류번식지 적합성지수 평가항목 가중치 설정 (Weights for Evaluation items of Conformity index of Bird breeding sites on the West and South coasts of Korea)

  • 김창현;김원빈;김규섭;이창훈
    • 한국전통조경학회지
    • /
    • 제41권4호
    • /
    • pp.40-48
    • /
    • 2023
  • 본 연구는 국내 서·남해안 도서(島嶼) 및 연안 지역을 번식의 근거지로 활동하는 조류와 관련한 번식지 적합성 지수 개발을 위한 기초연구의 일환으로, FGI(Focus Group Interview)와 AHP(Analytic Hierarchy Process) 분석을 실시하였으며, 그 결과는 다음과 같다. 첫째, 연안성 조류 번식지 적합성 가치 판단 결과 자연적 가치(0.763)가 인위적 가치(0.237)에 비해 높은 중요도를 나타냈다. 번식공간의 지속적 완전성 담보를 위한 '보호구역 지정여부'를 제외한 다른 인위적 가치는 하위순위로 파악되었다. 둘째, 2차례 진행된 FGI에서 분류된 25개의 평가항목을 상위개념으로 재정립한 결과, 자연적 가치가 9개, 인위적 가치가 5가지, 총 14개로 최종 선정되었다. 셋째, 연안성 조류 번식지 적합성 중요도의 중분류 평가 결과는 '생태적 가치(0.392)', '지형적 가치(0.251)', '소극적 간섭(0.124)', '지질적 가치(0.120)', '적극적 간섭(0.113)'의 순서로 파악되었다. 이는 번식공간 자체의 수용적 환경보다는 번식을 위한 생존환경에 우선한 것으로 판단된다. 넷째, 연안성 조류 번식지의 평가항목 우선순위 결과는 '식생분포(0.187)', '갯벌의 면적(0.118)', '갯벌의 유무(0.092)', '천적의 출현(0.087)', '보호구역 지정여부(0.08)', '섬 면적(0.069)', '과번식에 의한 황폐화(0.064)', '토양 구성비(0.056)', '육지와의 거리(0.054)', '해양 양식장 면적(0.045)', '경작지 면적(0.041)', '경작 행위(0.038)', '표면의 각도(0.036)', '토지이용(0.033)'의 순으로 나타났다. 본 연구에서 도출된 평가항목의 가중치 결과값은 연안성 조류 번식지 공간에 집중한 우선순위 평가에 활용이 가능할 것으로 판단된다. 그러나 조류 개체가 갖는 고유의 서식지 적합성과의 상관성 여부는 보완이 필요한 것으로 보이며, 추후 종별특성을 접목한 공간분석연구는 추후 과제로 남기고자 한다.

전이학습 기반 다중 컨볼류션 신경망 레이어의 활성화 특징과 주성분 분석을 이용한 이미지 분류 방법 (Transfer Learning using Multiple ConvNet Layers Activation Features with Principal Component Analysis for Image Classification)

  • 바트후 ?바자브;주마벡 알리하노브;팡양;고승현;조근식
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.205-225
    • /
    • 2018
  • Convolutional Neural Network (ConvNet)은 시각적 특징의 계층 구조를 분석하고 학습할 수 있는 대표적인 심층 신경망이다. 첫 번째 신경망 모델인 Neocognitron은 80 년대에 처음 소개되었다. 당시 신경망은 대규모 데이터 집합과 계산 능력이 부족하여 학계와 산업계에서 널리 사용되지 않았다. 그러나 2012년 Krizhevsky는 ImageNet ILSVRC (Large Scale Visual Recognition Challenge) 에서 심층 신경망을 사용하여 시각적 인식 문제를 획기적으로 해결하였고 그로 인해 신경망에 대한 사람들의 관심을 다시 불러 일으켰다. 이미지넷 첼린지에서 제공하는 다양한 이미지 데이터와 병렬 컴퓨팅 하드웨어 (GPU)의 발전이 Krizhevsky의 승리의 주요 요인이었다. 그러므로 최근의 딥 컨볼루션 신경망의 성공을 병렬계산을 위한 GPU의 출현과 더불어 ImageNet과 같은 대규모 이미지 데이터의 가용성으로 정의 할 수 있다. 그러나 이러한 요소는 많은 도메인에서 병목 현상이 될 수 있다. 대부분의 도메인에서 ConvNet을 교육하기 위해 대규모 데이터를 수집하려면 많은 노력이 필요하다. 대규모 데이터를 보유하고 있어도 처음부터 ConvNet을 교육하려면 많은 자원과 시간이 소요된다. 이와 같은 문제점은 전이 학습을 사용하면 해결할 수 있다. 전이 학습은 지식을 원본 도메인에서 새 도메인으로 전이하는 방법이다. 전이학습에는 주요한 두 가지 케이스가 있다. 첫 번째는 고정된 특징점 추출기로서의 ConvNet이고, 두번째는 새 데이터에서 ConvNet을 fine-tuning 하는 것이다. 첫 번째 경우, 사전 훈련 된 ConvNet (예: ImageNet)을 사용하여 ConvNet을 통해 이미지의 피드포워드 활성화를 계산하고 특정 레이어에서 활성화 특징점을 추출한다. 두 번째 경우에는 새 데이터에서 ConvNet 분류기를 교체하고 재교육을 한 후에 사전 훈련된 네트워크의 가중치를 백프로퍼게이션으로 fine-tuning 한다. 이 논문에서는 고정된 특징점 추출기를 여러 개의 ConvNet 레이어를 사용하는 것에 중점을 두었다. 그러나 여러 ConvNet 레이어에서 직접 추출된 차원적 복잡성을 가진 특징점을 적용하는 것은 여전히 어려운 문제이다. 우리는 여러 ConvNet 레이어에서 추출한 특징점이 이미지의 다른 특성을 처리한다는 것을 발견했다. 즉, 여러 ConvNet 레이어의 최적의 조합을 찾으면 더 나은 특징점을 얻을 수 있다. 위의 발견을 토대로 이 논문에서는 단일 ConvNet 계층의 특징점 대신에 전이 학습을 위해 여러 ConvNet 계층의 특징점을 사용하도록 제안한다. 본 논문에서 제안하는 방법은 크게 세단계로 이루어져 있다. 먼저 이미지 데이터셋의 이미지를 ConvNet의 입력으로 넣으면 해당 이미지가 사전 훈련된 AlexNet으로 피드포워드 되고 3개의 fully-connected 레이어의 활성화 틀징점이 추출된다. 둘째, 3개의 ConvNet 레이어의 활성화 특징점을 연결하여 여러 개의 ConvNet 레이어의 특징점을 얻는다. 레이어의 활성화 특징점을 연결을 하는 이유는 더 많은 이미지 정보를 얻기 위해서이다. 동일한 이미지를 사용한 3개의 fully-connected 레이어의 특징점이 연결되면 결과 이미지의 특징점의 차원은 4096 + 4096 + 1000이 된다. 그러나 여러 ConvNet 레이어에서 추출 된 특징점은 동일한 ConvNet에서 추출되므로 특징점이 중복되거나 노이즈를 갖는다. 따라서 세 번째 단계로 PCA (Principal Component Analysis)를 사용하여 교육 단계 전에 주요 특징점을 선택한다. 뚜렷한 특징이 얻어지면, 분류기는 이미지를 보다 정확하게 분류 할 수 있고, 전이 학습의 성능을 향상시킬 수 있다. 제안된 방법을 평가하기 위해 특징점 선택 및 차원축소를 위해 PCA를 사용하여 여러 ConvNet 레이어의 특징점과 단일 ConvNet 레이어의 특징점을 비교하고 3개의 표준 데이터 (Caltech-256, VOC07 및 SUN397)로 실험을 수행했다. 실험결과 제안된 방법은 Caltech-256 데이터의 FC7 레이어로 73.9 %의 정확도를 얻었을 때와 비교하여 75.6 %의 정확도를 보였고 VOC07 데이터의 FC8 레이어로 얻은 69.2 %의 정확도와 비교하여 73.1 %의 정확도를 보였으며 SUN397 데이터의 FC7 레이어로 48.7%의 정확도를 얻었을 때와 비교하여 52.2%의 정확도를 보였다. 본 논문에 제안된 방법은 Caltech-256, VOC07 및 SUN397 데이터에서 각각 기존에 제안된 방법과 비교하여 2.8 %, 2.1 % 및 3.1 %의 성능 향상을 보였다.