• 제목/요약/키워드: Intelligent level

검색결과 1,150건 처리시간 0.023초

연관규칙 마이닝에서의 동시성 기준 확장에 대한 연구 (An Investigation on Expanding Co-occurrence Criteria in Association Rule Mining)

  • 김미성;김남규;안재현
    • 지능정보연구
    • /
    • 제18권1호
    • /
    • pp.23-38
    • /
    • 2012
  • 온라인 쇼핑몰은 인터넷을 통해 손쉽게 접근이 가능하기 때문에, 최초 구매의사가 발생한 시점으로부터 이에 대한 실제 구매가 실현되기까지의 기간이 오프라인 쇼핑몰에 비해 비교적 짧게 나타난다. 즉 오프라인 쇼핑몰의 경우 구매희망 물품을 바로 구매하기 보다는 몇 개의 물품들을 모아서 구매하는 행태가 일반적이다. 하지만, 인터넷 쇼핑몰의 경우 단 하나의 물품만을 포함하고 있는 주문이 전체 주문의 절반 이상을 차지한다. 따라서 온라인 쇼핑몰 데이터의 장바구니 분석에 전통적 데이터마이닝 기법을 그대로 적용할 경우, Null Transaction의 수가 지나치게 많음으로 인해 합리적 수준의 지지도(Support)를 만족시키는 규칙을 찾는 것이 매우 어렵게 된다. 이러한 이유로 온라인 데이터를 사용한 많은 연구는 동시성 기준을 여러 방법으로 확장하여 사용하였는데, 이들 동시성 기준은 명확한 근거나 합의 없이 연구자의 상황에 따라 임의로 선택된 측면이 있다. 따라서 본 연구에서는 온라인 마켓 분석에 적용되는 구매의 동시성 기준을 정확도 측면에서 평가함으로써, 구매의 동시성 기준 선정을 위한 근거를 제시하고자 한다. 또한 동시성 기준의 정확도가 고객의 평균 구매간격에 따라 상이하게 나타나는 것을 파악하여, 향후 고객의 특성에 따른 차별화된 추천 시스템 구축을 위한 기본 방향을 제시하고자 한다. 이를 위해 국내 대형 인터넷 쇼핑몰의 최근 2년간 실제 거래 내역을 대상으로 실험을 수행하였으며, 실험 결과 단골 고객의 구매 추천을 위한 분석의 경우 추천 범위와 분석 데이터의 동시성 기준을 맞추어 연관규칙을 도출하는 것이 바람직하며, 비단골 고객의 경우 대부분의 추천 범위에 대해서 분석 데이터의 동시성 기준을 비교적 길게 설정하여 연관규칙을 도출하는 것이 바람직한 것으로 나타났다.

대화식 데이터 마이닝 기법을 활용한 자동차 보험사의 인입 콜량 예측 사례 (A Case Study on Forecasting Inbound Calls of Motor Insurance Company Using Interactive Data Mining Technique)

  • 백웅;김남규
    • 지능정보연구
    • /
    • 제16권3호
    • /
    • pp.99-120
    • /
    • 2010
  • 최근 고객들의 비대면 접점 서비스 이용도가 높아짐에 따라, 비대면 채널은 다양한 데이터의 분석을 통해 고객 만족도를 향상시킬 수 있는 유용한 창구로 인식되고 있다. 이러한 비대면 채널의 대표적 영역으로 콜센터를 들 수 있으며, 콜센터 운영에서 고객 만족도에 가장 큰 영향을 미치는 요소는 상담 인력의 규모인 것으로 알려져 있다. 즉, 일정수준 이상의 고객 만족도를 유지하기 위해서는 충분한 상담 인력을 확보하는 것이 관건이지만, 불필요하게 많은 인력을 확보하는 것은 인건비 측면에서 비용의 낭비를 초래할 수 있다. 따라서 부족하지도 않고 넘치지도 않을 정도의 적정 인력을 산출하는 능력은 콜센터 운영의 핵심 경쟁력으로 인식되고 있으며, 최근 콜센터에서는 적정 인력의 규모를 예측하기 위해 WFM(Work Force Management) 업무 전담 부서를 설치하고 콜량을 정확하게 예측하기 위한 노력을 기울이고 있다. 콜량 예측을 위해 현업에서 주로 사용되는 방법은 담당자의 직관에 의존하는 방법으로, 일정기간의 콜량 평균을 담당자가 주관적 판단에 의해 보정함으로써 이루어진다. 하지만 이러한 방식은 담당자의 주관적 성향에 크게 좌우된다는 한계를 갖고 있어서, 최근에는 다양한 예측 모형을 시스템화한 WFMS(Workforce Management System) 패키지가 널리 활용되고 있다. 하지만 이 시스템은 초기 도입 시 매우 고가의 구축비용이 발생하며, 신규 요인 발굴 시 이를 즉각적으로 시스템에 반영하기 어렵다는 한계점을 갖고 있다. 이를 극복하기 위해 본 연구에서는 데이터 마이닝의 대화식 의사결정나무 기법을 이용함으로써, 객관적이면서도 업무 배경 지식을 충분히 활용할 수 있는 예측 모형을 수립하고자 한다. 또한, 본 연구에서 수립한 모형의 정확성 평가를 위해, 국내 최대 규모의 한 자동차 보험사 콜센터의 4년 8개월 간의 실 데이터를 사용한 실험을 수행하고 그 결과를 제시하였다. 실험에서는 기존의 WFMS와 본 연구에서 제안하는 두 가지 모형인 대화식 의사결정나무 기반의 예측 모형, 일반 의사결정나무 기반의 예측 모형의 세 가지 모형에 대해, 다양한 오차 허용범위 하에서의 사고콜 및 고장콜에 대한 예측 적중률을 평가하였다.

다중모형조합기법을 이용한 상품추천시스템 (Product Recommender Systems using Multi-Model Ensemble Techniques)

  • 이연정;김경재
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.39-54
    • /
    • 2013
  • 전자상거래의 폭발적 증가는 소비자에게 더 유리한 많은 구매 선택의 기회를 제공한다. 이러한 상황에서 자신의 구매의사결정에 대한 확신이 부족한 소비자들은 의사결정 절차를 간소화하고 효과적인 의사결정을 위해 추천을 받아들인다. 온라인 상점의 상품추천시스템은 일대일 마케팅의 대표적 실현수단으로써의 가치를 인정받고 있다. 그러나 사용자의 기호를 제대로 반영하지 못하는 추천시스템은 사용자의 실망과 시간낭비를 발생시킨다. 본 연구에서는 정확한 사용자의 기호 반영을 통한 추천기법의 정교화를 위해 데이터마이닝과 다중모형조합기법을 이용한 상품추천시스템 모형을 제안하고자 한다. 본 연구에서 제안하는 모형은 크게 두 개의 단계로 이루어져 있으며, 첫 번째 단계에서는 상품군 별 우량고객 선정 규칙을 도출하기 위해서 로지스틱 회귀분석 모형, 의사결정나무 모형, 인공신경망 모형을 구축한 후 다중모형조합기법인 Bagging과 Bumping의 개념을 이용하여 세 가지 모형의 결과를 조합한다. 두 번째 단계에서는 상품군 별 연관관계에 관한 규칙을 추출하기 위하여 장바구니분석을 활용한다. 상기의 두 단계를 통하여 상품군 별로 구매가능성이 높은 우량고객을 선정하여 그 고객에게 관심을 가질만한 같은 상품군 또는 다른 상품군 내의 다른 상품을 추천하게 된다. 제안하는 상품추천시스템은 실제 운영 중인 온라인 상점인 'I아트샵'의 데이터를 이용하여 프로토타입을 구축하였고 실제 소비자에 대한 적용가능성을 확인하였다. 제안하는 모형의 유용성을 검증하기 위하여 제안 상품추천시스템의 추천과 임의 추천을 통한 추천의 결과를 사용자에게 제시하고 제안된 추천에 대한 만족도를 조사한 후 대응표본 T검정을 수행하였으며, 그 결과 사용자의 만족도를 유의하게 향상시키는 것으로 나타났다.

문장 분류를 위한 정보 이득 및 유사도에 따른 단어 제거와 선택적 단어 임베딩 방안 (Selective Word Embedding for Sentence Classification by Considering Information Gain and Word Similarity)

  • 이민석;양석우;이홍주
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.105-122
    • /
    • 2019
  • 텍스트 데이터가 특정 범주에 속하는지 판별하는 문장 분류에서, 문장의 특징을 어떻게 표현하고 어떤 특징을 선택할 것인가는 분류기의 성능에 많은 영향을 미친다. 특징 선택의 목적은 차원을 축소하여도 데이터를 잘 설명할 수 있는 방안을 찾아내는 것이다. 다양한 방법이 제시되어 왔으며 Fisher Score나 정보 이득(Information Gain) 알고리즘 등을 통해 특징을 선택 하거나 문맥의 의미와 통사론적 정보를 가지는 Word2Vec 모델로 학습된 단어들을 벡터로 표현하여 차원을 축소하는 방안이 활발하게 연구되었다. 사전에 정의된 단어의 긍정 및 부정 점수에 따라 단어의 임베딩을 수정하는 방법 또한 시도하였다. 본 연구는 문장 분류 문제에 대해 선택적 단어 제거를 수행하고 임베딩을 적용하여 문장 분류 정확도를 향상시키는 방안을 제안한다. 텍스트 데이터에서 정보 이득 값이 낮은 단어들을 제거하고 단어 임베딩을 적용하는 방식과, 정보이득 값이 낮은 단어와 코사인 유사도가 높은 주변 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 단어 임베딩을 재구성하는 방식이다. 본 연구에서 제안하는 방안을 수행함에 있어 데이터는 Amazon.com의 'Kindle' 제품에 대한 고객리뷰, IMDB의 영화리뷰, Yelp의 사용자 리뷰를 사용하였다. Amazon.com의 리뷰 데이터는 유용한 득표수가 5개 이상을 만족하고, 전체 득표 중 유용한 득표의 비율이 70% 이상인 리뷰에 대해 유용한 리뷰라고 판단하였다. Yelp의 경우는 유용한 득표수가 5개 이상인 리뷰 약 75만개 중 10만개를 무작위 추출하였다. 학습에 사용한 딥러닝 모델은 CNN, Attention-Based Bidirectional LSTM을 사용하였고, 단어 임베딩은 Word2Vec과 GloVe를 사용하였다. 단어 제거를 수행하지 않고 Word2Vec 및 GloVe 임베딩을 적용한 경우와 본 연구에서 제안하는 선택적으로 단어 제거를 수행하고 Word2Vec 임베딩을 적용한 경우를 비교하여 통계적 유의성을 검정하였다.

빅데이터 기반의 정성 정보를 활용한 부도 예측 모형 구축 (Bankruptcy Prediction Modeling Using Qualitative Information Based on Big Data Analytics)

  • 조남옥;신경식
    • 지능정보연구
    • /
    • 제22권2호
    • /
    • pp.33-56
    • /
    • 2016
  • 대부분의 부도 예측에 관한 연구는 재무 변수를 중심으로 통계적 방법 또는 인공지능 기법을 적용하여 부도 예측 모형을 구축하였다. 그러나 재무비율과 같은 회계 정보를 이용한 부도 예측 모형은 재무 제표 결산 시점과 신용평가 시점 간 시차를 고려하지 않을 뿐만 아니라 해당 산업의 경제적 상황과 같은 외부 환경적인 요소를 반영하기 어렵다는 한계점이 존재하였다. 기업의 부도 여부를 예측하기 위해 정량 정보인 재무 변수만을 이용하는 것에 한계가 있음에도 불구하고 정성 정보를 부도 예측 모형에 반영한 연구는 아직 미흡한 실정이다. 본 연구에서는 재무 변수를 이용하는 기존 부도 예측 모형의 성과를 개선하기 위해 빅데이터 기반의 정성 정보를 추가적인 입력 변수로 활용하는 부도 예측 모형을 제안하였다. 제안 모형의 성과 향상은 정성 정보를 예측 모형에 통합시키기에 적합한 형태로 정보의 유형을 변환시킬 수 있는가에 따라 달려있다. 이에 본 연구에서는 정성 정보 처리를 위한 방법으로 빅데이터 분석 기법 중 하나인 텍스트 마이닝(Text Mining)을 활용하였다. 해당 산업과 관련된 경제 뉴스 데이터로부터 경제 상황에 대한 감성 정보를 추출하기 위해 도메인 중심의 감성 어휘 사전을 구축하고, 구축된 어휘 사전을 기반으로 감성 분석(Sentiment Analysis)을 수행하였다. 형태소 분석 등을 포함한 텍스트 전처리 과정을 거쳐 감성 어휘를 추출하고, 각 어휘에 대한 극성 및 감성 점수를 부여하였다. 분석 결과, 전통적 부도 예측 모형에 경제 뉴스 데이터에서 도출한 정성 정보를 반영하는 것은 모형의 성과를 개선하는 것으로 나타났다. 특히, 경제 상황에 대한 부정적 감정이 기업의 부도 여부를 예측하는 데 더욱 효과적임을 알 수 있었다.

소셜 미디어 상에서의 인공지능 관련 사회적 여론에 대한 다 범주 감성 분석 (Multi-Category Sentiment Analysis for Social Opinion Related to Artificial Intelligence on Social Media)

  • 이상원;최창욱;김동성;여운영;김종우
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.51-66
    • /
    • 2018
  • 인공지능 기술의 비약적인 발전으로 인하여, 사용자의 편의성 증대를 목적으로 다양한 분야에서 관련된 제품과 서비스들의 개발이 이루어지고 있다. 이러한 기술의 발전에는 긍정적인 파급 효과에 대한 기대감이 존재하나, 향후 발생 가능한 부정적인 측면에 대한 논의도 활발히 이루어지고 있다. 예를 들어, 인공지능 기술 기반의 자율주행 자동차의 경우 안정성의 향상이라는 측면에서 많은 관심을 받고 있으나, 트롤리 딜레마, 시스템 보안 문제 등의 사회적 이슈 또한 활발히 논의되고 있다. 이에 따라, 인공지능 관련 기술의 발전과 사회적 수용을 위해서는 사회적으로 논의되는 주요 관련 이슈들에 대한 확인과 효과적인 분석이 요구된다. 이를 위해, 본 연구에서는 '이세돌 vs 알파고' 시점인 2016년 3월을 포함하여 2016년 1월부터 2017년 12월까지 2년 동안의 인공지능과 관련된 사회적인 이슈들을 파악하고 온라인상에서 발생되는 사회적 여론에 대하여 다 범주 감성을 분석하고자 한다. 이를 위하여 국내 대표적인 포털 사이트에서 인공지능 관련 뉴스의 수와 관련된 뉴스 제목, 뉴스의 댓글을 웹 크롤링(Web Crawling) 하였다. 사회적 여론에 대한 다 범주 감성 분석은 논의되는 이슈들의 중요성을 고려하여 단순 긍정 또는 부정이 아닌, 분노, 혐오, 두려움, 행복, 중립, 슬픔, 놀라움의 7가지 다 범주 감성으로 분석하였다. 분석 결과, 대부분의 이벤트 기간에 대하여 1위 감성은 '행복'으로 나타났지만 각 키워드에 대하여 나오는 감성이 상이함을 볼 수 있었다. 또한 2016년 상반기, 하반기, 2017년 상반기, 하반기로 나누어 보았을 때 시간이 지남에 따라 '분노'의 감성이 낮아짐을 확인하였다. 이러한 분석 결과를 바탕으로 인공지능과 관련하여 현재 논의되고 있는 다양한 이슈와 동향 파악이 가능하며, 이에 대한 대응 방안 마련에 활용이 가능할 것이다. 향후 감성 분석기의 성능 향상과 댓글에 대한 공감 및 비공감도의 가중치를 추가하여 분석한다면 사회적 여론을 보다 세밀하게 파악 할 수 있을 것이다.

적대적 생성 모델을 활용한 사용자 행위 이상 탐지 방법 (Anomaly Detection for User Action with Generative Adversarial Networks)

  • 최남웅;김우주
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.43-62
    • /
    • 2019
  • 한때, 이상 탐지 분야는 특정 데이터로부터 도출한 기초 통계량을 기반으로 이상 유무를 판단하는 방법이 지배적이었다. 이와 같은 방법론이 가능했던 이유는 과거엔 데이터의 차원이 단순하여 고전적 통계 방법이 효과적으로 작용할 수 있었기 때문이다. 하지만 빅데이터 시대에 접어들며 데이터의 속성이 복잡하게 변화함에 따라 더는 기존의 방식으로 산업 전반에 발생하는 데이터를 정확하게 분석, 예측하기 어렵게 되었다. 따라서 기계 학습 방법을 접목한 SVM, Decision Tree와 같은 모형을 활용하게 되었다. 하지만 지도 학습 기반의 모형은 훈련 데이터의 이상과 정상의 클래스 수가 비슷할 때만 테스트 과정에서 정확한 예측을 할 수 있다는 특수성이 있고 산업에서 생성되는 데이터는 대부분 정답 클래스가 불균형하기에 지도 학습 모형을 적용할 경우, 항상 예측되는 결과의 타당성이 부족하다는 문제점이 있다. 이러한 단점을 극복하고자 현재는 클래스 분포에 영향을 받지 않는 비지도 학습 기반의 모델을 바탕으로 이상 탐지 모형을 구성하여 실제 산업에 적용하기 위해 시행착오를 거치고 있다. 본 연구는 이러한 추세에 발맞춰 적대적 생성 신경망을 활용하여 이상 탐지하는 방법을 제안하고자 한다. 시퀀스 데이터를 학습시키기 위해 적대적 생성 신경망의 구조를 LSTM으로 구성하고 생성자의 LSTM은 2개의 층으로 각각 32차원과 64차원의 은닉유닛으로 구성, 판별자의 LSTM은 64차원의 은닉유닛으로 구성된 1개의 층을 사용하였다. 기존 시퀀스 데이터의 이상 탐지 논문에서는 이상 점수를 도출하는 과정에서 판별자가 실제데이터일 확률의 엔트로피 값을 사용하지만 본 논문에서는 자질 매칭 기법을 활용한 함수로 변경하여 이상 점수를 도출하였다. 또한, 잠재 변수를 최적화하는 과정을 LSTM으로 구성하여 모델 성능을 향상시킬 수 있었다. 변형된 형태의 적대적 생성 모델은 오토인코더의 비해 모든 실험의 경우에서 정밀도가 우세하였고 정확도 측면에서는 대략 7% 정도 높음을 확인할 수 있었다.

BERT 기반 감성분석을 이용한 추천시스템 (Recommender system using BERT sentiment analysis)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제27권2호
    • /
    • pp.1-15
    • /
    • 2021
  • 추천시스템은 사용자의 기호를 파악하여 물품 구매 결정을 도와주는 역할을 할 뿐만 아니라, 비즈니스 전략의 관점에서도 중요한 역할을 하기에 많은 기업과 기관에서 관심을 갖고 있다. 최근에는 다양한 추천시스템 연구 중에서도 NLP와 딥러닝 등을 결합한 하이브리드 추천시스템 연구가 증가하고 있다. NLP를 이용한 감성분석은 사용자 리뷰 데이터가 증가함에 따라 2000년대 중반부터 활용되기 시작하였지만, 기계학습 기반 텍스트 분류를 통해서는 텍스트의 특성을 완전히 고려하기 어렵기 때문에 리뷰의 정보를 식별하기 어려운 단점을 갖고 있다. 본 연구에서는 기계학습의 단점을 보완하기 위하여 BERT 기반 감성분석을 활용한 추천시스템을 제안하고자 한다. 비교 모형은 Naive-CF(collaborative filtering), SVD(singular value decomposition)-CF, MF(matrix factorization)-CF, BPR-MF(Bayesian personalized ranking matrix factorization)-CF, LSTM, CNN-LSTM, GRU(Gated Recurrent Units)를 기반으로 하는 추천 모형이며, 실제 데이터에 대한 분석 결과, BERT를 기반으로 하는 추천시스템의 성과가 가장 우수한 것으로 나타났다.

경제적, 산업구조적, 문화적 요인을 기반으로 한 주요 국가의 한국 품목별 수입액 예측 모형 개발: 한국의, 한국에 대한 문화적 요인을 중심으로 (Development of the forecasting model for import volume by item of major countries based on economic, industrial structural and cultural factors: Focusing on the cultural factors of Korea)

  • 전승표;서봉군;박도형
    • 지능정보연구
    • /
    • 제27권4호
    • /
    • pp.23-48
    • /
    • 2021
  • 한국경제는 지난 수십년간 정부의 수출전략정책에 힘입어 지속적으로 경제 성장을 이룩해왔으며, 수출의 증가는 경제의 효율성 향상, 고용창출, 기술개발 촉진 등 우리나라의 경제 성장을 견인하는 주도적인 역할을 해왔다. 전통적으로 우리나라 수출에 영향을 미치는 주요 요인은 크게 경제적 요인과 산업구조적 요인이라는 두가지 관점에서 찾아볼 수 있다. 첫번째, 경제적 요인은 환율과 글로벌 경기 변동과 관련된 것으로서, 환율이 우리나라 수출에 미치는 영향은 환율 수준 및 환율 변동성에 따른 영향으로 나누어 살펴볼 수 있으며, 글로벌 경기 변동은 세계 수입 수요에 영향을 미쳐 우리나라 수출을 좌우하는 절대적 요인으로 볼 수 있다. 두 번째, 산업구조적 요인은 국제 분업화의 둔화, 중국의 특정 수입품 자국내 대체 증가, 수출 주력 산업의 해외생산 형태 변화 등 산업이나 제품에 따라 발생한 고유한 특징이다. 가장 최근 글로벌 교류와 관련된 연구들을 살펴보면, 경제적 요인 및 산업구조적 요인과 더불어 문화적인 측면이 중요함을 여러 문헌에서 피력하고 있다. 이에 따라 본 연구에서는 각국의 한국 수입액 예측 모형에 문화적 요인을 함께 반영하여 예측 모형을 개발하고자 하였으며, 구체적으로 문화적 요인이 수입액에 미치는 영향을 PUSH-PULL 프레임워크 관점에서 반영해보고자 하였다. PUSH 관점은 한국이 자신의 브랜드를 개발하고 적극 홍보하는 관점으로 K-POP, K-FOOD, K-CULTURE 등으로 대표되는 한국의 브랜드에 대한 각국의 관심 정도로 정의할 수 있다. 또한, PULL 관점은 각 국가의 국민들의 문화적, 심리적 특징으로 해당 국가의 지배체계, 남성성, 위험 회피성, 시간에 대한 단기/장기 지향성 등으로 대표되는 각 국의 문화 코드로서 한류문화를 얼마나 수용할 성향을 띄고 있는지로 정의할 수 있다. 본 연구에서 제시한 최종 예측 모델의 고유한 특징은 Design Principle에 기반하여 설계한 것인데, 1) 신규로 추가한 데이터 소스를 통해 한국에 대한 관심 및 문화적 특성이 반영될 수 있는 모형으로 구축하였고, 2) 경제적 요인 등의 변화와 품목 및 국가 Code를 입력하면 예측값을 바로 불러올 수 있도록 실용적으로 편의성 있게 설계하였으며, 3) 이론적으로도 의미 있는 결과를 도출하기 위해서 입력과 목표 변수간의 관계를 해석 가능한 알고리즘을 중심으로 설계하였다는 점이다. 본 연구는 기술적 측면, 경제적 측면, 정책적 측면에서 의미 있는 시사점을 제시할 수 있으며, 수입액 예측 모형을 활용하여 중소·중견기업의 수출 지원 전략에 의미 있는 기여를 할 수 있을 것으로 기대된다.

증권신고서의 TF-IDF 텍스트 분석과 기계학습을 이용한 공모주의 상장 이후 주가 등락 예측 (The prediction of the stock price movement after IPO using machine learning and text analysis based on TF-IDF)

  • 양수연;이채록;원종관;홍태호
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.237-262
    • /
    • 2022
  • 본 연구는 개인투자자들의 투자의사결정에 도움을 주고자, 증권신고서의 TF-IDF 텍스트 분석과 기계학습을 이용해 공모주의 상장 5거래일 이후 주식 가격 등락을 예측하는 모델을 제시한다. 연구 표본은 2009년 6월부터 2020년 12월 사이에 신규 상장된 691개의 국내 IPO 종목이다. 기업, 공모, 시장과 관련된 다양한 재무적 및 비재무적 IPO 관련 변수와 증권신고서의 어조를 분석하여 예측했고, 증권신고서의 어조 분석을 위해서 TF-IDF (Term Frequency - Inverse Document Frequency)에 기반한 텍스트 분석을 이용해 신고서의 투자위험요소란의 텍스트를 긍정적 어조, 중립적 어조, 부정적 어조로 분류하였다. 가격 등락 예측에는 로지스틱 회귀분석(Logistic Regression), 랜덤 포레스트(Random Forest), 서포트벡터머신(Support Vector Machine), 인공신경망(Artificial Neural Network) 기법을 사용하였고, 예측 결과 IPO 관련 변수와 증권신고서 어조 변수를 함께 사용한 모델이 IPO 관련 변수만을 사용한 모델보다 높은 예측 정확도를 보였다. 랜덤 포레스트 모형은 1.45%p 높아진 예측 정확도를 보였으며, 인공신공망 모형과 서포트벡터머신 모형은 각각 4.34%p, 5.07%p 향상을 보였다. 추가적으로 모형간 차이를 맥니마 검정을 통해 통계적으로 검증한 결과, 어조 변수의 유무에 따른 예측 모형의 성과 차이가 유의확률 1% 수준에서 유의했다. 이를 통해, 증권신고서에 표현된 어조가 공모주의 가격 등락 예측에 영향을 미치는 요인이라는 것을 확인할 수 있었다.