• 제목/요약/키워드: 온라인 마이닝

검색결과 240건 처리시간 0.029초

산업군 내 동질성을 고려한 온라인 뉴스 기반 주가예측 (Online news-based stock price forecasting considering homogeneity in the industrial sector)

  • 성노윤;남기환
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.1-19
    • /
    • 2018
  • 주가 예측은 학문적으로나 실용적으로나 중요한 문제이기에, 주가 예측에 관련된 연구가 활발히 진행되었다. 빅 데이터 시대에 도입하면서, 빅 데이터를 결합한 주가 예측 연구도 활발히 진행되고 있다. 다수의 데이터를 기반으로 기계 학습을 이용한 연구가 주를 이룬다. 특히 언론의 효과를 접목한 연구 방법들이 주목을 받고 있는데, 그중 온라인 뉴스를 분석하여 주가 예측에 활용하는 연구가 주를 이루고 있다. 기존 연구들은 온라인 뉴스가 개별 회사에 대한 미치는 영향을 주로 살펴보았다. 또한, 관련성이 높은 기업끼리 서로 영향을 주는 것을 고려하는 방법도 최근에 연구되고 있다. 이는 동질성을 가지는 산업군에 대한 효과를 살펴본 것인데, 기존 연구에서 동질성을 가지는 산업군은 국제 산업 분류 표준에 따른다. 즉, 기존 연구들은 국제 산업 분류 표준으로 나뉜 산업군이 동질성을 가진다는 가정하에서 분석을 시행하였다. 하지만 기존 연구들은 영향력을 가지는 회사를 고려하지 못한 채 예측하였거나 산업군 내에서 이질성이 존재하는 점을 반영하지 못했다는 한계점을 가진다. 본 연구는 산업군 내에 이질성이 존재함을 밝히고, 이질성을 반영하지 못한 기존 연구의 한계점을 K-평균 군집 분석을 적용하여, 주가에 영향을 미치는 산업군의 동질적인 효과를 반영할 수 있는 방법론을 제안하였다. 방법론이 적합하다는 것을 증명하기 위해 3년간의 온라인 뉴스와 주가를 통해 실험한 결과, 다수의 경우에서 본 논문에서 제시한 방법이 좋은 결과를 나타냄을 확인할 수 있었으며, 국제 산업 분류 표준 산업군 내에서 이질성이 클수록 본 논문에서 제시한 방법이 좋은 효과를 보인다는 것을 확인할 수 있었다. 본 연구는 국제 산업 분류 표준으로 나누어진 기업들이 높은 동질성을 가지지 않는 다는것을 밝히고 이를 반영한 예측 모형의 효율성을 입증하였다는 점에서 의의를 가진다.

연관규칙 마이닝에서의 동시성 기준 확장에 대한 연구 (An Investigation on Expanding Co-occurrence Criteria in Association Rule Mining)

  • 김미성;김남규;안재현
    • 지능정보연구
    • /
    • 제18권1호
    • /
    • pp.23-38
    • /
    • 2012
  • 온라인 쇼핑몰은 인터넷을 통해 손쉽게 접근이 가능하기 때문에, 최초 구매의사가 발생한 시점으로부터 이에 대한 실제 구매가 실현되기까지의 기간이 오프라인 쇼핑몰에 비해 비교적 짧게 나타난다. 즉 오프라인 쇼핑몰의 경우 구매희망 물품을 바로 구매하기 보다는 몇 개의 물품들을 모아서 구매하는 행태가 일반적이다. 하지만, 인터넷 쇼핑몰의 경우 단 하나의 물품만을 포함하고 있는 주문이 전체 주문의 절반 이상을 차지한다. 따라서 온라인 쇼핑몰 데이터의 장바구니 분석에 전통적 데이터마이닝 기법을 그대로 적용할 경우, Null Transaction의 수가 지나치게 많음으로 인해 합리적 수준의 지지도(Support)를 만족시키는 규칙을 찾는 것이 매우 어렵게 된다. 이러한 이유로 온라인 데이터를 사용한 많은 연구는 동시성 기준을 여러 방법으로 확장하여 사용하였는데, 이들 동시성 기준은 명확한 근거나 합의 없이 연구자의 상황에 따라 임의로 선택된 측면이 있다. 따라서 본 연구에서는 온라인 마켓 분석에 적용되는 구매의 동시성 기준을 정확도 측면에서 평가함으로써, 구매의 동시성 기준 선정을 위한 근거를 제시하고자 한다. 또한 동시성 기준의 정확도가 고객의 평균 구매간격에 따라 상이하게 나타나는 것을 파악하여, 향후 고객의 특성에 따른 차별화된 추천 시스템 구축을 위한 기본 방향을 제시하고자 한다. 이를 위해 국내 대형 인터넷 쇼핑몰의 최근 2년간 실제 거래 내역을 대상으로 실험을 수행하였으며, 실험 결과 단골 고객의 구매 추천을 위한 분석의 경우 추천 범위와 분석 데이터의 동시성 기준을 맞추어 연관규칙을 도출하는 것이 바람직하며, 비단골 고객의 경우 대부분의 추천 범위에 대해서 분석 데이터의 동시성 기준을 비교적 길게 설정하여 연관규칙을 도출하는 것이 바람직한 것으로 나타났다.

카테고리 중립 단어 활용을 통한 주가 예측 방안: 텍스트 마이닝 활용 (Stock Price Prediction by Utilizing Category Neutral Terms: Text Mining Approach)

  • 이민식;이홍주
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.123-138
    • /
    • 2017
  • 주식 시장은 거래자들의 기업과 시황에 대한 기대가 반영되어 움직이기에, 다양한 원천의 텍스트 데이터 분석을 통해 주가 움직임을 예측하려는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 것이기에 단순히 주가의 등락 뿐만이 아니라, 뉴스 기사나 소셜 미디어의 반응에 따라 거래를 하고 이에 따른 수익률을 분석하는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 연구들도 다른 분야의 텍스트 마이닝 접근 방안과 동일하게 단어-문서 매트릭스를 구성하여 분류 알고리즘에 적용하여 왔다. 문서에 많은 단어들이 포함되어 있기 때문에 모든 단어를 가지고 단어-문서 매트릭스를 만드는 것보다는 단어가 문서를 범주로 분류할 때 기여도가 높은 단어들을 선정하여야 한다. 단어의 빈도를 고려하여 너무 적은 등장 빈도나 중요도를 보이는 단어는 제거하게 된다. 단어가 문서를 정확하게 분류하는 데 기여하는 정도를 측정하여 기여도에 따라 사용할 단어를 선정하기도 한다. 단어-문서 매트릭스를 구성하는 기본적인 방안인 분석의 대상이 되는 모든 문서를 수집하여 분류에 영향력을 미치는 단어를 선정하여 사용하는 것이었다. 본 연구에서는 개별 종목에 대한 문서를 분석하여 종목별 등락에 모두 포함되는 단어를 중립 단어로 선정한다. 선정된 중립 단어 주변에 등장하는 단어들을 추출하여 단어-문서 매트릭스 생성에 활용한다. 중립 단어 자체는 주가 움직임과 연관관계가 적고, 중립 단어의 주변 단어가 주가 상승에 더 영향을 미칠 것이라는 생각에서 출발한다. 생성된 단어-문서 매트릭스를 가지고 주가의 등락 여부를 분류하는 알고리즘에 적용하게 된다. 본 연구에서는 종목 별로 중립 단어를 1차 선정하고, 선정된 단어 중에서 다른 종목에도 많이 포함되는 단어는 추가적으로 제외하는 방안을 활용하였다. 온라인 뉴스 포털을 통해 시가 총액 상위 10개 종목에 대한 4개월 간의 뉴스 기사를 수집하였다. 3개월간의 뉴스 기사를 학습 데이터로 분류 모형을 수립하였으며, 남은 1개월간의 뉴스 기사를 모형에 적용하여 다음 날의 주가 움직임을 예측하였다. 본 연구에서 제안하는 중립 단어 활용 알고리즘이 희소성에 기반한 단어 선정 방안에 비해 우수한 분류 성과를 보였다.

인구통계특성 기반 디지털 마케팅을 위한 클릭스트림 빅데이터 마이닝 (Clickstream Big Data Mining for Demographics based Digital Marketing)

  • 박지애;조윤호
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.143-163
    • /
    • 2016
  • 인구통계학적 정보는 디지털 마케팅의 핵심이라 할 수 있는 인터넷 사용자에 대한 타겟 마케팅 및 개인화된 광고를 위해 고려되는 가장 기초적이고 중요한 정보이다. 하지만 인터넷 사용자의 온라인 활동은 익명으로 행해지는 경우가 많기 때문에 인구통계특성 정보를 수집하는 것은 쉬운 일이 아니다. 정기적인 설문 조사를 통해 사용자들의 인구통계특성 정보를 수집할 수도 있지만 많은 비용이 들며 허위 기재 등과 같은 위험성이 존재한다. 특히, 모바일 환경에서는 대부분의 사용자들이 익명으로 활동하기 때문에 인구통계특성 정보를 수집하는 것은 더욱 더 어려워지고 있다. 반면, 인터넷 사용자의 온라인 활동을 기록한 클릭스트림 데이터는 해당 사용자의 인구통계학적 정보에 활용될 수 있다. 특히, 인터넷 사용자의 온라인 행위 특성 중 하나인 페이지뷰는 인구통계학적 정보 예측에 있어서 중요한 요인이 된다. 본 연구에서는 기존 선행 연구를 토대로 클릭스트림 데이터 분석을 통해 인터넷 사용자의 온라인 행위 특성을 추출하고 이를 해당 사용자의 인구통계학적 정보 예측에 사용한다. 또한, 1)의사결정나무를 이용한 변수 축소, 2)주성분분석을 활용한 차원축소, 3)군집분석을 활용한 변수축소의 방법을 제안하고 실험에 적용함으로써 많은 설명변수를 이용하여 예측 모델 생성 시 발생하는 차원의 저주와 과적합 문제를 해결하고 예측 모델의 정확도를 높이고자 하였다. 실험 결과, 범주의 수가 많은 다분형 종속변수에 대한 예측 모델은 모든 설명변수를 사용하여 예측 모델을 생성했을 때보다 본 연구에서 제안한 방법론들을 적용했을 때 예측 모델에 대한 정확도가 향상됨을 알 수 있었다. 본 연구는 클릭스트림 분석을 통해 추출된 인터넷 사용자의 온라인 행위는 해당 사용자의 인구통계학적 정보 예측에 활용 가능하며, 예측된 익명의 인터넷 사용자들에 대한 인구통계학적 정보를 디지털 마케팅에 활용 할 수 있다는데 의의가 있다. 또한, 제안 방법론들을 통해 어느 종속변수에 대해 어떤 방법론들이 예측 모델의 정확도를 개선하는지 확인하였다. 이는 추후 클릭스트림 분석을 활용하여 인구통계학적 정보를 예측할 때, 본 연구에서 제안한 방법론을 사용하여 보다 높은 정확도를 가지는 예측 모델을 생성 할 수 있다는데 의의가 있다.

텍스트 마이닝을 이용한 기사 내 부적합 문단 검출 시스템 (Detecting Improper Sentences in a News Article Using Text Mining)

  • 김규완;신현주;김선진;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.294-297
    • /
    • 2017
  • SNS와 스마트기기의 발전으로 온라인을 통한 뉴스 배포가 용이해지면서 악의적으로 조작된 뉴스가 급속도로 생성되어 확산되고 있다. 뉴스 조작은 다양한 형태로 이루어지는데, 이 중에서 정상적인 기사 내에 광고나 낚시성 내용을 포함시켜 독자가 의도하지 않은 정보에 노출되게 하는 형태는 독자가 해당 내용을 진짜 뉴스로 받아들이기 쉽다. 본 논문에서는 뉴스 기사 내에 포함된 문단 중에서 부적합한 문단이 포함되었는지를 판정하기 위한 방법을 제안한다. 제안하는 방식에서는 자연어 처리에 유용한 Convolutional Neural Network(CNN)모델 중 Word2Vec과 tf-idf 알고리즘, 로지스틱 회귀를 함께 이용하여 뉴스 부적합 문단을 검출한다. 본 시스템에서는 로지스틱 회귀를 이용하여 문단의 카테고리를 분류하여 본문의 카테고리 분포도를 계산하고 Word2Vec을 이용하여 문단간의 유사도를 계산한 결과에 가중치를 부여하여 부적합 문단을 검출한다.

  • PDF

텍스트 마이닝을 이용한 기사 내 부적합 문단 검출 시스템 (Detecting Improper Sentences in a News Article Using Text Mining)

  • 김규완;신현주;김선진;이현아
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.294-297
    • /
    • 2017
  • SNS와 스마트기기의 발전으로 온라인을 통한 뉴스 배포가 용이해지면서 악의적으로 조작된 뉴스가 급속도로 생성되어 확산되고 있다. 뉴스 조작은 다양한 형태로 이루어지는데, 이 중에서 정상적인 기사 내에 광고나 낚시성 내용을 포함시켜 독자가 의도하지 않은 정보에 노출되게 하는 형태는 독자가 해당 내용을 진짜 뉴스로 받아들이기 쉽다. 본 논문에서는 뉴스 기사 내에 포함된 문단 중에서 부적합한 문단이 포함 되었는지를 판정하기 위한 방법을 제안한다. 제안하는 방식에서는 자연어 처리에 유용한 Convolutional Neural Network(CNN)모델 중 Word2Vec과 tf-idf 알고리즘, 로지스틱 회귀를 함께 이용하여 뉴스 부적합 문단을 검출한다. 본 시스템에서는 로지스틱 회귀를 이용하여 문단의 카테고리를 분류하여 본문의 카테고리 분포도를 계산하고 Word2Vec을 이용하여 문단간의 유사도를 계산한 결과에 가중치를 부여하여 부적합 문단을 검출한다.

  • PDF

상황인식형 비즈니스 차트 추천기 개발을 위한 개방형 온라인 텍스트로부터의 시각화 규칙 추출 방법 연구 (A Method of Mining Visualization Rules from Open Online Text for Situation Aware Business Chart Recommendation)

  • ;권오병
    • 한국전자거래학회지
    • /
    • 제25권1호
    • /
    • pp.83-107
    • /
    • 2020
  • 데이터의 성격과 시각화의 목적에 따라 비즈니스 차트를 선택하는 것은 비즈니스 분석에 유용한 지식이다. 그러나 현재 시각화 도구에는 상황에 맞는 비즈니스 차트를 선택할 수 있는 기능이 부족하다. 또한 매번마다 시각화 방법에 대해 전문가의 도움을 요청하는 것은 비용과 시간이 소요된다. 따라서 본 연구의 목적은 온라인으로 게시된 문서로부터 비즈니스 차트 선정 규칙에 대한 지식을 추출하여 비즈니스 차트 생산성을 향상시키는 방법을 제안하는 것이다. 이를 위해 인터넷에서 비즈니스 차트를 묘사하는 한국어, 영어 및 중국어 비정형 데이터를 수집하고 TF-IDF를 사용하여 컨텍스트와 비즈니스 차트 간의 관계를 계산했다. 또한 Galois 래티스를 사용하여 비즈니스 차트 선택 규칙을 생성했다. 제안된 방법으로 생성된 규칙의 품질을 평가하기 위해 실험군과 대조군에 대해 실험을 수행했다. 그 결과 제안된 방법으로 의미 있는 규칙이 추출되었음을 확인했다. 본 연구의 결과물로 시각화 전문가의 도움 없이도 사무직 직원들이 비즈니스 차트를 효율적으로 선택할 수 있을 것으로 기대된다. 또한 작업 중인 문서를 기반으로 비즈니스 차트를 추천함으로 직원 교육에 유용할 것이다.

전문가 제품 후기가 소비자 제품 평가에 미치는 영향: 텍스트마이닝 분석을 중심으로 (The Effect of Expert Reviews on Consumer Product Evaluations: A Text Mining Approach)

  • 강태영;박도형
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.63-82
    • /
    • 2016
  • 최근 정보기술의 발달로 인해 소비자들은 온라인상에서 많은 정보를 쉽고 빠르게 획득할 수 있다. 소비자가 제품 구매시에는 소비자들이나 전문가들이 작성한 제품 후기 정보를 주로 탐색한다. 기존의 연구들이 소비자들이 창출한 제품 후기 중심으로 주로 진행되어 왔기 때문에, 전문가 제품 후기의 영향력에 대해서는 상대적으로 소수의 연구들만 존재하고 있다. 본 연구는 전문가가 생성하는 제품 후기에 초점을 맞추어, 방대한 실제 비정형데이터인 전문가의 후기를 어떻게 언어학적인 차원과 심리학적인 차원으로 나눌 수 있는지의 방법론을 제안하며, 실제 전문가 제품 후기를 사용하여 의미 있는 다섯 가지 차원의 새로운 변수들을 도출하였다. 그 결과 소비자들이 전문가 후기에서 반응하고 있는 언어적 특성은 제품에 대한 깊이 있는 정보의 양이나 충분한 설명을 나타내는 변수인 Review Depth, 그리고 전문가가 기술하는 방식이 제품에 대한 확신이 없는 듯한 말투를 나타내는 변수인 Lack of Assurance는 소비자의 전반적인 제품평가에 유의한 상관관계가 있는 것으로 밝혀졌다. 또한, 제품에 대한 칭찬이나 긍정적인 면을 서술하는 방식인 Positive Polarity가 소비자의 제품 평가에 영향을 미치지 않았지만, 전문가가 하는 제품에 대한 비관적인 평가인 Negative Polarity는 소비자들의 평가와 유의한 음의 상관관계가 있었다는 점이다. 전문가가 스토리텔링 관점에서 자주 사용하는 Social Orientation 특성은 유의한 관계를 미치지 못함이 밝혀졌다. 본 연구는 새로운 방법론을 제안하고 이를 실제로 활용한 결과를 보여준다는 차원에서 이론적이고 실무적인 공헌을 가진다.

빅데이터를 활용한 섬 관광지의 경관 특성 분석 - 신안군 박지·반월도를 대상으로 - (Analysis of the Landscape Characteristics of Island Tourist Site Using Big Data - Based on Bakji and Banwol-do, Shinan-gun -)

  • 도지윤;서주환
    • 한국조경학회지
    • /
    • 제49권2호
    • /
    • pp.61-73
    • /
    • 2021
  • 본 연구는 사용자의 경험에 의해 생성된 SNS 데이터를 활용하여 이용자의 경관 인식과 경관 특성을 파악하고자 하였다. 이에 섬에서 나타나는 주요 장소와 경관은 어떻게 인지하고 있는지, 주요 경관 특성은 무엇인지 온라인상의 텍스트 데이터와 사진 데이터를 활용하여 분석하였다. 텍스트 데이터는 텍스트마이닝과 네트워크 구조분석을 시행하였으며, 사진 데이터는 경관파악모델과 색채분석을 실시하였다. 연구의 결과는 첫째, 박지·반월도 주제어의 빈도분석 결과, 지역 경관 대상 키워드인 '퍼플교', '두리마을'과 장소, 행태, 경관 이미지 키워드를 도출할 수 있었으며, 이 중 경관 이미지는 감성분석을 동시해 수행함으로써 긍정의 키워드와 함께 도출하여 경관 대상 및 인식을 파악할 수 있었다. 둘째, 네트워크 구조 분석 결과, 주요 키워드와 도출되지 않은 키워드간의 연결을 보다 구체적으로 분석할 수 있어 색채를 활용한 경관 조성이 지역 활성화에 영향을 미치고 있음을 알 수 있었다. 셋째, 경관파악모델을 활용하여 분석한 결과, 주대상인 '퍼플교', '두리마을'을 활용한 선호 경관을 조성하기 위해선 인공요소가 배제되고, 원경으로 대상장인 바다와 하늘이 보이는 조망점을 설정하는 것이 효과적일 것으로 파악되었다. 넷째, 박지·반월도는 색채를 테마로 하여 조성한 최초의 섬으로 인공시설물에 사용된 색채는 주변 환경과 유사한 색채 계열, 상반되는 명도, 채도 값으로 주변 환경과 조화를 이루고 있음을 알 수 있었다. 본 연구는 경관분야에서 방문객이 직접 업로드한 온라인 데이터를 활용하여 이용자의 인식과 경관 대상을 파악하였다. 또한, 텍스트 및 사진 데이터를 모두 활용하여 경관 인식 및 특성을 파악한 것은 어떤 경관과 자원을 선호하고 인지하고 있는지 구체적으로 파악할 수 있다는 점에서 큰 의의가 있다. 또한, 지역의 경관에 대해 방문객의 인식을 파악함에 있어 정량적인 빅데이터 분석 방법과 정성적인 경관파악모델을 활용함은 대규모 이용자의 인식을 파악하고, 결과를 바탕으로 이루어지는 논의를 통해 경관을 보다 구체적으로 이해할 수 있을 것이다.

소셜미디어 콘텐츠의 오피니언 마이닝결과 시각화: N라면 사례 분석 연구 (Visualizing the Results of Opinion Mining from Social Media Contents: Case Study of a Noodle Company)

  • 김유신;권도영;정승렬
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.89-105
    • /
    • 2014
  • Web2.0의 등장과 함께 급속히 발전해온 온라인 포럼, 블로그, 트위터, 페이스북과 같은 소셜 미디어 서비스는 소비자와 소비자간의 의사소통을 넘어 이제 기업과 소비자 사이의 새로운 커뮤니케이션 매체로도 인식되고 있다. 때문에 기업뿐만 아니라 수많은 기관, 조직 등에서도 소셜미디어를 활용하여 소비자와 적극적인 의사소통을 전개하고 있으며, 나아가 소셜 미디어 콘텐츠에 담겨있는 소비자 고객들의 의견, 관심, 불만, 평판 등을 분석하고 이해하며 비즈니스에 적용하기 위해 이를 적극 분석하는 단계로 진화하고 있다. 이러한 연구의 한 분야로서 비정형 텍스트 콘텐츠와 같은 빅 데이터에서 저자의 감성이나 의견 등을 추출하는 오피니언 마이닝과 감성분석 기법이 소셜미디어 콘텐츠 분석에도 활발히 이용되고 있으며, 이미 여러 연구에서 이를 위한 방법론, 테크닉, 툴 등을 제시하고 있다. 그러나 아직 대량의 소셜미디어 데이터를 수집하여 언어처리를 거치고 의미를 해석하여 비즈니스 인사이트를 도출하는 전반의 과정을 제시한 연구가 많지 않으며, 그 결과를 의사결정자들이 쉽게 이해할 수 있는 시각화 기법으로 풀어내는 것 또한 드문 실정이다. 그러므로 본 연구에서는 소셜미디어 콘텐츠의 오피니언 마이닝을 위한 실무적인 분석방법을 제시하고 이를 통해 기업의사결정을 지원할 수 있는 시각화된 결과물을 제시하고자 하였다. 이를 위해 한국 인스턴트 식품 1위 기업의 대표 상품인 N-라면을 사례 연구의 대상으로 실제 블로그 데이터와 뉴스를 수집/분석하고 결과를 도출하였다. 또한 이런 과정에서 프리웨어 오픈 소스 R을 이용함으로써 비용부담 없이 어떤 조직에서도 적용할 수 있는 레퍼런스를 구현하였다. 그러므로 저자들은 본 연구의 분석방법과 결과물들이 식품산업뿐만 아니라 타 산업에서도 바로 적용 가능한 실용적 가이드와 참조자료가 될 것으로 기대한다.