• 제목/요약/키워드: text mining analysis

검색결과 1,208건 처리시간 0.202초

주가지수 방향성 예측을 위한 도메인 맞춤형 감성사전 구축방안 (A domain-specific sentiment lexicon construction method for stock index directionality)

  • 김재봉;김형중
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권3호
    • /
    • pp.585-592
    • /
    • 2017
  • 개인용 디바이스의 발달로 개인들이 손쉽게 인터넷에 접속할 수 있게 되었으며, 소셜미디어를 통한 정보의 공유와 습득이 일반화 되고 있다. 특히 분야별 전문 커뮤니티가 발달하며 사회적 영향력을 행사하고 있어 기업과 정부는 이들의 의견을 반영하여 전략을 수립하는 일에 관심을 기울이고 있다. 온라인상의 다양한 텍스트로부터 대중의 의견을 읽어내는 것을 오피니언마이닝이라고 한다. 그 중 하나인 감성사전은 방대한 비정형데이터를 빠르게 파악하는 도구로 여러 분야에서 활용되고 있다. 주식시장은 사회의 여러 요인을 반영하여 변동한다. 최근에는 버즈량 분석 등 빅데이터를 기반으로 오피니언마이닝을 활용한 주식시장 연구가 시도되고 있다. 대표적인 예로 뉴스와 같은 텍스트 데이터 분석을 활용한 연구들이 발표되고 있다. 본 논문에서는 뉴스의 정제된 형식과 한정된 어휘를 사용한 기존연구를 보완하고자 증권전문 사이트 'Paxnet'의 게시 글을 분석대상으로 삼아 주식시장 맞춤형 감성사전을 구축하여 투자자들의 감성을 분석하는 데 기여했다.

포털사이트 실시간이슈 지속가능성 평가 (Estimating long-term sustainability of real-time issues on portal sites)

  • 정민영
    • 디지털융복합연구
    • /
    • 제17권12호
    • /
    • pp.255-260
    • /
    • 2019
  • 실시간검색어는 실시간으로 관심이 급상승하는 검색어에 대한 것으로 한정될 뿐 아니라 포털사이트마다 순위 차이가 있으므로 지속가능성을 파악하기 힘든 한계를 가지고 있다. 실시간검색어에 대한 지속가능성을 평가하는 것은 이러한 한계를 극복하고 예측가능성을 제공해준다는 측면에서 그 의미가 크다. 특히 한 달 이상 지속되는 장기 지속 검색어의 경우 사회적으로 관심이 오래 지속된 이슈로서 가치가 높다. 따라서 본 논문에서는 실시간검색어 순위에 기반한 관심도와 실시간검색어의 지속주수, 지속일수, 지속시간에 기반을 둔 지속도를 각 포털사이트 및 통합 포털사이트 별로 파악한 다음, 관심도와 지속도가 높은 것을 기준으로 지속가능성을 평가하여, 장기 지속가능성이 높은 실시간이슈를 도출하는 방법을 제시하고자 한다.

비정형데이터 수집을 통한 드라마 시청률 연관어 분석 (Analysis of drama viewership related words through unstructured data collection)

  • 강선경;이현창;신성윤
    • 한국정보통신학회논문지
    • /
    • 제21권8호
    • /
    • pp.1567-1574
    • /
    • 2017
  • 본 논문에서는 드라마의 시청률에 영향을 미치는 연관어 분석을 위해 정형화된 데이터와 비정형화된 데이터를 분석하는 내용이다. 정형화된 데이터 수집은 각 방송사의 드라마정보, 인물정보, 방송정보, 시청률정보라는 4가지 영역에서 총 19가지항목을 수집하였다. 비정형데이터는 각 방송사에서 드라마별로 운영되고 있는 게시판과 방영전 블로그와 방영후 블로그로부터 크롤링기법을 이용하여 수집하였다. 수집된 정형데이터로부터 각 방송사별 4가지 영역별에 따른 차이를 비교한 결과 방송사별 서로 유사한 결과 값을 보이고 있었다. 그리고 각 방송사의 드라마별 게시판과 블로그에서 수집된 비정형데이터로부터 출현빈도의 상관관계 분석을 통해 관련 연관어를 7개 도출하였다. 도출된 연관어는 신뢰성 분석을 통해 이루어졌다.

인문사회 과학기술 분야 연구의 학제적 동향 분석 : 토픽 모델링과 네트워크 분석의 활용 (Identifying Interdisciplinary Trends of Humanities, Sociology, Science and Technology Research in Korea Using Topic Modeling and Network Analysis)

  • 최재웅;장재혁;김대환;윤장혁
    • 산업경영시스템학회지
    • /
    • 제42권1호
    • /
    • pp.74-86
    • /
    • 2019
  • As many existing research fields are matured academically, researchers have encountered numbers of academic, social and other problems that cannot be addressed by internal knowledge and methodologies of existing disciplines. Earlier, pioneers of researchers thus are following a new paradigm that breaks the boundaries between the prior disciplines, fuses them and seeks new approaches. Moreover, developed countries including Korea are actively supporting and fostering the convergence research at the national level. Nevertheless, there is insufficient research to analyze convergence trends in national R&D support projects and what kind of content the projects mainly deal with. This study, therefore, collected and preprocessed the research proposal data of National Research Foundation of Korea, transforming the proposal documents to term-frequency matrices. Based on the matrices, this study derived detailed research topics through Latent Dirichlet Allocation, a kind of topic modeling algorithm. Next, this study identified the research topics each proposal mainly deals with, visualized the convergence relationships, and quantitatively analyze them. Specifically, this study analyzed the centralities of the detailed research topics to derive clues about the convergence of the near future, in addition to visualizing the convergence relationship and analyzing time-varying number of research proposals per each topic. The results of this study can provide specific insights on the research direction to researchers and monitor domestic convergence R&D trends by year.

한국의 사회적 이슈 도출을 위한 뉴스 빅데이터 분석 연구 (Analysis of News Big Data for Deriving Social Issues in Korea)

  • 이홍주
    • 한국전자거래학회지
    • /
    • 제24권3호
    • /
    • pp.163-182
    • /
    • 2019
  • 복잡해지고 있는 현대 사회의 뉴스 키워드를 시간적 흐름에 따른 빈도수와 상관관계로 분석하는 것은 이슈들에 대한 대응과 해결 방안을 논의하기 위해 매우 중요한 연구라고 할 수 있다. 이에 본 논문에서는 10년(2009~2018)간의 뉴스 빅데이터 분석을 통해 사회적 키워드의 흐름과 주요 이슈들 간의 관계를 분석하였다. 분석결과 본 연구에서는 정치적 이슈, 교육 사회문화, 젠더갈등 그리고 사회적 사건이 주요 이슈들로 제시되었다. 또한, 본 연구에서는 이슈의 변화와 흐름을 연구하기 위해 이를 5년 기준으로 양분하여 변화하는 것을 분석하였다. 이를 통해 사회적 이슈의 시간에 따른 변화와 그 대응방안을 연구하였다. 그 결과 국민생활과 밀접한 키워드(경제, 경찰)는 시간의 흐름에 관계없이 우리 사회에서 매우 중요하게 논의되는 키워드로 분석되었다. 또한 '안전'과 같은 키워드는 최근 들어 빈도수에 비해 증가율이 감소되었다. 이를 통해, 우리 사회가 안전에 대한 인식을 개선할 필요가 있는 것으로 추론할 수 있다.

Does Rain Really Cause Toothache? Statistical Analysis Based on Google Trends

  • Jeon, Se-Jeong
    • 치위생과학회지
    • /
    • 제21권2호
    • /
    • pp.104-110
    • /
    • 2021
  • Background: Regardless of countries, the myth that rain makes the body ache has been worded in various forms, and a number of studies have been reported to investigate this. However, these studies, which depended on the patient's experience or memory, had obvious limitations. Google Trends is a big data analysis service based on search terms and viewing videos provided by Google LLC, and attempts to use it in various fields are continuing. In this study, we endeavored to introduce the 'value as a research tool' of the Google Trends, that has emerged along with technological advancements, through research on 'whether toothaches really occur frequently on rainy days'. Methods: Keywords were selected as objectively as possible by applying web crawling and text mining techniques, and the keyword "bi" meaning rain in Korean was added to verify the reliability of Google Trends data. The correlation was statistically analyzed using precipitation and temperature data provided by the Korea Meteorological Agency and daily search volume data provided by Google Trends. Results: Keywords "chi-gwa", "chi-tong", and "chung-chi" were selected, which in Korean mean 'dental clinic', 'toothache', and 'tooth decay' respectively. A significant correlation was found between the amount of precipitation and the search volume of tooth decay. No correlation was found between precipitation and other keywords or other combinations. It was natural that a very significant correlation was found between the amount of precipitation, temperature, and the search volume of "bi". Conclusion: Rain seems to actually be a cause of toothache, and if objective keyword selection is premised, Google Trends is considered to be very useful as a research tool in the future.

코로나-19관련 웨이보 정서 분석을 통한 중국 주식시장의 주판 및 차스닥의 민감도 예측 기법 (Sensitivity of abacus and Chasdaq in the Chinese stock market through analysis of Weibo sentiment related to Corona-19)

  • 이가기;오하영
    • 한국정보통신학회논문지
    • /
    • 제25권1호
    • /
    • pp.1-7
    • /
    • 2021
  • 최근 코로나 19발생과 동시에 소셜 미디어의 투자자 정서가 증시 가격 움직임을 주도해 관심을 모으고 있다. 본 연구는 행동금융 이론 기반 빅 데이터 분석을 활용하여 소셜 미디어에서 추출한 정서가 중국 증시의 실시간 및 단기적 가격 모멘텀을 예측하는데 활용될 수 있는 기법을 제안한다. 이를 위해, COVID-19와 관련 200만 건 이상의 시나 웨이보 빅 데이터를 키워드 방식으로 수집 및 분석하고 시간이 따른 영향력이 높은 감정 요인을 추출한다. 최종 결과 도출을 위해 다양한 지도 및 비지도 학습 모델을 다 각도에서 구현 및 성능평가를 비교 분석 후, BiLSTM mdoel이 최적의 결과를 낼 수 있음을 증명했다. 또한, 제안하는 기법을 통해 주가변동과 심리요인 간에도 비슷한 움직임을 보이고 있음을 제안했고 소셜미디어에서 추출한 공공분위기가 어느 정도 투자자들의 심리를 대변할 수 있고, 주식시장에 영향을 미칠 수 있는 특수행사에 몰두할 때 증시변동에 차이를 만들 수 있음을 증명했다.

토픽모델링을 통한 북한의 경제정책 동향 분석 (The Analysis of North Korea's Economic Policy Trends through Topic Modeling)

  • 강경화
    • 스마트미디어저널
    • /
    • 제9권4호
    • /
    • pp.44-51
    • /
    • 2020
  • 1990년대 중후반 이래 북한경제에 많은 변화가 나타나는 것은 분명하다. 2012년 김정은 집권 이후 그 변화는 더욱 뚜렷하게 나타나고 있기 때문에 시기별 경제정책 흐름을 추적하여 변화추이를 파악하는 데 논문의 목적이 있다. 본 논문에서는 텍스트마이닝 분석기법인 LDA 토픽모델링을 활용하여 북한에서 발간되는 경제 분야 대표문헌인 경제학술지 『경제연구』 논문을 분석한다. 『경제연구』에 게재된 논문을 기본 텍스트로 활용하여 북한 경제 전략과 정책변화를 파악한다. 북한에서 생산되는 경제 관련 학술지로 독보적 위치를 차지하고 있는 『경제 연구』에 대한 심층 분석은 북한 당국이 경제 관련 인식하고 있는 현실, 직면 하고 있는 한계, 대안 등을 추적하는데 필수적인 작업이라고 할 수 있다. 다양한 북한 경제 관련 논쟁 주제가 숨어있는 『경제연구』를 빅데이터를 통해 분석하여 북한 지도자의 경제정책 흐름을 살펴보고, 현 김정은 체제가 의도하는 '변화'의 내용을 분석한다.

온라인 구전과 마케팅 성과의 다이나믹스 연구 : 모바일 게임 앱 리뷰를 중심으로 (The Dynamics of Online word-of-mouth and Marketing Performance : Exploring Mobile Game Application Reviews)

  • 김인규;차성수
    • 한국콘텐츠학회논문지
    • /
    • 제20권12호
    • /
    • pp.36-48
    • /
    • 2020
  • 본 연구는 모바일앱 온라인 리뷰의 구전내용의 다이나믹스(Dynamics)를 확인하기 위해 내용분석을 실시하였다. 이를 통해 모바일앱 구전 단어 간의 관계를 알아보고 모바일앱 특성에 따라 분류하여 비교 조사하였다. 분석대상은 게임 앱 카테고리 내 10개의 앱으로 선정하였다. 수집된 해당 모바일앱 리뷰는 꾸준한 인기를 가진 Trend형 게임앱과 짧은 인기를 보인 Fad형 게임앱, 무료앱, 유료앱으로 분류하였다. 이후 형태소 분석 등 전처리 과정을 거친 데이터를 기반으로 텍스트마이닝과 Word2Vec 분석을 시도하였다. 연구결과, 앱 리뷰의 양은 순위변동과 상관관계에 있는 것으로 나타났다. 그러나 초기 10일간 변화는 상관관계가 낮거나 없는 것으로 나타났다. 이는 출시 직후 앱개발사의 단기 마케팅활동이 순위를 형성하는데 영향을 주기 때문으로 판단된다. 꾸준한 인기를 얻은 Trend형 게임앱과 짧은 인기를 얻은 Fad형 게임앱 간 리뷰내용의 다이나믹스(Dynamics)도 확인할 수 있었다.

미국연방준비제도의 양적완화 정책이 주가 변동에 미치는 영향 분석 (Analysis of the Ripple Effect of the US Federal Reserve System's Quantitative Easing Policy on Stock Price Fluctuations)

  • 홍성혁
    • 디지털융복합연구
    • /
    • 제19권3호
    • /
    • pp.161-166
    • /
    • 2021
  • 거시경제는 한 나라의 경제 전반의 움직임을 나타내는 개념으로 경제주체인 기업, 정부, 가계경제 활동 전반에 영향을 미친다. 거시경제는 국민소득, 물가, 실업, 통화, 금리, 원자재 등의 변화를 살펴보면 경제 주체들의 행위와 상호작업이 제품과 서비스의 가격에 영향을 파악할 수 있다. 미국연방준비제도(FED)는 코로나 경제침체를 극복하기 위한 다양한 경기부양책을 내 놓으며, 세계경제를 이끌고 있다. 현재 코로나로 인한 주가가 2020년3월20일에 지속적으로 하락하였지만, FED의 강력한 경지부양책인 양적완화로 미국의 S&P500지수는 3월 23일이후 반등을 시작해 12월 15일 3,694.62까지 회복에 성공했다. 따라서 주가의 예측을 기업의 재무제표로 판단하는 것이 아니라 거시경제지표에 따른 FED의 경기부양책이 더 영향을 미치고 있는 실정이다. 따라서 본 연구는 FED의 경기부양책과 주가에 미치는 영향을 분석하여 주식투자에 손실을 줄이고 건전한 투자 정착을 위해 본 연구를 진행하였다.