• 제목/요약/키워드: Statistics topic

검색결과 132건 처리시간 0.019초

토픽 모형을 이용한 텍스트 데이터의 단어 선택 (Feature selection for text data via topic modeling)

  • 장우솔;김예은;손원
    • 응용통계연구
    • /
    • 제35권6호
    • /
    • pp.739-754
    • /
    • 2022
  • 텍스트 데이터는 일반적으로 많은 변수를 포함하고 있으며 변수들 사이의 연관성도 높아 통계 분석의 정확성, 효율성 등에서 문제가 생길 수 있다. 이러한 문제점에 대처하기 위해 목표 변수가 주어진 지도 학습에서는 목표 변수를 잘 설명할 수 있는 단어들을 선택하여 이 단어들만 통계 분석에 이용하기도 한다. 반면, 비지도 학습에서는 목표 변수가 주어지지 않으므로 지도 학습에서와 같은 단어 선택 절차를 활용하기 어렵다. 이 연구에서는 토픽 모형을 이용하여 지도 학습에서의 목표 변수를 대신할 수 있는 토픽을 생성하고 각 토픽별로 연관성이 높은 단어들을 선택하는 단어 선택 절차를 제안한다. 제안된 절차를 실제 텍스트 데이터에 적용한 결과, 단어 선택 절차를 이용하면 많은 토픽에서 공통적으로 자주 등장하는 단어들을 제거함으로써 토픽을 더 명확하게 식별할 수 있었다. 또한, 군집 분석에 적용한 결과, 군집과 범주 사이에 높은 연관성을 가지는 군집 분석 결과를 얻을 수 있는 것으로 나타났다. 목표 변수에 대한 정보없이 토픽 모형을 이용하여 선택한 단어들을 분류 분석에 적용하였을 때 목표 변수를 이용하여 단어들을 선택한 경우와 비슷한 분류 정확성을 얻을 수 있음도 확인하였다.

한국산업경영시스템학회지 연구 주제의 토픽모델링 분석 비교: 1978년~99년 논문을 중심으로 (Topic Modeling Analysis Comparison for Research Topic in Korean Society of Industrial and Systems Engineering: Concentrated on Research Papers from 1978~1999)

  • 박동준;오형술;김호균;윤민
    • 산업경영시스템학회지
    • /
    • 제44권4호
    • /
    • pp.113-127
    • /
    • 2021
  • Topic modeling has been receiving much attention in academic disciplines in recent years. Topic modeling is one of the applications in machine learning and natural language processing. It is a statistical modeling procedure to discover topics in the collection of documents. Recently, there have been many attempts to find out topics in diverse fields of academic research. Although the first Department of Industrial Engineering (I.E.) was established in Hanyang university in 1958, Korean Institute of Industrial Engineers (KIIE) which is truly the most academic society was first founded to contribute to research for I.E. and promote industrial techniques in 1974. Korean Society of Industrial and Systems Engineering (KSIE) was established four years later. However, the research topics for KSIE journal have not been deeply examined up until now. Using topic modeling algorithms, we cautiously aim to detect the research topics of KSIE journal for the first half of the society history, from 1978 to 1999. We made use of titles and abstracts in research papers to find out topics in KSIE journal by conducting four algorithms, LSA, HDP, LDA, and LDA Mallet. Topic analysis results obtained by the algorithms were compared. We tried to show the whole procedure of topic analysis in detail for further practical use in future. We employed visualization techniques by using analysis result obtained from LDA. As a result of thorough analysis of topic modeling, eight major research topics were discovered including Production/Logistics/Inventory, Reliability, Quality, Probability/Statistics, Management Engineering/Industry, Engineering Economy, Human Factor/Safety/Computer/Information Technology, and Heuristics/Optimization.

Understanding Black-Scholes Option Pricing Model

  • Lee, Eun-Kyung;Lee, Yoon-Dong
    • Communications for Statistical Applications and Methods
    • /
    • 제14권2호
    • /
    • pp.459-479
    • /
    • 2007
  • Theories related to financial market has received big attention from the statistics community. However, not many courses on the topic are provided in statistics departments. Because the financial theories are entangled with many complicated mathematical and physical theories as well as ambiguously stated financial terminologies. Based on our experience on the topic, we try to explain the rather complicated terminologies and theories with easy-to-understand words. This paper will briefly cover the topics of basic terminologies of derivatives, Black-Scholes pricing idea, and related basic mathematical terminologies.

토픽 모형 및 사회연결망 분석을 이용한 한국데이터정보과학회지 영문초록 분석 (Analysis of English abstracts in Journal of the Korean Data & Information Science Society using topic models and social network analysis)

  • 김규하;박철용
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권1호
    • /
    • pp.151-159
    • /
    • 2015
  • 이 논문에서는 텍스트마이닝 (text mining) 기법을 이용하여 한국데이터정보과학회지에 게재된 논문의 영어초록을 분석하였다. 먼저 다양한 방법을 통해 단어-문서 행렬 (term-document matrix)을 생성하고 이를 사회연결망 분석 (social network analysis)을 통해 시각화하였다. 또한 토픽을 추출하기 위한 방법으로 LDA (latent Dirichlet allocation)와 CTM (correlated topic model)을 사용하였다. 토픽의 수, 단어-문서 행렬의 생성방법에 따라 엔트로피 (entropy)를 통해 토픽 추출 모형들의 성능을 비교하였다.

관리도를 활용한 국민청원 토픽 모니터링 연구 (Topic change monitoring study based on Blue House national petition using a control chart)

  • 이희연;최지은;이성임;손원
    • 응용통계연구
    • /
    • 제34권5호
    • /
    • pp.795-806
    • /
    • 2021
  • 최근 온라인 채널을 통한 텍스트 자료가 방대해 지면서 이를 요약하고 분석하는 연구에 관한 관심이 커지고 있는 추세이다. 먼저 텍스트 자료에 대한 기본적인 분석 중 하나는 어떤 주제나 내용을 포함하고 있는지 잠재된 토픽을 추출하는 것이다. 연구자가 일일이 모든 자료를 읽고 내용을 요약할 수도 있겠지만, 대용량 데이터를 다루는 경우에는 결코 쉽지 않기 때문에, 통계적 모형을 사용하여 토픽을 추출하는 토픽모형 방법들이 제안되어 왔다 (Blei와 Lafferty, 2007; Blei 등, 2003). 시간에 따라 수집된 텍스트 데이터로부터 토픽의 변화를 모니터링하기 위하여, 본 연구에서는 잠재적 디리슈레 할당(latent Dirichlet allocation) 모형을 통해 토픽을 분류하고 그 결과를 바탕으로 한 토픽 지수를 제안하였다. 또한, 이를 통계적 공정관리의 대표적 도구인 관리도에 적용하여 시간 경과에 따른 토픽의 변화를 모니터링하는 데 적용해 보았다. 실제 데이터로 2018년 3월 5일부터 2020년 3월 5일 사이에 청와대 국민청원 온라인 게시판에 접수된 텍스트 데이터를 사용하였으며, 토픽 지수를 모니터링함으로써 토픽에 대한 이상변화를 탐지할 수 있음을 살펴 보았다.

An Ontology-Based Labeling of Influential Topics Using Topic Network Analysis

  • Kim, Hyon Hee;Rhee, Hey Young
    • Journal of Information Processing Systems
    • /
    • 제15권5호
    • /
    • pp.1096-1107
    • /
    • 2019
  • In this paper, we present an ontology-based approach to labeling influential topics of scientific articles. First, to look for influential topics from scientific article, topic modeling is performed, and then social network analysis is applied to the selected topic models. Abstracts of research papers related to data mining published over the 20 years from 1995 to 2015 are collected and analyzed in this research. Second, to interpret and to explain selected influential topics, the UniDM ontology is constructed from Wikipedia and serves as concept hierarchies of topic models. Our experimental results show that the subjects of data management and queries are identified in the most interrelated topic among other topics, which is followed by that of recommender systems and text mining. Also, the subjects of recommender systems and context-aware systems belong to the most influential topic, and the subject of k-nearest neighbor classifier belongs to the closest topic to other topics. The proposed framework provides a general model for interpreting topics in topic models, which plays an important role in overcoming ambiguous and arbitrary interpretation of topics in topic modeling.

Trend Analysis of Data Mining Research Using Topic Network Analysis

  • Kim, Hyon Hee;Rhee, Hey Young
    • 한국컴퓨터정보학회논문지
    • /
    • 제21권5호
    • /
    • pp.141-148
    • /
    • 2016
  • In this paper, we propose a topic network analysis approach which integrates topic modeling and social network analysis. We collected 2,039 scientific papers from five top journals in the field of data mining published from 1996 to 2015, and analyzed them with the proposed approach. To identify topic trends, time-series analysis of topic network is performed based on 4 intervals. Our experimental results show centralization of the topic network has the highest score from 1996 to 2000, and decreases for next 5 years and increases again. For last 5 years, centralization of the degree centrality increases, while centralization of the betweenness centrality and closeness centrality decreases again. Also, clustering is identified as the most interrelated topic among other topics. Topics with the highest degree centrality evolves clustering, web applications, clustering and dimensionality reduction according to time. Our approach extracts the interrelationships of topics, which cannot be detected with conventional topic modeling approaches, and provides topical trends of data mining research fields.

Introduction to the History of Statistics Development in Italy

  • Kim, Joo-Hwan
    • Communications for Statistical Applications and Methods
    • /
    • 제8권2호
    • /
    • pp.515-530
    • /
    • 2001
  • Recently Korean statistician have more chance to work with other researcher in other countries at international level. Especially the 53rd Scientist meeting of he International Statistical Institute(ISI) will be held in Seoul, Rep. of Korea at Aug 22-29, 2001. The fields of Statistics in Korea have been affected a lot from American Statistical Society. In this research communication, I would like to introduce a short history of he Italian statistical society and their major research topic and outputs. The contents will help us to understand the Italian statistician, and it can be a conner-stone to the future relationship between Korean statistician and Italian statistician.

  • PDF

초록데이터를 활용한 국내외 통계학 분야 연구동향 (Research trends in statistics for domestic and international journal using paper abstract data)

  • 양종훈;곽일엽
    • 응용통계연구
    • /
    • 제34권2호
    • /
    • pp.267-278
    • /
    • 2021
  • 시간이 갈 수록, 정부, 기업, 국내, 해외를 막론하고 데이터의 양이 증가하고 있다. 이에따라 학계에서도 빅데이터에 대한 연구들이 늘어나고 있다. 통계학은 빅데이터 연구의 중심이 되는 학문들 중 하나이며, 늘어나는 통계학 분야 논문 빅데이터를 통해 통계학의 연구동향을 파악해 보는 것도 재미있을 것이다. 본 연구에서는 국내와 해외의 통계학 논문들의 초록데이터를 통해 어떤 연구들이 이루어지고 있는지 분석을 진행하였다. 저자들이 선정한 논문들의 키워드 데이터 빈도를 통해 국내외 연구 동향을 분석하였고, Word Embedding 방법을 통해 해당 키워드들의 관계성을 시각화 하였다. 여기서 저자들이 선정한 키워드들 외에 Textrank를 통해 선정된 통계학 분야 논문들에서 중요하게 사용되는 단어들도 추가적으로 시각화 하였다. 마지막으로 초록 데이터에 LDA 기법을 적용하여 10가지 토픽을 알아보았다. 각 토픽들에 대한 분석을 통해 어떤 연구 주제들이 자주 연구되며, 어떤 단어들이 중요하게 사용되는지 알아보았다.

Transformer 기반의 토픽 모델링을 이용한 지속가능경영보고서 분석 (Sustainability Report Analysis Using Transformer-Based Topic Modeling)

  • 이한울;이지현;이준희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.464-467
    • /
    • 2022
  • 기업의 사회적 책임에 대한 요구가 높아짐에 따라 기업의 지속 가능 경영 보고서 발간은 증가 추세를 보이고 있다. 그러나 이전까지의 연구는 지속가능성 및 기업의 재무적, 비재무적 연관성에 초점이 맞춰져 있었으며, 전통적인 토픽 모델링 기법만을 제한적으로 사용한다는 한계를 보였다. 본 연구에서는 Transformer 기반의 맥락을 고려한 토픽 모델링 기법을 도입하여 다양한 이해관계자 측면에서 이용 가능한 25 개의 주제를 도출하였다. 또한 동적 토픽 모델링(Dynamic Topic Modeling)을 통해 주제의 변화를 시계열적으로 파악했다.