• Title/Summary/Keyword: 토픽 분류

Search Result 135, Processing Time 0.029 seconds

A Study on Developing Facets for Subject Headings in Korea (한국 주제명 표목의 패싯 유형 개발에 관한 연구)

  • Choi, Yoon Kyung;Chung, Yeon-Kyoung
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.49 no.4
    • /
    • pp.179-201
    • /
    • 2015
  • The subject heading is an elaborate access tool for subject browsing and searching in information retrieval environment. The purpose of this study is to suggest the applicable facets to subject headings in Korea. First, the concepts of subject and the definitions of facets were investigated in the literature review. Second, six cases including OCLC's FAST, PRECIS, "Thesaurus construction and use", CC $7^{th}$ edition, BC $2^{nd}$ Edition, and UDC $3^{rd}$ Edition were analyzed to focus on configuration of facets as case studies. Based on the results, twenty-two facets were proposed including Topical, Event, Geography, Chronology, Personal and Corporate Name, Title, Form, Genre, Language, and Person facets as 11 top facets. Also, Topical-Thing/Entity and Topical-Action/Status, Part, Kind, Property, Whole, Material, Patient, Product, By-Product and Agent facets as sub-facets of Topical facet.

A Study of Developing and Evaluating a Pansoree Retrieval System Using Topic Maps (토픽맵-기반 판소리 검색시스템 구축 및 평가에 관한 연구)

  • Oh Sam Gyun;Park Ok-Nam
    • Journal of Korean Library and Information Science Society
    • /
    • v.36 no.4
    • /
    • pp.77-98
    • /
    • 2005
  • The purpose of this research is to propose a powerful alternative in designing knowledge portals using Topic Maps(TM). To demonstrate the power of TM In constructing knowledge portals. we designed a TM-based korean folk music(pansori) site, tested It with an existing pansoree site (pansoree.com ) employing diverse query patterns : simple, advanced, associative, and cross referential Queries. The results show that the TM-based site outperforms the pansoree.com in searching time and steps. The TM-based site also provide novice users who do not know pansori domain with easy access to Information that they need.

  • PDF

Falling Accidents Analysis in Construction Sites by Using Topic Modeling (토픽 모델링을 이용한 건설현장 추락재해 분석)

  • Ryu, Hanguk
    • Journal of the Korea Convergence Society
    • /
    • v.10 no.7
    • /
    • pp.175-182
    • /
    • 2019
  • We classify topics on fall incidents occurring in construction sites using topic modeling among machine learning techniques and analyze the causes of the accidents according to each topic. In order to apply topic modeling based on latent dirichlet allocation, text data was preprocessed and evaluated with Perplexity score to improve the reliability of the model. The most common falling accidents happened to the daily workers belonging to small construction site. Most of the causes were not operated properly due to lack of safety equipment, inadequacy of arrangement and wearing, and low performance of safety equipment. In order to prevent and reduce the falling accidents, it is important to educate the daily workers of small construction site, arrange the workplace, and check the wearing of personal safety equipment and device.

Comments Classification System using Topic Signature and n-gram (Topic signatur e와 n-gram을 이용한 댓글 분류 시스템)

  • Bae, Min-Young;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.189-194
    • /
    • 2008
  • 본 논문에서는 토픽 시그너처(Topic Signature)와 n-gram을 이용한 댓글 분류 시스템을 개발한다. 토픽 시그너처는 문서요약이나 문서분류에서 자질 선택을 위한 방법으로 많이 사용되어지며, n-gram은 모든 언어에 적용 가능한 장점이 있다. 악성댓글은 대체로 문장 길이가 짧고 유행어나 변형어의 출현 빈도가 높으며 비정형화된 특징이 있다. 따라서 우리는 댓글을 n-gram으로 나누어 자질로 선택한다. 분류를 위해 베이지안(Bayesian)모델을 사용하였다. 본 논문에서는 한글과 영어 댓글에 대한 판별 실험을 통하여 구현한 시스템이 복잡한 전처리 과정이 필요한 기존에 제안된 방법들보다 더 나은 성능을 보이며, 언어에 관계없이 적용 가능하다는 것을 실험 결과를 통해 확인할 수 있었다.

  • PDF

Real-time Category Trend Extraction Scheme based on Twitter Analysis (트위터 분석을 이용한 카테고리별 실시간 트렌드 추출 기법)

  • Na, ByeongJin;Kim, YongSung;Hwang, EenJun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.1581-1584
    • /
    • 2015
  • 최근 소셜 네트워크 서비스상의 데이터를 실시간으로 분석하여 의미있는 정보를 찾아내기 위한 연구가 활발하게 진행되고 있다. 특히, 스마트폰과 같은 스마트 디바이스를 이용하는 많은 사용자들이 실시간으로 발생하는 이벤트를 소셜 네트워크상에 게재하고 서로 공유하면서, 대중들이 관심을 가지는 토픽의 경우 굉장히 빠르게 확산되는 경향을 보이고 있다. 본 논문에서는 이러한 SNS의 특성을 토대로 트위터상의 트윗을 분석하여 여러 분야의 토픽들을 카테고리별로 분류하고, 카테고리별 트렌드를 추출하여 실시간으로 시각화하는 기법을 제안한다. 이를 위해, 트위터를 기반으로 SVM 분류 알고리즘과 Twitter-LDA를 통하여 트윗을 분야별로 분류하고, 각각의 트렌드를 이루는 대표적인 키워드를 선출하여 이를 기반으로 실시간 트렌드를 추출한다. 제안하는 기법의 성능을 평가하기 위해, 분류 특징 선택의 신뢰도를 측정한다.

A Study on the Types of Online Shopping Queries using Topic Modeling and Principal Components Analysis (토픽모델링과 주성분 분석을 활용한 온라인 쇼핑 검색 질의 유형 분류)

  • Kang, Hyeonah;Lim, Heuiseok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.765-768
    • /
    • 2020
  • 검색 질의 연구 분야의 대부분 선행 연구는 검색 질의 주제 분류에 집중되어 있으며 질의 자체에 대한 연구자의 정성적인 판단으로 분석되었다. 이는 검색 이후 클릭 된 문서를 고려하지 않고 진행되었다는 점과 분석 주제 및 활용 데이터가 제한적이라는 것에 한계가 있다. 이에 본 연구는 국내 대형 온라인쇼핑몰의 1년간의 검색로그를 활용하여 검색 질의와 검색 이후 조회한 문서명 정보를 기반으로 토픽모델링을 수행하여 검색 질의 주제를 정의하였다. 또한 검색 행동특성에 따른 주제별 성격을 정의하기 위하여 주성분 분석을 통해 주요 변수 추출 후 각 주제별 검색 행동특성을 분석하였다. 본 연구 결과는 효과적인 검색 서비스 구축 및 검색 시스템 개발에 기여 할 것으로 기대된다. 향후 연구로는 텍스트 분류기 모델링 실험을 통해 자동 분류 시스템을 구현할 수 있을 것이다.

A Study of Research on Methods of Automated Biomedical Document Classification using Topic Modeling and Deep Learning (토픽모델링과 딥 러닝을 활용한 생의학 문헌 자동 분류 기법 연구)

  • Yuk, JeeHee;Song, Min
    • Journal of the Korean Society for information Management
    • /
    • v.35 no.2
    • /
    • pp.63-88
    • /
    • 2018
  • This research evaluated differences of classification performance for feature selection methods using LDA topic model and Doc2Vec which is based on word embedding using deep learning, feature corpus sizes and classification algorithms. In addition to find the feature corpus with high performance of classification, an experiment was conducted using feature corpus was composed differently according to the location of the document and by adjusting the size of the feature corpus. Conclusionally, in the experiments using deep learning evaluate training frequency and specifically considered information for context inference. This study constructed biomedical document dataset, Disease-35083 which consisted biomedical scholarly documents provided by PMC and categorized by the disease category. Throughout the study this research verifies which type and size of feature corpus produces the highest performance and, also suggests some feature corpus which carry an extensibility to specific feature by displaying efficiency during the training time. Additionally, this research compares the differences between deep learning and existing method and suggests an appropriate method by classification environment.

Topic Modeling based Interdisciplinarity Measurement in the Informatics Related Journals (토픽 모델링 기반 정보학 분야 학술지의 학제성 측정 연구)

  • Jin, Seol A;Song, Min
    • Journal of the Korean Society for information Management
    • /
    • v.33 no.1
    • /
    • pp.7-32
    • /
    • 2016
  • This study has measured interdisciplinarity using a topic modeling, which automatically extracts sub-topics based on term information appeared in documents group unlike the traditional top-down approach employing the references and classification system as a basis. We used titles and abstracts of the articles published in top 20 journals for the past five years by the 5-year impact factor under the category of 'Information & Library Science' in JCR 2013. We applied 'Discipline Diversity' and 'Network Coherence' as factors in measuring interdisciplinarity; 'Shannon Entropy Index' and 'Stirling Diversity Index' were used as indices to gauge diversity of fields while topic network's average path length was employed as an index representing network cohesion. After classifying the types of interdisciplinarity with the diversity and cohesion indices produced, we compared the topic networks of journals that represent each type. As a result, we found that the text-based diversity index showed different ranking when compared to the reference-based diversity index. This signifies that those two indices can be utilized complimentarily. It was also confirmed that the characteristics and interconnectedness of the sub-topics dealt with in each journal can be intuitively understood through the topic networks classified by considering both the diversity and cohesion. In conclusion, the topic modeling-based measurement of interdisciplinarity that this study proposed was confirmed to be applicable serving multiple roles in showing the interdisciplinarity of the journals.

Automatic Generating Stopword Methods for Improving Topic Model (토픽모델의 성능 향상을 위한 불용어 자동 생성 기법)

  • Lee, Jung-Been;In, Hoh Peter
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.869-872
    • /
    • 2017
  • 정보검색(Information retrieval) 및 텍스트 분석을 위해 수집하는 비정형 데이터 즉, 자연어를 전처리하는 과정 중 하나인 불용어(Stopword) 제거는 모델의 품질을 높일 수 있는 쉽고, 효과적인 방법 중에 하나이다. 특히 다양한 텍스트 문서에 잠재된 주제를 추출하는 기법인 토픽모델링의 경우, 너무 오래되거나, 수집된 문서의 도메인이나 성격과 무관한 불용어의 제거로 인해, 해당 토픽 모델에서 학습되어 생성된 주제 관련 단어들의 일관성이 떨어지게 된다. 따라서 분석가가 분류된 주제를 올바르게 해석하는데 있어 많은 어려움이 따르게 된다. 본 논문에서는 이러한 문제점을 해결하기 위해 일반적으로 사용되는 표준 불용어 대신 관련 도메인 문서로부터 추출되는 점별 상호정보량(PMI: Pointwise Mutual Information)을 이용하여 불용어를 자동으로 생성해주는 기법을 제안한다. 생성된 불용어와 표준 불용어를 통해 토픽 모델의 품질을 혼잡도(Perplexity)로써 측정한 결과, 본 논문에서 제안한 기법으로 생성한 30개의 불용어가 421개의 표준 불용어보다 더 높은 모델 성능을 보였다.

A Study on Educational Data Mining for Public Data Portal through Topic Modeling Method with Latent Dirichlet Allocation (LDA기반 토픽모델링을 활용한 공공데이터 기반의 교육용 데이터마이닝 연구)

  • Seungki Shin
    • Journal of The Korean Association of Information Education
    • /
    • v.26 no.5
    • /
    • pp.439-448
    • /
    • 2022
  • This study aims to search for education-related datasets provided by public data portals and examine what data types are constructed through classification using topic modeling methods. Regarding the data of the public data portal, 3,072 cases of file data in the education field were collected based on the classification system. Text mining analysis was performed using the LDA-based topic modeling method with stopword processing and data pre-processing for each dataset. Program information and student-supporting notifications were usually provided in the pre-classified dataset for education from the data portal. On the other hand, the characteristics of educational programs and supporting information for the disabled, parents, the elderly, and children through the perspective of lifelong education were generally indicated in the dataset collected by searching for education. The results of data analysis through this study show that providing sufficient educational information through the public data portal would be better to help the students' data science-based decision-making and problem-solving skills.