• Title, Summary, Keyword: 텍스트 마이닝

Search Result 609, Processing Time 0.065 seconds

텍스트 마이닝의 개념과 응용

  • Jo, Tae-Ho
    • Journal of Scientific & Technological Knowledge Infrastructure
    • /
    • /
    • pp.76-85
    • /
    • 2001
  • 정보검색시스템은 물론 텍스트 데이터를 대상으로하는 지식관리 시스템, 문서관리시스템, 그리고 전자도서관등에서 텍스트 마이닝에 대한 기술에 대한 수요가 증가하고 있는 추세이다. 이 글에서는 텍스트 마이닝의 개념을 소개하고, 텍스트 마이닝의 주요기능, 그리고, 응용사례등을 기술할것이다. 텍스트 마이닝은 텍스트 데이터를 대상으로 하여 그들간의 암묵적인 정보를 추출하는 과정으로 정의할 수 있다. 데이터마이닝과 텍스트 마이닝의 차이는 대상이 텍스트 데이터와 수치 데이터하는 점에서 구분되고 텍스트 마이닝은 데이터 마이닝과 달리 이를 구조화시키는 과정이 필요하다. 텍스트마이닝에 있어서 구조화하는 과정에서 가장 보편적으로 사용되는것은 문서색인이다.

  • PDF

Research Trends of Graph-Based Text Mining (그래프 기반 텍스트 마이닝의 연구 동향)

  • Chang, Jae-Young;Han, Jong Bin;Jwa, Tae Bin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • /
    • pp.1074-1077
    • /
    • 2013
  • 텍스트 마이닝은 비정형 데이터를 가정하므로 텍스트를 단순화된 모델로 표현하는 것이 필요하다. 현재까지 가장 많이 사용되고 있는 모델은 텍스트를 단순한 단어들의 집합으로 표현한 벡터공간 모델이다. 그러나 최근 들어 단어들의 의미적 관계까지 표현하기 위해 그래프를 이용한 텍스트 표현 모델을 많이 사용하고 있다. 본 논문에서는 텍스트 마이닝을 위한 기존의 연구 중에서 그래프에 기반한 텍스트 표현 모델의 방법들과 그들의 특징들을 주제별로 제시한다.

  • PDF

A Study on Research Trends of Graph-Based Text Representations for Text Mining (텍스트 마이닝을 위한 그래프 기반 텍스트 표현 모델의 연구 동향)

  • Chang, Jae-Young
    • The Journal of The Institute of Internet, Broadcasting and Communication
    • /
    • v.13 no.5
    • /
    • pp.37-47
    • /
    • 2013
  • Text Mining is a research area of retrieving high quality hidden information such as patterns, trends, or distributions through analyzing unformatted text. Basically, since text mining assumes an unstructured text, it needs to be represented as a simple text model for analyzing it. So far, most frequently used model is VSM(Vector Space Model), in which a text is represented as a bag of words. However, recently much researches tried to apply a graph-based text model for representing semantic relationships between words. In this paper, we survey research trends of graph-based text representation models for text mining. Additionally, we also discuss about future models of graph-based text mining.

Interplay of Text Mining and Data Mining for Classifying Web Contents (웹 컨텐츠의 분류를 위한 텍스트마이닝과 데이터마이닝의 통합 방법 연구)

  • 최윤정;박승수
    • Korean Journal of Cognitive Science
    • /
    • v.13 no.3
    • /
    • pp.33-46
    • /
    • 2002
  • Recently, unstructured random data such as website logs, texts and tables etc, have been flooding in the internet. Among these unstructured data there are potentially very useful data such as bulletin boards and e-mails that are used for customer services and the output from search engines. Various text mining tools have been introduced to deal with those data. But most of them lack accuracy compared to traditional data mining tools that deal with structured data. Hence, it has been sought to find a way to apply data mining techniques to these text data. In this paper, we propose a text mining system which can incooperate existing data mining methods. We use text mining as a preprocessing tool to generate formatted data to be used as input to the data mining system. The output of the data mining system is used as feedback data to the text mining to guide further categorization. This feedback cycle can enhance the performance of the text mining in terms of accuracy. We apply this method to categorize web sites containing adult contents as well as illegal contents. The result shows improvements in categorization performance for previously ambiguous data.

  • PDF

Probabilistic filtering for a biological knowledge discovery system with text mining and automatic inference (텍스트 마이닝 및 자동 추론 기반 생물학 지식 발견 시스템을 위한 확률 기반 필터링)

  • Lee, Hee-Jin;Park, Jong-C.
    • Journal of the Korea Society of Computer and Information
    • /
    • v.17 no.2
    • /
    • pp.139-147
    • /
    • 2012
  • In this paper, we discuss the structure of biological knowledge discovery system based on text mining and automatic inference. Given a set of biology documents, the system produces a new hypothesis in an integrated manner. The text mining module of the system first extracts the 'event' information of predefined types from the documents. The inference module then produces a new hypothesis based on the extracted results. Such an integrated system can use information more up-to-date and diverse than other automatic knowledge discovery systems use. However, for the success of such an integrated system, the precision of the text mining module becomes crucial, as any hypothesis based on a single piece of false positive information would highly likely be erroneous. In this paper, we propose a probabilistic filtering method that filters out false positives from the extraction results. Our proposed method shows higher performance over an occurrence-based baseline method.

SNS Analysis Related to Presidential Election Using Text Mining (텍스트 마이닝을 활용한 대선 관련 SNS 분석)

  • Kwon, Young-Woo;Jung, Deok-Gil
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • /
    • pp.361-363
    • /
    • 2017
  • 최근 소셜 미디어의 이용률이 폭발적으로 증가함에 따라, 방대한 데이터가 네트워크로 쏟아져 나오고 있다. 이들 데이터는 기존의 정형 데이터뿐만 아니라 이미지, 동영상 등의 비정형 데이터가 있으며, 이들을 포괄하여 빅데이터라고 불린다. 이러한 빅데이터는 오피니언 마이닝, 테스트 마이닝 등의 기술적인 분석 기법과 빅데이터 요약 및 효과적인 표현방법에 대한 시각화 기법에 대하여 활발한 연구가 이루어지고 있다. 이 논문은 인기 있는 사회연결망 서비스인 Twitter의 트윗을 수집하고, 빅데이터 분석 기법인 텍스트 마이닝을 활용하여 2017년 대선에 대하여 분석하였다. 또한 분석된 자료의 효과적인 전달을 위해 워드 클라우드 진행하였다. 이 논문을 위하여 인기 있는 SNS인 Twitter의 최근 7일간 트윗(tweet)을 수집하고 분석하였다.

  • PDF

Case Study on Public Document Classification System That Utilizes Text-Mining Technique in BigData Environment (빅데이터 환경에서 텍스트마이닝 기법을 활용한 공공문서 분류체계의 적용사례 연구)

  • Shim, Jang-sup;Lee, Kang-wook
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • /
    • pp.1085-1089
    • /
    • 2015
  • Text-mining technique in the past had difficulty in realizing the analysis algorithm due to text complexity and degree of freedom that variables in the text have. Although the algorithm demanded lots of effort to get meaningful result, mechanical text analysis took more time than human text analysis. However, along with the development of hardware and analysis algorithm, big data technology has appeared. Thanks to big data technology, all the previously mentioned problems have been solved while analysis through text-mining is recognized to be valuable as well. However, applying text-mining to Korean text is still at the initial stage due to the linguistic domain characteristics that the Korean language has. If not only the data searching but also the analysis through text-mining is possible, saving the cost of human and material resources required for text analysis will lead efficient resource utilization in numerous public work fields. Thus, in this paper, we compare and evaluate the public document classification by handwork to public document classification where word frequency(TF-IDF) in a text-mining-based text and Cosine similarity between each document have been utilized in big data environment.

  • PDF

Construction Bid Data Analysis for Overseas Projects Based on Text Mining - Focusing on Overseas Construction Project's Bidder Inquiry (텍스트 마이닝을 통한 해외건설공사 입찰정보 분석 - 해외건설공사의 입찰자 질의(Bidder Inquiry) 정보를 대상으로 -)

  • Lee, JeeHee;Yi, June-Seong;Son, JeongWook
    • Korean Journal of Construction Engineering and Management
    • /
    • v.17 no.5
    • /
    • pp.89-96
    • /
    • 2016
  • Most data generated in construction projects is unstructured text data. Unstructured data analysis is very needed in order for effective analysis on large amounts of text-based documents, such as contracts, specifications, and RFI. This study analysed previously performed project's bid related documents (bidder inquiry) in overseas construction projects; as a results of the analysis frequent words in documents, association rules among the words, and various document topics were derived. This study suggests effective text analysis approach for massive documents with short time using text mining technique, and this approach is expected to extend the unstructured text data analysis in construction industry.

Hangeul Stem Extraction Algorithm for Text Mining Based on Natural Language Processing (자연어 처리 기반 텍스트 마이닝을 위한 한글 어간 추출 알고리즘)

  • Choi, Ki-won;Choi, Seong-hun;Jo, Sang-hyeon;Kim, Hee-cheol
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • /
    • pp.718-721
    • /
    • 2017
  • Natural language processing, which is the basis of text mining, differs depending on the type of language. Especially, Hangeul, which has relatively high freedom of expression compared to other languages, has various forms of words depending on the use of ending. The part that does not change in these various forms of words is called the stem. For effective text mining, it is essential to extract words and unify various types of words. Therefore, this paper proposes an extraction algorithm for Hangul word for effective text mining of Hangul document.

  • PDF

An Extensible Text Mining Technique for the Extraction of Protein-Protein Interaction (단백질 상호작용 추출을 위한 확장성을 가진 텍스트 마이닝 기법)

  • 이현철;여은주;강희영;조완섭;김학용;유재수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • /
    • pp.256-258
    • /
    • 2004
  • 단백질간의 상호작용에 대한 연구는 생물학적 프로세스를 이해하기 위해 중요한 부분이다. 이러한 단백질간의 상호작용에 대한 정보는 주로 생명과학 관련 연구논문에 존재하지만 컴퓨터로 자동으로 처리하여 상호작용에 관안 정보를 추출할 수 있기 위해서는 텍스트 마이닝 기술이 적용되어야 한다 바이오 텍스트 마이닝에서 대두되고 있는 중요한 쟁점은 대용량의 연구논문에서 필요한 정보를 어떻게 효율적으로 정확하게 추출할 것인가에 대한 내용이다. 또한, 관심이 있는 단백질의 종류나 관련성을 표시하는 문장내 패턴의 다양성을 수용하기 위하여 개발하는 시스템의 확장성을 높이는 것도 소프트웨어 공학적인 측면에서 중요한 이슈이다 이 논문의 목적은 생물학적 내용을 담고 있는 연구논문으로부터 단백질간의 상호작용을 추출하는 확장성을 가진 텍스트 마이닝 기법을 제안하는데 있다.

  • PDF