• Title/Summary/Keyword: 텍스트마이닝 기법

Search Result 464, Processing Time 0.027 seconds

Text mining based GPT utilization technique for research trend analysis (연구 동향 분석을 위한 텍스트 마이닝 기반 GPT 활용 기법)

  • Jeong-Hoon Ha;Bong-Jun Choi
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.369-370
    • /
    • 2023
  • 새로운 연구를 시작하기 위해서는 과거의 연구 동향을 분석해야 한다. 이를 위해 많은 양의 과거 연구 데이터를 조사해야 하는데, 모든 데이터를 직접 분류하는 방법은 많은 시간과 노력이 필요하기 때문에 비효율적이며, 텍스트 마이닝 기법을 활용한 키워드분석만으로는 연구 동향을 이해하기에 어려움이 존재한다. 이러한 전통적인 키워드 추출 방법의 한계점을 보완하기 위해 본 논문에서는 텍스트 마이닝 기반 GPT 활용 기법을 제안한다. 본 연구에서는 특정 도메인에 대해 텍스트 마이닝 기법을 활용하여 키워드를 추출하고, 이러한 키워드를 해당 도메인의 데이터로 미세 조정(fine-tuning)된 GPT의 입력으로 사용한다. GPT 결과로 생성된 문장을 텍스트 마이닝으로 나온 결과와 비교 분석한다. 이를 통해 연구 분야의 동향 분석을 보다 쉽게 할 수 있을 것으로 기대된다.

  • PDF

Comparison of Term-Weighting Schemes for Environmental Big Data Analysis (환경 빅데이터 이슈 분석을 위한 용어 가중치 기법 비교)

  • Kim, JungJin;Jeong, Hanseok
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.236-236
    • /
    • 2021
  • 최근 텍스트와 같은 비정형 데이터의 생성 속도가 급격하게 증가함에 따라, 이를 분석하기 위한 기술들의 필요성이 커지고 있다. 텍스트 마이닝은 자연어 처리기술을 사용하여 비정형 텍스트를 정형화하고, 문서에서 가치있는 정보를 획득할 수 있는 기법 중 하나이다. 텍스트 마이닝 기법은 일반적으로 각각의 분서별로 특정 용어의 사용 빈도를 나타내는 문서-용어 빈도행렬을 사용하여 용어의 중요도를 나타내고, 다양한 연구 분야에서 이를 활용하고 있다. 하지만, 문서-용어 빈도 행렬에서 나타내는 용어들의 빈도들은 문서들의 차별성과 그에 따른 용어들의 중요도를 나타내기 어렵기때문에, 용어 가중치를 적용하여 문서가 가지고 있는 특징을 분류하는 방법이 필수적이다. 다양한 용어 가중치를 적용하는 방법들이 개발되어 적용되고 있지만, 환경 분야에서는 용어 가중치 기법 적용에 따른 효율성 평가 연구가 미비한 상황이다. 또한, 환경 이슈 분석의 경우 단순히 문서들에 특징을 파악하고 주어진 문서들을 분류하기보다, 시간적 분포도에 따른 각 문서의 특징을 반영하는 것도 상대적으로 중요하다. 따라서, 본 연구에서는 텍스트 마이닝을 이용하여 2015-2020년의 서울지역 환경뉴스 데이터를 사용하여 환경 이슈 분석에 적합한 용어 가중치 기법들을 비교분석하였다. 용어 가중치 기법으로는 TF-IDF (Term frequency-inverse document frquency), BM25, TF-IGM (TF-inverse gravity moment), TF-IDF-ICSDF (TF-IDF-inverse classs space density frequency)를 적용하였다. 본 연구를 통해 환경문서 및 개체 분류에 대한 최적화된 용어 가중치 기법을 제시하고, 서울지역의 환경 이슈와 관련된 핵심어 추출정보를 제공하고자 한다.

  • PDF

SNS Analysis Related to Presidential Election Using Text Mining (텍스트 마이닝을 활용한 대선 관련 SNS 분석)

  • Kwon, Young-Woo;Jung, Deok-Gil
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2017.05a
    • /
    • pp.361-363
    • /
    • 2017
  • 최근 소셜 미디어의 이용률이 폭발적으로 증가함에 따라, 방대한 데이터가 네트워크로 쏟아져 나오고 있다. 이들 데이터는 기존의 정형 데이터뿐만 아니라 이미지, 동영상 등의 비정형 데이터가 있으며, 이들을 포괄하여 빅데이터라고 불린다. 이러한 빅데이터는 오피니언 마이닝, 테스트 마이닝 등의 기술적인 분석 기법과 빅데이터 요약 및 효과적인 표현방법에 대한 시각화 기법에 대하여 활발한 연구가 이루어지고 있다. 이 논문은 인기 있는 사회연결망 서비스인 Twitter의 트윗을 수집하고, 빅데이터 분석 기법인 텍스트 마이닝을 활용하여 2017년 대선에 대하여 분석하였다. 또한 분석된 자료의 효과적인 전달을 위해 워드 클라우드 진행하였다. 이 논문을 위하여 인기 있는 SNS인 Twitter의 최근 7일간 트윗(tweet)을 수집하고 분석하였다.

  • PDF

Interplay of Text Mining and Data Mining for Classifying Web Contents (웹 컨텐츠의 분류를 위한 텍스트마이닝과 데이터마이닝의 통합 방법 연구)

  • 최윤정;박승수
    • Korean Journal of Cognitive Science
    • /
    • v.13 no.3
    • /
    • pp.33-46
    • /
    • 2002
  • Recently, unstructured random data such as website logs, texts and tables etc, have been flooding in the internet. Among these unstructured data there are potentially very useful data such as bulletin boards and e-mails that are used for customer services and the output from search engines. Various text mining tools have been introduced to deal with those data. But most of them lack accuracy compared to traditional data mining tools that deal with structured data. Hence, it has been sought to find a way to apply data mining techniques to these text data. In this paper, we propose a text mining system which can incooperate existing data mining methods. We use text mining as a preprocessing tool to generate formatted data to be used as input to the data mining system. The output of the data mining system is used as feedback data to the text mining to guide further categorization. This feedback cycle can enhance the performance of the text mining in terms of accuracy. We apply this method to categorize web sites containing adult contents as well as illegal contents. The result shows improvements in categorization performance for previously ambiguous data.

  • PDF

An Efficient Terminology Clustering Method Using Datamining Technique (데이타마이닝 기법을 이용한 효율적인 전문 용어 클러스터링)

  • 이정화;남상엽;문현정;우용태
    • Proceedings of the Korea Database Society Conference
    • /
    • 2000.11a
    • /
    • pp.210-215
    • /
    • 2000
  • 최근 대량의 텍스트 문서로부터 의미 있는 패턴이나 연관 규칙을 발견하기 위한 텍스트마이닝 기법에 대한 연구가 활발히 전개되고 있다. 하지만 비정형 텍스트 문서로부터 추출된 용어의 수는 불규칙적이고 일반적인 용어가 많이 추출되는 관계로 일반적인 연관 규칙 탐사 방법을 사용하게 되면 무의미한 연관 규칙이 대량으로 생성되어 지식 정보를 효과적으로 검색하기 어렵다. 본 논문에서는 연관 규칙 탐사 기법을 이용하여 대량의 문서로부터 유용한 지식 정보를 찾기 위하여 의미적으로 연관된 전문 용어들끼리 클러스터링 하기 위한 방법을 제안하였다. 학술 논문을 대상으로 전문 용어를 추출하여 관련된 용어들끼리 클러스터를 구성하는 실험을 통하여 제안된 방법의 효율성을 보였다.

  • PDF

In-depth Analysis of Soccer Game via Webcast and Text Mining (웹 캐스트와 텍스트 마이닝을 이용한 축구 경기의 심층 분석)

  • Jung, Ho-Seok;Lee, Jong-Uk;Yu, Jae-Hak;Lee, Han-Sung;Park, Dai-Hee
    • The Journal of the Korea Contents Association
    • /
    • v.11 no.10
    • /
    • pp.59-68
    • /
    • 2011
  • As the role of soccer game analyst who analyzes soccer games and creates soccer wining strategies is emphasized, it is required to have high-level analysis beyond the procedural ones such as main event detection in the context of IT based broadcasting soccer game research community. In this paper, we propose a novel approach to generate the high-level in-depth analysis results via real-time text based soccer Webcast and text mining. Proposed method creates a metadata such as attribute, action and event, build index, and then generate available knowledges via text mining techniques such as association rule mining, event growth index, and pathfinder network analysis using Webcast and domain knowledges. We carried out a feasibility experiment on the proposed technique with the Webcast text about Spain team's 2010 World Cup games.

A Feature Selection Technique for an Efficient Document Automatic Classification (효율적인 문서 자동 분류를 위한 대표 색인어 추출 기법)

  • 김지숙;문현정;김영지;우용태
    • Proceedings of the Korea Database Society Conference
    • /
    • 2001.06a
    • /
    • pp.295-302
    • /
    • 2001
  • 최근 대량의 텍스트 문서로부터 의미 있는 패턴이나 연관 규칙을 발견하기 위한 텍스트마이닝 기법에 대한 연구가 활발히 전개되고 있다. 하지만 비정형 텍스트 문서로부터 추출된 용어의 수는 불규칙적이고 일반적인 용어가 많이 추출되는 관계로 기존의 연관 규칙 탐사 방법을 사용하게 되면 무의미한 연관 규칙이 대량으로 생성되어 지식 정보를 효과적으로 검색하기 어렵다. 본 논문에서는 연관 규칙 탐사 기법을 이용하여 비감독학습 기법에 의해 대량의 문서를 효율적으로 분류하기 위한 대표 색인어 추출 기법을 제안하였다. 컴퓨터 분야의 논문을 대상으로 각 분야별 대표 색인어를 추출하여 유사한 문서끼리 분류하는 실험을 통해 제안된 방법의 효율성을 보였다.

  • PDF

Methodology for Applying Text Mining Techniques to Analyzing Online Customer Reviews for Market Segmentation (온라인 고객리뷰 분석을 통한 시장세분화에 텍스트마이닝 기술을 적용하기 위한 방법론)

  • Kim, Keun-Hyung;Oh, Sung-Ryoel
    • The Journal of the Korea Contents Association
    • /
    • v.9 no.8
    • /
    • pp.272-284
    • /
    • 2009
  • In this paper, we proposed the methodology for analyzing online customer reviews by using text mining technologies. We introduced marketing segmentation into the methodology because it would be efficient and effective to analyze the online customers by grouping them into similar online customers that might include similar opinions and experiences of the customers. That is, the methodology uses categorization and information extraction functions among text mining technologies, matched up with the concept of market segmentation. In particular, the methodology also uses cross-tabulations analysis function which is a kind of traditional statistics analysis functions to derive rigorous results of the analysis. In order to confirm the validity of the methodology, we actually analyzed online customer reviews related with tourism by using the methodology.

An Extensible Text Mining Technique for the Extraction of Protein-Protein Interaction (단백질 상호작용 추출을 위한 확장성을 가진 텍스트 마이닝 기법)

  • 이현철;여은주;강희영;조완섭;김학용;유재수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.256-258
    • /
    • 2004
  • 단백질간의 상호작용에 대한 연구는 생물학적 프로세스를 이해하기 위해 중요한 부분이다. 이러한 단백질간의 상호작용에 대한 정보는 주로 생명과학 관련 연구논문에 존재하지만 컴퓨터로 자동으로 처리하여 상호작용에 관안 정보를 추출할 수 있기 위해서는 텍스트 마이닝 기술이 적용되어야 한다 바이오 텍스트 마이닝에서 대두되고 있는 중요한 쟁점은 대용량의 연구논문에서 필요한 정보를 어떻게 효율적으로 정확하게 추출할 것인가에 대한 내용이다. 또한, 관심이 있는 단백질의 종류나 관련성을 표시하는 문장내 패턴의 다양성을 수용하기 위하여 개발하는 시스템의 확장성을 높이는 것도 소프트웨어 공학적인 측면에서 중요한 이슈이다 이 논문의 목적은 생물학적 내용을 담고 있는 연구논문으로부터 단백질간의 상호작용을 추출하는 확장성을 가진 텍스트 마이닝 기법을 제안하는데 있다.

  • PDF

Bigdata Analysis on Keyword by Generations through Text Mining: Focused on Board of Nate Pann in 10s, 20s, 30s (텍스트 마이닝을 활용한 세대별 키워드 빅데이터 분석: 네이트판 10대·20대·30대 게시판을 중심으로)

  • Jeong, Baek;Bae, Sungwon;Hwangbo, Yujeong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.513-516
    • /
    • 2022
  • 본 논문에서는 텍스트 마이닝 기법을 이용하여 MZ 세대를 이해하는 키워드를 도출하고자 한다. MZ 세대의 비중이 높아지면서, MZ 세대를 분석하려고 하는 많은 연구들이 수행되고 있다. 이에 본 연구에서는 MZ 세대를 이해하기 위하여 네이트 판의 연령별 게시판 크롤링을 통해 빅데이터를 수집하였다. 그리고 텍스트 마이닝 기법을 활용하여 10대, 20대, 30대의 각각의 키워드를 도출할 수 있었다. 본 논문에서 도출된 키워드는 이는 MZ 세대를 이해하는데 중요한 키워드로 볼 수 있을 것이다. 향후 연구로는 MZ 세대와 기성 세대를 비교하기 위하여 추가 크롤링을 통해 세대 간 비교 연구를 수행하고자 한다.

  • PDF