• 제목/요약/키워드: 텍스트 데이터 분석

검색결과 1,103건 처리시간 0.024초

공격 메일 식별을 위한 비정형 데이터를 사용한 유전자 알고리즘 기반의 특징선택 알고리즘 (Feature-selection algorithm based on genetic algorithms using unstructured data for attack mail identification)

  • 홍성삼;김동욱;한명묵
    • 인터넷정보학회논문지
    • /
    • 제20권1호
    • /
    • pp.1-10
    • /
    • 2019
  • 빅 데이터에서 텍스트 마이닝은 많은 수의 데이터로부터 많은 특징 추출하기 때문에, 클러스터링 및 분류 과정의 계산 복잡도가 높고 분석결과의 신뢰성이 낮아질 수 있다. 특히 텍스트마이닝 과정을 통해 얻는 Term document matrix는 term과 문서간의 특징들을 표현하고 있지만, 희소행렬 형태를 보이게 된다. 본 논문에서는 탐지모델을 위해 텍스트마이닝에서 개선된 GA(Genetic Algorithm)을 이용한 특징 추출 방법을 설계하였다. TF-IDF는 특징 추출에서 문서와 용어간의 관계를 반영하는데 사용된다. 반복과정을 통해 사전에 미리 결정된 만큼의 특징을 선택한다. 또한 탐지모델의 성능 향상을 위해 sparsity score(희소성 점수)를 사용하였다. 스팸메일 세트의 희소성이 높으면 탐지모델의 성능이 낮아져 최적화된 탐지 모델을 찾기가 어렵다. 우리는 fitness function에서 s(F)를 사용하여 희소성이 낮고 TF-IDF 점수가 높은 탐지모델을 찾았다. 또한 제안된 알고리즘을 텍스트 분류 실험에 적용하여 성능을 검증하였다. 결과적으로, 제안한 알고리즘은 공격 메일 분류에서 좋은 성능(속도와 정확도)을 보여주었다.

텍스트 데이터 분석을 위한 근접성 데이터의 생성과 군집화 (Creation and clustering of proximity data for text data analysis)

  • 정민지;신상민;최용석
    • 응용통계연구
    • /
    • 제32권3호
    • /
    • pp.451-462
    • /
    • 2019
  • 문서-용어 빈도행렬은 텍스트 마이닝 분야에서 보편적으로 사용되는 데이터의 한 유형으로, 여러 개체들이 제공하는 문서를 기반으로 만들어진다. 그러나 대다수의 연구자들은 개체 정보에 무게를 두지 않고 여러 문서에서 공통적으로 등장하는 공통용어 중 핵심적인 용어를 효과적으로 찾아내는 방법에 집중하는 경향을 보인다. 공통용어에서 핵심어를 선별할 경우 특정 문서에서만 등장하는 중요한 용어들이 공통용어 선정단계에서부터 배제될 뿐만 아니라 개별 문서들이 갖는 고유한 정보가 누락되는 등의 문제가 야기된다. 본 연구에서는 이러한 문제를 극복할 수 있는 데이터를 근접성 데이터라 정의한다. 그리고 근접성 데이터를 생성할 수 있는 12가지 방법 중 개체 군집화의 관점에서 가장 최적화된 방법을 제안한다. 개체 특성 파악을 위한 군집화 알고리즘으로는 다차원척도법과 K-평균 군집분석을 활용한다.

블룸 필터를 이용한 감성 웹 문서 크롤링 알고리즘 (A Bloom filter-based Sentiment-aware Web Crawling Algorithm)

  • 나철원;온병원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.69-74
    • /
    • 2018
  • 최근 빅 데이터와 인공지능의 발달과 함께 감성 분석에 대한 연구가 활발해지고 있다. 더불어 감성 분석을 위한 긍/부정 어휘가 풍부한 텍스트 문서들에 대한 수집의 필요성도 높아지고 있다. 본 논문은 긍/부정어휘가 풍부한 텍스트 문서들을 수집하는 기존의 수집 방법에 대한 문제점에 대하여 해결방안을 제시한다. 기존의 수집 방법으로 일단 모든 URL들을 저장하고 필터링 과정을 거쳐 긍/부정 어휘가 풍부한 텍스트 문서들을 수집하고자 한다면 불필요한 텍스트 문서 저장과 필터링 과정에서 메모리와 시간을 낭비하게 된다. 기존의 수집 방법에 블룸 필터라는 자료구조를 적용시켜 메모리와 시간을 낭비하게 되는 문제점을 해결하고자 한다.

  • PDF

클라우드 저장소에 민감 데이터 보안 강화를 위한 암호화 알고리즘 연구 (A Study on Encryption Algorithm for Sensitive Data Security in Cloud Storage)

  • 주형진;김대훈;최상현;민연아;백영태
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제61차 동계학술대회논문집 28권1호
    • /
    • pp.195-196
    • /
    • 2020
  • 본 논문에서는 클라우드 저장소의 민감한 데이터를 보호하기 위해 제시된 암호화 알고리즘을 이용하여 텍스트 데이터를 암호화하고 처리 속도에 대한 성능을 측정하여 기존의 방식과 비교·분석하였다. 클라우드 데이터는 사용자 로그인 정보 탈취나 SSL Strip 공격에 취약하기 때문에 이러한 보안 사고의 피해를 최소화하기 위해 데이터 암호화를 통한 데이터의 보안이 요구된다. 본 논문에서는 클라우드 전송을 위해 구글 드라이브 API를 연동했으며, 암호화 알고리즘을 텍스트에 적용하기 위해 Python 언어를 이용하여 데이터를 암호화하고 구글 드라이브에 전송하는 테스트 프로그램을 제작하여 프로젝트를 진행하였다.

  • PDF

텍스트 마이닝 분석 기법을 활용한 월경주기측정 애플리케이션 사용자 경험 평가 (User Experience Evaluation of Menstrual Cycle Measurement Application Using Text Mining Analysis Techniques)

  • 정우경;신동희
    • 정보관리학회지
    • /
    • 제40권4호
    • /
    • pp.1-31
    • /
    • 2023
  • 본 연구는 여성의 건강과 밀접한 관련이 있는 모바일 월경주기 측정 애플리케이션을 대상으로 토픽모델링 기법과 함께 다양한 텍스트 마이닝 기법을 도입하여 사용자 경험 평가를 실시하였으며 그 결과를 허니콤(Honeycomb)모델과 결합하여 분석하였다. 월경주기측정 애플리케이션 리뷰에서 드러난 사용자 경험을 평가하기 위해 월경주기측정 애플리케이션의 한국어 리뷰 47,117개를 수집하였다. 리뷰에서 드러난 사용자 경험에 관한 전체적인 담론 확인을 위해 토픽모델링 분석을 실시하였고, 각 토픽 별 구체적인 경험을 확인하고자 동시출현 네트워크 관계로 구축한 텍스트 네트워크 분석을 실시하였다. 또한 사용자의 정서적 경험을 파악하기 위해 감정분석(Sentiment Analysis)을 실시하였다. 이를 기반으로 월경주기측정 애플리케이션의 개발 전략을 정확도, 디자인, 모니터링, 데이터관리 및 사용자관리 측면에서 제시하였다. 연구 결과, 애플리케이션의 월경주기측정 정확도 및 모니터링 기능을 개선해야 함이 확인되었으며 다양한 디자인적 시도가 필요함이 관찰되었다. 또한 개인정보와 사용자의 생체 데이터 관리방법에 대한 보완의 필요성도 확인되었다. 본 연구는 월경주기측정 애플리케이션의 사용자 경험(UX)을 심층적으로 탐색하여 이용자들이 경험한 다양한 요인을 밝히고 더 나은 경험을 제공하기 위한 실질적인 개선점을 제시하였다. 또한 사용자 경험을 평가하는 과정에서 방대한 양의 리뷰 데이터를 연구자가 면밀하게 파악할 수 있도록 토픽모델링과 텍스트 네트워크 분석 기법을 결합하여 방법론을 제시하였다는 점에서 의의가 있다.

웹 캐스트와 텍스트 마이닝을 이용한 축구 경기의 심층 분석 (In-depth Analysis of Soccer Game via Webcast and Text Mining)

  • 정호석;이종욱;유재학;이한성;박대희
    • 한국콘텐츠학회논문지
    • /
    • 제11권10호
    • /
    • pp.59-68
    • /
    • 2011
  • 축구 경기를 분석하고 이를 팀 전략 수립에 활용하는 축구 분석관의 역할이 강조됨에 따라, 방송용 축구 경기에서 주요 이벤트의 탐지와 같은 절차적 기능 이상의 고수준의 해석 방법들이 요구되고 있다. 본 논문에서는 인터넷 기반의 텍스트 방송인 축구 웹 캐스트에서 실시간으로 제공하는 텍스트 정보를 기반으로 텍스트 마이닝을 이용한 축구 경기의 전략 수립이 가능한 고수준의 해석 기법을 제안한다. 제안하는 해석기법은 축구 웹 캐스트의 텍스트 정보와 도메인 지식을 기반으로 축구 경기의 다양한 속성, 동작 그리고 이벤트 등 메타데이터를 추출하고, 인덱싱하고, 텍스트 마이닝의 다양한 해석 기법인 연관 규칙 마이닝, 성장도 분석, 그리고 패스파인더 네트워크 분석 기법 등을 사용함으로써 유용한 지식을 추출한다. 실제 2010년 월드컵의 스페인 팀 경기들을 중계한 웹 캐스트의 텍스트 정보를 대상으로 제안된 기법의 타당성을 실험적으로 검증한다.

Data Dictionary 기반의 R Programming을 통한 비정형 Text Mining Algorithm 연구 (A study on unstructured text mining algorithm through R programming based on data dictionary)

  • 이종화;이현규
    • 한국산업정보학회논문지
    • /
    • 제20권2호
    • /
    • pp.113-124
    • /
    • 2015
  • 미리 선언된 구조를 이용하여 수집 저장된 정형적 데이터와는 달리 웹 2.0의 시대에서 일반 사용자들이 평상시에 사용하는 자연어 형태로 작성된 비정형 데이터 분석은 과거보다 훨씬 더 넓은 응용범위를 가지고 있다. 데이터 양이 폭발적으로 증가하고 있다는 특성뿐 만 아니라 인간의 감성이 그대로 표현된 특성을 가진 텍스트에서 의미 있는 정보를 추출하는 빅데이터 분석 기법을 텍스트마이닝(Text Mining)이라 하며 본 연구는 이를 주제로 하고 있다. 본 연구를 위해 오픈 소스인 통계분석용 소프트웨어 R 프로그램을 이용하였으며, 비정형 텍스트 문서를 웹 환경에서 수집, 저장, 전처리, 분석 작업과 시각화(Frequency Analysis, Cluster Analysis, Word Cloud, Social Network Analysis)작업 등의 과정에 관한 알고리즘 구현을 연구하였다. 특히, 연구자의 연구 영역 분석에 초점을 더욱 높이기 위해 Data Dictionary를 참조한 키워드 추출 기법을 사용하였다. 실제 사례에 적용한 R은 다양한 OS 구동, 일반적 언어와의 인터페이스 지원 등 통계 분석용 소프트웨어로써 매우 유용하다는 점을 발견할 수 있었다.

텍스트 마이닝을 위한 그래프 기반 텍스트 표현 모델의 연구 동향 (A Study on Research Trends of Graph-Based Text Representations for Text Mining)

  • 장재영
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권5호
    • /
    • pp.37-47
    • /
    • 2013
  • 텍스트 마이닝은 비정형화된 텍스트를 분석하여 그 안에 내재된 패턴, 추세, 분포 등의 고급정보들을 추출하는 분야이다. 텍스트 마이닝은 기본적으로 비정형 데이터를 가정하므로 텍스트를 단순화된 모델로 표현하는 것이 필요하다. 현재까지 가장 많이 사용되고 있는 모델은 텍스트를 단순한 단어들의 집합으로 표현한 벡터공간 모델이다. 그러나 최근 들어 단어들의 의미적 관계까지 표현하기 위해 그래프를 이용한 텍스트 표현 모델을 많이 사용하고 있다. 본 논문에서는 텍스트 마이닝을 위한 기존의 연구 중에서 그래프에 기반한 텍스트 표현 모델의 방법들과 그들의 특징들을 기술한다. 또한 그래프 기반 텍스트 마이닝의 향후 발전방향에 대해서도 논한다.

간판영상의 텍스트 인식을 위한 영상데이터 특성 분석 및 사전 구축 (Analysis of Signboard Characteristics and Dictionary Construction for Text Recognition in Signboard Images)

  • 이명훈;양형정;김수형;이귀상;오상욱;김선희
    • 한국콘텐츠학회논문지
    • /
    • 제8권11호
    • /
    • pp.10-17
    • /
    • 2008
  • 간판 텍스트 인식 및 번역은 관광지나 주요도심을 찾는 외국인 또는 외지인에게 정보제공과 의사결정을 지원하는 목적으로 제공된다. 간판 텍스트 인식 연구에서 인식기의 훈련과 성능 측정을 위해서는 간판영상 데이터 수집과 상호명 출현단어 사전구축이 필수적이다. 본 논문에서는 간판영상 데이터를 다양한 환경에서 수집하고 특성을 분석하며 상호명 출현 단어의 사전을 구축한다. 본 연구에서는 총 1000여장의 간판을 여러 조건에서 획득하였고 10여만 상호명에서 출현한 단어로 상호명 인식용 사전을 구축하였다.

Performance Evaluations of Text Ranking Algorithms

  • Kim, Myung-Hwi;Jang, Beakcheol
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권2호
    • /
    • pp.123-131
    • /
    • 2020
  • 텍스트 순위 알고리즘은 키워드 추출을 위한 대표적인 방법이며 그 중요성이 강조되고 있다. 본 논문에서는 텍스트 랭킹 알고리즘에서 대표적으로 사용되는 TF-IDF, SMART, INQUERY, CCA 알고리즘이 적용된 최근 연구와 실험해비교한다. 먼저, 각 알고리즘을 설명한 후 뉴스와 트위터 데이터를 기반으로 알고리즘의 성능을 분석한다. 실험 결과에 따르면 네 가지 알고리즘 모두 뉴스 데이터에서 특정 단어의 추출 성능이 좋다는 것을 알 수 있다. 그러나 Twitter의 경우 CCA는 특정 단어를 추출하는 최고의 성능을 가지며 INQUERY는 가장 낮은 성능을 보여준다. 또한 6 가지 비교 메트릭을 통해 알고리즘의 정확성을 분석한다. 실험 결과 CCA가 뉴스 데이터에서 최고의 정확도를 보여주고, 트위터의 경우 TF-IDF와 CCA는 비슷한 성능을 보이며 높은 정확도를 보인다.