• 제목/요약/키워드: unstructured text data

검색결과 228건 처리시간 0.021초

디지털 포렌식에서 텍스트 마이닝 기반 침입 흔적 로그 추천 (A Text Mining-based Intrusion Log Recommendation in Digital Forensics)

  • 고수정
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제2권6호
    • /
    • pp.279-290
    • /
    • 2013
  • 디지털 포렌식에서의 로그 데이터는 사용자의 과거 행적에 대한 추적을 목적으로 대용량의 형태로 저장된다는 특성을 가지고 있다. 이러한 대용량의 로그 데이터를 단서가 없이 수동으로 분석하는 절차는 조사관들에게는 어려운 일이다. 본 논문에서는 포렌식 분석을 하는 조사관들에게 믿을 만한 증거를 추천하기 위하여 대용량의 로그 집합으로부터 해킹 흔적을 추출하는 텍스트 마이닝 기술을 제안한다. 학습 단계에서는 훈련 로그 집합을 대상으로 전처리를 한 후, Apriori 알고리즘을 이용하여 침입 흔적 연관 단어를 추출하고, 신뢰도와 지지도를 병합하여 각 연관단어의 침입 흔적 확률을 계산한다. 또한, 침입 흔적 확률의 정확도를 높이기 위하여 스팸 메일의 여과에 사용된 Robinson의 신뢰도 계산 방법을 이용하여 확률에 가중치를 추가하며, 최종적으로 침입 흔적 연관 단어 지식 베이스를 구축한다. 테스트 단계에서는 연관 단어 지식 베이스를 기반으로 테스트 로그 집합에 대해 피셔(Fisher)의 역 카이제곱 분류 알고리즘을 적용하여 침입 흔적 로그일 확률과 정상 로그일 확률을 계산하고, 이를 병합하여 침입 흔적 로그를 추출한다. 추출된 로그를 조사관에게 침입 흔적이 있는 로그로서 추천한다. 제안한 방법은 비구조화된 대용량의 로그 데이터를 대상으로 데이터의 의미를 명확하게 분석할 수 있는 학습 방법을 사용함으로써 데이터의 모호성으로 인해 발생하는 정확도 저하 문제를 보완할 수 있으며, 피셔의 역 카이제곱 분류 알고리즘을 이용하여 추천함으로써 오분류율(false positive)을 감소시키고 수동으로 증거를 추출하는 번거로움을 줄일 수 있다는 장점을 갖는다.

이기종 DBMS간 데이터 교환과 복제를 위한 XML 웹 에이전트 설계 및 구현 (Design and Implementation of XML Web Agent for Data Exchange and Replication between Heterogeneous DBMSs)

  • 유신영;이춘근;임재홍
    • 한국멀티미디어학회논문지
    • /
    • 제7권7호
    • /
    • pp.967-975
    • /
    • 2004
  • 오늘날 지식과 정보 교류의 기반이 인터넷으로 옮겨지면서 기업도 인터넷을 활용한 정보공유와 경제활동에 대한 요구가 증대되고 있다. 표현 위주의 하이퍼텍스트 마크업 언어(HTML : HyperText Markup Language)는 제한된 태그들을 사용하므로 문서를 구조화시키지 못하고 정보를 저장하거나 추출하는 방법이 비효율적이다. 반면에, 확장성 마크업 언어(XML : eXtensible Markup Language)는 사용자가 문서상에 사용될 태그를 정의할 수 있고 구조적인 데이터를 위해 만들어진 언어이므로 HTML에 비해 정보추출이 용이하다. 따라서 기업의 상업적인 데이터가 저장되어 있는 데이터베이스에서 필요한 데이터를 추출하여 웹에서 교환하기 위해서는 HTML보다는 XML이 더 적합하다. 본 논문에서는 이기종 데이터베이스 관리 시스템(DBMS : DataBase Management System)간의 데이터 관리와 XML 문서와 데이터베이스간의 정보 교환에 대하여 연구하고 XML을 매개물로 이용하여 이기종 DBMS간의 정보를 교환할 수 있는 웹 에이전트 시스템을 설계하고 구현하였다.

  • PDF

빅데이터 분석 도구 R 언어를 이용한 비정형 데이터 시각화 (Visualizing Unstructured Data using a Big Data Analytical Tool R Language)

  • 남수태;진금회;신성윤;진찬용
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.151-154
    • /
    • 2021
  • 빅데이터 분석은 데이터 저장소에 저장된 대용량 데이터 속에서 의미 있는 새로운 상관관계, 패턴, 추세를 발견하여 새로운 가치를 창출하는 과정이다. 또한 대부분의 빅데이터 분석 기술 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 이에 해당된다. 그리고 빅데이터 분석 도구인 R언어를 이용하여 전-처리된 텍스트 데이터를 이용하여 다양한 시각화 함수를 통해 분석결과를 표현할 수 있다. 본 연구에서 사용된 데이터는 한국정보통신학회 학회지 논문 중에서 2021년 3월호 논문 21편을 대상으로 분석을 하였다. 최종 분석결과는 가장 많이 언급된 키워드는 "데이터"가 305회로 1위를 차지하였다. 따라서 이러한 분석결과를 바탕으로 연구의 한계와 이론적 실무적 시사점을 제시하고자 한다.

  • PDF

Spark 프레임워크 기반 비정형 빅데이터 토픽 추출 시스템 설계 (A Design on Informal Big Data Topic Extraction System Based on Spark Framework)

  • 박기진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.521-526
    • /
    • 2016
  • 온라인상에서 다루어지는 비정형 텍스트 데이터는 대용량이면서 비구조적 형태의 특성을 가지고 있기 때문에, 기존 관계형 데이터 모델의 저장 방식과 분석 방법만으로는 한계가 있다. 더군다나, 동적으로 발생하는 대량의 소셜 데이터를 활용하여 이용자의 반응을 실시간으로 분석하기란 어려운 상황이다. 이에 본 논문에서는 대용량 비정형 데이터(문서)의 의미를 빠르고, 용이하게 파악하기 위하여 데이터 셋에 대한 사전학습 없이, 문서 내 단어 비중에 따라 자동으로 토픽(주제)이 추출되는 시스템을 설계 및 구현하였다. 제안된 시스템의 토픽 모델링에 사용될 입력 단어는 N-gram 알고리즘에 의하여 도출되어 복수 개의 단어도 묶음 처리할 수 있게 했으며, 또한, 대용량 비정형 데이터 저장 및 연산을 위하여 Hadoop과 분산 인메모리 처리 프레임워크인 Spark 기반 클러스터를 구성하여, 토픽 모델 연산을 수행하였다. 성능 실험에서는 TB급의 소셜 댓글 데이터를 읽어 들여, 전체 데이터에 대한 전처리 과정과 특정 항목의 토픽 추출 작업을 수행하였으며, 대용량 데이터를 클러스터의 디스크가 아닌 메모리에 바로 적재 후, 처리함으로써 토픽 추출 성능의 우수성을 확인할 수 있었다.

설비 오류 유형 구조화를 위한 인공신경망 기반 구절 네트워크 구축 방법 (An Artificial Neural Network Based Phrase Network Construction Method for Structuring Facility Error Types)

  • 노영훈;최은영;최예림
    • 인터넷정보학회논문지
    • /
    • 제19권6호
    • /
    • pp.21-29
    • /
    • 2018
  • 4차 산업혁명 시대의 도래와 함께 스마트 팩토리의 개념이 대두되면서 설비가동률과 생산성에 악영향을 미치는 설비 오류의 발생을 데이터 분석 기법을 통해 예측하고자 하는 노력이 이루어지고 있다. 데이터 분석 기법을 활용하여 설비 오류를 예측하기 위해서는 설비 오류가 발생한 상황과 설비 오류 유형을 명시한 데이터인 설비 오류 이력이 필요하다. 하지만 많은 제조 현장에서는 설비 오류 유형이 정확하게 정의/분류가 되지 않아 설비를 운영하는 작업자가 자신의 경험적 판단에 의거하여 정형화되지 않은 텍스트의 형태로 설비 오류 유형을 작성하고, 이에 따라 데이터 분석 기법의 적용이 어렵다. 따라서 본 논문에서는 수기로 작성된 설비 오류 이력을 활용하여 설비 오류 유형을 파악하고 구조화하기 위한 구절 네트워크 구축 방법을 제안하고자 한다. 구체적으로, 단어를 쓰임새에 따라 분류한 용도 딕셔너리를 활용하여 비정형의 텍스트 데이터로부터 설비 오류 유형을 의미하는 구절을 추출하고, 추출된 구절 간의 유사도를 계산하여 네트워크를 구축한다. 제안하는 방법의 성능을 실제 제조 기업의 설비 오류 이력 데이터를 활용하여 검증하였으며, 본 연구의 결과는 텍스트 데이터에 기반한 설비 오류 유형 구조화와 나아가서는 설비 오류 발생 예측에 이용할 수 있을 것을 기대한다.

지자체 사이버 공간 안전을 위한 금융사기 탐지 텍스트 마이닝 방법 (Financial Fraud Detection using Text Mining Analysis against Municipal Cybercriminality)

  • 최석재;이중원;권오병
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.119-138
    • /
    • 2017
  • 최근 SNS는 개인의 의사소통뿐 아니라 마케팅의 중요한 채널로도 자리매김하고 있다. 그러나 사이버 범죄 역시 정보와 통신 기술의 발달에 따라 진화하여 불법 광고가 SNS에 다량으로 배포되고 있다. 그 결과 개인정보를 빼앗기거나 금전적인 손해가 빈번하게 일어난다. 본 연구에서는 SNS로 전달되는 홍보글인 비정형 데이터를 분석하여 어떤 글이 금융사기(예: 불법 대부업 및 불법 방문판매)와 관련된 글인지를 분석하는 방법론을 제안하였다. 불법 홍보글 학습 데이터를 만드는 과정과, 데이터의 특성을 고려하여 입력 데이터를 구성하는 방안, 그리고 판별 알고리즘의 선택과 추출할 정보 대상의 선정 등이 프레임워크의 주요 구성 요소이다. 본 연구의 방법은 실제로 모 지방자치단체의 금융사기 방지 프로그램의 파일럿 테스트에 활용되었으며, 실제 데이터를 가지고 분석한 결과 금융사기 글을 판정하는 정확도가 사람들에 의하여 판정하는 것이나 키워드 추출법(Term Frequency), MLE 등에 비하여 월등함을 검증하였다.

SNS 감성분석을 이용한 정보 추출 방법론에 관한 연구 (Study on the Methodology for Extracting Information from SNS Using a Sentiment Analysis)

  • 홍두표;정하림;박상민;한음;김홍회;윤일수
    • 한국ITS학회 논문지
    • /
    • 제16권6호
    • /
    • pp.141-155
    • /
    • 2017
  • 최근 SNS 이용이 활발해짐에 따라 많은 사람들이 특정 이벤트 등에 대한 자신들의 생각을 비정형 데이터인 텍스트 형태로 자신의 SNS에 게시하고 있다. 이에 따라 금융, 유통 등 다양한 분야에서 이미 SNS를 이용하여 서비스 만족도 조사, 소비자 요구사항 모니터링, 대선 후보 선호도 등을 수행하고 있다. 하지만 교통 분야에서는 감성분석과 같은 비정형 데이터 분석을 활용하는 사례가 부족한 실정이다. 이에 본 연구에서는 한국도로공사에서 수집한 비정형 데이터인 고속도로 VOC 데이터를 이용하여 교통분야에서 사용할 수 있는 감성분석 방법론을 개발하였다. 개발된 감성분석 방법론은 수집된 비정형 데이터에 대한 형태소 분석, 감성사전 구축, 감성 판별 등으로 구성되어 있다. 개발된 방법론은 고속도로 관련 트윗 데이터를 이용하여 검증하였다. 분석 결과, 분석 기간 동안 고속도로와 관련하여 공사, 사고에 대한 정보 전달이 많이 이루어졌음을 짐작할 수 있었다. 또한 공사 및 사고로 인해 발생한 지체에 대하여 이용자들의 불만이 높았던 것으로 판단된다. 결론적으로 SNS 감성분석이 교통분야에서도 의미 있는 정보추출이 가능한 기법임을 확인하였다.

빅데이터를 활용한 요양보호사의 서비스질 인식에 관한 연구 (A Study on the Perception of Quality of Care Services by Care Workers using Big Data)

  • 조한아
    • 대한치위생과학회지
    • /
    • 제6권1호
    • /
    • pp.13-25
    • /
    • 2023
  • 연구배경: 본 연구는 비정형 빅데이터를 활용하여 노인장기요양보험의 직접적 서비스 인력인 요양보호사의 서비스질 관리를 확인하고자 수행되었다. 연구방법: 요양보호사의 서비스질과 관련된 소셜 비정형 데이터를 텍스톰을 사용하여 수집·분석하였다. 데이터를 크롤링하여 수집된 상위 50개 키워드들 간의 빈도분석, TF-IDF, 중심성 분석, 의미연결망분석과 CONCOR 분석을 실시하였다. 연구결과: 빈도분석 결과 상위권에 속한 키워드는 '요양서비스' '요양보호사', '서비스질', '요양보호', '장기요양기관', '향상', '어르신', '처우', '개선', '필요' 였으며, 연결중심성과 위세중심성 분석결과도 거의 동일한 순위로 확인되었다. CONCOR 분석결과 4개의 그룹으로, 요양서비스질 개선, 요양서비스 운영, 요양서비스 제도, 요양보호사의 심리적인 부분에 대한 인식이 높은 것으로 나타났다. 결론: 본 연구는 요양보호사의 서비스질과 관련한 인식을 의미있는 그룹으로 제시하였으며 이는 요양보호사 서비스질 향상을 위한 다각적인 방향성 수립에 기여할 것으로 판단된다.

혁신특허전략 프레임워크의 체계적 운영 및 경쟁우위확보를 위한 특허빅테이터 활용방안에 관한 연구 (A study on the systematic operation of the innovative patent strategy framework and the application plan of patent big data to secure competitive advantage)

  • 김현아;차완규
    • 문화기술의 융합
    • /
    • 제7권2호
    • /
    • pp.351-357
    • /
    • 2021
  • 4차 산업혁명의 기술의 패러다임 전환기를 맞이하여 빅데이터 활용방안에 대한 관심이 대두되고 있는 시점에 특히 기업의 무형자산의 비중이 증가함에 따라 특허빅데이터의 활용방안에 대한 관심이 증대되고 있다. 특허 데이터는 정량적인 정보 외에 제목, 초록, 청구항 등의 비정형 텍스트와 인용 및 피인용 관계, 도면, 기술 분류 등 다양한 정보를 포함하고 있어 다양성의 측면에서도 빅데이터로 간주되어 특허 데이터에 대한 체계적인 관리에서부터 처리활용이 중요하다고 판단 된다. 이에 본 연구에서는 혁신특허전략 프레임워크의 체계적인 운영과 함께 기업의 근원적인 경쟁력 강화를 추진하여 강경쟁우위 확보를 추진하고자 특허빅데이터의 활용방안을 A사의 사례를 중심으로 제안하고, 이의 타당성을 검증하고 시사점을 제안하고자 한다. 이를 통해 특허빅데이터의 활용에 대한 인식을 제고하고, 기업의 전사전략, 사업전략, 기능전략과 연계한 특허빅테이터의 활용방안을 제시하고자 한다.

소셜 빅데이터를 이용한 영화 흥행 요인 분석 (Movie Box-office Analysis using Social Big Data)

  • 이오준;박승보;정다울;유은순
    • 한국콘텐츠학회논문지
    • /
    • 제14권10호
    • /
    • pp.527-538
    • /
    • 2014
  • 수요 예측은 영화 산업에서 매우 중요한 문제이다. 최근 들어 트위터(Twitter), 페이스북(Facebook)과 같은 소셜미디어의 비정형 텍스트 데이터를 이용하여 영화 흥행을 예측하고 분석하는 시도들이 활발하게 이루어지고 있다. 기존에는 주로 데이터의 주기별 변화량을 측정하여 데이터 양과 영화 흥행간의 상관성을 분석하거나 데이터에 대해 감성의 극성 값을 부여하는 오피니언 마이닝을 통해 영화의 흥행 추이를 예측하였다. 하지만 이러한 정량적 접근만으로는 관객들이 영화를 선택하게 된 근거나 영화의 어떤 속성을 선호하는지를 알 수 없기 때문에 영화의 흥행 요인을 밝히는데 한계가 있었다. 따라서 본 연구는 트위터 데이터를 수집한 후 빈도수 측정을 통해 트윗의 내용을 대표하는 토픽(topic) 키워드를 추출하여 관객들의 관심을 반영하는 영화적 속성들이 무엇인지를 밝히고, 그 속성들에 대한 관객들의 반응을 분석함으로써 영화의 흥행에 영향을 미친 요인들을 제시한다.