• 제목/요약/키워드: analyzing unstructured data

검색결과 107건 처리시간 0.024초

텍스트 마이닝으로 OTT 인터랙티브 콘텐츠 다시보기 (Analyzing OTT Interactive Content Using Text Mining Method)

  • 이석창
    • 문화기술의 융합
    • /
    • 제9권5호
    • /
    • pp.859-865
    • /
    • 2023
  • OTT 시장의 과열로 서비스 사업자들이 콘텐츠 개발에 주력하는 상황에서 시청자들의 능동적인 참여를 독려하는 인터랙티브 콘텐츠가 주목받고 있다. 그에 따라 인터랙티브 콘텐츠에 관한 연구 역시 활발히 이루어지고 있다. 본 연구는 온라인상의 비정형 데이터를 중심으로 텍스트 마이닝을 통해 인터랙티브 콘텐츠에 관한 분석을 목적으로 한다. 가중치에 따른 키워드 특징 도출, OTT와 인터랙티브 콘텐츠의 관계, 그리고 인터랙티브 콘텐츠의 트렌드 변화를 객관적인 데이터에 근거하여 '워드클라우드', '관계도 분석', 그리고 '키워드 트렌드'라는 세부 기법을 활용하여 연구 결과 및 함의점을 도출하였다.

비정형 텍스트 분석을 활용한 이슈의 동적 변이과정 고찰 (Investigating Dynamic Mutation Process of Issues Using Unstructured Text Analysis)

  • 임명수;김남규
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.1-18
    • /
    • 2016
  • 최근 가용한 텍스트 데이터 자원이 증가함에 따라 방대한 텍스트 분석을 통해 새로운 가치를 창출하고자 하는 수요가 증가하고 있다. 특히 뉴스, 민원, 블로그, SNS 등을 통해 유통되는 글로부터 다양한 이슈를 발굴해내고 이들 이슈의 추이를 분석하는 이슈 트래킹에 대한 연구가 활발하게 이루어지고 있다. 전통적인 이슈 트래킹은 토픽 모델링을 통해 오랜 기간에 걸쳐 지속된 주요 이슈를 발굴한 후, 각 이슈를 구성하는 문서 수의 세부 기간별 분포를 분석하는 방식으로 이루어진다. 하지만 전통적 이슈 트래킹은 각 이슈를 구성하는 내용이 전체 기간에 걸쳐 변화 없이 유지된다는 가정 하에 수행되기 때문에, 다양한 세부 이슈가 서로 영향을 주며 생성, 병합, 분화, 소멸하는 이슈의 동적 변이과정을 나타내지 못한다. 또한 전체 기간에 걸쳐 지속적으로 출현한 키워드만이 이슈 키워드로 도출되기 때문에, 핵실험, 이산가족 등 세부 기간의 분석에서는 매우 상이한 맥락으로 파악되는 구체적인 이슈가 오랜 기간의 분석에서는 북한이라는 큰 이슈에 함몰되어 가려지는 현상이 발생할 수 있다. 본 연구에서는 이러한 한계를 극복하기 위해 각 세부 기간의 문서에 대한 독립적인 분석을 통해 세부 기간별 주요 이슈를 도출한 후, 각 이슈의 유사도에 기반하여 이슈 흐름도를 도출하고자 한다. 또한 각 문서의 카테고리 정보를 활용하여 카테고리간의 이슈 전이 패턴을 분석하고자 한다. 본 논문에서는 총 53,739건의 신문 기사에 제안 방법론을 적용한 실험을 수행하였으며, 이를 통해 전통적인 이슈 트래킹을 통해 발굴한 주요 이슈의 세부 기간별 구성 내용을 살펴볼 수 있을 뿐 아니라, 특정 이슈의 선행 이슈와 후행 이슈를 파악할 수 있음을 확인하였다. 또한 카테고리간 분석을 통해 단방향 전이와 양방향 전이의 흥미로운 패턴을 발견하였다.

토너먼트 기반의 빅데이터 분석 알고리즘 (An Algorithms for Tournament-based Big Data Analysis)

  • 이현진
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권4호
    • /
    • pp.545-553
    • /
    • 2015
  • 모든 데이터는 그 자체로 가치를 가지고 있지만, 실세계에서 수집되는 데이터들은 무작위적이며 비구조화되어 있다. 따라서 이러한 데이터를 효율적으로 활용하기 위해서 데이터에서 유용한 정보를 추출하기 위한 데이터 변환과 분석 알고리즘들을 사용하게 된다. 이러한 목적으로 사용되는 것이 데이터 마이닝이다. 오늘날에는 데이터를 분석하기 위한 다양한 데이터 마이닝 기법뿐만 아니라, 대용량 데이터를 효율적으로 처리하기 위한 연산 요건과 빠른 분석 시간을 필요로 하고 있다. 대용량 데이터를 저장하기 위하여 하둡이 많이 사용되며, 이 하둡의 데이터를 분석하기 위하여 맵리듀스 프레임워크를 사용한다. 본 논문에서는 단일 머신에서 동작하는 알고리즘을 맵리듀스 프레임워크로 개발할 때 적용의 효율성을 높이기 위한 토너먼트 기반 적용 방안을 제안하였다. 본 방법은 다양한 알고리즘에 적용할 수 있으며, 널리 사용되는 데이터 마이닝 알고리즘인 k-means, k-근접 이웃 분류에 적용하여 그 유용성을 보였다.

육상 양식장 빅데이터 분석 시스템 개발을 위한 데이터 시각화 도구 개발 (Development of Data Visualization Tools for Land-Based Fish Farm Big Data Analysis System)

  • 예성빈;박정선;정희택;한순희
    • 한국전자통신학회논문지
    • /
    • 제19권4호
    • /
    • pp.763-770
    • /
    • 2024
  • 현재 해수를 이용하는 육상 양식장에서는 실시간 수질 모니터링 및 시설 자동화 시스템, 용존산소 자동 공급장치 등 다양한 장비를 도입하여 사용하고 있다. 또한 양식장의 다양한 장비에서 수집되는 데이터는 수질 환경, 시설 운영, 작업장 영상정보 등 정형, 비정형 형태의 빅데이터를 생산한다. 양식장 운영 환경에서 생산되는 빅데이터는 운영 및 생산 효율 개선을 목표로 다양한 방법을 개발하고 적용을 시도하고 있다. 본 연구에서는 육상 양식장에서 생산되는 빅데이터를 효과적으로 분석하고 시각화하기 위한 시스템을 개발하는 것을 목표로, 양식장 빅데이터 분석 시스템에서 활용이 가능한 데이터 시각화 프로세스를 제시하고 빅데이터 시각화 도구를 개발하고 결과를 비교한다. 그리고 시계열 특성을 가지는 빅데이터의 비교 및 탐색이 직관적인 시각화 모델을 제시한다.

빅데이터 분석을 활용한 사물인터넷 키워드에 관한 조망 (An Insight Study on Keyword of IoT Utilizing Big Data Analysis)

  • 남수태;김도관;진찬용
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 추계학술대회
    • /
    • pp.146-147
    • /
    • 2017
  • 빅데이터 분석은 데이터베이스에 잘 정리된 정형 데이터뿐만 아니라 인터넷, 소셜 네트워크 서비스, 모바일 환경에서 생성되는 웹 문서, 이메일, 소셜 데이터 등 비정형 데이터를 효과적으로 분석하는 기술을 말한다. 대부분의 빅데이터 분석 기술 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 이에 해당된다. 글로벌 리서치 기관들은 빅데이터 분석을 2011년 이래로 가장 주목받는 신기술로 지목해오고 있다. 따라서 대부분의 산업에서 기업들은 빅데이터의 적용을 통해 새로운 가치 창출을 위해 노력을 하고 있다. 본 연구에서는 다음 커뮤니케이션의 빅데이터 분석 도구인 소셜 매트릭스를 활용하여 분석하였다. 2017년 10월 8일 시점 1개월 기간을 설정하여 "사물인터넷" 키워드에 대한 대중들의 인식을 분석하였다. 빅데이터 분석의 결과는 다음과 같다. 첫째, 사물인터넷 키워드에 대한 1위 연관 검색어는 기술(995)인 것으로 나타났다. 결과를 바탕으로 연구의 한계와 시사점을 제시하고자 한다.

  • PDF

빅데이터 분석을 활용한 인공지능 인식에 관한 연구 (A Study on Recognition of Artificial Intelligence Utilizing Big Data Analysis)

  • 남수태;김도관;진찬용
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 춘계학술대회
    • /
    • pp.129-130
    • /
    • 2018
  • 빅데이터 분석은 데이터베이스에 잘 정리된 정형 데이터뿐만 아니라 인터넷, 소셜 네트워크 서비스, 모바일 환경에서 생성되는 웹 문서, 이메일, 소셜 데이터 등 비정형 데이터를 효과적으로 분석하는 기술을 말한다. 대부분의 빅데이터 분석 기술 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 이에 해당된다. 글로벌 리서치 기관들은 빅데이터 분석을 2011년 이래로 가장 주목받는 신기술로 지목해오고 있다. 따라서 대부분의 산업에서 기업들은 빅데이터의 적용을 통해 새로운 가치 창출을 위해 노력을 하고 있다. 본 연구에서는 다음 커뮤니케이션의 빅데이터 분석 도구인 소셜 매트릭스를 활용하여 분석하였다. 2018년 5월 19일 시점 1개월 기간을 설정하여 "인공지능" 키워드에 대한 대중들의 인식을 분석하였다. 빅데이터 분석의 결과는 다음과 같다. 첫째, 인공지능에 대한 1위 연관 검색어는 중국(4,122)인 것으로 나타났다. 결과를 바탕으로 연구의 한계와 시사점을 제시하고자 한다.

  • PDF

Research of Semantic Considered Tree Mining Method for an Intelligent Knowledge-Services Platform

  • Paik, Juryon
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권5호
    • /
    • pp.27-36
    • /
    • 2020
  • 본 논문은 지식기반의 서비스 융합을 추구하는 4차산업혁명의 핵심 기반인 데이터로부터 유용하지만 드러나지 않는 정보들을 추출하는 방식을 제안한다. IoT로 대표되는 초연결사회에서 빅데이터의 생성은 필연적이며 그로부터 최적의 서비스를 도출하기 위해서는 가치있는 데이터를 찾아내는 것은 최우선으로 수행되어야 한다. 다양한 디바이스로부터 엄청난 양의 데이터를 수집·저장·관리하고 통합하는 데이터중심 IoT 플랫폼은 일종의 미들웨어 솔루션으로, 플랫폼의 궁극적인 목적은 빅데이터를 적시적소에 맞게 가공 및 분석수행 후 가치 있는 결과를 도출하여 최적의 답안을 제시하는 것이다. 이는 데이터를 분석하는 효율적이고 정확한 알고리즘을 필요로 한다. 이를 위해 본 논문은 분산되어 생성되는 IoT 데이터로부터 유용 정보 추출을 위해 시맨틱을 고려하여 원데이터를 저장하는 특화된 구조체를 설계하고 제안한 구조체에 기반하여 가치있는 정보를 찾아내기 위한 알고리즘을 다양한 정의와 증명을 사용하여 제시한다.

데이터준비를 위한 XML 기반의 분산 MDR 검색 시스템 설계 (A Design of XML-Based Distributed MDR Retrieval System for Data Preparation)

  • 고석범;윤성대
    • 한국멀티미디어학회논문지
    • /
    • 제7권9호
    • /
    • pp.1329-1338
    • /
    • 2004
  • 데이터마이닝은 방대한 데이터로부터 다차원적인 정보를 추출하는 것이다. 방대하게 구축되어 있는 데이터베이스에서 임의의 테이블의 컬럼에 대해 참조 할 수 있는 정보는 단순하게 컬럼명과 자료형 혹은 간단한 주석 정도이다. 그러한 비구조적이고 빈약한 내용만으로는 데이터마이닝을 위한 자료수집 및 자료탐색 단계에서 컬럼의 용도와 특성 및 스키마를 파악하여 데이터를 정제하고 수집하는 것이 난해 할 뿐만 아니라 너무 많은 시간이 소요된다. 이러한 문제를 해결하기 위해 본 논문에서는 관계형 데이터베이스 환경에서 데이터준비 단계 에 대부분의 시간을 소요하는 문제를 해결하기 위한 방안을 제안한다. 즉, 데이터 준비 단계에서 유용한 요소들을 메타데이터의 표준인 ISO/IEC : 11179 MDR (MetaData Registry) 규격에 맞는 표준 메타데이터를 제안하고, 이기종 및 이질 DBMS간에 호환 가능한 XML 기반의 분산 MDR 검색 시스템 구조를 제안한다.

  • PDF

빅데이터 분산처리시스템의 품질평가모델 (A Quality Evaluation Model for Distributed Processing Systems of Big Data)

  • 최승준;박제원;김종배;최재현
    • 디지털콘텐츠학회 논문지
    • /
    • 제15권4호
    • /
    • pp.533-545
    • /
    • 2014
  • IT기술이 발전함에 따라, 우리가 접하는 데이터의 양은 기하급수적으로 늘어나고 있다. 이처럼 방대한 데이터들을 분석하고 관리하기 위한 기술로 등장한 것이 빅데이터 분산처리시스템이다. 기존 분산처리시스템에 대한 품질평가는 정형 데이터 중심의 환경을 바탕으로 이루어져 왔다. 그러므로, 이를 비정형 데이터 분석이 핵심인 빅데이터 분산처리시스템에 그대로 적용시킬 경우, 정확한 품질평가가 이루어질 수 없다. 따라서, 빅데이터 분석 환경을 고려한 분산처리시스템의 품질평가모델에 대한 연구가 필요하다. 본 논문에서는 소프트웨어 품질에 관한 국제 표준인 ISO/IEC9126에 근거하여 빅데이터 분산처리 시스템에서 요구되는 품질평가 요소를 도출하고, 이를 측정하기 위한 메트릭을 정의함으로써 새로이 품질평가모델을 제안한다.

빅데이터 기반 군수품 품질정보 활용방안에 대한 연구 (A Study on the Application Method of Munition's Quality Information based on Big Data)

  • 전수연;이동헌;배만재
    • 한국산학기술학회논문지
    • /
    • 제17권6호
    • /
    • pp.315-325
    • /
    • 2016
  • 국방산업에 관련된 데이터의 양적팽창과 기술성장에 따라, 유의미한 품질정보를 추출하고 이를 통해 정책 제정 및 품질보증 업무에 활용하는 것이 요구되고 있다. 데이터에 기반한 경향 파악 및 의사결정 도출은 다수의 상황에 유연하게 대처할 수 있도록 하여 업무의 생산성을 높이고 새로운 기회를 발견하는 핵심 수단으로 활용될 수 있다. 따라서 국방산업에서는 개발단계부터 양산단계까지 다양한 품질정보들을 수집하고 이를 활용할 수 있도록 빅데이터 기반의 업무체계 구축이 필요하며, 축적된 정보를 활용하기 위한 방안이 필요하다. 본 연구는 정보체계 운용을 통해 신뢰성이 확보된 군수품의 품질정보를 수집하여 정형화된 빅데이터를 구축하는 방안을 제시하였으며, 사용자가 이를 활용할 수 있는 종합표준플랫폼을 제시하였다. 제안된 종합표준플랫폼은 군수품시험성적서 정보시스템(Test Report Information Service for Military Supplies, TRIS 시스템) 구축을 통하여 수행하였으며, TRIS 시스템을 통해 축적되는 정형 데이터의 활용방안을 제안하였다. 더불어 국방산업 비정형 데이터 활용방안에 대해 연구하였다. 본 연구의 결과는 향후 국방산업의 데이터 인프라 형성에 기여할 것으로 기대되며, 종합표준플랫폼을 통해 수집된 정보들은 군수품 품질보증에 관한 무기체계 별 전략 수립 및 동향 파악에 유용하게 활용될 것이다.