• 제목/요약/키워드: Data 분석

검색결과 63,981건 처리시간 0.076초

빅데이터 분석을 위한 파티션 기반 시각화 알고리즘 (Partition-based Big Data Analysis and Visualization Algorithm)

  • 홍준기
    • 한국빅데이터학회지
    • /
    • 제5권1호
    • /
    • pp.147-154
    • /
    • 2020
  • 오늘날 빅데이터로부터 유의미한 결과를 도출하는 연구가 활발히 진행되고 있다. 본 논문에선 빅데이터의 데이터의 영역들을 파티션(partition)으로 설정하고 각 파티션들의 대표 값을 계산하여 변수들 사이의 상관관계를 분석 할 수 있는 파티션 기반 빅데이터 분석 알고리즘을 제안한다. 본 논문에선 파티션의 크기조절이 가능한 파티션 기반 빅데이터 분석 알고리즘의 파티션 크기 변화에 따른 시각화 결과를 비교분석하였다. 제안한 파티션 기반 빅데이터 분석 알고리즘을 검증하기 위해 의류 회사 'A'의 빅데이터를 분석하여 온도와 판매 가격 변화에 따른 상품의 판매량 변화를 분석하고 시각화하여 유의미한 결과를 얻을 수 있었다.

빅데이터 분석을 활용한 사물인터넷 키워드에 관한 조망 (An Insight Study on Keyword of IoT Utilizing Big Data Analysis)

  • 남수태;김도관;진찬용
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 추계학술대회
    • /
    • pp.146-147
    • /
    • 2017
  • 빅데이터 분석은 데이터베이스에 잘 정리된 정형 데이터뿐만 아니라 인터넷, 소셜 네트워크 서비스, 모바일 환경에서 생성되는 웹 문서, 이메일, 소셜 데이터 등 비정형 데이터를 효과적으로 분석하는 기술을 말한다. 대부분의 빅데이터 분석 기술 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 이에 해당된다. 글로벌 리서치 기관들은 빅데이터 분석을 2011년 이래로 가장 주목받는 신기술로 지목해오고 있다. 따라서 대부분의 산업에서 기업들은 빅데이터의 적용을 통해 새로운 가치 창출을 위해 노력을 하고 있다. 본 연구에서는 다음 커뮤니케이션의 빅데이터 분석 도구인 소셜 매트릭스를 활용하여 분석하였다. 2017년 10월 8일 시점 1개월 기간을 설정하여 "사물인터넷" 키워드에 대한 대중들의 인식을 분석하였다. 빅데이터 분석의 결과는 다음과 같다. 첫째, 사물인터넷 키워드에 대한 1위 연관 검색어는 기술(995)인 것으로 나타났다. 결과를 바탕으로 연구의 한계와 시사점을 제시하고자 한다.

  • PDF

청소년패널자료 분석에서의 반복측정분산분석을 활용한 잠재성장모형 (Analysis of latent growth model using repeated measures ANOVA in the data from KYPS)

  • 이화정;강석복
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권6호
    • /
    • pp.1409-1419
    • /
    • 2013
  • 최근 종단자료 분석방법으로 많이 연구되는 잠재성장모형으로 청소년 패널자료를 분석하였다. 본 연구에서 잠재성장모형 분석에서 비조건적 모형을 좀 더 빠르게 찾기 위해 비조건적 모형에 반복측정 분산분석의 결과를 활용하였다. 또한, 비조건적 모형을 결정하기 위해 기존에 주로 사용된 6개 유형, 2차모형과 반복측정분산분석의 결과를 적용한 모형들을 비교하였다.

주성분분석을 이용한 기종점 데이터의 압축 및 주요 패턴 도출에 관한 연구 (A Study on the Compression and Major Pattern Extraction Method of Origin-Destination Data with Principal Component Analysis)

  • 김정윤;탁세현;윤진원;여화수
    • 한국ITS학회 논문지
    • /
    • 제19권4호
    • /
    • pp.81-99
    • /
    • 2020
  • 기종점 데이터는 수요 분석 및 서비스 설계를 위해서 대중교통, 도로운영 등 다양한 분야에서 저장 및 활용되고 있다. 최근 빅데이터의 활용성이 증대되면서 기종점 데이터의 분석 및 활용에 대한 수요도 함께 증가하고 있다. 기존의 일반적인 교통 정보 데이터가 수집장비 수(n)에 비례하여 데이터양이 증가(α·n)하는 것과는 다르게, 기종점 데이터는 수집지점 수(n)의 증가에 따라 수집 데이터의 양이 기하급수적으로 증가(α·n2)하는 경향이 있다. 이로 인하여 기종점 데이터를 원시 데이터의 형태로 장기간 저장하고 빅데이터 분석에 활용하는 것은 대용량의 저장 공간이 필요하다는 것을 고려할 때 실용적 대안으로 여겨지지 않고 있다. 이와 함께 기종점 데이터는 0~10 사이의 작은 수요 부분에 패턴화된 형태와 무작위 적인 형태의 데이터가 섞여있어 작은 수요가 그룹화되어 발생하는 주요 패턴을 추출하기에 어려움이 있다. 이러한 기종점 데이터의 저장용량의 한계와 패턴화 분석의 한계를 극복하고자 본 연구에서는 주성분 분석을 활용한 대중교통 기종점 데이터의 압축 및 분석 방법을 제안하였다. 본 연구에서는 서울시와 세종시의 대중교통 이용 데이터를 활용하여 모빌리티 데이터를 분석하고, 모빌리티 기종점 데이터에 포함된 무작위 성향이 높은 데이터를 제거하기 위해 주성분분석 기반의 데이터 압축 및 복원에 관한 연구를 수행하였다. 주성분분석으로 분해된 기종점 데이터와 원데이터를 비교하여 주요한 수요 패턴을 찾고 이를 통해 압축률과 복원율을 높일 수 있는 주성분 범위를 제안하였다. 본 연구에서 분석한 결과, 서울시 기준 1~80, 세종시 기준 1~60까지의 주성분을 사용할 경우 주요 이동 데이터의 손실 없이 기종점 데이터에 포함되어있는 노이즈를 제거하고 데이터를 압축 및 복원이 가능하였다.

실시간 스트림 데이터 분석을 위한 시각화 가속 기술 및 시각적 분석 시스템 (Fast Visualization Technique and Visual Analytics System for Real-time Analyzing Stream Data)

  • 정성민;연한별;정대교;유상봉;김석연;장윤
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제22권4호
    • /
    • pp.21-30
    • /
    • 2016
  • 위험관리 시스템은 단 시간에 의사결정하기 위해 스트림 데이터를 실시간으로 분석 할 수 있어야 한다. 많은 데이터 분석 시스템은 CPU와 디스크 데이터베이스로 구성되어 있다. 하지만, cpu 기반 시스템은 스트림 데이터를 실시간으로 분석하는데 어려움이 있다. 스트림 데이터는 1ms부터 1시간, 1일까지 생성주기가 다양하다. 한 개의 센서가 생성하는 데이터는 작다. 하지만 수 만개의 센서가 생성하는 데이터는 매우 크다. 예를 들어 10만개 센서가 1초에 1GB 데이터를 생성한다면, CPU 기반 시스템은 이를 분석 할 수 없다. 이러한 이유로 실시간 스트림 데이터 분석 시스템은 빠른 처리 속도와 확장성이 필요하다. 본 논문에서는 GPU와 하이브리드 데이터베이스를 이용한 시각화 가속 기술을 제안한다. 제안한 기술을 평가하기 위해 우리는 지하 파이프라인에 설치된 센서와 트윗 데이터를 활용하여 실시간 릭 탐지 시각적 분석 시스템에 적용했다.

빅데이터 분석 도구 R 언어를 이용한 비정형 데이터 시각화 (Visualizing Unstructured Data using a Big Data Analytical Tool R Language)

  • 남수태;진금회;신성윤;진찬용
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.151-154
    • /
    • 2021
  • 빅데이터 분석은 데이터 저장소에 저장된 대용량 데이터 속에서 의미 있는 새로운 상관관계, 패턴, 추세를 발견하여 새로운 가치를 창출하는 과정이다. 또한 대부분의 빅데이터 분석 기술 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 이에 해당된다. 그리고 빅데이터 분석 도구인 R언어를 이용하여 전-처리된 텍스트 데이터를 이용하여 다양한 시각화 함수를 통해 분석결과를 표현할 수 있다. 본 연구에서 사용된 데이터는 한국정보통신학회 학회지 논문 중에서 2021년 3월호 논문 21편을 대상으로 분석을 하였다. 최종 분석결과는 가장 많이 언급된 키워드는 "데이터"가 305회로 1위를 차지하였다. 따라서 이러한 분석결과를 바탕으로 연구의 한계와 이론적 실무적 시사점을 제시하고자 한다.

  • PDF

Web of Science 데이터학술지 게재 데이터논문의 지적구조 규명 (An Investigation of Intellectual Structure on Data Papers Published in Data Journals in Web of Science)

  • 정은경
    • 정보관리학회지
    • /
    • 제37권1호
    • /
    • pp.153-177
    • /
    • 2020
  • 오픈과학의 흐름에서 데이터 공유와 재이용은 중요한 연구자의 활동이 되어가고 있다. 데이터 공유와 재이용에 관한 여러 논의 중에서 데이터학술지와 데이터논문의 발간이 가시적인 결과를 보여주고 있다. 데이터학술지는 여러 학문 분야에서 발간되고 있으며, 논문의 수도 점차 증가하고 있다. 데이터논문은 데이터 자체와는 다르게 인용을 주고 받는 활동이 포함되어, 따라서 이들이 형성하는 고유한 지적구조가 생겨나게 된다. 본 연구는 데이터학술지와 데이터논문이 학술커뮤니티에서 구성하는 지적구조를 규명하고자 Web of Science에 색인된 14종의 데이터학술지와 6,086건의 데이터논문과 인용된 참고문헌 84,908건을 분석하였다. 저자사항과 함께 동시인용분석과 서지결합분석을 네트워크로 시각화하여 데이터논문이 형성한 세부 주제 분야를 규명하였다. 분석결과, 저자, 저자소속기관, 국가를 추출하여 출현빈도를 살펴보면, 전통적인 학술지 논문과 다른 양상을 보인다. 이러한 결과는 데이터의 생산이 용이한 기관과 국가에 주로 데이터논문을 출간하기 때문이라고 해석될 수 있다. 동시인용분석와 서지결합분석 모두 분석도구, 데이터베이스, 게놈구성 등이 주된 세부 주제 영역으로 나타났다. 동시인용분석결과는 9개의 군집으로 형성되었는데, 특정 주제 분야로 나타난 영역은 수질과 기후 등의 분야이다. 서지결합분석은 총 27개의 컴포넌트로 구성되었는데, 수질, 기후 이 외에도 해양, 대기 등의 세부 주제 영역이 파악되었다. 특기할만한 사항으로는 사회과학 분야의 주제 영역도 나타났다는 점이다.

데이터사서의 직무와 역량에 관한 연구 - 미국 구인광고 분석을 이용하여 - (A Study on the Job Duties and Competencies of Data Librarians: Using Job Advertisement Analysis in the United States)

  • 박지인;박지홍
    • 한국비블리아학회지
    • /
    • 제32권3호
    • /
    • pp.145-162
    • /
    • 2021
  • 본 연구는 데이터사서의 주요 직무와 핵심 역량을 알아보기 위하여 75개의 미국 데이터사서 구인광고의 내용 분석을 수행하였고, 미국과 캐나다 현직 데이터사서를 대상으로 설문을 진행하여 105명의 응답을 수집 후 통계 분석을 진행하였다. 내용 분석과 통계 분석을 종합한 결과, 데이터사서의 주요 직무는 collaboration, workshops, trainings, conferences, data service, research consultation, 그리고 research support 관련 직무로 파악되었다. 핵심 역량은 communication skill, teaching, diversity, inclusion, and equality, data management, 그리고 data tool 관련 역량으로 나타났다. 본 연구는 가장 최신의 데이터를 이용하여 데이터사서의 주요 직무 및 핵심 역량을 분석하고 현직자의 의견을 수렴했다는 점에서 의의를 가진다. 이는 향후 이어질 데이터사서의 직무만족도, 이용자만족도, 인식조사에 기초연구로 이용될 수 있을 것이다.

비할당 영역 데이터 파편의 압축 여부 판단과 압축 해제 (Determinant Whether the Data Fragment in Unallocated Space is Compressed or Not and Decompressing of Compressed Data Fragment)

  • 박보라;이상진
    • 정보보호학회논문지
    • /
    • 제18권4호
    • /
    • pp.175-185
    • /
    • 2008
  • 컴퓨터 포렌식 관점에서 디스크의 비할당 영역(unallocated space)에 존재하는 데이터를 분석하는 것은 삭제된 데이터를 조사할 수 있다는 점에서 의미가 있다. 하지만 대부분의 경우에 비할당 영역에 존재하는 데이터는 응용 프로그램으로 읽을 수 있는 완전한 파일의 형태가 아닌 단편화된 파편(Fragment)으로 존재하며 이는 암호화되거나 압축된 형식으로 존재하기도 한다. 특히 데이터의 일부만 남아있고 나머지는 다른 데이터로 덮여 쓰인 상태의 데이터 파편을 분석하는 것은 매우 어려운 일이며, 특히 존재하는 데이터 파편이 압축되거나 암호화된 경우에는 데이터가 랜덤(Random)한 특성을 가지기 때문에 통계 분석이나 시그니처 분석과 같은 기존의 데이터 파편 분석 방법만으로는 의미 있는 정보를 획득할 수 없게 된다. 따라서 파일 파편의 압축 및 암호화 여부를 판단하는 선 처리 작업이 필요하며 압축된 파편은 압축 해제를 시도해야 한다. 압축 해제로서 획득한 평문 데이터 파편은 기존에 제시된 데이터 파편 분석 방식으로 분석할 수 있다. 본 논문에서는 컴퓨터 포렌식 수사 시 비할당 영역에 존재하는 파일 파편의 분석 기술에 대해 서술한다.

데이터과학 교육과정에 대한 분석적 연구 (An Analysis of Data Science Curriculum in Korea)

  • 이혜원;한승희
    • 한국문헌정보학회지
    • /
    • 제54권1호
    • /
    • pp.365-385
    • /
    • 2020
  • 이 연구에서는 2019년 10월 현재 우리나라에 개설된 데이터과학 교육과정의 현황을 분석하기 위해 먼저, 데이터과학 분야의 교육과정을 분석한 기존 연구와 데이터과학 분야 전문가에게 요구되는 역량에 대한 분석을 진행하였고, 이를 바탕으로 우리나라에 개설된 80개의 교육과정과 2,041개의 교과목을 대상으로 학문 영역 특징 기반 분석, 데이터 전문가 역량 기반 분석과 교과목명 내용 분석을 실시하였다. 분석 결과, 우리나라에서의 데이터과학 전공 교육은 기술과 직업 실무적 관점보다는 학문적 접근을 바탕으로 한 연구 중심의 전문적 교육과정으로 자리 잡았으며, 통계적 분석 역량을 중심으로 많은 교과가 개설되었고, 정보기술, 통계학, 경영학을 중심으로 한 학제적 특성이 교육과정에 반영되었음을 확인하였다.