• 제목/요약/키워드: 빅데이터분석기법

검색결과 586건 처리시간 0.035초

정박 중 준해양사고 원인에 대한 빅데이터 분석 연구

  • 노범석;김태훈;강석용
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2018년도 춘계학술대회
    • /
    • pp.144-146
    • /
    • 2018
  • 준해상사고를 줄이기 위하여 준해양사고 등을 분석하여 사고 예방에 활용하였다. 하지만 준해양사고 건수가 많은 대신 주내용이 정성적이기 때문에 다양한 정량적 데이터로 분석하기에는 현실적 어려움이 있었다. 이러 장단점을 고려하여 준해양사고에 대해서 그동안 단순한 내용 검토 방식에서 통계적 분석과 이를 통한 객관적 결과 토출이 가능한 빅데이터 기법를 적용한 연구가 필요하다. 이를 위해 10,000여건의 준해양사고 보고서를 전처리 작업을 통해 통일된 양식으로 정리하였다. 이 데이터를 기반으로 1차로 텍스트마이닝 분석을 통해 정박 중 준해양사고 발생 원인에 대한 주요 키워드를 도출하였다. 주요 키워드에 대해 2차로 시계열 및 클러스터 분석을 통해 발생할 수 있는 준해양 사고 상황에 대한 경향 예측을 도출하였다. 이번 연구에서는 정성적 자료인 준해양사고 보고서를 빅데이터 기법을 활용하여 정량화된 데이터로 전환할 수 있고 이를 통해 통계적 분석이 가능함을 확인하였다. 또한 빅데이터 기법을 통해 차 후 발생할 수 있는 준해양사고 객관적인 경향을 파악함으로써 예방 대책에 대한 정보 제공이 가능함을 확인할 수 있었다.

  • PDF

텍스트 마이닝을 활용한 대선 관련 SNS 분석 (SNS Analysis Related to Presidential Election Using Text Mining)

  • 권영우;정덕길
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.361-363
    • /
    • 2017
  • 최근 소셜 미디어의 이용률이 폭발적으로 증가함에 따라, 방대한 데이터가 네트워크로 쏟아져 나오고 있다. 이들 데이터는 기존의 정형 데이터뿐만 아니라 이미지, 동영상 등의 비정형 데이터가 있으며, 이들을 포괄하여 빅데이터라고 불린다. 이러한 빅데이터는 오피니언 마이닝, 테스트 마이닝 등의 기술적인 분석 기법과 빅데이터 요약 및 효과적인 표현방법에 대한 시각화 기법에 대하여 활발한 연구가 이루어지고 있다. 이 논문은 인기 있는 사회연결망 서비스인 Twitter의 트윗을 수집하고, 빅데이터 분석 기법인 텍스트 마이닝을 활용하여 2017년 대선에 대하여 분석하였다. 또한 분석된 자료의 효과적인 전달을 위해 워드 클라우드 진행하였다. 이 논문을 위하여 인기 있는 SNS인 Twitter의 최근 7일간 트윗(tweet)을 수집하고 분석하였다.

  • PDF

사이언스 빅 데이터(Science Big Data) 처리 기술 동향

  • 김희재;주경노;윤찬현
    • 정보와 통신
    • /
    • 제29권11호
    • /
    • pp.11-23
    • /
    • 2012
  • 본 고에서는 과학 분야에서의 대용량 데이터 처리를 위한 기술인 사이언스 빅데이터의 처리 기술 동향에 대하여 기술한다. 서론에서 사이언스 빅데이터의 정의 및 필요성을 다루고, 본론에서는 데이터 중심 과학 패러다임의 등장과 그로 인한 사이언스 빅데이터 요구사항, 사이언스 빅데이터 소스 수집 및 정제, 저장 및 관리, 처리, 분석 등으로 이루어지는 사이언스 빅데이터 처리 기법에 대하여 기술한다. 또한 현재 다양한 기관에서 연구하고 있는 사이언스 빅데이터 플랫폼, 맵리듀스 등을 이용한 워크플로우 제어 기반의 사이언스 빅데이터 처리 기법을 예시로 소개한다.

빅데이터 컴퓨팅을 위한 분석기법에 관한 연구 (A Study on the Analysis Techniques for Big Data Computing)

  • 오선진
    • 문화기술의 융합
    • /
    • 제7권3호
    • /
    • pp.475-480
    • /
    • 2021
  • 모바일 컴퓨팅과 클라우드 컴퓨팅 기술 그리고 소셜 네트워크 서비스의 급속한 발전과 더불어, 우리들은 시시각각 양산되고 있는 데이터의 홍수 속에서 살고 있으며, 이러한 대규모의 데이터는 매우 가치가 높은 중요한 정보를 품고 있다는 사실을 알게 되었다. 하지만 빅데이터는 잠재적인 유용한 가치와 치명적인 위험을 모두 가지고 있으며 오늘날 이러한 빅데이터로부터 유용한 정보를 효율적으로 추출해 내고 잠재된 정보를 효과적으로 활용하기 위한 연구와 응용이 활발하게 이루어지고 있는 상황이다. 여기서 빅데이터 컴퓨팅 과정 중 무엇보다도 중요한 것은 대용량 데이터로부터 유용하고 귀중한 정보를 효율적으로 추출해 낼 수 있는 적절한 데이터 분석기법을 찾아 적용하는 것이다. 본 연구에서는 이러한 빅데이터 컴퓨팅을 효율적으로 수행하여 원하는 유용한 정보를 추출할 수 있는 기존의 다양한 빅데이터 분석기법들을 조사하여, 그 특징과 장·단점 등을 비교 분석하고, 특별한 상황에서 빅데이터 분석기법을 이용하여 유용한 정보를 효율적으로 추출해 내고, 이들 잠재된 정보를 효과적으로 활용할 수 있도록 하는 방안을 제시하고자 한다.

정교한 데이터 분류를 위한 방법론의 고찰 (A Review of the Methodology for Sophisticated Data Classification)

  • 김승재;김성환
    • 통합자연과학논문집
    • /
    • 제14권1호
    • /
    • pp.27-34
    • /
    • 2021
  • 전 세계적으로 인공지능(AI)을 구현하려는 움직임이 많아지고 있다. AI구현에서는 많은 양의 데이터, 목적에 맞는 데이터의 분류 등 데이터의 중요성을 뺄 수 없다. 이러한 데이터를 생성하고 가공하는 기술에는 사물인터넷(IOT)과 빅데이터(Big-data) 분석이 있으며 4차 산업을 이끌어 가는 원동력이라 할 수 있다. 또한 이러한 기술은 국가와 개인 차원에서 많이 활용되고 있으며, 특히나 특정분야에 집결되는 데이터를 기준으로 빅데이터 분석에 활용함으로써 새로운 모델을 발견하고, 그 모델로 새로운 값을 추론하고 예측함으로써 미래비전을 제시하려는 시도가 많아지고 있는 추세이다. 데이터 분석을 통한 결론은 데이터가 가지고 있는 정보의 정확성에 따라 많은 변화를 가져올 수 있으며, 그 변화에 따라 잘못된 결과를 발생시킬 수도 있다. 이렇듯 데이터의 분석은 데이터가 가지는 정보 또는 분석 목적에 맞는 데이터 분류가 매우 중요하다는 것을 알 수 있다. 또한 빅데이터 분석결과 통계량의 신뢰성과 정교함을 얻기 위해서는 각 변수의 의미와 변수들 간의 상관관계, 다중공선성 등을 고려하여 분석해야 한다. 즉, 빅데이터 분석에 앞서 분석목적에 맞도록 데이터의 분류가 잘 이루어지도록 해야 한다. 이에 본 고찰에서는 AI기술을 구현하는 머신러닝(machine learning, ML) 기법에 속하는 분류분석(classification analysis, CA) 중 의사결정트리(decision tree, DT)기법, 랜덤포레스트(random forest, RF)기법, 선형분류분석(linear discriminant analysis, LDA), 이차선형분류분석(quadratic discriminant analysis, QDA)을 이용하여 데이터를 분류한 후 데이터의 분류정도를 평가함으로써 데이터의 분류 분석률 향상을 위한 방안을 모색하려 한다.

해양 빅데이터 기반 데이터 분석 및 시각화 연구

  • 손명석;이찬규
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2022년도 추계학술대회
    • /
    • pp.291-292
    • /
    • 2022
  • 최근 4차 산업혁명이 대두됨에 따라 빅데이터 시장의 지속적인 성장과 다양한 데이터 시각화 플랫폼이 개발되고 있다. 해양 산업에서도 선박, 다이버, 기상 API 등 다양한 해양 데이터를 통해 꾸준한 연구가 이루어지고 있으며 본 연구에서는 해양 데이터를 기반으로 데이터 분석 및 시각화를 통해 사용자에게 정보를 제공하는 플랫폼을 제시하고, 기하급수적으로 늘어날 빅데이터를 효과적으로 분석하기 위해 데이터 분석 및 시각화 기법 연구의 필요성을 제시하였음.

  • PDF

빅 데이터 분석 기술동향과 활성화 과제

  • 박종만;엄태원;김하진
    • 정보와 통신
    • /
    • 제29권11호
    • /
    • pp.55-66
    • /
    • 2012
  • 빅 데이터의 관심이 인프라 및 분석기술 자체에서 가치창조 측면으로 이동하면서 가치정보를 효율적으로 발굴, 분석, 추출, 활용하기 위한 차세대 고급 분석 기술 및 기법이 요구되고 있다. 이에 빅 데이터 활용기반구축을 위한 정부 및 기업의 대응이 시급한 시점이다. 이 연구는 빅 데이터 활용기반 구축과 분석기술 개발에 도움을 주고자 빅 데이터 분석의 핵심기술동향을 분석하고 실천과제를 제시한다.

빅 데이터를 이용한 소셜 미디어 분석 기법의 활용 (Utilization of Social Media Analysis using Big Data)

  • 이병엽;임종태;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제13권2호
    • /
    • pp.211-219
    • /
    • 2013
  • 빅 데이터를 활용한 분석 방법은 빅 데이터를 처리 할 수 있는 기술 기반으로 발전되어 오고 있다. 많은 IT 리서치 기관들이 빅 데이터를 통한 새로운 분석의 패러다임을 예견하고 있고, 또한 IT 벤더들을 중심으로 빅 데이터 처리를 위한 표준 기술들을 제시하고 있다. 빅 데이터는 IT 기기 및 환경의 발달과도 상호연관적이고 소셜 미디어를 주측으로 기존에 예측하지 못하는 비정형화된 데이터들을 정형화 하여, 이에 따른 다양한 분석, 예측 및 최적화에 초점이 맞추어 발달 하고 있다. 과거의 분석 기법은 정형화된 데이터를 기반으로 데이터 마이닝, OLAP, 통계 분석등을 통한 의사결정 도구로서 사용되어 왔다. 하지만 최근 빅데이터를 이용한 새로운 분석의 패러다임을 통해 분석기법의 다양화, 비정형 데이터 분석 등 새로운 형태의 기반 기술발전과 다양한 형태의 데이터를 통한 새로운 분석을 통해 통찰력을 높일 수 있다. 더욱이 고성능의 컴퓨팅 환경들의 발달과 표준화된 대용량 데이터 처리 기술 발달이 향후 조금 더 다양한 형태의 분석패턴을 만들어 갈 것이다. 따라서 본 논문은 빅 데이터를 통해 분석 가능한 다양한 기법을 알아보고, 기존의 데이터 마이닝 분석 기법을 통한 소셜 미디어의 분석 형태에 대한 활용 및 분석방안을 제시 하였다.

로그 분석 처리율 향상을 위한 맵리듀스 기반 분할 빅데이터 분석 기법 (MapReduce-Based Partitioner Big Data Analysis Scheme for Processing Rate of Log Analysis)

  • 이협건;김영운;박지용;이진우
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권5호
    • /
    • pp.593-600
    • /
    • 2018
  • 인터넷과 스마트기기의 발달로 인해 소셜미디어 등 다양한 미디어의 접근의 용이해짐에 따라 많은 양의 빅데이터들이 생성되고 있다. 특히 다양한 인터넷 서비스를 제공하는 기업들은 고객 성향 및 패턴, 보안성 강화를 위해 맵리듀스 기반 빅데이터 분석 기법들을 활용하여 빅데이터 분석하고 있다. 그러나 맵리듀스는 리듀스 단계에서 생성되는 리듀서 객체의 수를 한 개로 정의하고 있어, 빅데이터 분석할 때 처리될 많은 데이터들이 하나의 리듀서 객체에 집중된다. 이로 인해 리듀서 객체는 병목현상이 발생으로 빅데이터 분석 처리율이 감소한다. 이에 본 논문에서는 로그 분석처리율 향상을 위한 맵리듀스 기반 분할 빅데이터 분석 기법을 제안한다. 제안한 기법은 리듀서 분할 단계와 분석 결과병합 단계로 구분하며 리듀서 객체의 수를 유동적으로 생성하여 병목현상을 감소시켜 빅데이터 처리율을 향상시킨다.

빅데이터를 위한 트랜스포머 기반의 언어 인식 기법 (Transformer-based Language Recognition Technique for Big Data)

  • 황치곤;윤창표;이수욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.267-268
    • /
    • 2022
  • 최근, 빅데이터 분석은 기계학습의 발전에 따른 다양한 기법들을 이용할 수 있다. 현실에서 수집된 빅데이터는 단어 간의 관계성에 대한 의미적 분석을 바탕으로 같거나 유사한 용어에 대한 자동화된 정제기법이 부족하다. 빅데이터는 보통 문장의 형태로 구성되어 있고, 이에 대한 형태소 분석이나 문장의 이해가 필요하다. 이에 자연어를 분석하기 위한 기법인 NLP는 단어의 관계성과 문장을 이해할 수 있다. 본 논문에서는 빅데이터를 시계열 접근법인 RNN의 단점을 보완한 기법인 트랜스포머와 리포머의 장단점에 대해 연구한다.

  • PDF