• Title/Summary/Keyword: Big Data Analysis Technique

검색결과 263건 처리시간 0.021초

빅데이터 분석을 통한 중력식 항만시설 수정프로젝트 레벨의 상태변화 특성 분석 (A Study on Condition Analysis of Revised Project Level of Gravity Port facility using Big Data)

  • 나용현;박미연;장신우
    • 한국재난정보학회 논문집
    • /
    • 제17권2호
    • /
    • pp.254-265
    • /
    • 2021
  • 연구목적: 국내 항만시설의 진단을 통한 성능 및 안전에 대한 점검과 진단을 20년 넘게 진행되었지만 그 진단 이력과 결과를 활용한 중장기적인 시설개선과 성능개선을 위한 발전전략이나 방향이 현실적으로 작동하지 않고 있다. 특히, 사용년수가 오래된 항만구조물의 경우, 선박의 대형화와 사용빈도 증가, 기후변화로 인한 자연재해의 영향 등으로 안전성능과 기능적 면에서 상당히 많은 문제점을 내포하고 있다. 연구방법: 본 연구에서는 중력식 안벽에 대한 부재수준의 유지관리 이력 데이터를 수집하여 이를 빅데이터로써 정의하고 해당 데이터를 바탕으로 프로젝트 수준의 시설물의 노후화 패턴 및 열화를 추정하기 위한 예측근사모델을 도출하였다. 특히 GP 및 SGP 기법의 머신러닝 알고리즘을 통하여 생성된 상태기반 노후도 패턴 및 열화 근사모델에 대한 유효성 검토를 통해 빅데이터 활용에 적합한 모델을 상호비교하고 제안하였다. 연구결과: 제안된 기법의 적합성을 검토한 결과 GP기법은 RMSE 및 R2는 0.9854와 0.0721, SGP기법은 0.7246과 0.2518로 GP기법을 적용한 예측모델이 적합한 것으로 검토 되었다. 결론: 머신러닝 기법을 통해 이러한 연구는 향후 항만시설 데이터취합이 지속적으로 이루어진다면 향후 항만시설 투자의사결정에 중요한 역할을 할 것으로 기대한다.

유전 프로그래밍을 활용한 제조 빅데이터 분석 방법 연구 (Genetic Programming based Manufacutring Big Data Analytics)

  • 오상헌;안창욱
    • 스마트미디어저널
    • /
    • 제9권3호
    • /
    • pp.31-40
    • /
    • 2020
  • 현재 제조 분야 빅데이터 분석을 위하여 black-box 기반 기계 학습 알고리즘을 활용하고 있다. 해당 알고리즘은 높은 분석 정합성 가지는 장점이 있지만, 분석 결과에 대한 해석이 어렵다는 단점이 있다. 그러나 제조업에서는 분석 알고리즘은 제조 공정 원리 기반 해석을 통하여 결과의 근거 및 도출 타당성에 대한 검증이 중요하다. 이러한 기계 학습 알고리즘의 결과 설명력 한계를 극복하기 위하여 유전 프로그래밍을 활용한 제조 빅데이터 분석 방법을 제안한다. 본 알고리즘은 생물학적 진화유전 프로그래밍 알고리즘은 생물학적 진화를 모방한 진화 연산 (선택, 교배, 돌연변이) 반복하면서 최적의 해를 찾아간다. 그리고 해는 수학적 기호를 활용하여 변수 간의 관계로 나타나며, 가장 높은 설명력을 가지는 해가 최종적으로 선택된다. 이를 통하여 입력 및 출력 변수 관계 수식화를 통한 결과를 도출하므로 직관적인 제조 매카니즘에 대한 해석이 가능하며 또한 수식으로 나타낸 변수간의 관계 기반으로 기존 해석이 불가한 제조 원리 도출도 가능하다. 제안 기법은 대표적인 기계 학습 알고리즘과 성능을 비교 분석 결과 동등 또는 우수한 성능을 보였다. 향후 해당 기법을 통하여 다양한 제조 분야 활용 가능성을 검증하였다.

전역 토픽의 지역 매핑을 통한 효율적 토픽 모델링 방안 (Efficient Topic Modeling by Mapping Global and Local Topics)

  • 최호창;김남규
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.69-94
    • /
    • 2017
  • 최근 빅데이터 분석 수요의 지속적 증가와 함께 관련 기법 및 도구의 비약적 발전이 이루어지고 있으며, 이에 따라 빅데이터 분석은 소수 전문가에 의한 독점이 아닌 개별 사용자의 자가 수행 형태로 변모하고 있다. 또한 전통적 방법으로는 분석이 어려웠던 비정형 데이터의 활용 방안에 대한 관심이 증가하고 있으며, 대표적으로 방대한 양의 텍스트에서 주제를 도출해내는 토픽 모델링(Topic Modeling)에 대한 연구가 활발히 진행되고 있다. 전통적인 토픽 모델링은 전체 문서에 걸친 주요 용어의 분포에 기반을 두고 수행되기 때문에, 각 문서의 토픽 식별에는 전체 문서에 대한 일괄 분석이 필요하다. 이로 인해 대용량 문서의 토픽 모델링에는 오랜 시간이 소요되며, 이 문제는 특히 분석 대상 문서가 복수의 시스템 또는 지역에 분산 저장되어 있는 경우 더욱 크게 작용한다. 따라서 이를 극복하기 위해 대량의 문서를 하위 군집으로 분할하고, 각 군집별 분석을 통해 토픽을 도출하는 방법을 생각할 수 있다. 하지만 이 경우 각 군집에서 도출한 지역 토픽은 전체 문서로부터 도출한 전역 토픽과 상이하게 나타나므로, 각 문서와 전역 토픽의 대응 관계를 식별할 수 없다. 따라서 본 연구에서는 전체 문서를 하위 군집으로 분할하고, 각 하위 군집에서 대표 문서를 추출하여 축소된 전역 문서 집합을 구성하고, 대표 문서를 매개로 하위 군집에서 도출한 지역 토픽으로부터 전역 토픽의 성분을 도출하는 방안을 제시한다. 또한 뉴스 기사 24,000건에 대한 실험을 통해 제안 방법론의 실무 적용 가능성을 평가하였으며, 이와 함께 제안 방법론에 따른 분할 정복(Divide and Conquer) 방식과 전체 문서에 대한 일괄 수행 방식의 토픽 분석 결과를 비교하였다.

빅데이터 기반 미세먼지 이상 탐지 머신러닝 시스템 설계 및 구현 (Design and Implementation of Machine Learning System for Fine Dust Anomaly Detection based on Big Data)

  • 이재원;인치호
    • 한국인터넷방송통신학회논문지
    • /
    • 제24권1호
    • /
    • pp.55-58
    • /
    • 2024
  • 본 논문은 빅데이터 기반 미세먼지 이상 탐지 머신러닝 시스템 설계 및 구현을 제안한다. 제안하는 시스템은 빅데이터로 구성된 미세먼지 및 기상 정보를 통해 미세먼지 대기환경지수를 분류하는 시스템이다. 이 시스템은 머신러닝 기반의 대기환경지수 분류 카테고리별 이상치에 따른 이상치 탐지 알고리즘 설계를 통해 미세먼지를 분류한다. 카메라에서 수집된 영상의 심도 데이터는 미세먼지 농도에 따른 영상을 수집한 후 미세먼지 가시마스크를 생성합니다. 그리고 모노 심도 추정 알고리즘을 통한 학습 기반 핑거프린팅 기법으로 모노스코프 카메라에서 수집된 미세먼지의 가시거리를 추론하여 미세먼지 농도를 도출합니다. 본 방법의 실험 및 분석을 위해 미세먼지 농도 데이터와 지역별, 시간별 CCTV 영상 데이터를 매칭하여 학습 데이터를 생성한 후 모델을 생성하여 실제 환경에서 테스트한다.

Mock-up Test를 통한 AI 및 열화상 기반 콘크리트 균열 깊이 평가 기법의 적용성 검증 (Application Verification of AI&Thermal Imaging-Based Concrete Crack Depth Evaluation Technique through Mock-up Test)

  • 정상기;장아름;박진한;강창훈;주영규
    • 한국공간구조학회논문집
    • /
    • 제23권3호
    • /
    • pp.95-103
    • /
    • 2023
  • With the increasing number of aging buildings across Korea, emerging maintenance technologies have surged. One such technology is the non-contact detection of concrete cracks via thermal images. This study aims to develop a technique that can accurately predict the depth of a crack by analyzing the temperature difference between the crack part and the normal part in the thermal image of the concrete. The research obtained temperature data through thermal imaging experiments and constructed a big data set including outdoor variables such as air temperature, illumination, and humidity that can influence temperature differences. Based on the collected data, the team designed an algorithm for learning and predicting the crack depth using machine learning. Initially, standardized crack specimens were used in experiments, and the big data was updated by specimens similar to actual cracks. Finally, a crack depth prediction technology was implemented using five regression analysis algorithms for approximately 24,000 data points. To confirm the practicality of the development technique, crack simulators with various shapes were added to the study.

빅데이터 기법을 활용한 항해 중 준해양사고 발생원인 분석에 관한 연구 (An Analysis of Causes of Marine Incidents at sea Using Big Data Technique)

  • 강석용;김기선;김홍범;노범석
    • 해양환경안전학회지
    • /
    • 제24권4호
    • /
    • pp.408-414
    • /
    • 2018
  • 해양사고 감소를 위해 다양한 연구들이 수행되어 왔다. 그에 비해 준해양사고에 대한 연구는 미미한 수준에 그치고 있다. 준해양사고는 건수가 많은 대신 내용이 정성적이기 때문에 분석하기에는 현실적인 어려움이 있었다. 하지만 해양사고 감소를 위해서는 준해양사고의 정량적인 분석이 필요하다. 이번 논문의 목적은 준해양사고 경향을 예측하고 해양사고를 감소시키기 위해 빅데이터 기법을 적용하여 준해양사고 데이터를 정량적으로 분석하는 것이다. 이를 위해 10,000여건의 준해양사고 보고서를 전처리 작업을 통해 통일된 양식으로 정리하였다. 전처리된 데이터에 대해서 1차적으로, 텍스트마이닝 기법을 적용하여 항해 중 준해양사고 발생원인에 대한 주요 키워드를 도출하였다. 주요 키워드에 대해 2차로 시계열 및 클러스터 분석을 통해 발생할 수 있는 준해양사고 상황에 대한 경향 예측을 도출하였다. 이번 연구에서는 정성적 자료인 준해양사고 보고서를 빅데이터 기법을 활용하여 정량화된 데이터로 전환할 수 있고, 이를 통해 통계적 분석이 가능함을 확인하였다. 또한 빅데이터 기법을 통해 차 후 발생할 수 있는 준해양사고에 대한 객관적인 경향을 파악함으로써 예방 대책에 대한 정보 제공이 가능함을 확인할 수 있었다.

시공간적 영향력을 반영한 딥러닝 기반의 통행속도 예측 모형 개발 (Development of Traffic Speed Prediction Model Reflecting Spatio-temporal Impact based on Deep Neural Network)

  • 김영찬;김준원;한여희;김종준;황제웅
    • 한국ITS학회 논문지
    • /
    • 제19권1호
    • /
    • pp.1-16
    • /
    • 2020
  • 4차 산업혁명 시대가 도래함에 따라 빅데이터를 활용하는 딥러닝에 대한 관심이 높아졌으며 다양한 분야에서 딥러닝을 이용한 연구가 활발하게 진행되고 있다. 교통 분야에서도 교통빅데이터를 많이 활용하는 만큼 딥러닝을 연구에 이용한다면 많은 이점이 있을 것이다. 본 연구에서는 통행속도를 예측하기 위하여 딥러닝 기법인 LSTM을 이용한 단기 통행속도 예측 모형을 구축하였다. 예측에 활용한 데이터인 통행속도 데이터가 시계열 데이터인 것을 고려하여 시계열 예측에 적합한 LSTM 모델을 선택하였다. 통행속도를 보다 정확하게 예측하기 위하여 시간적, 공간적 영향을 모두 반영하는 모형을 구축하였으며, 모형은 1시간 이후를 예측하는 단기 예측모형이다. 분석데이터는 서울시 교통정보센터에서 수집한 5분 단위 통행속도를 활용하였고 분석구간은 교통이 혼잡한 강남대로 일부구간으로 선정하여 연구를 수행하였다.

오피니언마이닝을 이용한 사용자 맞춤 장소 추천 시스템 (Location Recommendation Customize System Using Opinion Mining)

  • 최은정;김동근
    • 한국정보통신학회논문지
    • /
    • 제21권11호
    • /
    • pp.2043-2051
    • /
    • 2017
  • 최근 빅데이터 분야의 높아진 관심과 더불어 빅데이터의 처리를 통한 응용 분야에 대한 관심도 높아지고 있다. 개인의 감성을 파악할 수 있는 오피니언마이닝은 사용자 개인 맞춤 서비스 제공 분야에서 많이 이용되고 있는 빅데이터 처리 기법이다. 이를 바탕으로 본 논문에서는 사용자들의 장소에 대한 텍스트 형태의 리뷰를 오피니언마이닝 기법으로 처리하고 k-means 클러스터링 작업을 통해 사용자의 감성을 분석하였다. 클러스터링 작업으로 분류된 비슷한 범주의 감성을 가진 사용자들끼리 동일한 수치 값을 부여한다. 부여된 수치 값으로 협업 필터링 추천 시스템을 이용해 선호도를 예측하고 예측 값이 높은 장소 순으로 지도위에 마커와 함께 내용을 표시하여 사용자에게 추천내용을 보여줄 수 있는 방안을 제안하였다.

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템 (Twitter Issue Tracking System by Topic Modeling Techniques)

  • 배정환;한남기;송민
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.109-122
    • /
    • 2014
  • 현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.

빅데이터 분석을 활용한 제5차 산림기본계획 주요 사업에 대한 평가 (Evaluation of Major Projects of the 5th Basic Forest Plan Utilizing Big Data Analysis)

  • 변승연;구자춘;석현덕
    • 한국산림과학회지
    • /
    • 제106권3호
    • /
    • pp.340-352
    • /
    • 2017
  • 제5차 산림기본계획은 2008년부터 2017년까지의 10년 단위 계획으로, 2013년에 대외환경 변화 등의 이유로 변경되었다. 본 연구에서는 산림기본계획에 대한 거시적 평가를 위해 빅데이터 분석을 활용하여 연도별 정책 수요와 공급의 간극을 파악하였다. 정책수요 부분은 당해 연도의 뉴스, SNS 등에서 언급된 사업과 관련된 키워드(명사 기준)를 기준으로 하고, 정책 공급 부문은 산림청이 발행한 문서를 기준으로 하여 비정형 데이터를 수집하였다. 수집한 자료는 사회연결망 분석(social network analysis)을 활용하여 네트워크 구조를 특정하고, 수요 측면의 네트워크와 공급 측면의 네트워크를 비교하여 산림청 정책 수요와 공급의 간극을 확인한다. 분석 결과, 공급부문의 네트워크 구조는 수요 부문보다 방사형이 약한 것으로 나타나 산림 이외에 다양한 주제어가 네트워크에서 상당한 영향력을 행사하고 있는 것으로 판단되었다. 또한 27대 대표사업들을 대응한 33개 주제어에 대해 수요부문과 공급부문의 기울기를 비교한 결과, 수요는 증가하지만 공급이 감소하는 주제어의 개수는 7개로 지속가능, 산림경영, 산림생물, 산림보호, 산림병해충, 도시숲, 북한이 해당되었다. 이들 주제어는 수요와 공급의 간극이 확인된 만큼, 제6차 기본계획에서는 이들 주제어에 대한 공급 강화가 필요하며, 자유게시판 분석을 통하여 신규 임업인에 대한 정보 제공 및 교육 강화도 포함되어야 할 것으로 나타났다.