Abstract
In recently, ship trajectory data consisting of ship position, speed, course, and so on can be obtained from the Automatic Identification System device with which all ships should be equipped. These data are gathered more than 2GB every day at a crowed sea port and used for analysis of ship traffic statistic and patterns. In this study, we propose a method to process ship trajectory data efficiently with distributed computing resources using MapReduce algorithm. In data preprocessing phase, ship dynamic and static data are integrated into target dataset and filtered out ship trajectory that is not of interest. In mapping phase, we convert ship's position to Geohash code, and assign Geohash and ship MMSI to key and value. In reducing phase, key-value pairs are sorted according to the same key value and counted the ship traffic number in a grid cell. To evaluate the proposed method, we implemented it and compared it with IALA waterway risk assessment program(IWRAP) in their performance. The data processing performance improve 1 to 4 times that of the existing ship trajectory analysis program.
최근 선박자동식별장치의 도입으로, 육상에서 선박위치, 침로, 속력, 선박종류 등 선박 항적데이터 수집이 가능해 졌다. 본 연구는 맵리듀스 알고리즘을 분산처리 환경에 적용하여 선박 항적데이터를 효율적으로 처리하는 방법을 제안한다. 제안하는 방법은 데이터 전처리 단계, 맵핑 단계, 리듀싱 단계로 나뉘어져 있다. 데이터 전처리 단계는 선박의 동적 및 정적 데이터를 통합하고, 비관심지역의 선박정보는 필터링한다. 맵핑 단계는 선박 위치를 지오해시 코드로 변환하여 맵리듀스의 키 데이터로 할당하고, 선박의 ID는 값 데이터로 분리한다. 리듀싱 단계에서는 키 데이터가 같은 키-값 쌍 데이터를 추출하여 해당 그리드에서 선박의 수를 계산하여 시각화 한다. 제안한 방법은 항적데이터 분석에 있어서 기존 프로그램 성능에 비해 1~4배 성능 개선이 되었다.