• 제목/요약/키워드: Map-Reduce

검색결과 852건 처리시간 0.025초

전문용어 인식 시스템을 위한 분산 병렬 처리 플랫폼 최적화 및 성능평가 (Optimization and Performance Analysis of Distributed Parallel Processing Platform for Terminology Recognition System)

  • 최윤수;이원구;이민호;최동훈;윤화묵;송사광;정한민
    • 한국콘텐츠학회논문지
    • /
    • 제12권10호
    • /
    • pp.1-10
    • /
    • 2012
  • 과학기술 문헌의 전문용어 인식 분야는 지금까지 다양한 통계적 방법론을 사용하여 용어 인식 정확률을 향상시키기 위하여 연구되어 왔다. 하지만 기존의 연구는 단일-코어 또는 단일 머신 상에서 수행되었기 때문에, 폭발적으로 증가하는 문헌들에 대한 실시간 분석 요구를 처리할 수 없는 상황에 직면하고 있다. 본 논문에서는 전문용어를 인식하는 과정에서 병목현상이 발생하는 작업을 '후보용어 추출 과정'의 언어처리부분과 '용어 가중치 할당 과정'에서 통계정보를 취합하는 부분으로 분류하고, 각 작업을 분산병렬 처리 기반의 맵리듀스 작업을 이용하여 해결하는 전문용어 인식 방법을 구현하고 실험하였다. 실험은 확장성과 분산 병렬 처리 환경 최적화 두 가지로 수행하였고, 첫 번째 실험에서 12개의 노드를 사용하여 분산 병렬 처리하였을 때 단일 머신을 사용한 경우보다 11.27배의 처리속도 향상을 보였다. 두 번째 실험에서 1)기본 환경, 2)복수 리듀서, 3)컴바이너, 4) 2)와 3)의 조합에 대하여 수행하였고, 3)컴바이너 사용이 가장 우수한 성능을 보여 주었다. 본 논문에서 구현된 전문용어 인식 시스템은 대용량 과학기술 문헌에 대한 지식 추출 작업속도 개선에 기여하였다.

Spark 프레임워크를 적용한 대용량 SHIF 온톨로지 추론 기법 (An Approach of Scalable SHIF Ontology Reasoning using Spark Framework)

  • 김제민;박영택
    • 정보과학회 논문지
    • /
    • 제42권10호
    • /
    • pp.1195-1206
    • /
    • 2015
  • 지식 관리 시스템을 운영하기 위해서는 대량의 지식 정보를 자동으로 추론 및 관리하는 기술이 필요하다. 현재, 이러한 시스템의 대다수는 컴퓨터간의 지식 정보를 자동으로 교환하고 스스로 새로운 지식을 추론하기 위해 온톨로지를 적용하고 있다. 따라서 대용량의 온톨로지를 대상으로 새로운 정보를 추론하는 효율적인 기술이 요구되고 있다. 본 논문은 분산 클러스터의 메모리상에서 MapReduce와 유사한 작업을 수행하는 Spark 프레임워크를 적용하여, SHIF 수준으로 작성된 대용량의 온톨로지를 규칙 기반으로 추론하는 기술에 대해서 제안한다. 이에 본 논문은 다음 3 가지에 초점을 맞추어 설명을 한다. 클러스터내의 분산된 메모리상에서 대용량 추론을 실시하기 위해서, 먼저 각 추론 규칙에 따라 대용량의 온톨로지 트리플을 효과적으로 분류하여 적재하기 위한 자료구조, 두 번째 규칙간의 종속 관계와 상호 연관성에 따른 규칙 실행 순서와 반복 조건 정의, 마지막으로 규칙 실행에 필요한 명령을 정의하고 이러한 명령어를 실행하여 추론을 수행하는 알고리즘에 대해 설명한다. 제안하는 기법의 효율성을 검증하기 위해, 온톨로지 추론과 검색 속도를 평가하는 공식 데이터인 LUBM을 대상으로 실험을 수행하였다. 대표적인 분산클러스터 기반 대용량 온톨로지 추론 엔진인 WebPie와 비교 실험한 결과, LUBM에 대해서 WebPie의 추론 처리량이 553 트리플/초 인데 비해 284배 개선된 157k 트리플/초의 성능 향상이 있었다.

SPQUSAR : Apache Spark를 이용한 대용량의 정성적 공간 추론기 (SPQUSAR : A Large-Scale Qualitative Spatial Reasoner Using Apache Spark)

  • 김종환;김종훈;김인철
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권12호
    • /
    • pp.774-779
    • /
    • 2015
  • 본 논문에서는 단위 추론 작업들 간의 순차 처리와 반복 처리에 효과적인 인-메모리 방식의 고속 클러스터 컴퓨팅 환경인 Apache Spark을 이용한 대용량의 정성적 공간 추론기의 설계와 구현에 관해 소개한다. 본 논문에서 제안하는 공간 추론기는 매우 효율적인 방법으로, 공간 객체들 간의 위상 관계와 방향 관계를 나타내는 대규모 공간 지식베이스의 무결성을 검사할 수 있을 뿐만 아니라, 주어진 공간 지식베이스로부터 새로운 사실들을 유도해냄으로써 지식베이스를 확장할 수도 있다. 일반적으로 공간 객체들 간의 위상 관계와 방향 관계에 관한 정성적 추론은 이접 관계들 간의 많은 조합 연산들을 포함한다. 본 추론기에서는 공간 추론에 필요한 최소한의 이접 관계 집합을 찾아내고 이들만을 포함하도록 조합 표를 축소함으로써, 추론의 효율성을 크게 개선시켰다. 또한, 본 추론기에서는 추론 성능 향상을 위해 Hadoop 클러스터 시스템에서 분산 추론 작업이 진행되는 동안 디스크 입출력을 최소화하도록 설계하였다. 대용량의 가상 및 실제 공간 지식베이스를 이용한 실험들에서, 본 논문에서 제안하는 Apache Spark 기반의 정성적 공간 추론기가 MapReduce 기반의 기존 추론기보다 더 높은 성능을 보여주었다.

정규화 및 교차검증 횟수 감소를 위한 무작위 풀링 연산 선택에 관한 연구 (A Study on Random Selection of Pooling Operations for Regularization and Reduction of Cross Validation)

  • 류서현
    • 한국산학기술학회논문지
    • /
    • 제19권4호
    • /
    • pp.161-166
    • /
    • 2018
  • 본 논문에서는 컨볼루션 신경망 구조(Convolution Neural Network)에서 정규화 및 교차검증 횟수 감소를 위한 무작위로 풀링 연산을 선택하는 방법에 대해 설명한다. 컨볼루션 신경망 구조에서 풀링 연산은 피쳐맵(Feature Map) 크기 감소 및 이동 불변(Shift Invariant)을 위해 사용된다. 기존의 풀링 방법은 각 풀링 계층에서 하나의 풀링 연산이 적용된다. 이러한 방법은 학습 간 신경망 구조의 변화가 없기 때문에, 학습 자료에 과도하게 맞추는 과 적합(Overfitting) 문제를 가지고 있다. 또한 최적의 풀링 연산 조합을 찾기 위해서는, 각 풀링 연산 조합에 대해 교차검증을 하여 최고의 성능을 내는 조합을 찾아야 한다. 이러한 문제를 해결하기 위해, 풀링 계층에 확률적인 개념을 도입한 무작위 풀링 연산 선택 방법을 제안한다. 제안한 방법은 풀링 계층에 하나의 풀링 연산을 적용하지 않는다. 학습기간 동안 각 풀링 영역에서 여러 풀링 연산 중 하나를 무작위로 선택한다. 그리고 시험 시에는 각 풀링 영역에서 사용된 풀링 연산의 평균을 적용한다. 이러한 방법은 풀링 영역에서 서로 다른 풀링 조합을 사용한 구조의 평균을 한 것으로 볼 수 있다. 따라서, 컨볼루션 신경망 구조가 학습데이터에 과도하게 맞추어지는 과적합 문제를 피할 수 있으며, 또한 각 풀링 계층에서 특정 풀링 연산을 선택할 필요가 없기 때문에 교차 검증 횟수를 감소시킬 수 있다. 실험을 통해, 제안한 방법은 정규화 성능을 향상시킬 뿐만 아니라 및 교차 검증 횟수를 줄일 수 있다는 것을 검증하였다.

SparQLing : SparkSQL 기반 대용량 트리플 데이터를 위한 SPARQL 질의 시스템 구축 (SPARQL Query Processing System over Scalable Triple Data using SparkSQL Framework)

  • 전명중;홍진영;박영택
    • 정보과학회 논문지
    • /
    • 제43권4호
    • /
    • pp.450-459
    • /
    • 2016
  • 매년 RDFS 데이터는 대용량화 되어 가며, 빠른 질의를 위한 SPARQL 처리방식에 대한 변화가 필요하게 되었다. 이를 위해 대용량 분산 처리 프레임워크를 활용한 SPARQL의 질의 처리방식이 많이 연구되고 있다. 기존의 연구 중 대용량 분산 처리 프레임워크인 Hadoop(MapReduce) 기반 질의 엔진은 반복적인 작업으로 인한 잦은 I/O 발생으로 실시간 질의 처리가 불가능하며, 인메모리 기반 분산 질의 엔진 역시 낮은 단계의 언어 수준에서 분산 구조를 고려한 구현이 필요하기 때문에 질의 엔진 구축이 어렵다. 본 논문에서는 인메모리 기반 분산 질의 처리 프레임워크인 SparkSQL을 활용하여 대용량 트리플 데이터에 대한 SPARQL 질의문 처리 속도를 향상시킬 수 있는 질의 처리 엔진 구축 방법을 제안한다. SparkSQL 은 Spark 기반의 고수준 분산 질의 엔진으로서 기존의 SQL문을 활용한 질의가 가능하다. 따라서 SPARQL 질의문을 처리하기 위해서는 Jena를 이용하여 Algebra Tree를 생성한 후 이를 Spark 시스템에 적용하기 위한 Spark Algebra Tree로 변환해야 한다. 그리고 이를 이용하여 SparkSQL 질의문을 생성하는 시스템을 구축하였다. 또한 Spark 인메모리 시스템에서 보다 효율적인 질의 처리를 위한 DataFrame기반의 트리플 Property 테이블 설계를 제안하고 SparkSQL 프레임워크에 활용하였다. 마지막으로 기존의 분산처리 프레임워크를 사용한 질의 엔진과 비교 평가를 통하여 연구의 타당성을 검증한다.

조력에너지 개발을 위한 공간데이터 모델링 방안 (A Plan of Spatial Data Modeling for Tidal Power Energy Development)

  • 오정희;최현우;박진순;이광수
    • 한국지리정보학회지
    • /
    • 제14권3호
    • /
    • pp.22-35
    • /
    • 2011
  • 지형적인 영향으로 큰 조차가 발생하여 조력발전에 유리한 입지를 보유하고 있는 인천만을 대상으로 2006년부터 조력에너지 실용화 기술개발을 위한 연구가 지속적으로 추진되고 있다. 이러한 조력에너지 개발을 위해서는 조력발전 시설물의 최적입지를 결정하고 환경영향을 최소화하는 최적의 대안을 도출할 필요가 있다. 이를 효율적으로 수행하기 위해서는 개발과 보전에 관련된 다양한 공간요소를 체계적으로 관리하고 활용할 수 있는 공간정보체계가 필수적이다. 본 연구를 통해 조력에너지 개발을 위한 공간 데이터는 자료 특성에 따라 크게 세 가지 데이터 군으로 정의 가능하였다. 핵심 데이터 군으로는 조석, 조류 뿐 아니라 파랑, 침식, 퇴적 요소와 같은 공간데이터로 정의된다. 또한 지형도, 시설물도, 수심과 같은 기본 데이터 군과 해양생태와 해양환경 등 각종 주제도 성격의 참조 데이터 군으로 정의된다. 본 연구의 주요 목적은 이러한 공간 데이터 구성 요소의 정의를 통해 필수적 데이터모델과 선택적 데이터모델로 분류한 개념적 공간데이터 모델링 방법론을 정립하고자 함이다.

모바일 환경에서의 산사태 재해 저감을 위한 사면 정보 검색 및 실시간 경고 시스템 개발 (Development of Slope Information Retrieval and Real-time Warnings System for a Landslide Disaster Reduction from Mobile Environments)

  • 김성호;지영환;이승호
    • 한국콘텐츠학회논문지
    • /
    • 제10권2호
    • /
    • pp.81-88
    • /
    • 2010
  • 본 논문은 낙석 및 산사태로 인한 재해 저감을 위하여 모바일 환경에서 사면 정보를 현장에서 원격 검색하고, 사용자의 위치를 기준으로 주변의 인접한 사면들에 대한 안정성 상태를 실시간으로 경고해줄 수 있는 차세대 사면 정보 원격 검색 및 경고 시스템 개발에 관한 것이다. 사용자에게 제공하는 사면 정보는 다양한 멀티미디어형 정보를 활용하여 심도 깊은 정보를 현장에서 직접 확인할 수 있도록 함으로서 고급화된 서비스가 되도록 하였다. 사용자가 현장의 사면들을 쉽고 명확하게 확인할 수 있도록 하기 위해서는 고해상도의 전자 지도(항공사진)를 사용하였으며, 원격지에서 유무선 인터넷으로 사면 정보를 검색하고 확인하기 위해서는 휴대가 간편한 모바일 PC를 사용하였다. 또한 현장에서 사용자의 위치를 전자 지도에서 실시간으로 확인할 수 있도록 하기 위하여 모바일 PC에 GPS 수신기를 부착하였다. 특히 사용자의 위치를 중심으로 일정 영역 내의 대표적인 사면들의 안전성을 '안전 지역', '붕괴 예상 지역', '붕괴 지역'등으로 구분하고, 전자 지도에 서로 다른 색상의 아이콘으로 동시에 표시해주었다. 그런 연유로 본 시스템은 사용자가 이동 중에도 주변 사면들에 대한 안전성 상태를 전자 지도를 통하여 실시간으로 한 눈에 파악할 수 있다는 장점이 있다. 또한 특정 사면에 붕괴가 발생할 경우 실시간으로 경고 메시지를 통하여 사용자에게 알려줌으로서 산사태로 인한 재해를 저감할 수 있는 매우 큰 장점도 가지고 있다.

새로운 비디오 자막 영역 검출 기법 (A new approach for overlay text detection from complex video scene)

  • 김원준;김창익
    • 방송공학회논문지
    • /
    • 제13권4호
    • /
    • pp.544-553
    • /
    • 2008
  • 최근 영상 편집 기술의 발달과 더불어 시청자의 이해를 돕기 위해 인위적으로 자막을 삽입하는 경우가 늘고 있다. 인위적으로 삽입된 자막은 해당 장면의 내용이나 편집자의 의도를 잘 표현하고 있기 때문에 비디오 정보 검색(video information retrieval)이나 비디오 색인(video indexing)과 같은 응용에 유용하다. 기존의 자막 영역 추출 방법은 에지(edge), 색상(color), 텍스처(texture) 정보와 같은 하위 계층(low-level) 특징을 기반으로 하기 때문에 다양한 필체나 밝기 대비를 가진 자막이 동시에 나타나거나 복잡한 배경에 포함된 자막 영역의 경우 잘 검출하지 못한다. 이에 본 논문은 기존의 방법과는 전혀 다른 천이 영역 기반의 새로운 영상 내 자막 영역 검출 기법을 제안하고자 한다. 먼저, 영상 내 삽입된 글자 주변은 시청자에게 영상으로부터의 높이 감을 주기 위해 해당 글자와 다른 색으로 표현된다는 관찰 결과를 바탕으로 천이 지도를 생성한다. 생성된 천이 지도를 이용하여 후보 영역을 추출하고 상태 밀도 개념을 바탕으로 후보 영역 중에서 삽입된 자막 영역을 추출한다. 제안하는 알고리즘은 글자 색, 크기, 위치, 필체, 밝기 대비에 관계없이 적용이 가능하며, 다양한 언어에 관계없이 뛰어난 성능을 보인다. 또한, 프레임 간 자막 영역 업데이트를 통해 자막 영역 추출의 효율을 높였다. 다양한 영상에 대한 실험을 통해 제안하는 알고리즘이 효율적인 비디오 자막 영역 추출 방법임을 보이고자 한다.

디지털 카메라를 이용한 사진기준점측량의 정확도 향상에 관한 연구 (A Study on the Accuracy Improvement of Control Point Surveying of Photograph Using Digital Camera)

  • 김계동;박정현;이용욱
    • 한국측량학회지
    • /
    • 제27권2호
    • /
    • pp.203-211
    • /
    • 2009
  • 국내 디지털카메라의 보급으로 항공사진측량에서 디지털 카메라의 비중이 높아지고 있으며, 영상지도 제작이나 수치지형도 제작에 활용이 증가되고 있다. 그러나 사진의 위치정보나 자세정보 등을 포함하지 못하는 경우가 있어, 보다 정확한 사진기준점 성과를 얻기 위해 추가적인 방법이 필요하다. 본 연구에서는 디지털 카메라(DMC)로 촬영된 5개코스 56매의 사진과 35점의 지상기준점 성과를 이용하여 자동접합점 추출에 필요한 사진주점의 위치정보를 지형도에서 얻어 초기치로 입력한 A방법과 4개의 기준점을 이용하여 1번의 블록조정을 거친 외부표정 요소를 초기치로 입력한 B방법에 대해, 독일 INPHO사의 사진기준점측량 소프트웨어인 MATCH-AT를 사용하여 기준점 배치별 성과에 대해 비교분석하였다. 연구결과, B방법에 의한 사진 기준점측량의 정확도가 더 양호하였고, 자가 검정을 더하여 블록조정을 실시함으로 보다 나은 성과를 얻을 수 있었다. 또한 자가검정을 사용하여 지상기준점의 수를 줄일 수 있으므로 측량비용 측면에서도 효과적임을 알 수 있었다.

국가토지피복도와 무감독분류를 이용한 초기 훈련자료 자동추출과 토지피복지도 갱신 (Automatic Extraction of Initial Training Data Using National Land Cover Map and Unsupervised Classification and Updating Land Cover Map)

  • 이승기;최석근;노신택;임노열;최주원
    • 한국측량학회지
    • /
    • 제33권4호
    • /
    • pp.267-275
    • /
    • 2015
  • 토지피복지도는 환경, 군사, 의사결정 등 다양한 분야에서 널리 사용되고 있다. 본 연구에서는 단일 위성영상과 환경부에서 제공하는 국가토지피복도를 이용하여 훈련자료를 자동으로 추출하고, 이를 활용하여 피복을 분류하는 방법을 제안하였다. 이를 위하여 초기 훈련자료는 무감독분류인 ISODATA와 기존 토지피복도를 이용하였으며, 무감독 분류 사용시 각 클래스별 분류 선정과 클래스 명명, 감독분류에서 훈련자료 선정 등의 문제점을 해결하기 위하여 기존 토지피복도의 클래스 정보를 활용하여 자동으로 클래스를 분류하고 명명하였다. 추출된 초기 훈련자료는 대상 위성영상의 토지피복분류를 위하여 MLC의 훈련자료를 활용하였고, 피복분류의 정확도 향상을 위하여 반복방법을 적용하여 훈련자료를 갱신하였으며 최종적으로 토지피복지도를 추출하였다. 또한, 화소분류방법에서 발생하는 salt and pepper를 감소시키기 위하여 각 반복단계별 MRF를 적용하여 분류정확도를 향상시켰다. 본 연구에서 제안된 방법을 대상지역에 적용한 결과 효과적으로 토지피복지도를 생성할 수 있음을 정량적, 시각적으로 확인하였다.