• 제목/요약/키워드: Dispersion-management

검색결과 332건 처리시간 0.02초

클라우드 환경에서 MongoDB 기반의 비정형 로그 처리 시스템 설계 및 구현 (Design and Implementation of MongoDB-based Unstructured Log Processing System over Cloud Computing Environment)

  • 김명진;한승호;최운;이한구
    • 인터넷정보학회논문지
    • /
    • 제14권6호
    • /
    • pp.71-84
    • /
    • 2013
  • 컴퓨터 시스템 운용 간에 발생하는 많은 정보들이 기록되는 로그데이터는 컴퓨터 시스템 운용 점검, 프로세스의 최적화, 사용자 최적화 맞춤형 제공 등 다방면으로 활용되고 있다. 본 논문에서는 다양한 종류의 로그데이터들 중에서 은행에서 발생하는 대용량의 로그데이터를 처리하기 위한 클라우드 환경 하에서의 MongoDB 기반 비정형 로그 처리시스템을 제안한다. 은행업무간 발생하는 대부분의 로그데이터는 고객의 업무처리 프로세스 간에 발생하며, 고객 업무 프로세스 처리에 따른 로그데이터를 수집, 저장, 분류, 분석하기 위해서는 별도로 로그데이터를 처리하는 시스템을 구축해야만 한다. 하지만 기존 컴퓨팅환경 하에서는 폭발적으로 증가하는 대용량 비정형 로그데이터 처리를 위한 유연한 스토리지 확장성 기능, 저장된 비정형 로그데이터를 분류, 분석 처리할 수 있는 기능을 구현하기가 매우 어렵다. 이에 따라 본 논문에서는 클라우드 컴퓨팅 기술을 도입하여 기존 컴퓨팅 인프라 환경의 분석 도구 및 관리체계에서 처리하기 어려웠던 비정형 로그데이터를 처리하기 위한 클라우드 환경기반의 로그데이터 처리시스템을 제안하고 구현하였다. 제안한 본 시스템은 IaaS(Infrastructure as a Service) 클라우드 환경을 도입하여 컴퓨팅 자원의 유연한 확장성을 제공하며 실제로, 로그데이터가 장기간 축적되거나 급격하게 증가하는 상황에서 스토리지, 메모리 등의 자원을 신속성 있고 유연하게 확장을 할 수 있는 기능을 포함한다. 또한, 축적된 비정형 로그데이터의 실시간 분석이 요구되어질 때 기존의 분석도구의 처리한계를 극복하기 위해 본 시스템은 하둡 (Hadoop) 기반의 분석모듈을 도입함으로써 대용량의 로그데이터를 빠르고 신뢰성 있게 병렬 분산 처리할 수 있는 기능을 제공한다. 게다가, HDFS(Hadoop Distributed File System)을 도입함으로써 축적된 로그데이터를 블록단위로 복제본을 생성하여 저장관리하기 때문에 본 시스템은 시스템 장애와 같은 상황에서 시스템이 멈추지 않고 작동할 수 있는 자동복구 기능을 제공한다. 마지막으로, 본 시스템은 NoSQL 기반의 MongoDB를 이용하여 분산 데이터베이스를 구축함으로써 효율적으로 비정형로그데이터를 처리하는 기능을 제공한다. MySQL과 같은 관계형 데이터베이스는 복잡한 스키마 구조를 가지고 있기 때문에 비정형 로그데이터를 처리하기에 적합하지 않은 구조를 가지고 있다. 또한, 관계형 데이터베이스의 엄격한 스키마 구조는 장기간 데이터가 축적되거나, 데이터가 급격하게 증가할 때 저장된 데이터를 분할하여 여러 노드에 분산시키는 노드 확장이 어렵다는 문제점을 가지고 있다. NoSQL은 관계형 데이터베이스에서 제공하는 복잡한 연산을 지원하지는 않지만 데이터가 빠르게 증가할 때 노드 분산을 통한 데이터베이스 확장이 매우 용이하며 비정형 데이터를 처리하는데 매우 적합한 구조를 가지고 있는 비관계형 데이터베이스이다. NoSQL의 데이터 모델은 주로 키-값(Key-Value), 컬럼지향(Column-oriented), 문서지향(Document-Oriented)형태로 구분되며, 제안한 시스템은 스키마 구조가 자유로운 문서지향(Document-Oriented) 데이터 모델의 대표 격인 MongoDB를 도입하였다. 본 시스템에 MongoDB를 도입한 이유는 유연한 스키마 구조에 따른 비정형 로그데이터 처리의 용이성뿐만 아니라, 급격한 데이터 증가에 따른 유연한 노드 확장, 스토리지 확장을 자동적으로 수행하는 오토샤딩 (AutoSharding) 기능을 제공하기 때문이다. 본 논문에서 제안하는 시스템은 크게 로그 수집기 모듈, 로그 그래프생성 모듈, MongoDB 모듈, Hadoop기반 분석 모듈, MySQL 모듈로 구성되어져 있다. 로그 수집기 모듈은 각 은행에서 고객의 업무 프로세스 시작부터 종료 시점까지 발생하는 로그데이터가 클라우드 서버로 전송될 때 로그데이터 종류에 따라 데이터를 수집하고 분류하여 MongoDB 모듈과 MySQL 모듈로 분배하는 기능을 수행한다. 로그 그래프생성 모듈은 수집된 로그데이터를 분석시점, 분석종류에 따라 MongoDB 모듈, Hadoop기반 분석 모듈, MySQL 모듈에 의해서 분석되어진 결과를 사용자에게 웹 인터페이스 형태로 제공하는 역할을 한다. 실시간적 로그데이터분석이 필요한 로그데이터는 MySQL 모듈로 저장이 되어 로그 그래프생성 모듈을 통하여 실시간 로그데이터 정보를 제공한다. 실시간 분석이 아닌 단위시간당 누적된 로그데이터의 경우 MongoDB 모듈에 저장이 되고, 다양한 분석사항에 따라 사용자에게 그래프화해서 제공된다. MongoDB 모듈에 누적된 로그데이터는 Hadoop기반 분석모듈을 통해서 병렬 분산 처리 작업이 수행된다. 성능 평가를 위하여 로그데이터 삽입, 쿼리 성능에 대해서 MySQL만을 적용한 로그데이터 처리시스템과 제안한 시스템을 비교 평가하였으며 그 성능의 우수성을 검증하였다. 또한, MongoDB의 청크 크기별 로그데이터 삽입 성능평가를 통해 최적화된 청크 크기를 확인하였다.

주성분(主成分) 및 정준상관분석(正準相關分析)에 의(依)한 수간성장(樹幹成長) 해석(解析)에 관(關)하여 (An Analytical Study on the Stem-Growth by the Principal Component and Canonical Correlation Analyses)

  • 이광남
    • 한국산림과학회지
    • /
    • 제70권1호
    • /
    • pp.7-16
    • /
    • 1985
  • 임목(林木)의 주체성인(主體成因)인 수간(樹幹)에 대한 각종(各種) 성장인자간(成長因子間)의 정준상관(正準相關)과 그의 관계적(關係的) 배경(背景) 및 수간(樹幹)의 총합적(總合的)인 변동분석(變動分析)에 의(依)한 수간적(樹幹的) 특징(特徵)을 파악(把握)함에 있어, 그의 최적기법(最適技法)을 탐색(探索)하기 위한 시도(試圖)로서 일본(日本)잎갈나무(Larix leptolepis)에 주성분(主成分) 및 정준상관분석법(正準相關分析法)을 도입적용(導入適用)하고, 얻어진 결과(結果)를 다음과 같이 요약(要約)한다. 1) 정형수(正形數)($x_8$)를 제외(除外)한 모든 성장인자(成長因子) 즉(卽), 수고(樹高)($x_1$), 지하고(枝下高)($x_2$), 망고(望高)($x_3$), 흉고직경(胸高直徑)($x_4$), 중앙직경(中央直徑)($x_5$), 수관폭(樹冠幅)($x_6$) 및 간재적(幹材積)($x_7$) 등(等)의 각(各) 인자간(因子間)에 강약간(強弱間)의 상관(相關)이 있으며, 특(特)히 흉고직경(胸高直徑), 수고(樹高) 및 중앙직경(中央直徑) 등(等)은 간재적(幹材積)과 고도(高度)의 상관(相關)이 있다(표(表) l 참조(參照)). 2) (1) 상장성장인자(上長成長因子)인 수고(樹高), 지하고(枝下高) 및 망고(望高) 등(等)의 합성변량(合成變量)과 간재적간(幹材積間), (2) 비대성장인자(肥大成長因子)인 흉고직경(胸高直徑), 중앙직경(中央直徑) 및 수관폭(樹冠幅) 등(等)의 합성변량(合成變量)과 간재적간(幹材積間), (3) 상장(上長) 및 비대성장인자(肥大成長因子)를 총망라(總網羅)한 6개인자(個因子)의 합성변량(合成變量)과 간재적간(幹材積間)의 정준상관계수(正準相關係數)와 정준변량(正準變量)이 각각(各各) $${(1)\;{\gamma}_{u1,v1}=0.82980^{**},\;\{u_1=1.00000x_7\\v_1=1.08323x_1-0.04299x_2-0.07080x_3}\\{(2)\;{\gamma}_{u1,v1}=0.98198^{**},\;\{u_1=1.00000x_7\\v_1=0.86433x_4+0.11996x_5+0.02917x_6}\\{(3)\;{\gamma}_{u1,v1}=0.98700^{**},\;\{u_1=1.00000x_7\\v1=0.12948x_1+0.00291x_2+0.03076x_3+0.76707x_4+0.09107x_5+0.02576x_6}$$ 등(等)과 같이 되어, 어느 경우(境遇)에서도 고도(高度)의 정준상관(正準相關)을 가지며, (1)의 경우(境遇)에는 수고(樹高)가, (2)의 경우(境遇)에는 흉고직경(胸高直徑)이, (3)의 경우(境遇)에는 흉고직경(胸高直徑)과 수고(樹高)가 각각(各各)의 정준상관(正準相關)에 절대적인 기여(寄與)를 하는 것으로서, 각종(各種) 질적성장(質的成長)의 총합특성(總合特性)은 이들 인자(因子)의 막강한 영향력(影響力)에 의해서 형성(形成)되며, 특(特)히 (3)의 경우에서 간재적(幹材積)과의 정준상관(正準相關)에 미치는 흉고직경(胸高直徑)의 영향력(影響力)은 기타(其他)의 인자(因子)에 비(比)하여 판이(判異)하게 큰 것으로 밝혀지고 있다(표(表) 2 참조(參照)). 3) 상장성장인자(上長成長因子)인 수고(樹高), 지하고(枝下高) 및 망고(望高) 등(等)의 합성변량(合成變量)과 비대성장인자(肥大成長因子)인 흉고직경(胸高直徑), 중앙직경(中央直徑) 및 수관폭(樹冠幅) 등(等)의 합성변량간(合成變量間)의 정준상관계수(正準相關係數)와 정준변량(正準變量)이 $${\gamma}_{u1,v1}=0.78556^{**},\;\{u_1=1.20569x_1-0.04444x_2-0.21696x_3\\v_1=1.09571x_4-0.14076z_5+0.05285z_6$$와 같이 됨에 따라, 각종 상장성장인자(上長成長因子)와 비대성장인자간(肥大成長因子間)의 고도(高度)의 정준상관(正準相關)에 있어 수고(樹高)와 흉고직경(胸高直徑)만의 기여도(寄與度)가 극(極)히 현저한 것으로서, 상장성장(上長成長)의 총합특성(總合特性)은 수고(樹高)에 의해서, 비대성장(肥大成長)의 총합특성(總合特性)은 흉고직경(胸高直徑)에 의해서 각각(各各) 형성(形成)된다는 사실(事實)이 확인(確認)된 것이다. 따라서 양인자(兩因子)에 대한 간재적계측(幹材積計測)에 있어서의 필수유력인(必須有力因子)로서의 과학성(科學性)이 입증(立證)된 것이라 생각한다(표(表) 2 참조(參照)). 4) 수간(樹幹)의 8개성장인자(個成長因子) 즉(卽), 8차원(次元)의 정보(情報)(특성치(特性値))를 설정(設定)된 유효목표(有效目標) 85%에 따라 3차원(次元)으로 간략화(簡約化)된 총합특성치(總合特性値) 즉(卽), 제(第) 1 ~ 제(第) 3 주성분(主成分)은 다음과 같다. 제(第) 1 주성분(主成分)($Z_1$); $Z_1=0.40192x_1+0.23693x_2+0.37047x_3+0.41745x_4+0.41629x_5+0.33454x_60.42798x_7+0.04923x_8$ 제(第) 2 주성분(主成分)($Z_2$) ; $z_2=-0.09306x_1-0.34707x_2+0.08372x_3-0.03239x_4+0.11152x_5+0.00012x_6+0.02407x_7+0.92185x_8$ 제(第) 3 주성분(主成分)($Z_3$) ; $Z_3=0.19832x_1+0.68210x_2+0.35824x_3-0.22522x_4-0.20876x_5-0.42373x_6-0.15055x_7+0.26562x_8$ 제(第) 1 주성분(主成分)($Z_1$)은 기여율(寄與率)이 63.26%나 되는 매우 높은 정보흡수력(情報吸收力)을 가진 "크기의 인자(因子)(size factor)"로서, 그의 주성분득점(主成分得點)(principal component score)은 인자부하량(因子負荷量)이 매우 높은 간재적(幹材積), 흉고직경(胸高直徑), 중앙직경(中央直徑) 및 수고(樹高) 등(等)에 의해써 결정(決定)되며, 제(第) 2 주성분(主成分)($Z_2$)은 입체적(立體的) 형상(形狀)의 지표(指標) 즉(卽), 수간(樹幹)의 입체적(立體的) 상사성(相似性)과 완구도(完溝度)를 나타내주는 "형상(形狀)의 인자(因子)(shape factor)"로서, 그의 score는 정형수(正形數)의 절대적(絶對的)인 영향력(影響力)에 의(依)해서 형성(形成)되며, 제(第) 3 주성분(主成分)($Z_3$)은 상장성장(上長成長)과 비대성장(肥大成長)과의 역관계(逆關係)의 현상(現象) 즉(卽), 수간(樹幹)의 세장(細長)(또는 굵고 짧음)의 정도를 표시(表示)하는 성장형상(成長形狀)의 지표(指標)로서, 이는 제(第) 2의 "형상(形狀)의 인자(因子)"가 된다. 이상(以上) 3개주성분(個主成分)은 그의 누적기여율(累積寄與率)이 88.36%로서 만족스러운 정보흡수역량(情報吸收力量)을 지니고 있다(표(表) 3 참조(參照)). 5) 본(本) 연구(硏究)에 적용(適用)된 주성분(主成分) 및 정준(正準) 상관분석법(相關分析法)은 적극적(積極的)인 이용개발(利用開發)에 따라서는 삼림계측(森林計測)(임목성장(林木成長)), 지위판정분류(地位判定分類), 삼림(森林) 및 임산업(林産業)의 경영진단(經營診斷), 임산가공(林産加工)(품(品))의 생산관리(生産管理) 및 기지(其地) 총합특성치(總合特性値)의 산정(算定)을 필요(必要)로 하는 분야(分野)에 많은 기여(寄與)가 있을 것으로 사료(思料)된다.

  • PDF