• 제목/요약/키워드: Database Management Systems

검색결과 1,021건 처리시간 0.028초

불균형 데이터 환경에서 변수가중치를 적용한 사례기반추론 기반의 고객반응 예측 (Response Modeling for the Marketing Promotion with Weighted Case Based Reasoning Under Imbalanced Data Distribution)

  • 김은미;홍태호
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.29-45
    • /
    • 2015
  • 고객반응 예측모형은 마케팅 프로모션을 제공할 목표고객을 효과적으로 선정할 수 있도록 하여 프로모션의 효과를 극대화 할 수 있도록 해준다. 오늘날과 같은 빅데이터 환경에서는 데이터 마이닝 기법을 적용하여 고객반응 예측모형을 구축하고 있으며 본 연구에서는 사례기반추론 기반의 고객반응 예측모형을 제시하였다. 일반적으로 사례기반추론 기반의 예측모형은 타 인공지능기법에 비해 성과가 낮다고 알려져 있으나 입력변수의 중요도에 따라 가중치를 상이하게 적용함으로써 예측성과를 향상시킬 수 있다. 본 연구에서는 프로모션에 대한 고객의 반응여부에 영향을 미치는 중요도에 따라 입력변수의 가중치를 산출하여 적용하였으며 동일한 가중치를 적용한 예측모형과의 성과를 비교하였다. 목욕세제 판매데이터를 사용하여 고객반응 예측모형을 개발하고 로짓모형의 계수를 적용하여 입력변수의 중요도에 따라 가중치를 산출하였다. 실증분석 결과 각 변수의 중요도에 기반하여 가중치를 적용한 예측모형이 동일한 가중치를 적용한 예측모형보다 높은 예측성과를 보여주었다. 또한 고객 반응예측 모형과 같이 실생활의 분류문제에서는 두 범주에 속하는 데이터의 수가 현격한 차이를 보이는 불균형 데이터가 대부분이다. 이러한 데이터의 불균형 문제는 기계학습 알고리즘의 성능을 저하시키는 요인으로 작용하며 본 연구에서 제안한 Weighted CBR이 불균형 환경에서도 안정적으로 적용할 수 있는지 검증하였다. 전체데이터에서 100개의 데이터를 무작위로 추출한 불균형 환경에서 100번 반복하여 예측성과를 비교해 본 결과 본 연구에서 제안한 Weighted CBR은 불균형 환경에서도 일관된 우수한 성과를 보여주었다.

스마트 전시 환경에서 프로모션 적용 사례 및 분석 (Case Analysis of the Promotion Methodologies in the Smart Exhibition Environment)

  • 문현실;김남희;김재경
    • 지능정보연구
    • /
    • 제18권3호
    • /
    • pp.171-183
    • /
    • 2012
  • 세계가 급변하고 시시각각 발전하는 기술 속에서 전시 산업은 국가와 기업의 중요한 홍보 수단으로 부각되고 있다. 특히, 전시회에 참여하는 참여업체는 상품 또는 서비스를 전시하고 메시지를 전달하기 위해 마련된 개별 전시공간을 통해 기업들과 소비자들에게 단기간에 신제품과 신기술에 대한 정보를 제공할 수 있으며 국내외 시장의 욕구와 추세변화 및 경쟁업체들에 대한 정보를 파악할 수 있다. 참여업체들은 이러한 참가 목적의 달성을 위해 다양한 프로모션을 계획하고 실행하며 프로모션 정보를 참관객에게 실시간으로 제공할 수 있는 스마트 전시 환경의 구축은 이전보다 다양한 프로모션 기법의 적용 및 실행을 가능하게 하였다. 하지만, 이러한 스마트 전시 환경의 발전에도 불구하고 현재 실행되고 있는 프로모션은 참관객의 욕구나 목표에 대한 이해가 부족한 상태에서 무차별적인 매스마케팅 형태로 진행되어 그 본래의 목적을 상실하고 있다. 따라서, 본 연구에서는 참여업체의 차별화된 프로모션의 계획과 실행을 위해 기존에 널리 사용되는 마케팅 기법인 STP 전략의 프로세스를 도입하여 스마트 전시 환경에서 프로모션에 적합한 참관객을 자동적으로 선정하여 프로모션 정보를 제공하는 시스템을 제안하였다. 특히, 본 연구에서는 다음과 같은 스마트 전시회의 특성을 고려한다. 먼저, 전시회는 전시업체가 관람객과 상호작용하기 위해 모인 일시적이고 시간에 민감한 시장이다. 따라서, 불충분한 기존 참관객의 정보를 이용하는 것이 아닌 신규 참관객 분석의 관점에서 서비스를 제공할 수 있어야 한다. 두 번째로, 스마트 전시 환경에서는 참관객의 정보를 실시간으로 획득할 수 있다는 장점이 있는 반면에 데이터의 분석 및 서비스의 제공이 실시간으로 이루어져야 한다. 마지막으로, 참관객이 스마트 전시 환경에서 만들어 내는 데이터를 활용하는 기법이 필요하다. 스마트 전시 환경에서는 유용한 데이터를 실시간으로 획득할 수 있어 참관객이 전시회 내에서 하는 활동을 분석하는 행위적 세분화에 근거한 접근방식이 필요하다. 이러한 특성을 고려하여 본 연구에서는 제안한 시스템을 실제 전시회에 파일럿 시스템 형태로 적용하여 참관객을 실시간으로 분류 및 분석하고 각 메시지에 대한 성과를 측정하는 실험을 진행하였다. 그 결과, 전시 참관객의 행동 패턴을 4가지로 분류하여 각 군집별 특성을 프로모션 메시지의 성과로 측정하여 그에 적합한 프로모션 전략을 도출하였다. 이러한 프로모션 전략은 실제 전시 참여업체의 프로모션 기획 및 실행에 중요한 전략적 도구로 사용되어 프로모션 성과를 높일 수 있을 것으로 기대된다.

세계문화유산 조선왕릉 석조문화재의 재질특성 및 풍화양상 연구 - 구리 동구릉을 중심으로 - (A Study on the Material Characteristics and Weathering Aspects of Sculpture Stone Around the World Cultural Heritage Joseon Dynasty Royal Tombs - Focused on the East Nine Royal Tombs -)

  • 조하진 ;채승아 ;송진욱 ;이명성 ;이태종
    • 헤리티지:역사와 과학
    • /
    • 제55권4호
    • /
    • pp.180-193
    • /
    • 2022
  • 동구릉은 세계문화유산인 조선왕릉의 대표적인 곳으로, 봉분과 관계된 석조물 979점과 능과 봉분 주위에 석물, 석인상, 석수 등 310점으로 총 1,289점(일부 능의 지대석 제외)이 배치되어 있다. 동구릉 내 석조물은 대부분 흑운모화강암으로 구성되어 있지만 일부 능에서는 담홍색화강암으로 구성되어 있다. 전암대자율 측정결과 천장한 현릉(왕후)을 제외한 건원릉부터 목릉까지 범위 및 평균값이 유사하여, 동일한 채석지에서 산출된 돌을 사용한 것으로 판단된다. 숭릉, 수릉, 경릉의 경우 대자율 범위가 넓게 분포하는데, 조성 당시 석조물과 능을 옮기는 과정에서 새롭게 제작된 석조물이 섞이거나, 채석산지가 다른 석재를 사용하였기 때문이라 판단된다. 보존상태 조사결과 봉분부재와 능상 석조물 모두 표면풍화 중 박리박락과 입상분해에 의한 손상비율이 가장 높았으며, 표면변색의 경우 봉분부재는 황색과 토사, 능상 석조물은 황색, 흑색, 토사 등 복합적인 변색이 확인된다. 생물영향은 동구릉 내 손상양상 중 주된 요인으로 상대적으로 4~5등급 점유율이 높게 확인되었다. 이는 왕릉의 환경이 생물이 정착할 수 있는 토양형성이 용이하고 지속적으로 수분을 얻을 수 있는 조건이 갖춰져 있기 때문이라 판단된다. 구조상태의 경우 비교적 양호한 상태를 보이고 있다. 각 능별 종합훼손등급을 산출한 결과 전체적으로 양호한 상태를 보이고 있으나 이른 시기에 조성된 건원릉과 현릉의 경우 상대적으로 높은 풍화등급을 보였다. 동구릉 내 석조물은 표면풍화로 인해 부재 조각이나 문양 등 상당부분이 손실되었으며 2차 손상이 진행 중이다. 또한 각각의 손상요인이 단독적으로 발생하기보다는 복합적으로 작용하여 다양한 손상이 지속적으로 진행되고 있다. 따라서 왕릉 석조물의 보존처리뿐만 아니라 처리 이후에도 효율적인 관리를 위한 석조물의 정기적 보존현황관리와 자료 확보가 필요하며, 구체적인 관리 매뉴얼과 시스템이 갖춰져야 한다. 이번 연구는 세계문화유산 동구릉 내 석조물의 보존현황을 조사하고 체계적으로 분류하여 보존처리의 우선순위 및 필요성을 제공하였을 뿐만 아니라 향후 동구릉 보존관리 방안을 수립하는데 기초자료로 활용할 수 있을 것으로 판단된다.

공연장에서 다중 몰입도 측정을 위한 시스템 개발 (System Development for Measuring Group Engagement in the Art Center)

  • 류준모;최일영;최이권;김재경
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.45-58
    • /
    • 2014
  • 몰입은 관람객이 콘텐츠를 관람할 때 관람객들이 콘텐츠에 몰두하고 있는 심리적 상태를 의미하는 것으로, 관람객의 몰입경험은 콘텐츠의 만족도에 긍정적인 영향을 미친다. 따라서 공연 같은 콘텐츠를 제공하는 기업들은 콘텐츠의 흥행을 위해 관람객의 몰입도를 측정하는 것은 매우 중요하다. 설문 등의 표본조사 방법을 통해 관람객의 몰입도를 측정 연구는 방송분야 등 에서 널리 사용되고 있다. 이러한 몰입도 측정방법은 콘텐츠 관람 이후 설문을 실시하기 때문에 몰입도를 실시간으로 측정할 수 없을 뿐만 아니라 몰입도 측정의 정확성이 저하되는 문제 등이 있다. 이러한 문제를 해결하기 위하여 생리적 반응이나 얼굴 표정 분석, 그리고 움직임 관찰 방법 등을 이용하여 몰입도를 측정하는 연구가 수행되고 있다. 생체 신호를 이용하여 몰입도를 측정하는 연구의 경우, 1인을 대상으로 생체신호를 측정할 뿐만 아니라, 많은 데이터 처리 시간과 비용이 소모되는 단점이 있어 많은 관람객이 관람하는 공연장에 적용하기에는 한계가 있다. 얼굴 표정인식 통해 몰입도를 측정하는 경우도 1인을 대상으로 하고 있으며, 밝은 조명의 실험실 환경에서만 가능하다는 단점이 존재한다. 또한 관람객들의 움직인 동기화를 이용하여 몰입도를 특정한 연구는 다중관객을 대상으로 하였지만, 이는 실험실 환경에 한정하여 적용된 사례이다. 따라서 본 연구에서는 공연장, 시사회관 등 많은 관람객들이 콘텐츠를 관람하는 실제 환경에서 다중관람객이 다중몰입도의 정량적 평가를 위한 시스템을 설계하고 개발하였다. 제안된 시스템은 외부장치, 서버, 내부장치 등의 3부분으로 구성되어 있다. 서울시 마포구 상암동에 위치한 DMC 홍보관에 상설 전시장으로 운영하고 있으며, 관람객들을 대상으로 데이터를 획득하고 있다. 제안하고 있는 시스템을 활용하면 콘텐츠의 어느 구간에서 관객들이 몰입을 하고 있는지, 어느 구간에서 몰입을 하고 있지 못한지 분석가능하기 때문에, 향후 콘텐츠 제작 및 마케팅에 유용하게 활용할 수 있을 것으로 기대된다.

한국의 세계기록유산 보존 현황 및 과제 (Preservation of World Records Heritage in Korea and Further Registry)

  • 김성수
    • 한국기록관리학회지
    • /
    • 제5권2호
    • /
    • pp.27-48
    • /
    • 2005
  • 이 논문은 한국의 세계기록유산에 대하여 먼저 그 의미와 가치를 재확인하고, 이들 세계기록유산에 대한 보존 관리 및 그 현황을 조사하며, 한국의 기록유산을 디지털화 하는데 있어서의 문제점과 해결책을 모색하고, 추후 한국의 기록유산 중 세계기록유산으로 등록되기를 희망하는 4종의 기록물들에 대한 가치와 의의를 고찰한 연구이다. 본 연구의 상세 사항은 다음과 같다. 첫째, 제2장에서는 한국의 세계기록유산에 대한 가치와 의의를 고찰하였다. 먼저 세계기록유산의 선정기준과 절차 등을 먼저 파악하고, 한국의 세계기록유산인 "훈민정음" "조선왕조실록" "승정원일기" "직지(백운화상초록불조직지심체요절(白雲和尙抄錄佛祖直指心體要節))"에 대하여 각각 그 가치와 의미를 분석하였다. 둘째, 제3장에서는 '한국의 세계기록유산 보존 관리 현황'에서는 세계기록유산을 보존하고 있는 <서울대학교 규장각> <국가기록원 부산기록정보센터> <간송미술관>의 기관별로 그 보존 관리 현황을 고찰하였다. 그 결과, 이 3기관 모두 세계기록유산 보존 관리 현황은 '매우 우수하다'고 평가할 수 있었다. 즉, 1)그 세부적인 보안대책이 완벽하다. 2)그 보존방법에 있어서도 항온 항습의 특별한 서고를 별도로 마련하고, 이 서고 내에서 다시 '오동나무 상자 서장(書欌)'을 설치한 후, 이들 상자와 서장 속에 세계기록유산을 납입하여 보존하고 있다. 3)방화장치와 서고조명 및 소독 등에도 철저를 기하고 있음 등을 파악하였다. 셋째, 제4장에서는 '한국의 기록유산 디지털화 과제'에 대하여 개괄적으로 고찰하였다. 그 결과, 한국 기록유산의 디지털작업 및 DB구축에서 '디지털화 표준'이 가장 중요한 문제이며, 이 문제의 해결을 위해서는 디지털화(Digitization)에 대한 총체적이고 표준적인 시스템의 개발이 시급함을 지적하였다. 그리고 국가기록관리시스템을 개발한 경험이 있는 <국가기록원>과 한국학 고기록물의 디지털화에 많은 관심을 가진 <문화재청>이 공동으로 노력하여, 한국학 관련 기록유산의 디지타이제이션(Digitization)에 대한 총체적이고 표준적인 시스템의 개발이 요구됨을 파악하였다. 넷째, 제5장 '세계기록유산 등록을 추후 희망하는 한국의 기록유산'에서는 한민족의 기록유산 중에서 차후 세계기록유산으로 등재되기를 희망하는 4종 즉, 1)<해인사 고려대장경 경판>, 2)"동의보감", 3)"삼국유사", 4)"무구정광대다라니경"의 기록물에 국한하여, 그 어떤 의미에서 세계적인 가치와 의의가 있는가를 고찰하였다.

핵테러리즘과 세계핵테러방지구상(GICNT): 위협, 대응 및 한국에 대한 함의 (Nuclear Terrorism and Global Initiative to Combat Nuclear Terrorism(GICNT): Threats, Responses and Implications for Korea)

  • 윤태영
    • 시큐리티연구
    • /
    • 제26호
    • /
    • pp.29-58
    • /
    • 2011
  • 2001년 9/11 테러 이후 국제사회에 최대 위협중의 하나인 테러리즘과 핵무기 및 핵물질의 결합 위험성에 대한 경고가 계속되고 있다. 이 연구의 목적은 9/11 테러 이후 증대하는 핵테러리즘 위협에 대한 국제 다자적 대응체제인 세계핵테러방지구상(GICNT)의 목적, 원칙, 특성, 활동, 발전 저해요인 및 발전방향 등을 살펴보고 한국 정책에 대한 함의를 도출하는데 있다. 국제적 핵테러리즘 대응을 위해 GICNT는 포괄적 전략으로 (1) 전 세계 핵시설의 방호, (2) 초국가적 비국가 테러네트워크의 핵테러 책동 대처, (3) 핵보유국의 핵무기와 핵물질의 테러집단에 이전 예방과 억제, (4) 핵밀수 차단 등을 추구해야 할 것이다. 또한 GICNT 활동의 실효적인 국제협력 증진을 위해 시급히 시행해야할 조치들로는 (1) 공동위협 브리핑을 통한 핵테러리즘 위협에 대한 실제적인 가능성 분석 평가, (2) 핵테러리즘 훈련 실시, (3) 신속한 핵안보 체제 평가 실시, (4) 내 외부 위협에 대한 실제적인 핵안보 능력 시험, (5) 핵테러리즘 관련 위협과 사건에 대한 데이터베이스 구축과 공유 등이 있다. 한국의 입장에서 북한 핵관련 무기, 물질 및 기술의 테러집단에 이전되는 문제와 국제테러단체 또는 북한의 한국 핵시설 공격 및 핵장치를 이용한 테러행위 등이 주요 우려사항이다. 이러한 상황에서 한국은 세계 5위의 원자력 발전국으로서 GICNT와 핵테러 관련 국제 협약에 근거해 물리적 방호체제 구축과 핵테러리즘 대응태세를 강화하고 있다. 향후 핵테러리즘을 포괄적이고 효과적으로 예방하기위해서는 공항 항만, 주요교통 요충지점 및 국가 핵심기반시설 등에 핵물질 탐지 검색시스템과 이동형 탐지장비를 강화해야할 것이다. 아울러 대응체계를 강화하기위해 실효적인 위기관리 매뉴얼의 작성과 주요 핵테러 유형에 대한 대테러 훈련과 작전태세를 강화해야할 것이다. 재앙적인 결과를 초래하는 핵테러리즘에 대한 예방 탐지 대응을 위해서는 국내적 관련 법 제도 체제 정비뿐만 아니라 국제협력 강화는 무엇보다 중요하다.

  • PDF

Hierarchical Attention Network를 이용한 복합 장애 발생 예측 시스템 개발 (Development of a complex failure prediction system using Hierarchical Attention Network)

  • 박영찬;안상준;김민태;김우주
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.127-148
    • /
    • 2020
  • 데이터 센터는 컴퓨터 시스템과 관련 구성요소를 수용하기 위한 물리적 환경시설로, 빅데이터, 인공지능 스마트 공장, 웨어러블, 스마트 홈 등 차세대 핵심 산업의 필수 기반기술이다. 특히, 클라우드 컴퓨팅의 성장으로 데이터 센터 인프라의 비례적 확장은 불가피하다. 이러한 데이터 센터 설비의 상태를 모니터링하는 것은 시스템을 유지, 관리하고 장애를 예방하기 위한 방법이다. 설비를 구성하는 일부 요소에 장애가 발생하는 경우 해당 장비뿐 아니라 연결된 다른 장비에도 영향을 미칠 수 있으며, 막대한 손해를 초래할 수 있다. 특히, IT 시설은 상호의존성에 의해 불규칙하고 원인을 알기 어렵다. 데이터 센터 내 장애를 예측하는 선행연구에서는, 장치들이 혼재된 상황임을 가정하지 않고 단일 서버를 단일 상태로 보고 장애를 예측했다. 이에 본 연구에서는, 서버 내부에서 발생하는 장애(Outage A)와 서버 외부에서 발생하는 장애(Outage B)로 데이터 센터 장애를 구분하고, 서버 내에서 발생하는 복합적인 장애 분석에 중점을 두었다. 서버 외부 장애는 전력, 냉각, 사용자 실수 등인데, 이와 같은 장애는 데이터 센터 설비 구축 초기 단계에서 예방이 가능했기 때문에 다양한 솔루션이 개발되고 있는 상황이다. 반면 서버 내 발생하는 장애는 원인 규명이 어려워 아직까지 적절한 예방이 이뤄지지 못하고 있다. 특히 서버 장애가 단일적으로 발생하지 않고, 다른 서버 장애의 원인이 되기도 하고, 다른 서버부터 장애의 원인이 되는 무언가를 받기도 하는 이유다. 즉, 기존 연구들은 서버들 간 영향을 주지 않는 단일 서버인 상태로 가정하고 장애를 분석했다면, 본 연구에서는 서버들 간 영향을 준다고 가정하고 장애 발생 상태를 분석했다. 데이터 센터 내 복합 장애 상황을 정의하기 위해, 데이터 센터 내 존재하는 각 장비별로 장애가 발생한 장애 이력 데이터를 활용했다. 본 연구에서 고려되는 장애는 Network Node Down, Server Down, Windows Activation Services Down, Database Management System Service Down으로 크게 4가지이다. 각 장비별로 발생되는 장애들을 시간 순으로 정렬하고, 특정 장비에서 장애가 발생하였을 때, 발생 시점으로부터 5분 내 특정 장비에서 장애가 발생하였다면 이를 동시에 장애가 발생하였다고 정의하였다. 이렇게 동시에 장애가 발생한 장비들에 대해서 Sequence를 구성한 후, 구성한 Sequence 내에서 동시에 자주 발생하는 장비 5개를 선정하였고, 선정된 장비들이 동시에 장애가 발생된 경우를 시각화를 통해 확인하였다. 장애 분석을 위해 수집된 서버 리소스 정보는 시계열 단위이며 흐름성을 가진다는 점에서 이전 상태를 통해 다음 상태를 예측할 수 있는 딥러닝 알고리즘인 LSTM(Long Short-term Memory)을 사용했다. 또한 단일 서버와 달리 복합장애는 서버별로 장애 발생에 끼치는 수준이 다르다는 점을 감안하여 Hierarchical Attention Network 딥러닝 모델 구조를 활용했다. 본 알고리즘은 장애에 끼치는 영향이 클 수록 해당 서버에 가중치를 주어 예측 정확도를 높이는 방법이다. 연구는 장애유형을 정의하고 분석 대상을 선정하는 것으로 시작하여, 첫 번째 실험에서는 동일한 수집 데이터에 대해 단일 서버 상태와 복합 서버 상태로 가정하고 비교분석하였다. 두 번째 실험은 서버의 임계치를 각각 최적화 하여 복합 서버 상태일 때의 예측 정확도를 향상시켰다. 단일 서버와 다중 서버로 각각 가정한 첫 번째 실험에서 단일 서버로 가정한 경우 실제 장애가 발생했음에도 불구하고 5개 서버 중 3개의 서버에서는 장애가 발생하지 않은것으로 예측했다. 그러나 다중 서버로 가정했을때에는 5개 서버 모두 장애가 발생한 것으로 예측했다. 실험 결과 서버 간 영향이 있을 것이라고 추측한 가설이 입증된 것이다. 연구결과 단일 서버로 가정했을 때 보다 다중 서버로 가정했을 때 예측 성능이 우수함을 확인했다. 특히 서버별 영향이 다를것으로 가정하고 Hierarchical Attention Network 알고리즘을 적용한 것이 분석 효과를 향상시키는 역할을 했다. 또한 각 서버마다 다른 임계치를 적용함으로써 예측 정확도를 향상시킬 수 있었다. 본 연구는 원인 규명이 어려운 장애를 과거 데이터를 통해 예측 가능하게 함을 보였고, 데이터 센터의 서버 내에서 발생하는 장애를 예측할 수 있는 모델을 제시했다. 본 연구결과를 활용하여 장애 발생을 사전에 방지할 수 있을 것으로 기대된다.

구인구직사이트의 구인정보 기반 지능형 직무분류체계의 구축 (Development of Intelligent Job Classification System based on Job Posting on Job Sites)

  • 이정승
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.123-139
    • /
    • 2019
  • 주요 구인구직사이트의 직무분류체계가 사이트마다 상이하고 SW분야에서 제안한 'SQF(Sectoral Qualifications Framework)'의 직무분류체계와도 달라 SW산업에서 SW기업, SW구직자, 구인구직사이트가 모두 납득할 수 있는 새로운 직무분류체계가 필요하다. 본 연구의 목적은 주요 구인구직사이트의 구인정보와 'NCS(National Competaency Standars)'에 기반을 둔 SQF를 분석하여 시장 수요를 반영한 표준 직무분류체계를 구축하는 것이다. 이를 위해 주요 구인구직사이트의 직종 간 연관분석과 SQF와 직종 간 연관분석을 실시하여 직종 간 연관규칙을 도출하고자 한다. 이 연관규칙을 이용하여 주요 구인구직사이트의 직무분류체계를 맵핑하고 SQF와 직무 분류체계를 맵핑함으로써 데이터 기반의 지능형 직무분류체계를 제안하였다. 연구 결과 국내 주요 구인구직사이트인 '워크넷,' '잡코리아,' '사람인'에서 3만여 건의 구인정보를 open API를 이용하여 XML 형태로 수집하여 데이터베이스에 저장했다. 이 중 복수의 구인구직사이트에 동시 게시된 구인정보 900여 건을 필터링한 후 빈발 패턴 마이닝(frequent pattern mining)인 Apriori 알고리즘을 적용하여 800여 개의 연관규칙을 도출하였다. 800여 개의 연관규칙을 바탕으로 워크넷, 잡코리아, 사람인의 직무분류체계와 SQF의 직무분류체계를 맵핑하여 1~4차로 분류하되 분류의 단계가 유연한 표준 직무분류체계를 새롭게 구축했다. 본 연구는 일부 전문가의 직관이 아닌 직종 간 연관분석을 통해 데이터를 기반으로 직종 간 맵핑을 시도함으로써 시장 수요를 반영하는 새로운 직무분류체계를 제안했다는데 의의가 있다. 다만 본 연구는 데이터 수집 시점이 일시적이기 때문에 시간의 흐름에 따라 변화하는 시장의 수요를 충분히 반영하지 못하는 한계가 있다. 계절적 요인과 주요 공채 시기 등 시간에 따라 시장의 요구하는 변해갈 것이기에 더욱 정확한 매칭을 얻기 위해서는 지속적인 데이터 모니터링과 반복적인 실험이 필요하다. 본 연구 결과는 향후 SW산업 분야에서 SQF의 개선방향을 제시하는데 활용될 수 있고, SW산업 분야에서 성공을 경험삼아 타 산업으로 확장 이전될 수 있을 것으로 기대한다.

클라우드 환경에서 MongoDB 기반의 비정형 로그 처리 시스템 설계 및 구현 (Design and Implementation of MongoDB-based Unstructured Log Processing System over Cloud Computing Environment)

  • 김명진;한승호;최운;이한구
    • 인터넷정보학회논문지
    • /
    • 제14권6호
    • /
    • pp.71-84
    • /
    • 2013
  • 컴퓨터 시스템 운용 간에 발생하는 많은 정보들이 기록되는 로그데이터는 컴퓨터 시스템 운용 점검, 프로세스의 최적화, 사용자 최적화 맞춤형 제공 등 다방면으로 활용되고 있다. 본 논문에서는 다양한 종류의 로그데이터들 중에서 은행에서 발생하는 대용량의 로그데이터를 처리하기 위한 클라우드 환경 하에서의 MongoDB 기반 비정형 로그 처리시스템을 제안한다. 은행업무간 발생하는 대부분의 로그데이터는 고객의 업무처리 프로세스 간에 발생하며, 고객 업무 프로세스 처리에 따른 로그데이터를 수집, 저장, 분류, 분석하기 위해서는 별도로 로그데이터를 처리하는 시스템을 구축해야만 한다. 하지만 기존 컴퓨팅환경 하에서는 폭발적으로 증가하는 대용량 비정형 로그데이터 처리를 위한 유연한 스토리지 확장성 기능, 저장된 비정형 로그데이터를 분류, 분석 처리할 수 있는 기능을 구현하기가 매우 어렵다. 이에 따라 본 논문에서는 클라우드 컴퓨팅 기술을 도입하여 기존 컴퓨팅 인프라 환경의 분석 도구 및 관리체계에서 처리하기 어려웠던 비정형 로그데이터를 처리하기 위한 클라우드 환경기반의 로그데이터 처리시스템을 제안하고 구현하였다. 제안한 본 시스템은 IaaS(Infrastructure as a Service) 클라우드 환경을 도입하여 컴퓨팅 자원의 유연한 확장성을 제공하며 실제로, 로그데이터가 장기간 축적되거나 급격하게 증가하는 상황에서 스토리지, 메모리 등의 자원을 신속성 있고 유연하게 확장을 할 수 있는 기능을 포함한다. 또한, 축적된 비정형 로그데이터의 실시간 분석이 요구되어질 때 기존의 분석도구의 처리한계를 극복하기 위해 본 시스템은 하둡 (Hadoop) 기반의 분석모듈을 도입함으로써 대용량의 로그데이터를 빠르고 신뢰성 있게 병렬 분산 처리할 수 있는 기능을 제공한다. 게다가, HDFS(Hadoop Distributed File System)을 도입함으로써 축적된 로그데이터를 블록단위로 복제본을 생성하여 저장관리하기 때문에 본 시스템은 시스템 장애와 같은 상황에서 시스템이 멈추지 않고 작동할 수 있는 자동복구 기능을 제공한다. 마지막으로, 본 시스템은 NoSQL 기반의 MongoDB를 이용하여 분산 데이터베이스를 구축함으로써 효율적으로 비정형로그데이터를 처리하는 기능을 제공한다. MySQL과 같은 관계형 데이터베이스는 복잡한 스키마 구조를 가지고 있기 때문에 비정형 로그데이터를 처리하기에 적합하지 않은 구조를 가지고 있다. 또한, 관계형 데이터베이스의 엄격한 스키마 구조는 장기간 데이터가 축적되거나, 데이터가 급격하게 증가할 때 저장된 데이터를 분할하여 여러 노드에 분산시키는 노드 확장이 어렵다는 문제점을 가지고 있다. NoSQL은 관계형 데이터베이스에서 제공하는 복잡한 연산을 지원하지는 않지만 데이터가 빠르게 증가할 때 노드 분산을 통한 데이터베이스 확장이 매우 용이하며 비정형 데이터를 처리하는데 매우 적합한 구조를 가지고 있는 비관계형 데이터베이스이다. NoSQL의 데이터 모델은 주로 키-값(Key-Value), 컬럼지향(Column-oriented), 문서지향(Document-Oriented)형태로 구분되며, 제안한 시스템은 스키마 구조가 자유로운 문서지향(Document-Oriented) 데이터 모델의 대표 격인 MongoDB를 도입하였다. 본 시스템에 MongoDB를 도입한 이유는 유연한 스키마 구조에 따른 비정형 로그데이터 처리의 용이성뿐만 아니라, 급격한 데이터 증가에 따른 유연한 노드 확장, 스토리지 확장을 자동적으로 수행하는 오토샤딩 (AutoSharding) 기능을 제공하기 때문이다. 본 논문에서 제안하는 시스템은 크게 로그 수집기 모듈, 로그 그래프생성 모듈, MongoDB 모듈, Hadoop기반 분석 모듈, MySQL 모듈로 구성되어져 있다. 로그 수집기 모듈은 각 은행에서 고객의 업무 프로세스 시작부터 종료 시점까지 발생하는 로그데이터가 클라우드 서버로 전송될 때 로그데이터 종류에 따라 데이터를 수집하고 분류하여 MongoDB 모듈과 MySQL 모듈로 분배하는 기능을 수행한다. 로그 그래프생성 모듈은 수집된 로그데이터를 분석시점, 분석종류에 따라 MongoDB 모듈, Hadoop기반 분석 모듈, MySQL 모듈에 의해서 분석되어진 결과를 사용자에게 웹 인터페이스 형태로 제공하는 역할을 한다. 실시간적 로그데이터분석이 필요한 로그데이터는 MySQL 모듈로 저장이 되어 로그 그래프생성 모듈을 통하여 실시간 로그데이터 정보를 제공한다. 실시간 분석이 아닌 단위시간당 누적된 로그데이터의 경우 MongoDB 모듈에 저장이 되고, 다양한 분석사항에 따라 사용자에게 그래프화해서 제공된다. MongoDB 모듈에 누적된 로그데이터는 Hadoop기반 분석모듈을 통해서 병렬 분산 처리 작업이 수행된다. 성능 평가를 위하여 로그데이터 삽입, 쿼리 성능에 대해서 MySQL만을 적용한 로그데이터 처리시스템과 제안한 시스템을 비교 평가하였으며 그 성능의 우수성을 검증하였다. 또한, MongoDB의 청크 크기별 로그데이터 삽입 성능평가를 통해 최적화된 청크 크기를 확인하였다.

논산지역 마을상수도 수질의 수리지화학 및 통계 분석 (Hydrogeochemistry and Statistical Analysis of Water Quality for Small Potable Water Supply System in Nonsan Area)

  • 고경석;안주성;석희준;이진수;김형수
    • 한국지하수토양환경학회지:지하수토양환경
    • /
    • 제13권6호
    • /
    • pp.72-84
    • /
    • 2008
  • 본 연구는 논산지역 마을상수도를 대상으로 수질 모니터링, 수리지화학적 고찰 및 다변량 통계분석을 통하여 수질에 관한 문제점과 원인을 규명하고 타당한 관리 방안을 마련하고자 수행되었다. 논산지역은 마을상수도 이용이 많은 전형적인 농촌지역으로 지질은 화강암이 가장 넓은 면적을 차지하며 옥천대 변성퇴적암, 편마암과 화산암이 분포한다. 마을상수도의 수질 모니터링 결과 전국 평균인 2.5%보다 5-8배 높은 13-21% 정도가 수질기준을 초과하였으며 주요 오염성분은 질산성질소, 탁도, 총대장균, 일반세균, 불소 및 비소로 조사되었다. 연구지역 남쪽과 북쪽에서 높게 나타나는 질산성질소 오염의 주요 원인으로서 비닐하우스 같은 시설영농의 영향이 가장 큰 것으로 나타났다. 마을상수도 수질은 Ca와 $HCO_3$가 지배적이나 화강암 지역에서는 농경지와 주거지 등의 인위적인 오염의 영향으로 Na, Cl 및 $NO_3$가 증가되었다. 주성분분석 결과 주로 농경과 인위적 오염의 영향을 나타내는 주성분 2에 의하여 크게 두 개의 그룹인 화강암과 편마암 및 옥천대 지하수로 구분된다. 판별분석은 초기 지질분류와 판별분석 예측결과의 오차가 5.56%로서 주성분분석보다 더 명확하게 각 지질별 지하수 특징을 보여준다. 다변량 통계분석은 수리지화학적 특성의 종합적 분석을 가능하게 하여 지질특성에 의한 지하수 수질의 변화를 명확하게 구분할 수 있는 방법으로 사료되었다. 논산시 마을상수도 수질에 대한 연구결과는 지질에 의해 영향받는 토지이용, 토양 특성 및 지형 등이 복합적으로 작용하여 지하수 수리지화학적 특성을 결정하는 것임을 확인하였다. 따라서 향후 정부 및 지자체의 마을상수도관리는 지질, 토지이용, 지형 및 토양 특성 등에 대한 종합적 자료 구축 및 해석이 필요하다.