• 제목/요약/키워드: 가중치 모델

검색결과 939건 처리시간 0.037초

축사 주변의 악취 및 부유분진의 CALPUFF 모델링: 계사 중심으로 (CALPUFF Modeling of Odor/suspended Particulate in the Vicinity of Poultry Farms)

  • 임광희
    • Korean Chemical Engineering Research
    • /
    • 제57권1호
    • /
    • pp.90-104
    • /
    • 2019
  • 본 연구에서는 시간별 실제 기상데이터를 토대로 한 CALPUFF 모델링 수행을 통하여 민원지역에 대한 신뢰성이 있는 모델링 결과를 도출하였다. 무창형 계사 P1 및 P2의 방진망 구조물(chamber) 및 개방형 계사 P3로부터의 오염원 배출 및 확산거동을, 부피오염원으로서의 CALPUFF 모델링 또는 각 방향의 배출면적을 가중치로 한 수직 배기의 평균 선속도인 모델 배출 선속도($u^M_y$)를 적용한 점오염원으로서의 최종 CALPUFF 모델링으로 구현하였다. 또한 계사 P1, P2 및 P3에서의 배출되는 악취 및 분진오염원 배출량에 대한 각각의 제거효율(0, 20, 50 및 80%) 또는 각각 대응되는 emission rate (100, 80, 50 및 20%)에 따른 시나리오를 기본으로, CALPUFF 모델링을 수행하여 각각에 대한 민원지역의 농도예측을 수행하였다. 이러한 민원지역에 대한 암모니아, 황화수소, $PM_{2.5}$$PM_{10}$에 대한 농도예측과 악취방지법 및 대기환경법에서 요구되는 오염물질 농도와 비교하여, 계사 P1, P2 및 P3에 요구되는 암모니아, 황화수소, $PM_{2.5}$$PM_{10}$에 대한 제거율을 산정하였다. 그 결과로서, "P1, P2 및 P3에서 각각의 배출농도를 줄인 비율만큼 각각의 discrete receptor에서의 농도가 같은 비율로 감소한다"는 가정(a priori assumption)이 본 CALPUFF 모델링 범위 내에서 적용 가능함이 입증되었다. 한편 부피오염원을 적용한 CALPUFF 모델링을 수행한 경우에서 방지시설의 요구되는 제거효율은, 점오염원을 적용한 CALPUFF 모델링을 수행한 경우와 비교하였을 때에 P1의 경우에는 상호간에 유사하였으나, P2와 P3에서 암모니아와 $PM_{10}$의 경우에 더 높게 나타났다. 그럼에도 불구하고 민원해결을 위한 안전한 접근방법으로서 부피오염원으로서 CALPUFF 모델링을 선정하였다. 이에 따라서 본 연구에서는 암모니아, 황화수소, $PM_{2.5}$$PM_{10}$와 같은 오염원배출에 대하여 무창형 계사 P1 및 P2에 요구되는 정량적 방지수준을 타당하게 도출하였다.

다이내믹 토픽 모델링의 의미적 시각화 방법론 (Semantic Visualization of Dynamic Topic Modeling)

  • 연진욱;부현경;김남규
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.131-154
    • /
    • 2022
  • 최근 방대한 양의 텍스트 데이터에 대한 분석을 통해 유용한 지식을 창출하는 시도가 꾸준히 증가하고 있으며, 특히 토픽 모델링(Topic Modeling)을 통해 다양한 분야의 여러 이슈를 발견하기 위한 연구가 활발히 이루어지고 있다. 초기의 토픽 모델링은 토픽의 발견 자체에 초점을 두었지만, 점차 시기의 변화에 따른 토픽의 변화를 고찰하는 방향으로 연구의 흐름이 진화하고 있다. 특히 토픽 자체의 내용, 즉 토픽을 구성하는 키워드의 변화를 수용한 다이내믹 토픽 모델링(Dynamic Topic Modeling)에 대한 관심이 높아지고 있지만, 다이내믹 토픽 모델링은 분석 결과의 직관적인 이해가 어렵고 키워드의 변화가 토픽의 의미에 미치는 영향을 나타내지 못한다는 한계를 갖는다. 본 논문에서는 이러한 한계를 극복하기 위해 다이내믹 토픽 모델링과 워드 임베딩(Word Embedding)을 활용하여 토픽의 변화 및 토픽 간 관계를 직관적으로 해석할 수 있는 방안을 제시한다. 구체적으로 본 연구에서는 다이내믹 토픽 모델링 결과로부터 각 시기별 토픽의 상위 키워드와 해당 키워드의 토픽 가중치를 도출하여 정규화하고, 사전 학습된 워드 임베딩 모델을 활용하여 각 토픽 키워드의 벡터를 추출한 후 각 토픽에 대해 키워드 벡터의 가중합을 산출하여 각 토픽의 의미를 벡터로 나타낸다. 또한 이렇게 도출된 각 토픽의 의미 벡터를 2차원 평면에 시각화하여 토픽의 변화 양상 및 토픽 간 관계를 표현하고 해석한다. 제안 방법론의 실무 적용 가능성을 평가하기 위해 DBpia에 2016년부터 2021년까지 공개된 논문 중 '인공지능' 관련 논문 1,847건에 대한 실험을 수행하였으며, 실험 결과 제안 방법론을 통해 다양한 토픽이 시간의 흐름에 따라 변화하는 양상을 직관적으로 파악할 수 있음을 확인하였다.

임팩트 투자자의 투자 우선순위와 비중 차이에 관한 연구 (Investment Priorities and Weight Differences of Impact Investors)

  • 유성호;황보윤
    • 벤처창업연구
    • /
    • 제18권3호
    • /
    • pp.17-32
    • /
    • 2023
  • 최근 정부와 공공의 역할만으로 사회문제를 모두 해결하기에는 한계가 있어서, 시장에서 영리 조직의 효율성이나 효과성을 통해 사회문제를 해결하면서 성장하는 것을 목표로 하는 소셜벤처의 필요성이 증대되었다. 이러한 배경하에 국내 스타트업 생태계에서도 소셜벤처 창업이 증가하면서 소셜벤처 투자자인 임팩트 투자자에 대한 관심도 증가하고 있다. 따라서, 본 연구는 임팩트 투자자의 투자 결정에 있어서 인지과정과 의사결정 환경에 따른 판단 정보의 타당도와 가중치를 객관적으로 분석하고자 판단분석기법을 활용하였다. 연구 진행을 위한 세 가지 분류로 첫째, 투자자로서 재무적 이익과 회수 가능성 판단을 위한 초기투자단계에서의 투자 우선 순위, 둘째, 사회에 미치는 영향과 파급력, 그리고 소셜벤처의 상생과 연대를 위한 창업가(팀)의 정치적 기술, 셋째, 임팩트투자펀드 조성 목적에 부합하는 소셜벤처기업의 소셜미션으로 구성하였다. 연구 결과 첫째, 임팩트투자자의 투자결정의 우선 순위는 창업가(팀)의 전문성, 창업가(팀)의 성공시의 잠재적 수익률, 창업가(팀)의 소셜미션인 것으로 나타났다. 둘째, 임팩트투자자가 투자결정요인에 대하여 판단하는 인식이 획일적이기보다는 투자 결정 요소가 제각각 다르며, 비중을 두는 정도에 있어서도 생각의 차이가 있다는 것이다. 셋째, 임팩트투자의 다양한 투자결정 요인에서 '창업자(팀)의 네트워킹 능력', '창업자(팀)의 사회적 통찰력', '창업자(팀)의 대인관계 영향력은 다른 4개의 요인보다 상대적으로 낮게 나타났다. 본 연구를 통해 실무적 기여점은 소셜벤처기업들이 투자 유치과정에서 임팩트투자자의 투자결정요인이 무엇인지 이해를 돕고, 소셜벤처 투자자에게는 임팩트투자자의 판단사례와 분석을 참고하여 투자결정의 질적 제고를 기대할 수 있다. 학술적 기여점은 임팩트 투자자의 투자 우선 순위와 비중 차이를 실증적으로 규명하였다는 것이다.

  • PDF

한국 성인의 아침식사 에너지 수준에 따른 대사적 위험과 영양상태: 2007~2009년 국민건강영양조사 자료 이용 (Metabolic risk and nutritional state according to breakfast energy level of Korean adults: Using the 2007~2009 Korea National Health and Nutrition Examination Survey)

  • 장소현;서윤석;정영진
    • Journal of Nutrition and Health
    • /
    • 제48권1호
    • /
    • pp.46-57
    • /
    • 2015
  • 우리나라 성인에서 아침결식이 증가하고 있으며, 아침결식은 대사적 위험을 증가시킨다고 한다. 본 연구는 한국성인을 위한 대사적 위험성이 낮은 아침식사 에너지 수준을 제시하고자 제4기 (2007~2009) 국민건강영양조사 자료를 이용하여 19~64세 성인 12,238명을 대상으로 1일 에너지섭취량이 500~5,000 kcal에 속하며, 임신 또는 수유중인 자, 대사 이상 질환이나 암으로 치료받는 자를 제외한 7,769명 (남자 38.4%, 여자 61.6%)의 자료를 분석하였다. 아침식사 에너지비율은 개인별 아침식사의 에너지섭취량이 에너지 필요추정량의 10% 미만 (극저에너지군), 10~20% 미만 (저에너지군), 20~30% 미만 (중간에너지군), 30% 이상 (충분에너지군)인 네 군으로 분류하여 대사질환의 위험요인별 교차비와 영양상태를 비교하였다. 모든 자료는 해당 년도의 가중치를 적용한 후 일반선형모델을 사용하여 성, 연령, 거주지역, 소득수준, 교육수준, 직업 유무 또는 에너지 섭취량을 추가 보정하여 분석하였다. 유의성은 ${\alpha}=0.05$ 수준에서 검토하였다. 1) 전체 대상자 중 아침식사 에너지가 1일 에너지필요추정량의 30% 이상에 속하는 대상자는 16.9%, 20~30% 미만군에 39.2%, 10~20% 미만군에 37.6%, 10% 미만군에 6.3% 순으로 나타났다. 극저에너지군과 저에너지군에는 여자보다 남자, 19~39세의 젊은 성인, 도시 거주자가 많았고 소득수준은 중상이상, 교육수준은 고졸이상이 많았고 직업을 가진 사람, 가족과 아침식사를 하지 않는 사람이 많았으나 중간에너지군과 충분에너지군에는 그와 대조적으로 여자, 40세 이상 성인, 읍면거주자, 소득과 교육수준이 낮고, 무직, 가족과 식사하는 사람이 많았다. 2) 충분에너지군에서 곡류 (주식류, 스낵류), 당류와 함께 감자류, 두류, 육류 및 난류, 어패류, 채소류, 과일류, 유지류, 조미료류의 섭취량이 네 군보다 높았다. 극저에너지군은 채소류의 섭취량이 네 군 중 가장 낮았고, 스낵류, 당류와 함께 육류 및 난류, 유지류, 조미료류의 섭취량이 저에너지 군과 중간에너지군보다 높았다. 3) 아침식사 에너지가 낮은 군일수록 지방에너지비와 단백질에너지비는 높고 탄수화물에너지비는 낮았으며, 에너지와 모든 영양소 섭취량 및 영양소적정섭취비 (NAR, MAR)가 낮아 영양소별 평균필요량 (EAR)에 미달되게 섭취한 대상자의 비율이 높았다. 충분에너지군은 에너지와 모든 영양소의 섭취실태가 가장 양호하였다. 4) 체중, 신장, 체질량지수와 허리둘레가 극저에너지군에서는 높은 반면, 충분에너지군에서는 낮아서 복부 비만위험은 충분에너지군을 기준으로 아침에너지섭취가 낮을수록 증가하여 극저에너지군에서 1.9배로, 저에너지군 1.44배, 중간에너지군 1.32배에 비해 높았으며, 체질량지수에 의한 비만 위험도 유사한 결과를 보였다. 또한 충분에너지군에서 혈청총콜레스테롤이 가장 낮아서 이상지질혈증 발생 위험은 충분에너지군에 비해 극저에너지군에서 1.84배 높았고 공복혈당에 의한 당뇨 발생 위험도 극저에너지군에서 1.57배 높았다. 이상의 연구결과에서 19~64세 성인에서 아침식사 에너지가 개인별 에너지 필요추정량의 10% 미만인 군은 비만, 이상지질혈증, 당뇨의 위험과 동시에 영양부족의 우려가 있는 반면에, 에너지 필요추정량의 30% 이상군은 대사위험성이 가장 낮고 영양상태가 가장 양호하였기 때문에 우리나라 19~65세 미만 성인을 위한 아침식사의 에너지 가이드라인으로 에너지 필요추정량의 30% 이상을 제시할 수 있을 것으로 보인다.

합성곱 신경망의 비지니스 응용: 런웨이 이미지를 사용한 의류 분류를 중심으로 (Business Application of Convolutional Neural Networks for Apparel Classification Using Runway Image)

  • 서이안;신경식
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.1-19
    • /
    • 2018
  • 최근 딥러닝은 오디오, 텍스트 및 이미지 데이터와 같은 비 체계적인 데이터를 대상으로 다양한 추정, 분류 및 예측 문제에 사용 및 적용되고 있다. 특히, 의류산업에 적용될 경우 딥러닝 기법을 활용한 의류 인식, 의류 검색, 자동 제품 추천 등의 심층 학습을 기반으로 한 응용이 가능하다. 이 때의 핵심모형은 합성곱 신경망을 사용한 이미지 분류이다. 합성곱 신경망은 입력이 전달되고 출력에 도달하는 과정에서 가중치와 같은 매개 변수를 학습하는 뉴런으로 구성되고, 영상 분류에 가장 적합한 방법론으로 사용된다. 기존의 의류 이미지 분류 작업에서 대부분의 분류 모형은 의류 이미지 자체 또는 전문모델 착용 의류와 같이 통제된 상황에서 촬영되는 온라인 제품 이미지를 사용하여 학습을 수행한다. 하지만 본 연구에서는 통제되지 않은 상황에서 촬영되고 사람들의 움직임과 다양한 포즈가 포함된 스트릿 패션 이미지 또는 런웨이 이미지를 분류하려는 상황을 고려하여 분류 모형을 훈련시키는 효과적인 방법을 제안한다. 이동성을 포착하는 런웨이 의류 이미지로 모형을 학습시킴으로써 분류 모형의 다양한 쿼리 이미지에 대한 적응력을 높일 수 있다. 모형 학습 시 먼저 ImageNet 데이터셋을 사용하여 pre-training 과정을 거치고 본 연구를 위해 수집된 32 개 주요 패션 브랜드의 2426개 런웨이 이미지로 구성된 데이터셋을 사용하여 fine-tuning을 수행한다. 학습 과정의 일반화를 고려해 10번의 실험을 수행하고 제안된 모형은 최종 테스트에서 67.2 %의 정확도를 기록했다. 본 연구 모형은 쿼리 이미지가 런웨이 이미지, 제품 이미지 또는 스트릿 패션 이미지가 될 수 있는 다양한 분류 환경에 적용될 수 있다. 구체적으로는 패션 위크에서 모바일 어플리케이션 서비스를 통해 브랜드 검색을 용이하게 하는 서비스를 제공하거나, 패션 잡지사의 편집 작업에 사용되어 브랜드나 스타일을 분류하고 라벨을 붙일 수 있으며, 온라인 쇼핑몰에서 아이템 정보를 제공하거나 유사한 아이템을 추천하는 등의 다양한 목적에 적용될 수 있다.

온톨로지 기반 영화 메타데이터간 연관성을 활용한 영화 추천 기법 (The Ontology Based, the Movie Contents Recommendation Scheme, Using Relations of Movie Metadata)

  • 김재영;이석원
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.25-44
    • /
    • 2013
  • 최근 IPTV와 스마트 TV 등의 등장과 영상 콘텐츠를 시청하고 검색할 수 있는 웹 서비스의 등장으로 영상 콘텐츠의 접근이 용이해져 사용자들은 자신이 원하는 콘텐츠를 찾고자 하는 요구가 증가하고 있다. 하지만 서비스되는 콘텐츠의 양이 방대하여 영상 콘텐츠를 검색할 때 사용하는 키워드 기반의 검색은 많은 양의 결과를 가져오며 사용자가 필요로 하지 않은 결과가 검색된다. 따라서 사용자가 원하는 콘텐츠의 검색 시간과 노력이 증가 하게 되었다. 이를 극복 하기 위해 콘텐츠 추천 및 검색에 대한 연구가 수행되어 왔다. 기존의 연구에는 사용자의 선호도 분석을 통하여 영상 콘텐츠를 추천하거나 비슷한 성향을 가지는 사용자들을 분류하여 콘텐츠를 추천하는 기법들이 연구되어 왔다. 본 논문에서는 영상 콘텐츠 중 영화의 추천을 위해 사용자 개인의 영화 메타데이터의 선호도를 분석하고, 영화의 메타데이터와 영화의 유사성을 도출하여 이를 기반으로 영화 추천 기법을 제안한다. 영화의 특징을 담고 있고, 사용자의 영화 선호도에 영향을 끼치는 장르, 줄거리, 배우, 키워드 등의 영화 메타데이터를 기반으로 온톨로지를 구축하고, 확률 기법을 통한 메타 데이터간의 유사성을 분석하여 유사 메타데이터를 연결한다. 또한 사용자의 선호도와 그룹을 정의하고, 사용자 정보를 활용하기 위한 사용자 모델을 정의한다. 제안하는 추천 기법은 1) 사용자 정보기반의 후보 영화 검색 컴포넌트, 2) 사용자 선호기반의 후보 영화 검색 컴포넌트, 3) 1)과 2)의 결과를 통합하고 가중치를 부여하는 컴포넌트, 4) 최종결과의 분석을 통한 개인화된 영화 추천 컴포넌트 등 총 4가지 컴포넌트로 구성된다. 제안하는 추천 기법의 실험을 위하여 20대 남/녀 10명씩 20명을 대상으로 실험을 진행하였으며, 실험결과 평균 Top-5에서 2.1개 Top-10에서 3.35개 Top-20에서 6.35의 영화가 보고 싶은 영화로 선택되었다. 본 논문에서는 영화 메타데이터간의 연관성 도출을 통하여 영화간의 유사성을 도출하고 이를 기반으로 사용자의 기본적인 정보를 활용한 추천뿐만 아니라 사용자가 예상하지 못한 영화의 추천이 가능하다.

한국 폐경 후 여성 커피소비자에서 우유섭취여부에 따른 골밀도와 영양상태 비교 : 2008~2009년 국민건강영양조사 자료 이용 (Bone mineral density and nutritional state according to milk consumption in Korean postmenopausal women who drink coffee: Using the 2008~2009 Korea National Health and Nutrition Examination Survey)

  • 유선형;서윤석
    • Journal of Nutrition and Health
    • /
    • 제49권5호
    • /
    • pp.347-357
    • /
    • 2016
  • 한국인의 최근 커피소비의 급격한 증가는 카페인의 과다 섭취로 이어지고 이는 칼슘흡수를 낮춰 골밀도 저하를 야기할 수 있다. 이에 본 연구에서는 한국 폐경 후 여성 커피소비자에서 우유섭취 여부가 골밀도에 차이를 가져올 수 있는지 파악하고자 국민건강영양조사 제4기 2, 3차년도(2008년, 2009년) 자료를 이용하여 50세 이상 폐경 후 여성을 대상으로 갑상선장애, 만성질환, 암을 진단받거나 치료받는 자, 골다공증 치료를 받는자와 여성호르몬제 복용자를 제외한 1,373명의 자료를 분석하였다. 커피와 우유 섭취 여부에 따라 커피는 섭취하나 우유를 섭취하지 않는군 (커피군), 커피와 우유를 모두 섭취하는군 (커피 우유군), 커피를 섭취하지 않으면서 우유를 섭취하는군 (우유군), 커피와 우유를 모두 섭취하지 않는군 (비섭취군)의 네 군으로 분류하고 부위별 골밀도와 영양상태를 비교하였다. 모든 자료는 해당 년도의 가중치를 적용한 후 일반선형모델을 사용하였고, 골밀도 비교시에는 연령, 체질량지수, 신체활동, 음주, 흡연, 칼슘섭취량을 보정하여 분석하였다. 유의성은 ${\alpha}=0.05$ 수준에서 검토하였다. 1) 전체 대상자 중 커피 우유군은 65세미만의 젊은 층이 많고 교육수준과 소득수준이 높고, 도시 거주자가 많았다. 반면에 비섭취군과 커피군은 65세 이상이 많고 교육수준과 소득수준이 낮으며 읍 면 거주자가 많았다. 커피 우유군에서 음주자의 비율이 높았으나, 신체적 활동 정도나 흡연에서는 군 간에 차이가 나타나지 않았다. 2) 총대퇴골과 요추부위의 골밀도 및 T-score값은 커피 우유군에서 세 군에 비해 가장 높았고 우유군, 커피군의 순으로 높았으며, 비섭취군에서 가장 낮았다. T-score값으로 골 건강상태를 판정하였을 때 유의성은 나타나지 않았으나, 커피 우유군에 골밀도 정상 해당자가 많고 우유군, 커피군이 그 뒤를 이었고, 비섭취군에 골다공증 해당자가 많이 나타나는 경향을 보였다. 3) 허리둘레를 제외하고는 체중, 신장, 체질량지수, 제지방조직량이 커피 우유군에서 모두 높았다. 반면에 커피군은 커피 우유군에 비해 이들 체위계측치가 모두 낮았고, 또한 우유군에 비해 신장은 낮고 체중은 높아 체질량지수가 높고 허리둘레도 높은 대신 제지방량은 낮았다. 우유군은 네군 중 체질량지수와 허리둘레가 가장 낮고 제지방량은 커피 우유군 다음으로 높았다. 비섭취군은 네군 중 체중, 신장, 제지방량이 가장 낮았고 허리둘레는 가장 높았다. 혈청부갑상선호르몬 농도는 비섭취군에서 높았고 우유군에서 가장 낮았다. 4) 커피 우유군은 대다수 식품군의 섭취 빈도가 다른 세군에 비해 높았다. 우유군은 총곡류와 우유류를 제외하고 대다수 식품군의 섭취빈도가 커피 우유군에 비해 낮았으나, 육 난류, 어류, 버섯류와 과일류는 커피 우유군에 필적하는 수준이었고 커피군에 비해서는 대다수 식품군에서 더 높은 섭취빈도를 나타내었다. 영양소섭취상태는 조사대상 영양소 중 나트륨과 칼륨에서만 유의성이 없었을 뿐, 칼슘을 포함하여 에너지, 단백질과 인, 철분, 비타민 C와 지방에너지비가 두 우유군 (커피 우유군과 우유군)에서 비슷하게 높았고, 5개 영양소의 평균 영양소적정섭취비 (MAR) 역시 두 우유군에서 높았다. 반면에 커피군과 비섭취군은 다수 식품군의 섭취빈도가 낮게 나타났고 미량 영양소의 섭취 수준도 상대적으로 낮았다. 이상의 연구결과에서 한국 폐경 여성 커피 섭취자에서 커피 비섭취자에 비하여 골밀도가 높은 것으로 나타났으며, 특히 커피와 우유를 함께 섭취한 군이 커피 단독군에 비해, 또 커피를 안 마시고 우유만 섭취하는 군에 비해 골밀도도 높고 체위와 체조성과 무기질 및 전반적인 영양상태가 양호한 것으로 나타났으며, 커피 단독군에 비해, 우유만 섭취하는 군이 골밀도와 체조성 및 영양섭취상태가 모두 양호한 결과를 보였다. 결론적으로 한국 폐경여성에서 우유를 포함한 다양한 식품군과 균형잡힌 영양섭취를 하는 경우, 단순히 커피 섭취가 골밀도에 영향을 주는 것 같지는 않다.

Hierarchical Attention Network를 이용한 복합 장애 발생 예측 시스템 개발 (Development of a complex failure prediction system using Hierarchical Attention Network)

  • 박영찬;안상준;김민태;김우주
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.127-148
    • /
    • 2020
  • 데이터 센터는 컴퓨터 시스템과 관련 구성요소를 수용하기 위한 물리적 환경시설로, 빅데이터, 인공지능 스마트 공장, 웨어러블, 스마트 홈 등 차세대 핵심 산업의 필수 기반기술이다. 특히, 클라우드 컴퓨팅의 성장으로 데이터 센터 인프라의 비례적 확장은 불가피하다. 이러한 데이터 센터 설비의 상태를 모니터링하는 것은 시스템을 유지, 관리하고 장애를 예방하기 위한 방법이다. 설비를 구성하는 일부 요소에 장애가 발생하는 경우 해당 장비뿐 아니라 연결된 다른 장비에도 영향을 미칠 수 있으며, 막대한 손해를 초래할 수 있다. 특히, IT 시설은 상호의존성에 의해 불규칙하고 원인을 알기 어렵다. 데이터 센터 내 장애를 예측하는 선행연구에서는, 장치들이 혼재된 상황임을 가정하지 않고 단일 서버를 단일 상태로 보고 장애를 예측했다. 이에 본 연구에서는, 서버 내부에서 발생하는 장애(Outage A)와 서버 외부에서 발생하는 장애(Outage B)로 데이터 센터 장애를 구분하고, 서버 내에서 발생하는 복합적인 장애 분석에 중점을 두었다. 서버 외부 장애는 전력, 냉각, 사용자 실수 등인데, 이와 같은 장애는 데이터 센터 설비 구축 초기 단계에서 예방이 가능했기 때문에 다양한 솔루션이 개발되고 있는 상황이다. 반면 서버 내 발생하는 장애는 원인 규명이 어려워 아직까지 적절한 예방이 이뤄지지 못하고 있다. 특히 서버 장애가 단일적으로 발생하지 않고, 다른 서버 장애의 원인이 되기도 하고, 다른 서버부터 장애의 원인이 되는 무언가를 받기도 하는 이유다. 즉, 기존 연구들은 서버들 간 영향을 주지 않는 단일 서버인 상태로 가정하고 장애를 분석했다면, 본 연구에서는 서버들 간 영향을 준다고 가정하고 장애 발생 상태를 분석했다. 데이터 센터 내 복합 장애 상황을 정의하기 위해, 데이터 센터 내 존재하는 각 장비별로 장애가 발생한 장애 이력 데이터를 활용했다. 본 연구에서 고려되는 장애는 Network Node Down, Server Down, Windows Activation Services Down, Database Management System Service Down으로 크게 4가지이다. 각 장비별로 발생되는 장애들을 시간 순으로 정렬하고, 특정 장비에서 장애가 발생하였을 때, 발생 시점으로부터 5분 내 특정 장비에서 장애가 발생하였다면 이를 동시에 장애가 발생하였다고 정의하였다. 이렇게 동시에 장애가 발생한 장비들에 대해서 Sequence를 구성한 후, 구성한 Sequence 내에서 동시에 자주 발생하는 장비 5개를 선정하였고, 선정된 장비들이 동시에 장애가 발생된 경우를 시각화를 통해 확인하였다. 장애 분석을 위해 수집된 서버 리소스 정보는 시계열 단위이며 흐름성을 가진다는 점에서 이전 상태를 통해 다음 상태를 예측할 수 있는 딥러닝 알고리즘인 LSTM(Long Short-term Memory)을 사용했다. 또한 단일 서버와 달리 복합장애는 서버별로 장애 발생에 끼치는 수준이 다르다는 점을 감안하여 Hierarchical Attention Network 딥러닝 모델 구조를 활용했다. 본 알고리즘은 장애에 끼치는 영향이 클 수록 해당 서버에 가중치를 주어 예측 정확도를 높이는 방법이다. 연구는 장애유형을 정의하고 분석 대상을 선정하는 것으로 시작하여, 첫 번째 실험에서는 동일한 수집 데이터에 대해 단일 서버 상태와 복합 서버 상태로 가정하고 비교분석하였다. 두 번째 실험은 서버의 임계치를 각각 최적화 하여 복합 서버 상태일 때의 예측 정확도를 향상시켰다. 단일 서버와 다중 서버로 각각 가정한 첫 번째 실험에서 단일 서버로 가정한 경우 실제 장애가 발생했음에도 불구하고 5개 서버 중 3개의 서버에서는 장애가 발생하지 않은것으로 예측했다. 그러나 다중 서버로 가정했을때에는 5개 서버 모두 장애가 발생한 것으로 예측했다. 실험 결과 서버 간 영향이 있을 것이라고 추측한 가설이 입증된 것이다. 연구결과 단일 서버로 가정했을 때 보다 다중 서버로 가정했을 때 예측 성능이 우수함을 확인했다. 특히 서버별 영향이 다를것으로 가정하고 Hierarchical Attention Network 알고리즘을 적용한 것이 분석 효과를 향상시키는 역할을 했다. 또한 각 서버마다 다른 임계치를 적용함으로써 예측 정확도를 향상시킬 수 있었다. 본 연구는 원인 규명이 어려운 장애를 과거 데이터를 통해 예측 가능하게 함을 보였고, 데이터 센터의 서버 내에서 발생하는 장애를 예측할 수 있는 모델을 제시했다. 본 연구결과를 활용하여 장애 발생을 사전에 방지할 수 있을 것으로 기대된다.

전이학습 기반 다중 컨볼류션 신경망 레이어의 활성화 특징과 주성분 분석을 이용한 이미지 분류 방법 (Transfer Learning using Multiple ConvNet Layers Activation Features with Principal Component Analysis for Image Classification)

  • 바트후 ?바자브;주마벡 알리하노브;팡양;고승현;조근식
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.205-225
    • /
    • 2018
  • Convolutional Neural Network (ConvNet)은 시각적 특징의 계층 구조를 분석하고 학습할 수 있는 대표적인 심층 신경망이다. 첫 번째 신경망 모델인 Neocognitron은 80 년대에 처음 소개되었다. 당시 신경망은 대규모 데이터 집합과 계산 능력이 부족하여 학계와 산업계에서 널리 사용되지 않았다. 그러나 2012년 Krizhevsky는 ImageNet ILSVRC (Large Scale Visual Recognition Challenge) 에서 심층 신경망을 사용하여 시각적 인식 문제를 획기적으로 해결하였고 그로 인해 신경망에 대한 사람들의 관심을 다시 불러 일으켰다. 이미지넷 첼린지에서 제공하는 다양한 이미지 데이터와 병렬 컴퓨팅 하드웨어 (GPU)의 발전이 Krizhevsky의 승리의 주요 요인이었다. 그러므로 최근의 딥 컨볼루션 신경망의 성공을 병렬계산을 위한 GPU의 출현과 더불어 ImageNet과 같은 대규모 이미지 데이터의 가용성으로 정의 할 수 있다. 그러나 이러한 요소는 많은 도메인에서 병목 현상이 될 수 있다. 대부분의 도메인에서 ConvNet을 교육하기 위해 대규모 데이터를 수집하려면 많은 노력이 필요하다. 대규모 데이터를 보유하고 있어도 처음부터 ConvNet을 교육하려면 많은 자원과 시간이 소요된다. 이와 같은 문제점은 전이 학습을 사용하면 해결할 수 있다. 전이 학습은 지식을 원본 도메인에서 새 도메인으로 전이하는 방법이다. 전이학습에는 주요한 두 가지 케이스가 있다. 첫 번째는 고정된 특징점 추출기로서의 ConvNet이고, 두번째는 새 데이터에서 ConvNet을 fine-tuning 하는 것이다. 첫 번째 경우, 사전 훈련 된 ConvNet (예: ImageNet)을 사용하여 ConvNet을 통해 이미지의 피드포워드 활성화를 계산하고 특정 레이어에서 활성화 특징점을 추출한다. 두 번째 경우에는 새 데이터에서 ConvNet 분류기를 교체하고 재교육을 한 후에 사전 훈련된 네트워크의 가중치를 백프로퍼게이션으로 fine-tuning 한다. 이 논문에서는 고정된 특징점 추출기를 여러 개의 ConvNet 레이어를 사용하는 것에 중점을 두었다. 그러나 여러 ConvNet 레이어에서 직접 추출된 차원적 복잡성을 가진 특징점을 적용하는 것은 여전히 어려운 문제이다. 우리는 여러 ConvNet 레이어에서 추출한 특징점이 이미지의 다른 특성을 처리한다는 것을 발견했다. 즉, 여러 ConvNet 레이어의 최적의 조합을 찾으면 더 나은 특징점을 얻을 수 있다. 위의 발견을 토대로 이 논문에서는 단일 ConvNet 계층의 특징점 대신에 전이 학습을 위해 여러 ConvNet 계층의 특징점을 사용하도록 제안한다. 본 논문에서 제안하는 방법은 크게 세단계로 이루어져 있다. 먼저 이미지 데이터셋의 이미지를 ConvNet의 입력으로 넣으면 해당 이미지가 사전 훈련된 AlexNet으로 피드포워드 되고 3개의 fully-connected 레이어의 활성화 틀징점이 추출된다. 둘째, 3개의 ConvNet 레이어의 활성화 특징점을 연결하여 여러 개의 ConvNet 레이어의 특징점을 얻는다. 레이어의 활성화 특징점을 연결을 하는 이유는 더 많은 이미지 정보를 얻기 위해서이다. 동일한 이미지를 사용한 3개의 fully-connected 레이어의 특징점이 연결되면 결과 이미지의 특징점의 차원은 4096 + 4096 + 1000이 된다. 그러나 여러 ConvNet 레이어에서 추출 된 특징점은 동일한 ConvNet에서 추출되므로 특징점이 중복되거나 노이즈를 갖는다. 따라서 세 번째 단계로 PCA (Principal Component Analysis)를 사용하여 교육 단계 전에 주요 특징점을 선택한다. 뚜렷한 특징이 얻어지면, 분류기는 이미지를 보다 정확하게 분류 할 수 있고, 전이 학습의 성능을 향상시킬 수 있다. 제안된 방법을 평가하기 위해 특징점 선택 및 차원축소를 위해 PCA를 사용하여 여러 ConvNet 레이어의 특징점과 단일 ConvNet 레이어의 특징점을 비교하고 3개의 표준 데이터 (Caltech-256, VOC07 및 SUN397)로 실험을 수행했다. 실험결과 제안된 방법은 Caltech-256 데이터의 FC7 레이어로 73.9 %의 정확도를 얻었을 때와 비교하여 75.6 %의 정확도를 보였고 VOC07 데이터의 FC8 레이어로 얻은 69.2 %의 정확도와 비교하여 73.1 %의 정확도를 보였으며 SUN397 데이터의 FC7 레이어로 48.7%의 정확도를 얻었을 때와 비교하여 52.2%의 정확도를 보였다. 본 논문에 제안된 방법은 Caltech-256, VOC07 및 SUN397 데이터에서 각각 기존에 제안된 방법과 비교하여 2.8 %, 2.1 % 및 3.1 %의 성능 향상을 보였다.