• 제목/요약/키워드: Principal component analysis(PCA)

검색결과 1,231건 처리시간 0.037초

Enhancing Recommender Systems by Fusing Diverse Information Sources through Data Transformation and Feature Selection

  • Thi-Linh Ho;Anh-Cuong Le;Dinh-Hong Vu
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권5호
    • /
    • pp.1413-1432
    • /
    • 2023
  • Recommender systems aim to recommend items to users by taking into account their probable interests. This study focuses on creating a model that utilizes multiple sources of information about users and items by employing a multimodality approach. The study addresses the task of how to gather information from different sources (modalities) and transform them into a uniform format, resulting in a multi-modal feature description for users and items. This work also aims to transform and represent the features extracted from different modalities so that the information is in a compatible format for integration and contains important, useful information for the prediction model. To achieve this goal, we propose a novel multi-modal recommendation model, which involves extracting latent features of users and items from a utility matrix using matrix factorization techniques. Various transformation techniques are utilized to extract features from other sources of information such as user reviews, item descriptions, and item categories. We also proposed the use of Principal Component Analysis (PCA) and Feature Selection techniques to reduce the data dimension and extract important features as well as remove noisy features to increase the accuracy of the model. We conducted several different experimental models based on different subsets of modalities on the MovieLens and Amazon sub-category datasets. According to the experimental results, the proposed model significantly enhances the accuracy of recommendations when compared to SVD, which is acknowledged as one of the most effective models for recommender systems. Specifically, the proposed model reduces the RMSE by a range of 4.8% to 21.43% and increases the Precision by a range of 2.07% to 26.49% for the Amazon datasets. Similarly, for the MovieLens dataset, the proposed model reduces the RMSE by 45.61% and increases the Precision by 14.06%. Additionally, the experimental results on both datasets demonstrate that combining information from multiple modalities in the proposed model leads to superior outcomes compared to relying on a single type of information.

TRAO KSP TIMES: Homogeneous, High-sensitivity, Multi-transition Spectral Maps toward the Orion A and Ophiuchus Cloud with a High-velocity Resolution.

  • Yun, Hyeong-Sik;Lee, Jeong-Eun;Choi, Yunhee;Evans, Neal J. II;Offner, Stella S.R.;Heyer, Mark H.;Lee, Yong-Hee;Baek, Giseon;Choi, Minho;Kang, Hyunwoo;Cho, Jungyeon;Lee, Seokho;Tatematsu, Ken'ichi;Gaches, Brandt A.L.;Yang, Yao-Lun;Chen, How-Huan;Lee, Youngung;Jung, Jae Hoon;Lee, Changhoon
    • 천문학회보
    • /
    • 제44권2호
    • /
    • pp.68.1-68.1
    • /
    • 2019
  • Turbulence plays a crucial role in controlling star formation as it produces density fluctuation as well as non-thermal pressure against gravity. Therefore, turbulence controls the mode and tempo of star formation. However, despite a plenty of previous studies, the properties of turbulence remain poorly understood. As part of the Taeduk Radio Astronomy Observatory (TRAO) Key Science Program (KSP), "mapping Turbulent properties In star-forming MolEcular clouds down to the Sonic scale (TIMES; PI: Jeong-Eun Lee)", we mapped the Orion A and the Ophiuchus clouds, in three sets of lines (13CO 1-0/C18O 1-0, HCN 1-0/HCO+ 1-0, and CS 2-1/N2H+ 1-0) with a high-velocity resolution (~0.1 km/s) using the TRAO 14-m telescope. The mean Trms for the observed maps are less than 0.25 K, and all these maps show uniform Trms values throughout the observed area. These homogeneous and high signal-to-noise ratio data provide the best chance to probe the nature of turbulence in two different star-forming clouds, the Orion A and Ophiuchus clouds. We present comparisons between the line intensities of different molecular tracers as well as the results of a Principal Component Analysis (PCA).

  • PDF

토지이용이 남한강 유역 수질에 미치는 영향 (Effect of Land Use on the Water Quality of Watersheds in Nam Han river.)

  • 변상돈;양동석;임경재;김종건;홍은미
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.164-164
    • /
    • 2021
  • 우리나라는 최근 도시화 및 산업화 등과 같은 유역개발이 가속화되면서 유역환경의 급격한 변화를 가져왔다. 도시화는 지표면의 불투수 면적을 증가시키고, 농업지역의 확대는 비료 및 농약의 사용을 증가시키고, 강우시 토양침식에 따른 흙탕물과 비점오염원의 수계 유출로 인해 수질악화 등의 문제를 야기시킨다. 이와 같은 유역환경의 변화는 수질에 직접적인 영향을 끼치므로, 미래 토지이용의 변화에 따른 하천유역의 유출특성과 영향 인자를 규명해야 효율적인 하천유역관리를 할 수 있다. 하지만 우리나라는 기후적 특성상 계절에 따른 수질 및 기후변수의 편차가 크기 때문에 하천유역관리에 있어 어려움이 많다. 특히 남한강 유역은 산림 및 고랭지밭 비중이 높은 지역이며, 여름철에는 강우로인한 토양침식이 심각하여 수질 및 수생태계 건강성을 악화시킨다. 남한강 상류 유역에는 송천과 도암호, 골지천과 같은 비점오염관리지역이 위치하고 있으며 현재까지도 하천유역관리가 어려운 지역에 해당한다. 본 연구는 남한강 유역에 위치한 17개 수질측정망을 대상으로 GIS시스템을 이용해 17개의 소권역으로 나누어 분석하였다. 토지이용자료는 환경공간정보 서비스의 2010년대 말 자료를 이용하였으며, 수질 자료는 유역환경 변화에 영향을 미칠 것이라 판단되는 수질 변수를 선별하여 10년동안의 장기간 수질 데이터를 이용하여 분석하였다. 16개의 수질변수는 정규성을 검증한 후 pairwisse t-test를 이용한 시기별 수질의 차이를 비교하였으며, 수질변수들과 토지이용매개변수 간에 상관관계를 찾아 유의관계가 있는지 확인함으로써 서로 다른 변수간에 상관성을 파악하고자 하였다. 유역의 특성별 상관도를 평가하고 해석하기 위하여 주성분 분석(Principal component analysis, PCA)을 실시하였다. 통계적 방법을 통해 시기에 따른 수질과 토지이용간의 관계를 밝힘으로써 미래하천유역관리에 기초자료로 활용될 것이다.

  • PDF

토양수분구배에서 굴참나무와 떡갈나무의 생육반응, 생태 지위 및 중복역 (Growth Response, Ecological Niche and Overlap between Quercus variabilis and Quercus dentata under Soil Moisture Gradient)

  • 박여빈;김의주
    • 한국환경복원기술학회지
    • /
    • 제26권5호
    • /
    • pp.47-56
    • /
    • 2023
  • The Quercus variabilis and Quercus dentata, which are said to be relatively drought tolerant among the important genus Quercus that represent deciduous broad-leaved forests in Korea. These two species are widely distributed worldwide in Korea, Japan and China (northern, central, western and eastern subtropical regions). This study compared the ecological niche breadth and overlap according to growth response in 4 soil moisture gradients for the two species and tried to reveal degree of competition and ecological niche characteristics. The ecological niche breadth was 0.977±0.020 for Q. variabilis and 0.979±0.014 for Q. dentata, the latter being slightly wider. And they were similar in 5 traits (stem length, leaf lamina length, leaf width length, stem weight, leaf petiole weight), Q. variabilis was more dominant in 4 traits (leaves number, stem diameter, leaf area, leaf petiole length), and Q. dentata was more dominant in 7 traits (root length, shoot length, plant weight, root weight, shoot weight, leaf weight, leaf petiole weight). The ecological niche overlap for soil moisture between the two species overlapped most in plant structure-related traits and least in photosynthetic organ-related traits such as petiole length. As a result of principal component analysis, degree of competition between the two species for soil moisture was more severe when the soil moisture condition was low than high. Among the measured traits that affect the two-dimensional distribution, 8 traits (Leaves number, Shoot length, Stem length, Plant weight, Root weight, Shoot weight, Stem weight, Leaves weight) were correlated with the factor 1, and 2 traits (Leaf width length, Leaf petiole weight) were correlated with the factor 2 (r>0.5). These results show that the ecological response of the two species to soil moisture is not a few traits involved, but several traits are involved simultaneously.

고해상도 위성자료를 이용한 용담댐 유역 저수위/저수량 모니터링 및 예측 기술 개발 (Development of a Storage Level and Capacity Monitoring and Forecasting Techniques in Yongdam Dam Basin Using High Resolution Satellite Image)

  • 윤선권;이성규;박경원;장상민;이진영
    • 대한원격탐사학회지
    • /
    • 제34권6_1호
    • /
    • pp.1041-1053
    • /
    • 2018
  • 본 연구에서는 용담댐 유역을 대상으로 저수위/저수량 모니터링 및 예측을 위하여 고해상도 위성관측 자료를 이용하는 방법과 위성으로부터 추출한 강수량 자료로부터 가뭄지수를 이용한 저수위를 모니터링하고 SSA를 이용한 PCA방법으로 예측모델을 구축하여 가뭄을 예측하는 방법을 개발하였다. 용담댐 저수위와 SPI(3)와의 상관계수가 0.78로 매우 높은 상관성을 보였으며, 위성자료를 통하여 산정한 가뭄지수를 활용하여 댐 저수위/저수량 모니터링 및 예측 가능성을 진단하였다. SSA에 의한 주성분 분석결과 SPI(3)과 각 RC자료의 상관관계를 분석한 결과 CC=0.87~0.99의 높은 상관성을 보였으며, 표준화된 댐 저수위(N-W.S.L.)와 RC자료의 상관관계를 분석한 결과 CC=0.83~0.97의 비교적 높은 상관성을 보임을 확인하였다. 또한, Sentinel-2 위성의 MSI (Multi-Spectral Instrument) 센서로 댐수위의 변화를 모니터링하기 위해 지수 기법을 적용하여 수체 탐지 알고리즘을 개발하였으며, 용담댐유역에 대해 2016년부터 2018년까지의 수계 면적 변화를 분석하였다. 이를 기반으로 Sentinel-2 위성영상으로 추출한 수계 면적 변화를 이용하여 가뭄 감시 분야에 대한 활용 가능성을 제시하였다. 본 연구의 결과는 다양한 위성관측자료로부터 미계측 지역의 저수량 모니터링과 수문학적 가뭄 모니터링/예측에 활용이 가능할 것이다.

전이학습 기반 다중 컨볼류션 신경망 레이어의 활성화 특징과 주성분 분석을 이용한 이미지 분류 방법 (Transfer Learning using Multiple ConvNet Layers Activation Features with Principal Component Analysis for Image Classification)

  • 바트후 ?바자브;주마벡 알리하노브;팡양;고승현;조근식
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.205-225
    • /
    • 2018
  • Convolutional Neural Network (ConvNet)은 시각적 특징의 계층 구조를 분석하고 학습할 수 있는 대표적인 심층 신경망이다. 첫 번째 신경망 모델인 Neocognitron은 80 년대에 처음 소개되었다. 당시 신경망은 대규모 데이터 집합과 계산 능력이 부족하여 학계와 산업계에서 널리 사용되지 않았다. 그러나 2012년 Krizhevsky는 ImageNet ILSVRC (Large Scale Visual Recognition Challenge) 에서 심층 신경망을 사용하여 시각적 인식 문제를 획기적으로 해결하였고 그로 인해 신경망에 대한 사람들의 관심을 다시 불러 일으켰다. 이미지넷 첼린지에서 제공하는 다양한 이미지 데이터와 병렬 컴퓨팅 하드웨어 (GPU)의 발전이 Krizhevsky의 승리의 주요 요인이었다. 그러므로 최근의 딥 컨볼루션 신경망의 성공을 병렬계산을 위한 GPU의 출현과 더불어 ImageNet과 같은 대규모 이미지 데이터의 가용성으로 정의 할 수 있다. 그러나 이러한 요소는 많은 도메인에서 병목 현상이 될 수 있다. 대부분의 도메인에서 ConvNet을 교육하기 위해 대규모 데이터를 수집하려면 많은 노력이 필요하다. 대규모 데이터를 보유하고 있어도 처음부터 ConvNet을 교육하려면 많은 자원과 시간이 소요된다. 이와 같은 문제점은 전이 학습을 사용하면 해결할 수 있다. 전이 학습은 지식을 원본 도메인에서 새 도메인으로 전이하는 방법이다. 전이학습에는 주요한 두 가지 케이스가 있다. 첫 번째는 고정된 특징점 추출기로서의 ConvNet이고, 두번째는 새 데이터에서 ConvNet을 fine-tuning 하는 것이다. 첫 번째 경우, 사전 훈련 된 ConvNet (예: ImageNet)을 사용하여 ConvNet을 통해 이미지의 피드포워드 활성화를 계산하고 특정 레이어에서 활성화 특징점을 추출한다. 두 번째 경우에는 새 데이터에서 ConvNet 분류기를 교체하고 재교육을 한 후에 사전 훈련된 네트워크의 가중치를 백프로퍼게이션으로 fine-tuning 한다. 이 논문에서는 고정된 특징점 추출기를 여러 개의 ConvNet 레이어를 사용하는 것에 중점을 두었다. 그러나 여러 ConvNet 레이어에서 직접 추출된 차원적 복잡성을 가진 특징점을 적용하는 것은 여전히 어려운 문제이다. 우리는 여러 ConvNet 레이어에서 추출한 특징점이 이미지의 다른 특성을 처리한다는 것을 발견했다. 즉, 여러 ConvNet 레이어의 최적의 조합을 찾으면 더 나은 특징점을 얻을 수 있다. 위의 발견을 토대로 이 논문에서는 단일 ConvNet 계층의 특징점 대신에 전이 학습을 위해 여러 ConvNet 계층의 특징점을 사용하도록 제안한다. 본 논문에서 제안하는 방법은 크게 세단계로 이루어져 있다. 먼저 이미지 데이터셋의 이미지를 ConvNet의 입력으로 넣으면 해당 이미지가 사전 훈련된 AlexNet으로 피드포워드 되고 3개의 fully-connected 레이어의 활성화 틀징점이 추출된다. 둘째, 3개의 ConvNet 레이어의 활성화 특징점을 연결하여 여러 개의 ConvNet 레이어의 특징점을 얻는다. 레이어의 활성화 특징점을 연결을 하는 이유는 더 많은 이미지 정보를 얻기 위해서이다. 동일한 이미지를 사용한 3개의 fully-connected 레이어의 특징점이 연결되면 결과 이미지의 특징점의 차원은 4096 + 4096 + 1000이 된다. 그러나 여러 ConvNet 레이어에서 추출 된 특징점은 동일한 ConvNet에서 추출되므로 특징점이 중복되거나 노이즈를 갖는다. 따라서 세 번째 단계로 PCA (Principal Component Analysis)를 사용하여 교육 단계 전에 주요 특징점을 선택한다. 뚜렷한 특징이 얻어지면, 분류기는 이미지를 보다 정확하게 분류 할 수 있고, 전이 학습의 성능을 향상시킬 수 있다. 제안된 방법을 평가하기 위해 특징점 선택 및 차원축소를 위해 PCA를 사용하여 여러 ConvNet 레이어의 특징점과 단일 ConvNet 레이어의 특징점을 비교하고 3개의 표준 데이터 (Caltech-256, VOC07 및 SUN397)로 실험을 수행했다. 실험결과 제안된 방법은 Caltech-256 데이터의 FC7 레이어로 73.9 %의 정확도를 얻었을 때와 비교하여 75.6 %의 정확도를 보였고 VOC07 데이터의 FC8 레이어로 얻은 69.2 %의 정확도와 비교하여 73.1 %의 정확도를 보였으며 SUN397 데이터의 FC7 레이어로 48.7%의 정확도를 얻었을 때와 비교하여 52.2%의 정확도를 보였다. 본 논문에 제안된 방법은 Caltech-256, VOC07 및 SUN397 데이터에서 각각 기존에 제안된 방법과 비교하여 2.8 %, 2.1 % 및 3.1 %의 성능 향상을 보였다.

Chemical Characterisation of Organic Functional Group Compositions in PM2.5 Collected at Nine Administrative Provinces in Northern Thailand during the Haze Episode in 2013

  • Pongpiachan, Siwatt;Choochuay, Chomsri;Chonchalar, Jittiphan;Kanchai, Panatda;Phonpiboon, Tidarat;Wongsuesat, Sornsawan;Chomkhae, Kanokwan;Kittikoon, Itthipon;Hiranyatrakul, Phoosak;Cao, Junji;Thamrongthanyawong, Sombat
    • Asian Pacific Journal of Cancer Prevention
    • /
    • 제14권6호
    • /
    • pp.3653-3661
    • /
    • 2013
  • Along with rapid economic growth and enhanced agricultural productivity, particulate matter emissions in the northern cities of Thailand have been increasing for the past two decades. This trend is expected to continue in the coming decade. Emissions of particulate matter have brought about a series of public health concerns, particularly chronic respiratory diseases. It is well known that lung cancer incidence among northern Thai women is one of the highest in Asia (an annual age-adjusted incidence rate of 37.4 per 100,000). This fact has aroused serious concern among the public and the government and has drawn much attention and interest from the scientific community. To investigate the potential causes of this relatively high lung cancer incidence, this study employed Fourier transform infrared spectroscopy (FTIR) transmission spectroscopy to identify the chemical composition of the $PM_{2.5}$ collected using Quartz Fibre Filters (QFFs) coupled with MiniVol$^{TM}$ portable air samplers (Airmetrics). $PM_{2.5}$ samples collected in nine administrative provinces in northern Thailand before and after the "Haze Episode" in 2013 were categorised based on three-dimensional plots of a principal component analysis (PCA) with Varimax rotation. In addition, the incremental lifetime exposure to $PM_{2.5}$ of both genders was calculated, and the first derivative of the FTIR spectrum of individual samples is here discussed.

Cochlodinium polykrikoides 적조의 최초발생해역인 나로도 주변 해역의 해양환경 (Marine Environments in the Neighborhood of the Narodo as the First Outbreak Region of Cochlodinium polykrikoides Blooms)

  • 이문옥;문진한
    • 한국해양환경ㆍ에너지학회지
    • /
    • 제11권3호
    • /
    • pp.113-123
    • /
    • 2008
  • 유독성 Cochlodinium polykrikoides 적조의 최초발생해역으로 알려져 있는 나로도 주변 해역의 해양환경적 특징을 조사하기 위해서 1992년부터 2007년까지 국립수산과학원이 실시한 해양환경측정망 자료 및 적조정보자료와 고흥지방의 기후자료 등을 분석하였다. Cochlodinium polykrikoides 적조는 8월에 나로도 주변 해역에서 최초로 발생한 경우가 가장 많았고, 그 발생시기는 해마다 빨라지고 있는 경향을 보였다. 또한 나로도 주변 해역에서의 표층 염분도 계속 증가하는 추세를 보여, Cochlodinium polykrikoides 적조 발생시기의 빨라짐과의 어떤 관련성을 시사하였다. 한편 나로도 주변 해역에서 Cochlodinium polykrikoides 적조가 최초로 발생할 때는 동일한 시기의 가막만 또는 진해만 해역에 비해 상대적으로 일사량은 많았고 강수량은 적었다. 8월의 나로도 주변 해역의 평균 수온 및 염분은 동일한 시기의 가막만 및 진해만에 비하여 평균 수온은 $0.2{\sim}0.6^{\circ}C$, 염분은 $1.84{\sim}3.91psu$ 각각 더 높았으며, 두 해역에 비해 상대적으로 고온, 고염을 나타내었다. 또한 나로도 주변 해역은 부영양화 해역으로 알려진 진해만에 비해서는 영양염이나 식물플랑크톤의 농도가 현저히 낮았으나, 전체적인 수질환경은 가막만과 크게 다르지 않은 것으로 판단되었다. 주성분 분석결과, 나로도 주변 해역에서 최초로 발생하는 Cochlodinium polykrikoides 적조 요인으로서는 기상인자와 물리적 환경인자인 일사량과 수온이 가장 중요하며, 부차적으로 수질요소인 COD와 용존산소의 농도가 여기에 관여하고 있음을 보여주었다. 태풍 또한 Cochlodinium polykrikoides 적조 발생에 있어 중요한 요인 중의 하나로 생각되었다.

  • PDF

멧돼지 교잡종육, 재래 흑돼지육, 개량종 돼지육의 냉장저장중 품질비교 (Quality Comparison of M. longissimus from Crossbred Wild Boars, Korean Native Black Pigs and Modern Genotype Pigs during Refrigerated Storage)

  • 강선문;이성기
    • Journal of Animal Science and Technology
    • /
    • 제49권2호
    • /
    • pp.257-268
    • /
    • 2007
  • 본 연구는 멧돼지 교잡종육과 재래 흑돼지육, 개량종 돼지육의 냉장저장중 품질을 비교하고자 실시하였다. 방목사육된 멧돼지 교잡종(멧돼지 ♂×Duroc ♀, 평균 113kg, 거세돈 1두 및 미경산돈 3두) 4두와 옥내사육된 재래 흑돼지 5두(평균 64kg, 거세돈 5두) 및 개량종 돼지 5두(Landrace×Yorkshire×Duroc, 평균 114kg, 거세돈 5두)를 도축한 다음 등심(M. longssimus) 부위를 2±0.2℃에서 12일 동안 저장하면서 품질분석에 이용하였다. 수분 함량은 멧돼지 교잡종육이 재래 흑돼지육보다 높았으나(p<0.05), 조지방 함량은 낮았다(p<0.05). pH는 멧돼지 교잡종육이 저장기간 동안 개량종 돼지육보다 낮았으며(p<0.05), 그에 따라 낮은 보수력을 보였다(p<0.05). 표면육색은 멧돼지 교잡종육의 L*, a*, b*, C* 값이 저장기간 동안 재래 흑돼지육보다 낮았던 반면(p<0.05), 저장 3, 6일부터는 개량종 돼지육보다 높았다(p<0.05). 지방산 조성은 멧돼지 교잡종육이 타품종 돈육에 비해 포화지방산 함량이 낮고(p<0.05), linoleic acid와 arachidonic acid를 포함한 다가불포화지방산이 높았음에도 불구하고 저장기간 동안 지방산화는 지연되었다. 전자코의 PCA에 의한 향기패턴은 저장 0, 12일에 세 품종의 돈육간에 뚜렷한 차이를 보였다.

하천형 저수지 팔당호의 육수학적 특성:수문과 수환경 요인 (Limnological Characteristics of the River-type Paltang Reservoir, Korea: Hydrological and Environmental Factors)

  • 신재기;강창근;김호섭;황순진
    • 생태와환경
    • /
    • 제36권3호통권104호
    • /
    • pp.242-256
    • /
    • 2003
  • 본 연구는 하천형 저수지 (팔당호)에서 강우 ·유량 패턴과 주요 수환경 요인과의 관련성을 파악하기 위해 1999년 1월부터 2001년 12월까지 일 모니터링 하였다. 수환경의 일 변동을 관찰한 결과 자연적 기후 요인과 유량 변동의 수문학적 요인 영향이 주요한 것으로 나타났다. 강수량은 수문 변동의 주된 근원이 되었고, 강수빈도는 유량의 변동 폭을 좌우하는 직접적인 변수가 될 수 있었다. 강수량은 11 ${\sim}$ 5월에 적었고, 6 ${\sim}$ 10월에 풍부하여 대비가 되었으며 여름철과 가을철에 편중된 구조를 보였다. 유량은 7 ${\sim}$ 9월사이에 변동 폭이 가장 컸고, 1 ${\sim}$ 2월로 갈수록 변동이 거의 없었다. 주요 환경 요인에 대한 수문학적 영향은 각 요인의 계절적 변동을 좌우하였고, 그 양상은 크게 증가형, 감소형 및 중간형의 3가지유형으로 나눌 수 있었다. 환경 요인 중에서 수온, 탁도, 색도 및 유기물(COD)요인은 증가형에, DO, pH는 감소형에 해당하였다. 중간형에는 전기전도도, 알칼리도 및 염소 이온 농도가 포함되었으며, 각 요인간에도 상호 관련성이 관찰되었다. 육수학적 특성으로 볼 때,호수형 저수지의 특성과 다소 이질적인 하천형 저수지의 수환경관리에 대해 수문학적 요인의 중요성이 제시될 수 있었다.