• 제목/요약/키워드: data heterogeneity

검색결과 593건 처리시간 0.026초

Effect of Heterogeneous Variance by Sex and Genotypes by Sex Interaction on EBVs of Postweaning Daily Gain of Angus Calves

  • Oikawa, T.;Hammond, K.;Tier, B.
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제12권6호
    • /
    • pp.850-853
    • /
    • 1999
  • Angus postweaning daily gain (PWDG) was analyzed to investigate effects of the heterogeneous variance and the genotypes by sex interaction on prediction of EBVs with data sets of various environmental levels. A whole data (16,239 records) was divided into six data sets according to averages of the best linear unbiased estimator (BLUE) of herd environment. The results comparing prediction models showed that single-trait model is adequate for most of the data sets except for the data set of poor environment for both of the bulls and the heifers where the heterogeneity of variance and the genotypes by sex interaction exists. In the prediction with the data set of the low environment level, the bull's EBVs by single-trait models had high product moment correlations with male EBVs of the bulls by the multitrait model. Whereas the heifer's EBVs had moderate correlations with female EBVs by the multitrait model. This moderate correlation seems to be resulted by the heterogeneity of variance and low heritability of the heifer's PWDG. The prediction models with heterogeneity of variance had little effect on the prediction of EBVs for the data sets with moderate to high genetic correlations.

FedGCD: Federated Learning Algorithm with GNN based Community Detection for Heterogeneous Data

  • Wooseok Shin;Jitae Shin
    • 인터넷정보학회논문지
    • /
    • 제24권6호
    • /
    • pp.1-11
    • /
    • 2023
  • Federated learning (FL) is a ground breaking machine learning paradigm that allow smultiple participants to collaboratively train models in a cloud environment, all while maintaining the privacy of their raw data. This approach is in valuable in applications involving sensitive or geographically distributed data. However, one of the challenges in FL is dealing with heterogeneous and non-independent and identically distributed (non-IID) data across participants, which can result in suboptimal model performance compared to traditionalmachine learning methods. To tackle this, we introduce FedGCD, a novel FL algorithm that employs Graph Neural Network (GNN)-based community detection to enhance model convergence in federated settings. In our experiments, FedGCD consistently outperformed existing FL algorithms in various scenarios: for instance, in a non-IID environment, it achieved an accuracy of 0.9113, a precision of 0.8798,and an F1-Score of 0.8972. In a semi-IID setting, it demonstrated the highest accuracy at 0.9315 and an impressive F1-Score of 0.9312. We also introduce a new metric, nonIIDness, to quantitatively measure the degree of data heterogeneity. Our results indicate that FedGCD not only addresses the challenges of data heterogeneity and non-IIDness but also sets new benchmarks for FL algorithms. The community detection approach adopted in FedGCD has broader implications, suggesting that it could be adapted for other distributed machine learning scenarios, thereby improving model performance and convergence across a range of applications.

IEEE 802.11 다중 라디오 다중 전송률 무선 네트워크를 위한 채널 이질성 인지 채널 할당 (Channel Heterogeneity Aware Channel Assignment for IEEE 802.11 Multi-Radio Multi-Rate Wireless Networks)

  • 김석형;김동욱;서영주
    • 한국통신학회논문지
    • /
    • 제36권11A호
    • /
    • pp.870-877
    • /
    • 2011
  • IEEE 802.11 장비가 널리 사용되고 있으며, 저비용 IEEE 802.11 장비들이 보급됨에 따라 단말들은 다중 IEEE 802.11 라디오를 장착할 수 있게 되었다. 최신 IEEE 802.11 장비들은 다수 채널 (multi-channel)과 전송률 (multi-rate)을 제공한다. 실제 다중 채널 네트워크에서는 같은 노드에 대해 채널들이 서로 다른 신호 특성을 가지는 채널 이질성 (channel heterogeneity)이 있으므로, 네트워크 용량을 향상시키기 위해 다수의 채널을 효율적으로 할당해야 한다. 또한, 다중 전송률 네트워크에서는 같은 채널 상의 낮은 전송률 링크가 높은 전송률 링크의 성능을 심각히 저하시키는 성능 이상 (performance anomaly) 현상이 발생한다. 따라서, 본 논문에서는 채널 이질성과 성능 이성을 반영하여 네트워크 성능을 향상시키는 HACA (Heterogeneity Aware Channel Assignment) 알고리즘을 제안한다. NS-2 시뮬레이션을 통해 HACA 알고리즘이 채널 이질성을 반영하지 못하는 기존 채널 할당 알고리즘에 비해 향상된 성능을 보임을 검증하였다.

SP 화물수단선택을 위한 Inherent Random Heterogeneity 로짓 모형 연구 (Inherent Random Heterogeneity Logit Model for Stated Preference Freight Mode Choice)

  • KIM, Kang-Soo
    • 대한교통학회지
    • /
    • 제20권3호
    • /
    • pp.83-92
    • /
    • 2002
  • 화물수단선택모형 구축은 화물 및 물류관련 연구에 있어서 중요한 역할을 차지한다. 그러나 이러한 화물수단 선택 모형을 구축하기 위해 실제 관측되는 자료(Revealed Preference:RP)를 이용하는 데는 한계가 존재하며 따라서 선호의식 기법을 활용한 Stated Preference(SP) 자료가 화물수단 선택 모형을 구축하는데 중요한 자료로 사용된다 SP 자료는 이처럼 화물교통 자료의 현실적인 한계를 극복할 수 있지만 SP자료를 이용하여 구축되어지는 화물수단모형인 경우 조사기법의 한계로 RP자료에는 존재하지 않는 편의가 발생한다. 본 논문은 SP 자료를 이용하여 수단선택모형 구축시 발생하는 편의 제거에 대한 연구이다. 특히 본 논문에서는 시뮬레이션 방법을 이용하여 개인의 다양한 선택행태 다양성(heterogeneity)과 이러한 다양성이 SP 다음 질문에 전이되는 문제점을 극복하는 새로운 개념의 화물수단 선택 로짓모형을 제시한다. 또한 단순 로짓모형이 갖고 있는 IIA 특성을 극복하는 화물수단 선택모형도 제시한다. 본 연구를 통해 화물교통에 존재하는 화주의 다양한 선택행태 분석뿐만 아니라 SP 수단선택 모형이 갖는 편의 극복에 본 연구가 일조하기를 기대한다.

선택실험법 자료에서의 선호이질성 분석을 위한 혼합로짓모형 및 잠재계층모형의 활용 (Using Mixed Logit Model and Latent Class Model to Analyze Preference Heterogeneity in Choice Experiment Data)

  • 유병국
    • 자원ㆍ환경경제연구
    • /
    • 제21권4호
    • /
    • pp.921-945
    • /
    • 2012
  • 조건부 로짓(Conditional Logit: CL)모형은 모형추정 및 결과해석이 비교적 용이하다는 장점으로 널리 사용되는 반면에 응답자의 선호이질성(preference heterogeneity)을 충분히 반영하지 못한다는 한계를 가지고 있다. 본 연구에서는 최근 지배적인 방식으로 제시되고 있는 두개의 모형인 혼합로짓(Mixed Logit; ML)모형과 잠재계층모형(Latent Class Model; LCM)을 사용하여 우리나라 보령댐 주변 습지보호에 있어서 응답자간 선호이질성을 설명하고자 하였다. 6대광역시와 보령시 표본에 대하여 응답자별 이질성의 존재여부를 검토한 결과 두 지역간 뚜렷한 차이가 있음을 알 수 있었다. 즉 보령시의 경우에는 응답자간 선호이질성이 뚜렷하게 나타난데 반하여 6대광역시의 경우 응답자간 선호이질성이 거의 나타나지 않았다. 따라서 6대광역시의 경우에는 모수추정을 위해 CL 모형의 사용이 가능하나 보령시의 경우에는 선호이질성을 반영하기 위해 ML모형이나 LCM에 근거한 모수추정이 요구된다. 선호이질성의 원인을 규명하기 위하여 교차항이 있는 혼합로짓모형과 잠재계층모형을 고려할 수 있다. 교차항이 있는 혼합로짓모형의 경우 관찰되지 않은 개인단위의 이질성을 설명할 수 있는 장점이 있다. 그러나 두 모형을 비교한 결과 LCM이 교차항이 있는 ML모형이 제공하지 않는 추가적인 정보를 보여주는 것으로 나타나고 있다. 따라서 본 연구에서의 응답자간 선호이질성은 혼합로짓모형에 의한 개인적인 수준보다 잠재계층모형에 의한 계층단위에서 더 잘 설명될 수 있다고 할 수 있다.

  • PDF

The Production and Spatial Heterogeneity of Litterfall in the Mixed Broadleaved-Korean Pine Forest of Xiaoxing'an Mountains, China

  • Jin, Guangze;Zhao, Fengxia;Liu, Liang;Kim, Ji Hong
    • 한국산림과학회지
    • /
    • 제97권2호
    • /
    • pp.165-170
    • /
    • 2008
  • Litterfall has been recognized an important part of the forest ecosystem production, playing a major pathway in energy flow and nutrient cycling through the ecosystem. This study was carried out to examine the quantity and components, temporal variation, and spatial heterogeneity of the litterfall in the mixed broadleaved-Korean pine forest. The data were collected from the 9ha permanent experimental plot, of which on the center area, i.e. $150m{\times}150m$, the total number of 319 circular litterfall traps with the size of $0.5m^2$ were established to collect falling litterfall. The results showed that the annual amount of litterfall was totalized 3,033.7 kg/ha, occupying broad-leaves of 39.3%, conifer-leaves of 29.5%, others of 18.5%, branches of 10.4%, and seeds of 2.3%. The peak point of the litterfall production was made at the end of September, proportionating 32.2% of total amount. The analysis of semivariogram revealed the existence of high spatial heterogeneity, calculated the scale of spatial heterogeneity ranged from 11.6 m to 29.1 m. The result of proportion (C/[Co+C]) showed that spatial heterogeneity of autocorrelation in total spatial heterogeneity were from 97.0% to 100%. The relatively heavy branches and others had significant differences in litterfall production between the areas of canopy gap and closed canopy in the 95% probability level, but the other components did not show statistical differences.

효율적인 비즈니스 프로세스 운용을 위한 XMDR 데이터 허브 설계 (The Design of XMDR Data Hub for Efficient Business Process Operation)

  • 황치곤;정계동;최영근
    • 정보처리학회논문지D
    • /
    • 제18D권3호
    • /
    • pp.149-156
    • /
    • 2011
  • 최근 기업의 시스템들은 데이터 공유와 협업을 위해 통합의 필요성을 제기하고 있다. 통합을 위한 방법론으로 서비스 통합을 위한 서비스 지향 아키텍처와 서비스에 사용되는 데이터의 통합을 위한 마스터 데이터가 등장했다. 본 논문은 BP(Business Process)를 효율적으로 운용하기 위한 방안을 제시한다. 우리는 BP를 지원하기 위한 지식 저장소로 XMDR(eXtended Meta Data Registry)과 이를 운용하기 위한 데이터 허브를 구성한다. XMDR은 데이터 통합을 위한 MDM(Master Data Management)을 관리하고, 데이터 간의 이질성을 해결하고, 업무 간의 연관관계를 효율적으로 제공한다. 이것은 MDR(Meta Data Registry), 온톨로지, BR(Business Relations)으로 구성된다. MDR은 구조적 이질성을 해결하기 위한 메타 데이터간의 관계성을 기술한다. 온톨로지는 의미적 이질성과 데이터 간의 관계성을 기술한다. BR은 업무 간의 관계성을 기술한다. XMDR 데이터 허브는 마스터 데이터의 관리를 지원하고, 프로세스 간의 상호작용을 효율적으로 지원할 수 있다.

A Study of Data Interoperability System using DBaaS for Mobility Handicapped

  • Kwon, TaeWoo;Lee, Jong-Yong;Jung, Kye-Dong
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제11권1호
    • /
    • pp.97-102
    • /
    • 2019
  • As the number of "Mobility Handicapped" increases, the incidence of "Mobility Handicapped" traffic accidents is also increasing. In order to reduce the incidence of traffic accidents in the "Mobility Handicapped", a service providing system for "Mobility Handicapped" is required. Since these services have different data formats, data heterogeneity occurs. Therefore, the system should resolve the data heterogeneity by mapping the format of the data. In this paper, we design DBaaS as a mobility handicapped system for data interoperability. This system provides a service to extend the flashing time of the traffic lights according to the condition of "Mobility Handicapped" on the occurrence of a fall or a crosswalk in a crosswalk where there is a risk of a traffic accident. These services can reduce the incidence of traffic accidents in "Mobility Handicapped".

Random Parameter를 이용한 4지 신호교차로에서의 교통사고 예측모형 개발 : 부산광역시를 대상으로 (A Development of Traffic Accident Models at 4-legged Signalized Intersections using Random Parameter : A Case of Busan Metropolitan City)

  • 박민호;이동민;윤천주;김영록
    • 한국도로학회논문집
    • /
    • 제17권6호
    • /
    • pp.65-73
    • /
    • 2015
  • PURPOSES : This study tries to develop the accident models of 4-legged signalized intersections in Busan Metropolitan city with random parameter in count model to understanding the factors mainly influencing on accident frequencies. METHODS : To develop the traffic accidents modeling, this study uses RP(random parameter) negative binomial model which enables to take account of heterogeneity in data. By using RP model, each intersection's specific geometry characteristics were considered. RESULTS : By comparing the both FP(fixed parameter) and RP modeling, it was confirmed the RP model has a little higher explanation power than the FP model. Out of 17 statistically significant variables, 4 variables including traffic volumes on minor roads, pedestrian crossing on major roads, and distance of pedestrian crossing on major/minor roads are derived as having random parameters. In addition, the marginal effect and elasticity of variables are analyzed to understand the variables'impact on the likelihood of accident occurrences. CONCLUSIONS : This study shows that the uses of RP is better fitted to the accident data since each observations'specific characteristics could be considered. Thus, the methods which could consider the heterogeneity of data is recommended to analyze the relationship between accidents and affecting factors(for example, traffic safety facilities or geometrics in signalized 4-legged intersections).

SPATIAL AND TEMPORAL INFLUENCES ON SOIL MOISTURE ESTIMATION

  • Kim, Gwang-seob
    • Water Engineering Research
    • /
    • 제3권1호
    • /
    • pp.31-44
    • /
    • 2002
  • The effect of diurnal cycle, intermittent visit of observation satellite, sensor installation, partial coverage of remote sensing, heterogeneity of soil properties and precipitation to the soil moisture estimation error were analyzed to present the global sampling strategy of soil moisture. Three models, the theoretical soil moisture model, WGR model proposed Waymire of at. (1984) to generate rainfall, and Turning Band Method to generate two dimensional soil porosity, active soil depth and loss coefficient field were used to construct sufficient two-dimensional soil moisture data based on different scenarios. The sampling error is dominated by sampling interval and design scheme. The effect of heterogeneity of soil properties and rainfall to sampling error is smaller than that of temporal gap and spatial gap. Selecting a small sampling interval can dramatically reduce the sampling error generated by other factors such as heterogeneity of rainfall, soil properties, topography, and climatic conditions. If the annual mean of coverage portion is about 90%, the effect of partial coverage to sampling error can be disregarded. The water retention capacity of fields is very important in the sampling error. The smaller the water retention capacity of the field (small soil porosity and thin active soil depth), the greater the sampling error. These results indicate that the sampling error is very sensitive to water retention capacity. Block random installation gets more accurate data than random installation of soil moisture gages. The Walnut Gulch soil moisture data show that the diurnal variation of soil moisture causes sampling error between 1 and 4 % in daily estimation.

  • PDF