• Title/Summary/Keyword: 편향된 데이터

Search Result 163, Processing Time 0.028 seconds

Constructing Database and Probabilistic Analysis for Ultimate Bearing Capacity of Aggregate Pier (쇄석다짐말뚝의 극한지지력 데이터베이스 구축 및 통계학적 분석)

  • Park, Joon-Mo;Kim, Bum-Joo;Jang, Yeon-Soo
    • Journal of the Korean Geotechnical Society
    • /
    • v.30 no.8
    • /
    • pp.25-37
    • /
    • 2014
  • In load and resistance factor design (LRFD) method, resistance factors are typically calibrated using resistance bias factors obtained from either only the data within ${\pm}2{\sigma}$ or the data except the tail values of an assumed probability distribution to increase the reliability of the database. However, the data selection approach has a shortcoming that any low-quality data inadvertently included in the database may not be removed. In this study, a data quality evaluation method, developed based on the quality of static load test results, the engineering characteristics of in-situ soil, and the dimension of aggregate piers, is proposed for use in constructing database. For the evaluation of the method, a total 65 static load test results collected from various literatures, including static load test reports, were analyzed. Depending on the quality of the database, the comparison between bias factors, coefficients of variation, and resistance factors showed that uncertainty in estimating bias factors can be reduced by using the proposed data quality evaluation method when constructing database.

Skew-Aware Partitioning of Multi-Dimensional Array Data (다차원 배열 데이터에 대한 편향 인지 분할 기법)

  • Kim, MyeongJin;Oh, SoHyeon;Shin, YoonJae;Choe, YeonJeong;Lee, Ki Yong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.1223-1225
    • /
    • 2015
  • 본 논문에서는 여러 과학분야에서 사용되는 대용량 배열 데이터를 병렬처리를 위해 효율적으로 분할하는 기법을 제안한다. 실제 배열 데이터는 희소(sparse) 배열로 구성된 경우가 많아 기존의 chunking 기법을 사용하면 일부 chunk에게만 데이터가 밀집되는 편향 현상이 발생하게 된다. 이러한 문제를 극복하기 위해 본 논문에서는 k-d tree와 유사한 방법으로 공간을 분할하고, 분할된 공간을 chunk로 두는 방법을 제안한다. 제안 방법에 의해 각 chunk는 데이터의 밀집 정도가 비슷하게 되어 효과적인 부하분산(load balancing)이 이루어질 수 있다.

Performance Enhancement of a DVA-tree by the Independent Vector Approximation (독립적인 벡터 근사에 의한 분산 벡터 근사 트리의 성능 강화)

  • Choi, Hyun-Hwa;Lee, Kyu-Chul
    • The KIPS Transactions:PartD
    • /
    • v.19D no.2
    • /
    • pp.151-160
    • /
    • 2012
  • Most of the distributed high-dimensional indexing structures provide a reasonable search performance especially when the dataset is uniformly distributed. However, in case when the dataset is clustered or skewed, the search performances gradually degrade as compared with the uniformly distributed dataset. We propose a method of improving the k-nearest neighbor search performance for the distributed vector approximation-tree based on the strongly clustered or skewed dataset. The basic idea is to compute volumes of the leaf nodes on the top-tree of a distributed vector approximation-tree and to assign different number of bits to them in order to assure an identification performance of vector approximation. In other words, it can be done by assigning more bits to the high-density clusters. We conducted experiments to compare the search performance with the distributed hybrid spill-tree and distributed vector approximation-tree by using the synthetic and real data sets. The experimental results show that our proposed scheme provides consistent results with significant performance improvements of the distributed vector approximation-tree for strongly clustered or skewed datasets.

A GPU-based Terrain Rendering using Multi-resolution Bias Map (다해상도 편향맵을 이용한 GPU기반의 지형 렌더링)

  • Lee, Eun-Seok;Kim, Tae-Gwon;Lee, Jin-Hee;Shin, Byeong-Seok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06c
    • /
    • pp.314-316
    • /
    • 2012
  • 대용량 지형 데이터를 실시간에 렌더링 하기 위해 여러 가지 연속상세단계 기법들이 연구되었다. 하지만 이러한 방법을 적용해도 지형 데이터가 하드웨어에서 처리할 수 있는 크기보다 클 경우 과도한 간략화로 인한 기하오차가 발생하거나 프레임률이 저하된다. 또한 기존 연속상세단계 기법을 수행하기 위해 만들어진 자료구조들 또한 지형 데이터의 크기에 비례하여 커지므로 메모리와 전처리 시간이 많이 소요된다. 본 논문에서는 적은 개수의 정점으로 효과적인 지형 렌더링이 가능한 편향맵을 다해상도로 확장하여 별도의 자료구조가 따로 필요 없는 간단한 연속상세단계 기법을 제안한다. 이 방법은 적은 메모리 용량으로 높은 정확도의 지형을 실시간에 렌더링 할 수 있다. 연속상세단계 선택은 보다 빠른 처리를 위해 GPU에서 패치 단위의 테셀레이션을 통해서 단일 패스로 수행된다. 상세단계가 선택으로 세분화 된 지형의 각 정점들은 화면 공간상의 오차를 참조하여 각각의 상세단계를 선택한 후 해당되는 편향맵에 저장된 이동벡터만큼 이동하여 최종 지형 메쉬를 생성한다. 제안한 방법은 전처리 단계를 포함한 모든 처리가 GPU에서 수행되므로 속도가 빠르고 적은 정점으로 보다 정확한 지형을 렌더링 할 수 있다.

Ensemble Composition Methods for Binary Classification of Imbalanced Data (불균형 데이터의 이진 분류를 위한 앙상블 구성 방법)

  • Yeong-Hun Kim;Ju-Hing Lee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.689-691
    • /
    • 2023
  • 불균형 데이터의 분류의 성능을 향상시키기 위한 앙상블 구성 방법에 관하여 연구한다. 앙상블의 성능은 앙상블을 구성한 기계학습 모델 간의 상호 다양성에 큰 영향을 받는다. 기존 방법에서는 앙상블에 속할 모델 간의 상호 다양성을 높이기 위해 Feature Engineering 을 사용하여 다양한 모델을 만들어 사용하였다. 그럼에도 생성된 모델 가운데 유사한 모델들이 존재하며 이는 상호 다양성을 낮추고 앙상블 성능을 저하시키는 문제를 가지고 있다. 불균형 데이터의 경우에는 유사 모델 판별을 위한 기존 다양성 지표가 다수 클래스에 편향된 수치를 산출하기 때문에 적합하지 않다. 본 논문에서는 기존 다양성 지표를 개선하고 가지치기 방안을 결합하여 유사 모델을 판별하고 상호 다양성이 높은 후보 모델들을 앙상블에 포함시키는 방법을 제안한다. 실험 결과로써 제안한 방법으로 구성된 앙상블이 불균형이 심한 데이터의 분류 성능을 향상시킴을 확인하였다.

Analyzing Media Bias in News Articles Using RNN and CNN (순환 신경망과 합성곱 신경망을 이용한 뉴스 기사 편향도 분석)

  • Oh, Seungbin;Kim, Hyunmin;Kim, Seungjae
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.24 no.8
    • /
    • pp.999-1005
    • /
    • 2020
  • While search portals' 'Portal News' account for the largest portion of aggregated news outlet, its neutrality as an outlet is questionable. This is because news aggregation may lead to prejudiced information consumption by recommending biased news articles. In this paper we introduce a new method of measuring political bias of news articles by using deep learning. It can provide its readers with insights on critical thinking. For this method, we build the dataset for deep learning by analyzing articles' bias from keywords, sourced from the National Assembly proceedings, and assigning bias to said keywords. Based on these data, news article bias is calculated by applying deep learning with a combination of Convolution Neural Network and Recurrent Neural Network. Using this method, 95.6% of sentences are correctly distinguished as either conservative or progressive-biased; on the entire article, the accuracy is 46.0%. This enables analyzing any articles' bias between conservative and progressive unlike previous methods that were limited on article subjects.

A Terrain Rendering Method using Roughness Map and Bias Map (거칠기맵과 편향맵을 이용한 지형 렌더링 가법)

  • Lee, Eun-Seok;Jo, In-Woo;Shin, Byeong-Seok
    • Journal of the Korea Computer Graphics Society
    • /
    • v.17 no.2
    • /
    • pp.1-9
    • /
    • 2011
  • In recent researches, several LOD techniques are used for real-time visualization of large sized terrain data. However, during mesh simplification, geometry popping may occur in consecutive frames, because of the geometric error. We propose an efficient method for reducing the geometry popping using roughness map and bias map. A roughness map and a bias map are used to move vertices of the terrain mesh to appropriate position where they minimize the geometry errors. A roughness map and a bias map are represented as a texture suitable for GPU processing. Moving vertices using bias map is processed on the GPU, so the high-speed visualization can be possible.

Effect of Application of Ensemble Method on Machine Learning with Insufficient Training Set in Developing Automated English Essay Scoring System (영작문 자동채점 시스템 개발에서 학습데이터 부족 문제 해결을 위한 앙상블 기법 적용의 효과)

  • Lee, Gyoung Ho;Lee, Kong Joo
    • Journal of KIISE
    • /
    • v.42 no.9
    • /
    • pp.1124-1132
    • /
    • 2015
  • In order to train a supervised machine learning algorithm, it is necessary to have non-biased labels and a sufficient amount of training data. However, it is difficult to collect the required non-biased labels and a sufficient amount of training data to develop an automatic English Composition scoring system. In addition, an English writing assessment is carried out using a multi-faceted evaluation of the overall level of the answer. Therefore, it is difficult to choose an appropriate machine learning algorithm for such work. In this paper, we show that it is possible to alleviate these problems through ensemble learning. The results of the experiment indicate that the ensemble technique exhibited an overall performance that was better than that of other algorithms.

Object Detection Method Using Adversarial Learning on Domain Discriminator (도메인 판별기의 적대적 학습을 이용한 객체 검출 방법)

  • Hyeonseok Kim;Yeejin Lee
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.11a
    • /
    • pp.91-94
    • /
    • 2022
  • 자율주행 자동차 개발 연구가 활발히 진행됨에 따라 객체 검출기의 성능이 중요하게 되었다. 딥러닝 기술의 발전하면서 객체 검출기의 성능도 큰 발전을 이루었다. 그에 따라 도로 위 차량 검출기의 성능도 발전하고 있으나 평상시 낮 도로상황에서 잘 동작하던 모델은 안개가 끼거나 밤 상황이 되면 제대로 동작하지 못하는 문제를 가지고 있다. 이유는 딥러닝 모델이 학습할 때 사용한 데이터셋의 정보에 따라 특정 도메인에 편향된 특성을 학습하기 때문이다. 따라서, 본 논문에서는 객체 검출 신경망에 도메인 판별기를 적용하여 이와 같은 도메인 이동 문제를 극복하는 모델을 제안한다. 모델의 성능을 Cityscapes 데이터셋과 Foggy Cityscapes 데이터셋을 사용하여 평가한 결과, 기존의 특정 도메인에서 학습한 모델보다 제안하는 모델의 검출 성능이 개선된다는 것을 확인하였다.

  • PDF

Empirical Study on Unit Bias under the Flat Rate Pricing in the Korean Mobile Telecommunication Market (이동통신시장에서의 단위편향 소비행태 발생에 관한 실증연구)

  • Lee, Sang-Woo;Jeong, Seon-Hwa;Lee, Hyeongjik
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.41 no.2
    • /
    • pp.229-237
    • /
    • 2016
  • The purpose of this paper is to empirically identify whether unit bias exists or not under the flat rate pricing in the Korean mobile telecommunication market and to give the desirable form of pricing plans for minimizing this irrational behaviors. Our results show that with the flat rate pricing consumers tends to make more voice or data traffic over their optimal consumption level, meaning the existence of unit bias in the Korean mobile market. These results imply that under the current pricing plans subscribers may pay higher monthly fee than their optimal cost which maximizes their utility, for using the telecommunications service. Thus, policy makers need to consider adopting mobile operators' segmentation of the flat rate pricing plans for the reduction of subscribers' telecommunications costs and the improvement of consumer welfare.