• 제목/요약/키워드: 중복 분석

Search Result 1,453, Processing Time 0.025 seconds

Performance Analysis of Data Consistency Model Using Bluetooth (블루투스를 이용한 데이터 일치성 모델의 성능 분석)

  • 한국희;김찬우;김재훈;고영배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04d
    • /
    • pp.292-294
    • /
    • 2003
  • 인터넷의 보급과 활용이 증대되고 있고, 이동 통신에 대한 관심과 함께 분산 환경을 통한 컴퓨팅의 성능 향상이 중요시되고 있다. 분산 환경에서 데이터 사용의 성능을 향상시키기 위하여 데이터 중복 기법을 사용하는데, 서로 다른 복사본 사이의 데이터 일치성 유지가 필요하다. 본 논문에서는 데이터 일치성의 대표적인 모델을 Eager, Lazy, Periodic 세 가지로 구분하고. 각 모델의 특징을 알아보고 비용을 분석하여 사용자가 적절한 모델을 사용할 수 있도록 하였다. 또한 무선 컴퓨팅 환경에서의 데이터 일치성에 대한 테스트 베드를 블루투스를 이용하여 구축한 후 실제 성능을 측정하여 비용분석 모델의 유용성을 검증하였다.

  • PDF

Variable Selection for Multi-Purpose Multivariate Data Analysis (다목적 다변량 자료분석을 위한 변수선택)

  • Huh, Myung-Hoe;Lim, Yong-Bin;Lee, Yong-Goo
    • The Korean Journal of Applied Statistics
    • /
    • v.21 no.1
    • /
    • pp.141-149
    • /
    • 2008
  • Recently we frequently analyze multivariate data with quite large number of variables. In such data sets, virtually duplicated variables may exist simultaneously even though they are conceptually distinguishable. Duplicate variables may cause problems such as the distortion of principal axes in principal component analysis and factor analysis and the distortion of the distances between observations, i.e. the input for cluster analysis. Also in supervised learning or regression analysis, duplicated explanatory variables often cause the instability of fitted models. Since real data analyses are aimed often at multiple purposes, it is necessary to reduce the number of variables to a parsimonious level. The aim of this paper is to propose a practical algorithm for selection of a subset of variables from a given set of p input variables, by the criterion of minimum trace of partial variances of unselected variables unexplained by selected variables. The usefulness of proposed method is demonstrated in visualizing the relationship between selected and unselected variables, in building a predictive model with very large number of independent variables, and in reducing the number of variables and purging/merging categories in categorical data.

국내 원자력 발전소 정지 이력에 근거한 초기사건빈도 분석

  • 이윤환;정원대;박진희;진영호
    • Proceedings of the Korean Institute of Industrial Safety Conference
    • /
    • 1998.11a
    • /
    • pp.205-210
    • /
    • 1998
  • 원자력발전소(이하 원전)는 안전이 특별히 강조되는 설비로서 다양하고 중복적인 안전설비와 운전체계를 갖추고 있다. 이런 설계 및 운전개념으로 인하여 조그마한 이상 징후에도 보수적 관점에서 원자로를 정지시키게 된다. 따라서 원자로의 정지는 원전의 안전조치 중 가장 기본적인 반응 결과라 할 수 있다. (중략)

  • PDF

Evaluation of Efficiency in the Seoul's Arterial Bus Routes Considering Undesirable Outputs (유해산출물을 고려한 서울시 간선버스노선의 효율성 평가)

  • Han, Jin-Seok;Kim, Hye-Ran;Go, Seung-Yeong
    • Journal of Korean Society of Transportation
    • /
    • v.28 no.5
    • /
    • pp.43-54
    • /
    • 2010
  • In order to improve the existing evaluation system of bus services and gain more reasonable analysis outputs, the authors evaluate the efficiency of 113 arterial bus routes in Seoul in 2009 using a modified BCC model considering not only desirable outputs but also undesirable outputs. Each Decision Making Unit (DMU) is assumed to use inputs such as possession costs, operating costs, the ratios of median bus stops overlapped route lengths to produce estimates of desirable outputs (the number of passengers and service satisfaction score) and undesirable outputs (CO2 emissions). According to the analysis, the modified BCC model considering both desirable outputs and undesirable outputs shows more appropriate results. DMUs would be more efficient on average to reduce nearly 10% of the 3 inputs (possession costs, operating costs, and overlapped route lengths) and increase by about 160% the ratios of median bus stops. Also, a Tobit regression analysis is conducted to identify the most effective variables for maximum efficiency and discover that the variable of possession costs and the ratios of median bus stops are statistically significant.

A Study on Selecting Principle Component Variables Using Adaptive Correlation (적응적 상관도를 이용한 주성분 변수 선정에 관한 연구)

  • Ko, Myung-Sook
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.3
    • /
    • pp.79-84
    • /
    • 2021
  • A feature extraction method capable of reflecting features well while mainaining the properties of data is required in order to process high-dimensional data. The principal component analysis method that converts high-level data into low-dimensional data and express high-dimensional data with fewer variables than the original data is a representative method for feature extraction of data. In this study, we propose a principal component analysis method based on adaptive correlation when selecting principal component variables in principal component analysis for data feature extraction when the data is high-dimensional. The proposed method analyzes the principal components of the data by adaptively reflecting the correlation based on the correlation between the input data. I want to exclude them from the candidate list. It is intended to analyze the principal component hierarchy by the eigen-vector coefficient value, to prevent the selection of the principal component with a low hierarchy, and to minimize the occurrence of data duplication inducing data bias through correlation analysis. Through this, we propose a method of selecting a well-presented principal component variable that represents the characteristics of actual data by reducing the influence of data bias when selecting the principal component variable.

A study on ODDMRP clustering scheme of Ad hoc network by using context aware information (상황정보를 이용한 ad hoc network의 ODDMRP clustering 기법에 관한 연구)

  • Chi, Sam-Hyun;Lee, Kang-Whan
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2008.05a
    • /
    • pp.890-893
    • /
    • 2008
  • 자율성 및 이동성 갖는 네트워크 구조의 하나인 MANET(Mobile Ad-Hoc Networks)은 각 node들은 그 특성에 따라서 clustering service을 한다. node의 전송과정 중 path access에 대하여 중요성 또한 강조되고 있다. 일반적인 무선 네트워크 상에서의 node들은 clustering을 하게 되는데 그 과정에서 발생되는 여러 가지 문제점을 가지고 전송이 이루어진다. 모든 node들이 송, 수신상의 전송 범위(Beam forming area)가지고 있으며, 이러한 각 node들의 전송범위 내에 전송이 이루어지는 전통적인 전송기술 mechanism을 찾는다. 이러한 전송상황에서의 송신하는 node와 수신된 node간에 발생되고 있는 중복성의 문제점으로 즉, 상호적용에 의한 네트워크 duplicate(overlapping)이 크게 우려가 되고 있다. 이러한 전송상의 전송 범위 중첩, node간의 packet 간섭현상, packet의 중복수신 및 broadcasting의 storming현상이 나타난다. 따라서 본 논문에서는 상황정보의 속성을 이용한 계층적 상호 head node들의 접근된 위치와 연계되는 전송속도, 보존하고 있는 head node들의 에너지 source value, doppler효과를 통한 head node의 이동방향 등 분석한다. 분석된 방법으로 전송상의 계층적 path가 구성된 경험적 path 속성을 통한 네트워크 connectivity 신뢰성을 극대화 할 뿐만 아니라 네트워크의 전송 범위 duplicate을 사전에 줄일 수 있고 전송망의 최적화를 유지할 수 있는 기법의 하나인 상황정보를 이용한 ad hoc network의 ODDMRP(Ontology Doppler effect-based Dynamic Multicast Routing Protocol) clustering 기법을 제안한다.

  • PDF

복합금융그룹의 부실위험

  • Jang, Uk;Park, Jong-Won
    • The Korean Journal of Financial Studies
    • /
    • v.14 no.1
    • /
    • pp.119-158
    • /
    • 2008
  • 본 연구에서는 복합금융그룹의 부실위험을 그룹전체기반 측도로 측정하는 방법론을 비교하고 국내 복합금융그룹의 자료를 이용하여 실증분석한다. Joint Forum(2001a) 방법은 연결기준을 사용하여 그룹내 자본의 중복요소들을 상계한 후 필요자본 대비 자기자본비율을 구한다. 신BIS 규제자본 방법은 Vasicek(1987)의 점근적 단일위험 모형을 가정하여 자산의 전체기반 위험을 측정하고 연결기준을 사용하여 자본의 중복계상을 배제하여 측정한다. 개별 경제적 자본 방법은 개별 경제적 위험을 수준별로 합산하여 전체기반 경제적 자본을 빌딩블록 방식으로 합산한다. 경제적 자본 방법은 위험 측정시 겪게 되는 극단적 손실 문제와 결합분포의 비대칭성을 반영할 수 있는 방법을 측정시 포함시킬 수 있다. 국내 복합금융그룹의 자료를 이용하여 실증분석을 한 결과, 첫째, 개별 재무지표에서 복합금융그룹 소속회사들의 ROA, ROA 변동성 그리고 총자산 대비 자기자본비율이 우량한 것으로 나타났다. 특히 가장 비중이 큰 은행산업에서 위 개별 재무지표는 복합금융그룹 소속회사에서 우량하게 나타난다. 둘째, 그룹전체기반 위험자본 측도로서 필요자본 대비 자기자본 비율과 연결기준 BIS비율을 살펴본 결과 은행계열 금융그룹의 부실위험이 낮은 것으로 판단된다. 전체적으로 국내 복합금융그룹의 부실위험은 높지 않은 것으로 판단된다. 이상의 결과를 바탕으로 복합금융그룹에 대한 리스크상시감시방안에의 시사점을 살펴보면, 첫째, 복합금융그룹 소속 금융회사에 대한 리스크 평가시 그룹전체기반 부실위험평가를 반영하여 이를 측정할 필요가 있다. 둘째, 권역별로 통일된 리스크감시를 위해 권역별 자기자본규제의 형평성을 제고할 필요가 있다.

  • PDF

Efficient Processing of Next Generation Sequencing Reads Using Hitting Set Problem (Hitting Set 문제를 이용한 Next Generation Sequencing Read의 효율적인 처리)

  • Park, Tae-Won;Kim, So-Ra;Choi, Seok-Moon;Cho, Hwan-Gue;Lee, Do-Hoon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06b
    • /
    • pp.466-469
    • /
    • 2011
  • 최근에 등장한 Next Generation Sequencing(NGS)은 전통적인 방법에 비해 빠르고 저비용으로 대용량의 시퀀스 데이터를 이용한 차세대 시퀀싱 기술을 말한다. 이렇게 얻은 NGS 데이터를 분석하는 단계 중에서 alignment 단계는 시퀀서에서 얻은 대량의 read를 참조 염기서열에 맵핑하는 단계로 NGS 데이터 분석의 가장 기본이면서 핵심인 단계이다. alignment 도구는 긴 참조 염기서열을 색인화해서 짧은 read를 빠르게 맵핑하는 용도로 사용된다. 현재 많이 사용되고 있는 일반적인 alignment 도구들은 입력데이터에 대한 별도의 전처리 과정이 없으며 나열된 read를 순차적으로 맵핑하는 단순한 구조를 가지고 있다. 본 논문은 NGS 데이터의 특징 중에 특히 read간의 중복성이 존재하고 이를 이용한 read의 효율적 공통부분 서열을 찾는다. 중복이 가능한 read의 공통부분서열과 read의 관계를 그래프 이론의 Hitting Set 문제로 모델링하고 여러 read가 포함하는 공통 부분서열을 사용해서 alignment 단계의 효율을 높일 수 방법을 제안한다.

The Meta-Analysis on the Research Trends about Security System for Protecting Corporate Information (기업정보 보호를 위한 보안 시스템 연구동향 메타분석)

  • Hong, Seungwan;Na, Onechul;Kim, Jawon;Chang, Hangbae
    • Annual Conference of KIPS
    • /
    • 2017.04a
    • /
    • pp.299-301
    • /
    • 2017
  • 최근 다양한 산업들이 IT기술과 융합되어 비즈니스 환경이 변화하고, 핵심자산이 정보화됨에 따라 기업정보 유출의 위험성이 높아지고 있다. 이러한 유출 사건 사고는 끊임없이 증가하고 있기 때문에, 선행적으로 기업정보를 보호할 수 있는 보안환경이 구축되어야 한다. 이에 따라 기업정보 보안기술에 대한 연구와 투자는 꾸준히 증가하고 있으며, 다양한 보안 시스템이 개발되고 있다. 그러나 기업정보 보안기술에 대한 적절한 구분이 되어있지 않아 보안 시스템들이 서로 중복된 기능을 수행하고 있다. 중복된 기능의 보안 시스템 사용은 비용을 낭비할 뿐만 아니라, 효율적인 보안 관리를 하지 못하게 되는 문제가 발생한다. 따라서 본 논문에서는 이러한 문제점을 해결하고 균형 잡힌 기업정보 보안 시스템의 발전을 위해 선행연구를 통해 기업정보 보안 시스템에 관한 분류체계를 설계하였다. 향후 이 분류체계를 기반으로 메타분석을 실시하여, 그동안 진행된 기업정보 보안 시스템 분야에 대한 연구동향을 파악하고 학술적으로 연구자들에게 연구 방향성을 제시하고자 한다.

A Study on Error Data Types in the KERIS Union Catalog - Focused on Dissertation Bibliographic Database - (종합목록 데이터의 오류 유형에 관한 연구 - KERIS종합목록의 학위논문 서지데이터를 중심으로 -)

  • Cho, Sun-Yeong
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.36 no.4
    • /
    • pp.5-19
    • /
    • 2002
  • The KERIS Union Catalog is the largest bibliographic database in Korea. It has over 5.7 million bibliographic records and at present 330 university libraries are participating in shared cataloging services. The database, however, includes various errors and a large number of duplicate data because separate databases from many university libraries were merged without proper quality control in a short period. This study intends to find error data types by analyzing dissertation bibliographic data. The results show that error data are mainly caused by input errors, and the mistakes in using MARC formats and cataloging rules.