• 제목/요약/키워드: 중복 데이터

검색결과 1,019건 처리시간 0.03초

종합목록 데이터의 오류 유형에 관한 연구 - KERIS종합목록의 학위논문 서지데이터를 중심으로 - (A Study on Error Data Types in the KERIS Union Catalog - Focused on Dissertation Bibliographic Database -)

  • 조순영
    • 한국문헌정보학회지
    • /
    • 제36권4호
    • /
    • pp.5-19
    • /
    • 2002
  • KERIS의 대학도서관 종합목록은 330개 대학도서관이 가입하여 570만 레코드를 보유하고 있는 국내 최대의 목록이다. 그러나 각 회원기관이 이미 구축한 DB를 짧은 기간 내 통합하면서 중복 및 오류 레코드가 많이 포함되어 있기 때문에 검색의 효율성이 떨어진다는 지적이 있다. 따라서 본 연구에서는 전체 자료의 10%를 차지하는 학위논문 데이터 1000건을 대상으로 오류 데이터의 유형을 분석함으로서 데이터의 품질을 측정하고 기계적으로 오류데이터를 색출할 수 있는 방안을 제시하였다. 분석 결과 오류데이터는 전체 표본 DB의 30%를 차지하였고 발생하는 주요 원인은 1)입력오류 2)MARC의 사용 오류 3)목록규칙의 적용 오류가 가장 큰 원인으로 나타났다.

클라우드 환경에서 중복 제거 기법을 적용한 SSD 기반의 회복 효율성 최적화 시스템 설계 (SSD Assisted Recovery Efficiency Optimization System Based on Deduplication Method in the Cloud)

  • 김민재;김경태;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제50차 하계학술대회논문집 22권2호
    • /
    • pp.223-226
    • /
    • 2014
  • 클라우드 컴퓨팅 및 모바일 통신 서비스의 사용량이 급격히 증가함에 따라 데이터가 기하급수적으로 증가하고 있다. 이러한 데이터를 저장하는 스토리지 장치로서 소비 전력이 작으며 우수한 데이터 접근 성능을 보이는 SSD(Solid State Disk)가 각광받고 있다. SSD는 다수의 NAND 플래시 메모리를 부착하고 호스트에서 요구하는 명령을 받아 수행하는 대용량 장치이다. 이러한 SSD는 비휘발성, 빠른 성능, 내구성, 저전력 등의 장점으로 인해 시장에서 널리 사용되고 있다. 그러나 이러한 SSD의 장점들에도 불구하고 읽기, 쓰기, 삭제 연산 수행 시간의 비대칭성과 불균등한 기본단위, 덮어쓰기 연산의 불가, 한정된 블록 당 삭제횟수 등의 NAND 플래시 메모리의 내재적 단점들이 존재한다. 그 중 NAND 플래시 메모리의 블록 당 한정된 삭제 횟수는 SSD의 수명에 영향을 끼치며 일정한 삭제 횟수를 초과하게 되면 안정성이 크게 떨어지게 되고 더 이상 사용이 불가능하게 된다. 따라서 본 논문에서는 클라우드 환경에서의 SSD에서 NAND 플래시 블록의 한정된 삭제 횟수에 따른 성능의 효율성을 향상시키기 위하여 중복 제거 기법을 적용한 SSD기반의 회복 효율성 최적화 시스템을 설계하였다.

  • PDF

데이터 품질 관리 : CRM을 사례로 연산자와 매칭기법 중심 (Data Quality Management: Operators and a Matching Algorithm with a CRM Example)

  • 심준호
    • 한국전자거래학회지
    • /
    • 제8권3호
    • /
    • pp.117-130
    • /
    • 2003
  • CRM 과 같은 전자상거래응용시스템에서 동일한 데이터의 중복이나 불일치는 종종 일어나며 이는 바람직하지 못하다. 데이터 품질 관리란 데이터들간의 비 일치와 중복을 발견하고 제거함을 목적으로 한다. 통상적인 데이터 품질관리 프로세스는 클리닝, 매칭, 통합의 세 단계를 거친다. 본 논문에서는 일반적인 데이터 품질 관리를 각 단계별로 필요한 연산자들을 정의한다. 특히 실제적 인 시스템 구현에서 필요한 매칭 단계에서 사용하는 거리함수와 매칭 알고리즘을 제안하며, 마지막으로 관련 연구를 제시한다.

  • PDF

영역별 양방향 예측과 KLT를 이용한 인공위성 화상데이터 압축 (Landsat TM Image Compression Using Classified Bidirectional Prediction and KLT)

  • 김승진;김태수;박경남;김영춘;이건일
    • 대한전자공학회논문지SP
    • /
    • 제42권1호
    • /
    • pp.1-7
    • /
    • 2005
  • 웨이블릿 영역에서 영역별 양방향 예측, KLT (Karhunen-Loeve transform)/sup [13]/, 및 3차원 SPIHT (set partition in hierarchical trees)/sup [1]/를 이용한 인공위성 화상데이터의 부호화 방법을 제안하였다. 가시광선 영역과 적외선 영역에서 선택된 기준대역 (feature band)에 대하여 SPIHT를 행하여 부호화함으로써 대역내 (intraband) 중복성을 제거한다. 기준대역을 예측대역(prediction band)들에 대해서는 웨이블릿 변환 (wavelet transform)을 행한 후, 빛의 반사 및 역의 방사에 따라 대역별 특성이 다름을 이용하여 영역분류를 하고 영역별 양방향 예측 (classified bidirectional prediction)을 행함으로써 대역간 (interband) 중복성을 제거한다. 원 인공위성 화상데이터와 부호화 된 인공위성 화상데이터 사이의 오차값으로 구성된 오차대역 (residual band)들에 대하여 KLT를 행함으로써 대역간 중복성이 제거되고 계수값들은 고유치의 크기에 따라서 분광적으로 정렬됨으로써 3차원 SPIHT의 부호화 효율을 향상시킨다. 인공위성 화상데이터에 대한 모의실험을 통하여 제안한 방법의 부호화 효율이 기존의 방법에 비하여 우수함을 확인하였다.

효율적인 각 기반 공간 분할 병렬 스카이라인 질의 처리를 위한 데이터 샘플링 기반 프루닝 기법 (A Sampling based Pruning Approach for Efficient Angular Space Partitioning based Skyline Query Processing)

  • 최우성;민종현;정재화;정순영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.55-58
    • /
    • 2016
  • 스카이라인 질의란 다수의 선택지 중 '선호될 만한(preferable)' 선택지를 요청하는 질의이다. 사용자가 검토해야하는 선택지의 수를 대폭 감소시키는 스카이라인 질의는 데이터가 폭증하는 빅데이터 환경에서 매우 유용하게 활용된다. 이러한 배경에서 대용량 데이터에 대한 스카이라인 질의를 분산 병렬 처리하는 기법이 각광을 받고 있으며, 특히 맵리듀스(MapReduce) 기반의 분산 병렬 처리 기법 연구가 활발히 진행 중이다. 맵리듀스 기반 알고리즘의 병렬성 제고를 위해서는 부하 불균등 문제 중복 계산 문제 과다한 네트워크 비용 발생 문제를 해소해야 한다. 최근 각 기반 공간분할 기법을 사용하여 부하 불균등 문제와 중복 계산 문제를 해소하는 맵리듀스 기반 스카이라인 질의 처리 기법이 제안되었으나 해당 기법은 네트워크 비용 관점에서 최적화되어있지 않다. 본 논문에서는 부하 불균등 문제와 중복 계산 문제를 해소하면서도 프루닝을 통해 네트워크 비용 절감 시킬 수 있는 새로운 맵리듀스 기반 병렬 스카이라인 질의 처리 기법인 MR-SEAP(MapReduce sample Skyline object Equality Angular Partitioning)을 제안한다. MR-SEAP에서는 데이터를 샘플링하여 샘플 스카이라인 객체를 추출한 뒤 해당 객체들을 균등 분배하는 각도를 기준으로 공간을 분할하여 스카이라인 질의를 병렬 계산하되, 샘플 스카이라인을 이용하여 다수의 객체를 사전에 프루닝함으로써 네트워크 비용을 절감한다. 본 논문에서는 다양한 데이터 수량(cardinality) 및 분포(distribution)에 따른 제안 기법의 성능을 실험 평가함으로써 제안 기법의 우수성을 검증한다.

u-GIS 공간 데이터베이스 관리시스템 개발 (The Development of u-GIS Spatial Database Management System)

  • 민경욱;김주완
    • 한국GIS학회:학술대회논문집
    • /
    • 한국GIS학회 2009년도 춘계학술대회
    • /
    • pp.215-217
    • /
    • 2009
  • u-GIS는 기존 정적인 공간데이터와 동적인 GeoSensor 데이터를 융합하여 처리하는 시스템을 말한다. 기존 정적인 공간 데이터는 주로 2차원 공간 데이터였으며 최근 유비쿼터스 환경에서는 이를 확장한 3차원 공간 데이터 및 다차원 시공간 데이터의 요구가 급증하고 있다. 최근 국가 차원에서 3차원 공간 데이터를 구축하고 있으며 DBMS가 아닌 파일 단위로 데이터를 저장하고 관리하고 있다. 이 경우, 데이터의 중복 저장, 표준 인터페이스의 부재, 서버 중심의 데이터 제공의 어려움 등의 문제가 발생한다. 따라서 본 연구에서는 3차원 공간데이터를 효과적으로 저장 관리하기 위하여 3차원 공간 DBMS를 연구 개발하였다.

  • PDF

현재 및 미래 위치 처리를 위한 TPR-tree의 점진적 재구성 기법 (Incremental reorganization Policy of TPR-tree for Querying Predictive Positions)

  • 박동윤;김동현;홍봉희
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 한국공간정보시스템학회 2003년도 추계학술대회
    • /
    • pp.147-152
    • /
    • 2003
  • TPR-tree는 이동체의 위치 데이터에 대해 현재 및 미래 위치 질의를 지원하기 위하여 시간 함수 기반의 경계사각형(Sounding Rectangle)으로 이동체를 색인한다. 경계사각형의 각 축은 가장 빠른 속도로 이동하는 이동체의 속도 값을 이용하여 시간에 따라 확장한다. 경계사각형 영역의 확장으로 중복(overlap)이 심화되고 사장영역(dead space)이 커지는 문제가 있다. 따라서 시간이 지날수록 영역질의 시 성능이 떨어진다. 이 논문에서는 시간이 지남에 따라 발생하는 노드간의 심한 중복과 사장영역을 줄이기 위해 중복이 심한 두 개의 단말노드를 강제 합병하고 재분할하는 강제 합병 정책과 이동체의 삭제가 발생한 노드의 모든 이동체들을 강제적으로 재삽입하는 삭제노드 강제 재삽입 정책과 삭제가 발생한 노드와 중복되는 노드들의 이동체들을 강제적으로 재삽입하는 중복 노드 강제 재삽입 정책을 이용한다. 강제 합병 정책과 삭제 노드 강제 재삽입 정책, 그리고 중복 노드 강제 재삽입은 TPR-tree의 구조를 점진적으로 재구성하기 때문에 이동체의 현재 분포를 고려하여 색인 구조를 동적으로 개선하는 장점을 가진다.

  • PDF

중복을 허용하는 계층적 클러스터링 기법에서 클러스터 간 유사도 평가 (A Novel Linkage Metric for Overlap Allowed Hierarchical Clustering)

  • 전준우;송광호;김유성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.157-161
    • /
    • 2016
  • 본 논문에서는 클러스터 간의 중복을 허용한 계층적 클러스터링(hierarchical clustering) 기법에 적합한 클러스터 간 유사도 평가방법(linkage metric)을 제안하였다. 클러스터 간 유사도 평가방법은 계층적 클러스터링에서 클러스터를 통합하거나 분해하는데 쓰이며 사용된 방법에 따라 클러스터링의 결과가 다르게 형성된다. 기존의 클러스터 간 유사도 평가방법인 single linkage, complete linkage, average linkage 중 single linkage와 complete linkage는 클러스터 간 중복이 허용된 환경에서 정확도가 낮은 문제점이 있고, average linkage는 정확도가 두 방법에 비해 높지만 계산 시간 소요가 크다는 단점이 있다. 따라서 본 논문에서는 기존의 average linkage를 개선하여 중복된 데이터에 의한 필요 계산량을 크게 줄임으로써 시간적 성능이 우수한 클러스터 간 유사도 평가방법을 제안하였다. 또한, 제안된 방법을 기존 방법들과 비교 실험하여 중복을 허용하는 계층적 클러스터링 환경에서 정확도는 비슷하거나 더 높고, average linkage에 비해 계산량이 감소됨을 확인하였다.

  • PDF

단위 모듈 기반의 하드웨어 중복구조 신뢰도 분석 도구 개발 (Development of Reliability Block Diagram Analysis Tool for H/W Redundancy Structure based on Unit Module)

  • 김성수;박상혁;김성환;최기영;하철근;박춘배
    • 한국항공우주학회지
    • /
    • 제37권6호
    • /
    • pp.595-601
    • /
    • 2009
  • 높은 신뢰도를 요구하는 비행제어 시스템은 복잡한 중복구조로 구성된다. 이러한 중복 구조는 시스템의 내고장성(fault tolerant)을 향상시킬 수 있다. 따라서 시스템 설계자는 다양하게 구성될 수 있는 중복구조의 정량적 데이터를 바탕으로 적절한 구조를 선택할 수 있다. 본 논문에서는 중복구조의 특징을 분석하고 신뢰도 해석을 위해 필요한 수학적 모델을 정의하였다. 이렇게 정의된 해석 모델을 적용하여 Simulink 블록 기반의 Reliability Block Diagram 해석 도구를 구성하고, 상용으로 사용되고 있는 도구를 이용하여 분석도구의 타당성을 검증하였다.

u-GIS 환경에서 다중 공간 집계 질의의 중복연산 비용을 감소시키기 위한 자원공유 기법 (Resource Sharing Method to Reduce Duplicate Operation Cost of Multiple Spatial Aggregates in u-GIS Environment)

  • 서민호;김상기;백성하;이연;이동욱;배해영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.344-347
    • /
    • 2009
  • 데이터 스트림을 처리하기 위한 연속집계질의 수행 시 중복연산 및 메모리의 절약을 위하여 큐를 공유하는 자원공유기법이 연구되었다. 기존의 자원공유 기법들은 질의의 프리디킷이 일치할 때만 처리하기 때문에, 질의의 프리디킷이 차이가 나는 경우가 많은 다중공간 집계질의가 자주 요청되는 u-GIS 환경에서 효율적으로 중복영역을 처리할 수 있는 자원공유 기법이 요구된다. 본 논문에서는 공간영역을 효율적으로 그룹화하는 R-tree 의 특징을 이용하여 질의간의 중복영역을 그룹화하고 중복영역의 자원을 패인(Pane)구조를 이용하여 공유한다. 노드 수에 제한이 없고 레벨을 1로 하는 R-tree 로 유사한 위치의 질의들을 그룹화 한 후, 그 질의들의 영역이 겹쳐지는 부분을 패인을 이용해 집계 값을 공유하여 중복계산을 피하는 방법이다. 제안 기법은 공간 집계질의를 처리할 수 있고, 기존의 계층구조의 자원공유 기법을 사용할 때에 비해 자원을 적게 사용하고 질의 처리 시간을 단축시켰다. 성능평가를 통하여 제안기법이 메모리 사용량을 감소시키는 것을 보였으며, 질의 처리 속도가 증가하였다.