• Title/Summary/Keyword: 데이터매칭

Search Result 687, Processing Time 0.044 seconds

Calculation of a Threshold for Decision of Similar Features in Different Spatial Data Sets (이종의 공간 데이터 셋에서 매칭 객체 판별을 위한 임계값 산출)

  • Kim, Jiyoung;Huh, Yong;Yu, Kiyun;Kim, Jung Ok
    • Journal of the Korean Society of Surveying, Geodesy, Photogrammetry and Cartography
    • /
    • v.31 no.1
    • /
    • pp.23-28
    • /
    • 2013
  • The process of a feature matching for two different spatial data sets is similar to the process of classification as a binary class such as matching or non-matching. In this paper, we calculated a threshold by applying an equal error rate (EER) which is widely used in biometrics that classification is a main topic into spatial data sets. In a process of discriminating what's a matching or what's not, a precision and a recall is changed and a trade-off appears between these indexes because the number of matching pairs is changed when a threshold is changed progressively. This trade-off point is EER, that is, threshold. To the result of applying this method into training data, a threshold is estimated at 0.802 of a value of shape similarity. By applying the estimated threshold into test data, F-measure that is a evaluation index of matching method is highly value, 0.940. Therefore we confirmed that an accurate threshold is calculated by EER without person intervention and this is appropriate to matching different spatial data sets.

Effective Resolving of the Performance Bottleneck in Time-Series Subsequence Matching (시계열 서브시퀀스 매칭에서 발생하는 성능 병목의 효과적인 해결 방안)

  • 김상욱;오세봉
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.530-532
    • /
    • 2003
  • 서브시퀀스 매칭은 주어진 질의 시퀀스와 변화의 추세가 유사한 서브시퀀스들을 시계열 데이터베이스로부터 검색하는 연산이다. 본 논문에서는 서브시퀀스 매칭 처리의 성능 병목을 파악하고, 이를 해결함으로써 전체 서브시퀀스 매칭의 성능을 크게 개선하는 방안에 관하여 논의한다. 먼저, 사전 실험을 통하여 후처리 단계가 서브시퀀스 매칭의 성능 병목이며, 후처리 단계의 최적화가 기존의 서브시퀀스 매칭 기법들이 간과한 매우 중요한 이슈임을 지적한다. 이러한 서브시퀀스 매칭의 성능 병목을 해결하기 위하여 후처리 단계를 최적으로 처리할 수 있는 간단하면서도 매우 효과적인 기법을 제안한다. 제안된 기법은 후처리 단계에서 후보 서브시퀀스들이 질의 시퀀스와 실제로 유사한가를 판단하는 순서를 조정함으로써 기존의 후처리 단계의 처리에서 발생하는 많은 디스크 액세스의 중복과 CPU 처리의 중복을 완전히 제거할 수 있다. 실제 데이터와 생성 데이터를 이용한 다양한 실험들을 통하여 제안된 기법의 성능 개선 효과를 정량적으로 검증한다.

  • PDF

Improving Spot Matching Accuracy Using an Automated Landmark Extraction in Protein 2-DE Gel Images (단백질 2-DE 젤 이미지에서 자동 기준점 추출을 통한 스팟 매칭 정확도 향상 기법)

  • Shim, Jung-Eun;Jin, Yan-Hua;Lee, Won-Suk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.05a
    • /
    • pp.455-458
    • /
    • 2008
  • 단백질체학에서 2-DE는 조직내의 단백질을 규명하는 단백질 분리 기술로서 2-DE에 의하여 생성된 단백질 이미지에서 스팟 매칭을 진행하여 상이한 단백질 젤 내에 존재하는 동일한 단백질 클래스를 찾을 수 있다. 그러나 단백질 2-DE 이미지는 실험 환경의 변화에 민감하여 이미지의 위치적인 변형이나 먼지, 공기방울 등으로 인해 많은 에러 정보를 포함할 수 있다. 이러한 에러는 스팟 매칭에 치명적인 영향을 주어 낮은 정확도를 가지게 된다. 본 논문에서는 단백질 2-DE 이미지 분석을 위한 스팟 매칭에서의 정확도를 향상시키기 위하여 기준점 학습과 기준점 추출의 두 단계로 이루어진 자동화된 기준점 추출 방법을 사용하여 스팟 매칭의 정확도를 향상시킬 수 있는 최적의 기준점을 선정하는 방법을 제안하며 선정된 기준점을 기반으로 다수의 기준 이미지를 선택하여 스팟 매칭을 반복적으로 진행함으로써 확률 기반의 정확한 스팟 매칭 결과를 도출하고자 한다. 특히 데이터 마이닝 기법에서 사용되는 최소지지도 값을 적용함으로써 지지도가 높은 스팟 매칭 결과를 빈발한 스팟 매칭으로 판정한다. 제안한 스팟 매칭 정확도 향상 기법의 정확도를 평가하기 위하여 실제 단백질 2-DE 젤 이미지 데이터를 사용하여 입력 기준점의 개수와 최소 지지도의 증가에 따른 정확도의 변화를 분석하였다.

Data Quality Management: Operators and a Matching Algorithm with a CRM Example (데이터 품질 관리 : CRM을 사례로 연산자와 매칭기법 중심)

  • 심준호
    • The Journal of Society for e-Business Studies
    • /
    • v.8 no.3
    • /
    • pp.117-130
    • /
    • 2003
  • It is not unusual to observe that there Is a great amount of redundant or inconsistent data even within an e-business system such as CRM(Customer Relationship Management) system. This problem becomes aggravate when we construct a system of which information are gathered from different sources. Data quality management is indeed needed to avoid any possible redundant or inconsistent data in such information system. A data quality process, in general, consists of three phases: data cleaning (scrubbing), matching, and integration phase. In this paper, we introduce and categorize data quality operators for each phase. Then, we describe our distance function used in the matching phase, and present a matching algorithm PRIMAL (a PRactical Matching Algorithm). And finally, we present a related work and future research.

  • PDF

A Study for XML DTD Matching Method using Inlining Algorithm (Inlining 알고리즘을 이용한 XML DTD 매칭 방법에 관한 연구)

  • Heo, Bo-Jin;Kim, Hyeong-Seok;Kim, Chang-Suk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11c
    • /
    • pp.1505-1508
    • /
    • 2003
  • XML DTD 매칭은 데이터 통합이나 데이터 웨어하우스, 웹 마이닝, 전자상거래, 의미적 질의 처리등과 같은 데이터베이스 관련 응용분야에서 수행해야 할 근본적인 연구 분야이다. 웹이 발전됨에 따라 웹 상의 데이터 교환의 표준인 XML로 많은 데이터를 표현하게 되었고, 이 XML DTD에 대한 매칭이 주된 연구 분야로 대두되었다. XML 스키마는 플랫 구조인 기존의 관계형 데이터베이스 스키마와는 달리 계층적인 트리 구조로 이루어져 DTD를 직접 비교하기가 어렵다. 본 논문에서는 계층적 구조인 XML DTD의 계층적 구조 정보와 무결성 제약조건을 추출하여 일차원적인 직렬 구조로 변환한 후, 유사한 DTD를 매칭하는 방법을 제안한다.

  • PDF

Package Data Type in Haskell (Haskell에서의 패키지 데이터 형)

  • 장학상;권기항
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.760-762
    • /
    • 2004
  • 순수 함수형 프로그래밍 언어 Haskell에서의 데이터 추상은 대수 데이터형과 관련 함수로 묶어진 모듈의 인터페이스만을 노출함으로써 이루어진다. 이러한 데이터 추상에 대한 제한된 용법은 프로그램 설계에 있어 유용하게 사용되는 패턴 매칭을 제약하고, 파일 단위의 추상을 요구함으로써 데이터 구조 단위의 데이터 추상을 불가능하게 한다. 본 논문은 Haskell의 제한된 데이터 추상 문제를 해결하기 위한 방법으로 패키지 데이터형을 제안한다. 패키지 데이터형은 더 작은 단위로 데이터 추상을 가능하게 하고 패턴 매칭을 제악하지 않고 자유롭게 사용할 수 있게 한다.

  • PDF

A Study on Updating Methodology of Road Network data using Buffer-based Network Matching (버퍼 기반 네트워크 매칭을 이용한 도로 데이터 갱신기법 연구)

  • Park, Woo-Jin
    • Journal of Cadastre & Land InformatiX
    • /
    • v.44 no.1
    • /
    • pp.127-138
    • /
    • 2014
  • It can be effective to extract and apply the updated information from the newly updated map data for updating road data of topographic map. In this study, update target data and update reference data are overlaid and the update objects are explored using network matching technique. And the network objects are classified into five matching and update cases and the update processes for each case are applied to the test data. For this study, road centerline data of digital topographic map is used as an update target data and road data of Korean Address Information System is used as an update reference data. The buffer-based network matching method is applied to the two data and the matching and update cases are classified after calculating the overlaid ratio of length. The newly updated road centerline data of digital topographic map is generated from the application of update process for each case. As a result, the update information can be extracted from the different map dataset and applied to the road network data updating.

Development of Frequent Sequence Extractor Based on Hadoop (하둡 기반 빈발 시퀀스 추출기 개발)

  • Park, Joon-Ha;Lee, Byung-Hee;Park, Sang-Jae;Lee, Jeong-Joon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1199-1202
    • /
    • 2013
  • 최근 증권, 센서, 기후, 의료 분야 등에서 수많은 시계열 데이터들이 쏟아져 나오고 있고, 이러한 시계열 빅 데이터를 통해 의미를 찾아내고자 하는 시계열 해석 및 분석, 예측 작업의 수요가 증가하고 있다. 시계열 해석 및 분석, 예측 작업을 하기 위해서 사용 될 수 있는 기초 작업은 유사한 시계열 시퀀스를 찾아내는 유사 시퀀스 매칭과 이러한 매칭을 통해 특정 시계열 데이터의 하나의 특징이 되는 빈발 시퀀스 추출 기술이 필요하다. 본 논문에서는 이러한 시계열 빅 데이터에서 유사 시퀀스 매칭을 이용한 빈발 시퀀스 추출 문제를 효율적으로 해결하는 빈발 시퀀스 추출기(Frequent Sequence Extractor)를 개발 및 구현하였다. 또한 분산처리 플랫폼인 하둡을 이용한 데이터 파싱을 사용하여, 각 분야별 시계열 데이터를 분석하는 전문가에게 효율적인 분산처리 효과를 제공한다.

Pattern-matching Pruning and Reusability Detection for Twig Query Processing on Streaming XML Data (스트리밍 XML 상에서 트윅 질의 처리를 위한 패턴 매칭 프루닝과 재사용성 감지 기법)

  • Park, Sang-Hyun;Ryu, Byung-Gul;Jung, Da-Oun;Lee, SangKeun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.11a
    • /
    • pp.1264-1267
    • /
    • 2011
  • 스트리밍 XML 데이터로부터 트윅 패턴 추출시 질의와 무관한 스트리밍 데이터를 프루닝함으로써 질의 처리 비용을 줄일 수 있어야 한다. 이때 작은 버퍼 사이즈를 유지하면서도 질의 매칭 과정을 최소화하는 것이 필요하다. 본 논문에서는 이를 위한 (1) 패턴 매칭 프루닝과 (2) 재사용성 감지 기법을 제안한다. 기존 기법과 비교하여 제안하는 기법은 스트리밍 데이터의 엘리먼트 이벤트, 버퍼상태 그리고 트윅 패턴을 고려하여 질의 매칭 과정을 최소화한다. 실험결과를 통해 제안기법이 기존 기법보다 우수한 성능을 나타냄을 보인다.

Efficient Stream Sequence Matching Algorithms for Handheld Devices over Time-Series Stream Data (시계열 스트림 데이터 상에서 핸드헬드 디바이스를 위한 효율적인 스트림 시퀀스 매칭 알고리즘)

  • Moon Yang-Sae;Loh Woong-Kee
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.31 no.8B
    • /
    • pp.736-744
    • /
    • 2006
  • For the handhold devices, minimizing repetitive CPU operations such as multiplications is a major factor for their performances. In this paper, we propose efficient algorithms for finding similar sequences from streaming time-series data such as stock prices, network traffic data, and sensor network data. First, we formally define the problem of similar subsequence matching from streaming time-series data, which is called the stream sequence matching in this paper. Second, based on the window construction mechanism adopted by the previous subsequence matching algorithms, we present an efficient window-based approach that minimizes CPU operations required for stream sequence matching. Third, we propose a notion of window MBR and present two stream sequence matching algorithms based on the notion. Fourth, we formally prove correctness of the proposed algorithms. Finally, through a series of analyses and experiments, we show that our algorithms significantly outperform the naive algorithm. We believe that our window-based algorithms are excellent choices for embedded stream sequence matching in handhold devices.