• Title/Summary/Keyword: 중복제거기법

Search Result 221, Processing Time 0.033 seconds

Multi-document Summarization Based on Cluster using Term Co-occurrence (단어의 공기정보를 이용한 클러스터 기반 다중문서 요약)

  • Lee, Il-Joo;Kim, Min-Koo
    • Journal of KIISE:Software and Applications
    • /
    • v.33 no.2
    • /
    • pp.243-251
    • /
    • 2006
  • In multi-document summarization by means of salient sentence extraction, it is important to remove redundant information. In the removal process, the similarities and differences of sentences are considered. In this paper, we propose a method for multi-document summarization which extracts salient sentences without having redundant sentences by way of cohesive term clustering method that utilizes co-occurrence Information. In the cohesive term clustering method, we assume that each term does not exist independently, but rather it is related to each other in meanings. To find the relations between terms, we cluster sentences according to topics and use the co-occurrence information oi terms in the same topic. We conduct experimental tests with the DUC(Document Understanding Conferences) data. In the tests, our method shows better performance of summarization than other summarization methods which use term co-occurrence information based on term cohesion of document or sentence unit, and simple statistical information.

Efficiency Algorithm of Multispectral Image Compression in Wavelet Domain (웨이브릿 영역에서 다분광 화상데이터의 효율적인 압축 알고리듬)

  • Ban, Seong-Won;Seok, Jeong-Yeop;Kim, Byeong-Ju;Park, Gyeong-Nam;Kim, Yeong-Chun;Jang, Jong-Guk;Lee, Geon-Il
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.38 no.4
    • /
    • pp.362-370
    • /
    • 2001
  • In this paper, we proposed multispectral image compression method using CIP (classified inter-channel prediction) and SVQ (selective vector quantization) in wavelet domain. First, multispectral image is wavelet transformed and classified into one of three classes considering reflection characteristics of the subband with the lowest resolution. Then, for a reference channel which has the highest correlation and the same resolution with other channels, the variable VQ is performed in the classified intra-channel to remove spatial redundancy. For other channels, the CIP is performed to remove spectral redundancy. Finally, the prediction error is reduced by performing SVQ. Experiments are carried out on a multispectral image. The results show that the proposed method reduce the bit rate at higher reconstructed image quality and improve the compression efficiency compared to conventional methods. Index Terms-Multispectral image compression, wavelet transform, classfied inter-channel prediction, selective vetor quantization, subband with lowest resolution.

  • PDF

The Analysis of Genome Database Compaction based on Sequence Similarity (시퀀스 유사도에 기반한 유전체 데이터베이스 압축 및 영향 분석)

  • Kwon, Sunyoung;Lee, Byunghan;Park, Seunghyun;Jo, Jeonghee;Yoon, Sungroh
    • KIISE Transactions on Computing Practices
    • /
    • v.23 no.4
    • /
    • pp.250-255
    • /
    • 2017
  • Given the explosion of genomic data and expansion of applications such as precision medicine, the importance of efficient genome-database management continues to grow. Traditional compression techniques may be effective in reducing the size of a database, but a new challenge follows in terms of performing operations such as comparison and searches on the compressed database. Based on that many genome databases typically have numerous duplicated or similar sequences, and that the runtime of genome analyses is normally proportional to the number of sequences in a database, we propose a technique that can compress a genome database by eliminating similar entries from the database. Through our experiments, we show that we can remove approximately 84% of sequences with 1% similarity threshold, accelerating the downstream classification tasks by approximately 10 times. We also confirm that our compression method does not significantly affect the accuracy of taxonomy diversity assessments or classification.

Optimization of Post-Processing for Subsequence Matching in Time-Series Databases (시계열 데이터베이스에서 서브시퀀스 매칭을 위한 후처리 과정의 최적화)

  • Kim, Sang-Uk
    • The KIPS Transactions:PartD
    • /
    • v.9D no.4
    • /
    • pp.555-560
    • /
    • 2002
  • Subsequence matching, which consists of index searching and post-processing steps, is an operation that finds those subsequences whose changing patterns are similar to that of a given query sequence from a time-series database. This paper discusses optimization of post-processing for subsequence matching. The common problem occurred in post-processing of previous methods is to compare the candidate subsequence with the query sequence for discarding false alarms whenever each candidate subsequence appears during index searching. This makes a sequence containing candidate subsequences to be accessed multiple times from disk, and also have a candidate subsequence to be compared with the query sequence multiple times. These redundancies cause the performance of subsequence matching to degrade seriously. In this paper, we propose a new optimal method for resolving the problem. The proposed method stores ail the candidate subsequences returned by index searching into a binary search tree, and performs post-processing in a batch fashion after finishing the index searching. By this method, we are able to completely eliminate the redundancies mentioned above. For verifying the performance improvement effect of the proposed method, we perform extensive experiments using a real-life stock data set. The results reveal that the proposed method achieves 55 times to 156 times speedup over the previous methods.

KWS(Kernel-Warm-Start) : Reducing Reboot Time in Embedded Linux System (임베디드 리눅스 시스템에서 Kernel-Warm-Start를 이용한 재부팅 시간 단축에 관한 연구)

  • Shin, Jin-Chul;Won, You-Jip;Gim, Jong-Min
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06a
    • /
    • pp.179-181
    • /
    • 2012
  • 본 연구는 NAND 플래시 기반의 임베디드 시스템에 warm-start 개념을 도입하여 재부팅 시간을 단축시키는 방법에 관한 연구이다. NAND 플래시 기반의 임베디드 시스템에서는 부팅 시 커널 이미지를 NAND 플래시에서 DRAM으로 로드하는 과정이 필요하다. 최근 SoC (System-On-Chip)는 "software reset" 기능을 지원하며 DRAM의 내용을 훼손하지 않고 시스템을 리셋하는 것이 가능하다. 우리는 이 기능을 이용하여 DRAM 상에 이미 로드되어 있는 커널 요소를 재부팅 시에도 다시 사용하도록 구현하고, 그에 따라 중복된 커널 요소의 로드를 제거했다. 이 기법을 우리는 KWS(Kernel-Warm-Start) 라는 이름으로 정의했다. KWS 에서는 부팅이 재부팅인 경우 필요한 커널 요소만을 로드한다. 결과적으로 재부팅 시 커널 요소의 로드 크기를 89.29% 감소시킬 수 있었고, 재부팅 시간을 첫 번째 부팅에서 75.47% 단축할 수 있었다.

Implementation of Indoor Location Aware System using 802.11 Wireless Signal Learning Algorithm (802.11 무선 신호 학습 기법을 이용한 실내 위치 인식 시스템의 구현)

  • Park, Se-Jin;Kim, Min-Gu
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06c
    • /
    • pp.361-365
    • /
    • 2007
  • 위치정보는 유비쿼터스 컴퓨팅의 가장 중요한 항목 중 하나이다. 일반적인 위치 인식 시스템은 GPS가 대표적이지만, 실내에서 사용할 수 없고 건물내부와 같은 좁은 지역에서의 위치 인식이 어렵다는 단점이 있다. 특히 핸드폰, PDA와 같은 개인용 장비 에서는 더욱 정교한 위치 인식 기술이 필요한데, 무선랜을 기반으로 하는 위치 인식 기술은 그러한 목적을 달성하기에 적절하다. AP (Access Point)로부터 수집된 무선 신호의 세기는 모바일 기기의 위치를 측정하는데 필요한 지도로써 사용할 수 있지만, 건물의 벽, 사물, 사람 등과 같은 장애물의 간섭으로 변화가 심해 쉽게 사용할 수 없다. 본 논문에서는 이러한 문제점을 극복하기 위하여 신경망 모델을 이용한 무선랜 환경에서의 위치 인식 시스템을 제안한다. 아울러 신경망 학습에 사용될 학습데이터의 오차를 보정하고, 중복을 제거하기 위하여 칼만 필터를 사용하였다.

  • PDF

Analysis of Security Weakness on Secure Deduplication Schemes in Cloud Storage (클라우드 스토리지에서 안전한 중복 제거 기법들에 대한 보안 취약점 분석)

  • Park, Ji Sun;Shin, Sang Uk
    • Journal of Korea Multimedia Society
    • /
    • v.21 no.8
    • /
    • pp.909-916
    • /
    • 2018
  • Cloud storage services have many advantages. As a result, the amount of data stored in the storage of the cloud service provider is increasing rapidly. This increase in demand forces cloud storage providers to apply deduplication technology for efficient use of storages. However, deduplication technology has inherent security and privacy concerns. Several schemes have been proposed to solve these problems, but there are still some vulnerabilities to well-known attacks on deduplication techniques. In this paper, we examine some of the existing schemes and analyze their security weaknesses.

Handwritten Hangul Recognition by Dynamic Lattice Search with Structural Constraints (문자의 구조적 제약과 동적 격자 탐색을 이용한 필기 한글 문자 인식)

  • Kang, Kyung-Won;Kim, Jin-Hyung
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.359-364
    • /
    • 2001
  • 필기 한글문자 인식은 다양한 필기 변형, 자모 간의 접촉과 같은 문제들을 내포하고 있다. 최근 이를 해결하기 위한 방법으로 랜덤 그래프를 이용한 필기 한글 모델링이 제안되었으나, 상향식 정보처리의 한계인 시간 복잡도 문제를 겪고 있다. 영어 단어인식에 관한 인지과학적 연구에서는 하향식 정보처리의 주요한 역할 중 하나로 인식 과정에서의 계산 중복을 없애는 필터링의 역할을 들고 있다. 본 논문에서는 랜덤 그래프를 이용한 필기 한글 모델링을 기반으로 하여 필기체에 나타나는 다양한 변형을 흡수하며, 시간 복잡도를 해결하기 위한 한글 문자의 구조에 바탕을 둔 하향식 정보처리 방법을 제안한다. 제안하는 방법은 모델 발화를 이용한 자모 후보 추출 DP 정합과 동적 격자 탐색을 이용한 문자 후보 탐색, 그리고 문자의 구조적 제약을 이용한 후보 제거 기법을 포함한다. 필기 한글 데이터베이스인 SERI-DB에 대한 예비 실험 결과, 제안한 방법은 인식률의 큰 저하 없이 상향식 정보 처리에 바탕을 둔 기존 방법에 비해 높은 속도 향상을 가져 왔다.

  • PDF

Extracting Clinical Service Process Models by Analyzing Patient History (환자 이력 데이터 분석을 통한 임상 서비스 프로세스 모형 추출)

  • Kim, Jun-Woo;Lee, Sang-Chul;Park, Sang-Chan
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.07a
    • /
    • pp.403-404
    • /
    • 2014
  • 원 업무 효율성을 높이기 위해 최근 다양한 병원 정보 시스템들이 도입되어 왔다. 이러한 시스템들을 통해 병원에서는 다양한 데이터를 전자적인 형태로 기록하고 공유하고 있으나, 이러한 데이터들은 일반적으로 간단한 통계량을 집계하는 데에만 사용되고 있어, 보다 체계적인 방법으로 병원 운영 관리에 유용한 숨겨진 지식이나 패턴을 추출하는 방법이 필요하다. 이에 본 논문에서는 기존 병원 정보 시스템들에 의해 축적되어진 환자 이력 데이터를 분석하여 임상 서비스 프로세스 모형을 추출하는 방법을 제안한다. 환자 이력 데이터는 검사나 처방 등을 실시한 기록을 포함하는데, 일반적으로 구조가 복잡하고 데이터 소스가 분산되어 있어 단순한 방법으로 분석하는 것이 까다롭다. 따라서, 본 논문에서는 먼저 단순한 형태의 프로세스 모형을 생성하고 이를 확장해나가는 단계적인 분석 방법을 소개한다. 이러한 목적을 위해 적절한 데이터 전처리, 데이터 마이닝, 프로세스 마이닝 기법 등이 활용되었으며, 제안하는 방법을 실제 류머티스과 환자 이력 데이터에 적용하여 임상 서비스 프로세스 모형을 추출할 수 있었다.

  • PDF

Similarity Evaluation Scheme Using FLC based Representative Hash (대표 해시 기반의 FLC를 이용한 파일 유사도 평가 기법)

  • Yoo, Young-Jun;Ko, Young-Woong
    • Annual Conference of KIPS
    • /
    • 2013.05a
    • /
    • pp.135-137
    • /
    • 2013
  • 유사도 평가는 유사 파일 탐색이나 파일의 중복제거에서 필수적으로 수행되어야 하는 모듈이다. 이와 같은 유사도 평가는 파일의 크기가 커지거나 비교할 파일의 수가 많을수록 더 많은 시간이 소요되므로 이 때 발생하는 오버헤드는 시스템 전체의 성능에 영향을 미칠 만큼 중요하다. 특히 사용자의 요구사항에 실시간으로 반응해야 하는 시스템에서는 응답시간을 지연시키는 요인이 된다. 본 논문에서는 파일의 해시 연산과정의 시간을 줄이기 위한 방법으로 대표 해시 FLC를 이용한 유사도 평가 시스템을 제안한다. 실험을 통해서 본 연구에서 제안하는 방식이 기존의 방식에 비해서 빠른 시간 내에 유사 파일을 탐지할 수 있음을 보이고 있다. 또한 해시 리스트의 크기가 줄어들어서 메모리 자원을 효율적으로 사용할 수 있다.