• Title/Summary/Keyword: 중복도

Search Result 3,882, Processing Time 0.036 seconds

Measuring Improvement of Sentence-Redundancy in Multi-Document Summarization (다중 문서요약에서 문장의 중복도 측정방법 개선)

  • 임정민;강인수;배재학;이종혁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.493-495
    • /
    • 2003
  • 다중문서요약에서는 단일문서요약과 달리 문장간의 중복도를 측정하는 방법이 요구된다. 기존에는 중복된 단어의 빈도수를 이용하거나, 구문트리 구조를 이용한 방법이 있으나, 중복도를 측정하는데 도움이 되지 못하는 단어와, 구문분석기 성능에 따라서 중복도 측정에 오류를 발생시킨다. 본 논문은 주절 종속절의 구분, 문장성분, 주절 용언의 의미를 이용하는 문장간 중복도 측정방법을 제안한다. 위의 방법으로 구현된 시스템은 기존의 중복된 단어 빈도수 방식에 비해 정확율에서 56%의 성능 향상이 있었다.

  • PDF

Stream based DNA Read Deduplication Method (스트림 기반 DNA 리드 중복제거 방법)

  • Lee, Hyeon-byeong;Song, Seok-il;Yoo, Jaesoo
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2019.05a
    • /
    • pp.9-10
    • /
    • 2019
  • NGS 분석과정 중 증폭된 DNA 리드(Read)는 중복이 발생하여 이로 인해 다음 단계의 정확도 저하 등의 문제를 야기한다. 이 논문에서는 기존 DNA 리드 중복 제거 도구 중 하나인 Samblaster의 중복제거 알고리즘을 이용하여 분산 병렬 형태로 중복제거를 수행하는 방법을 제안한다. 제안하는 중복제거 방법은 중복제거 전단계인 정렬단계애서 정렬된 리드에 대해 중복제거 키를 생성하고 이를 스트림으로 전달하여 중복제거를 수행한다.

  • PDF

Near Duplicate News Combining System to Prevent Information Loss Due to Deduplication of News (뉴스 중복 제거에 따른 정보 유실 방지하기 위한 중복 뉴스 결합 시스템)

  • Kim, Tae-Hwan;Choi, Won-Jae;Kim, Jung-Sun
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.07a
    • /
    • pp.391-392
    • /
    • 2020
  • 본 논문에서는 중복 데이터가 가장 많은 인터넷 뉴스 상에서 중복 뉴스를 제거하는 경우 중복 뉴스로 판단되는 유사 중복 문서를 제거할 때 정보의 유실이 발생한다. 본 논문에서는 인터넷 뉴스를 대상으로 유사 중복 뉴스를 제거할 때 발생하는 정보의 유실을 해결하기 위해 제거 된 뉴스와 결합하여 새로운 뉴스를 만드는 중복 뉴스 결합 시스템을 제안한다. 제안하는 방법은 뉴스의 기본 문장과 탐지된 중복 뉴스의 문장 간의 관계 유사도를 활용하여 유실 된 정보를 파악하고 파악된 결과를 기본 뉴스에 결합하여 정보의 유실을 최소화 시키는 것을 실험을 통해 보였다. 향후 뉴스분야뿐만 아니라 중복 문서 제거가 필요한 문서를 다루는 모든 분야에서 정보의 유실을 최소화하기 위한 방법으로 활용할 수 있을 것으로 기대 한다.

  • PDF

A study on logit choice probability model taking into account the problems of common-nodes and common-links (노드중복과 링크중복문제를 고려한 로짓선택확률의 비교연구)

  • 백승걸;임용택;임강원
    • Journal of Korean Society of Transportation
    • /
    • v.18 no.2
    • /
    • pp.63-71
    • /
    • 2000
  • One Problem of the choice Property in logit model is interpreted as the Problem of common links and common nodes in choice set. Common node Problem Plays important role in deciding the efficiency of network loading and common link problem is connected with choice Problem, both of which are to be solved to improve the logit choice model. Although much need has been pointed out for research on the topic, however, no Paper as yet considers these two factors at the same time. In the Paper we develop a new logit formulation, which is able to ease the logit Problem, widely known as the Problem of IIA(Independence of Irrelevant Alternatives). An example network is used to assess the Proposed model and compare it with other conventional models. From the results, we find out that the model is superior to others.

  • PDF

Floating Primary Copy Method for Replica Control of Spatial Data (공간 데이터베이스의 중복 제어를 위한 Floating Primary Copy 기법)

  • 최진오
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2002.05c
    • /
    • pp.68-72
    • /
    • 2002
  • CIS 응용에서 공간 객체들이 여러 사이트에 걸쳐 중복 저장되어 있다면, 이 객체들의 수정 시 일관성 제어를 위한 중복 제어 기법이 필요하다. 그러나, 일반적인 비즈니스 데이터를 위한 정통적인 중복 제어기법은 공간 데이터에는 그대로 사용될 수 없다. 공간 데이터의 수정은 긴 트랜 션을 필요로 하며, 또한 일반 데이터와 달리 데이터간의 공간 종속성을 지니기 때문이다. 본 논문은 기존의 Primary Copy 중복 제어 기법을 확장하며, time-stamp에 기반하여 Primary Copy 사이트가 변경되는 Floating Primary Copy 기법을 제안한다. 본 논문에서 제안하는 중복 제어 기법은 Primary Copy 사이트를 동적으로 변경함으로써, 긴 트랜 션의 중복 일관성 제어를 지원할 수 있다.

  • PDF

A Study on De-Duplication for Cloud Storage Systems (클라우드 스토리지 시스템을 위한 중복제거 기술 연구)

  • Kim, Taehun;Kim, Jee Hong;Eom, Young Ik
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.188-190
    • /
    • 2012
  • 클라우드 스토리지에 저장되는 데이터가 급증하면서 데이터 중복으로 인한 스토리지의 저장 비용이 증가하고 있다. 이러한 데이터 중복 문제를 해결하기 위해서 기존의 스토리지 환경에서는 다양한 데이터 중복제거 기술이 제안되었다. 이에 본 논문에서는 클라우드 스토리지를 위한 데이터 중복제거 기술의 분석을 통하여 대규모 클라우드 스토리지에서의 데이터 중복 제거율을 높이기 위해 데이터 유형의 특성을 고려한 스토리지 중복제거 기술의 필요성을 제시한다.

Study on Judgement and Improvement of R&D Overlap Analysis during National R&D Pre-feasibility Study : Analysis based on Survey Response of Pre-feasibility Studying Team (예비타당성조사 R&D 중복성 검토의 판단 및 개선 방안에 대한 연구 : 조사 담당자의 설문 응답 기반 분석)

  • Park, Chang-hyun
    • Proceedings of the Korea Technology Innovation Society Conference
    • /
    • 2017.11a
    • /
    • pp.535-546
    • /
    • 2017
  • 국가 R&D 사업에 대한 예비타당성조사 시 R&D 중복성에 대한 검토는 중복된 투자를 방지하여 재정 투자의 효율성을 높이는데 중요하다. 본 연구에서는 예비타당성조사 담당자들을 대상으로 중복성 검토에 대한 중요요인, 개선사항, 판단기준, 판단주체에 대한 설문조사 분석을 진행하였고, 외부 전문가 그룹의 인식차이와 비교하였다. 설문조사 결과에 대한 통계 분석을 통해 중복성 검토에서 가장 중요한 요인은 '중복성 판단기준, 시스템의 데이터베이스 및 검색 알고리즘'으로 확인되었고, 3가지 요인에 대한 개선이 중복성 검토를 개선하는데 가장 중요함을 확인하였다. 또한 다중회귀분석을 통해 주요 요인들이 중복성 검토결과의 정확성에 미치는 영향성을 분석하여 요인들의 유의성에 대해 확인하였다. 본 연구를 통해 예비타당성 조사 시 R&D 중복성에 대한 검토가 향후 어떤 방향으로 개선되어야하는지에 대해 시사점이 제시된다.

  • PDF

A Safe and Efficient Secure Data Deduplication for Cloud Storage Environment (클라우드 스토리지 환경을 위한 안전하고 효율적인 암호데이터 중복제거 기술)

  • Kim, Won-Bin;Lee, Im-Yeong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.714-717
    • /
    • 2015
  • 기존의 암호데이터 중복제거 기술은 데이터의 중복 여부를 판단하기 위해 다양한 방식으로 데이터를 전송하고 이를 기존에 저장된 데이터와 비교하여 중복여부를 판단하게 된다. 이러한 데이터 중복제거 기술의 중복제거 효율성을 높이기 위해 최근 블록 단위의 중복제거 기술이 사용되고 있다. 하지만 블록 단위 중복제거 기술의 적용 과정에서 다양한 보안 위협이 발생하는데, 이 중 포이즌 어택은 무결성 및 데이터 저장 시 저장되는 데이터에 대한 검증이 이루어지지 않는 시스템에서 발생하는 위협 중 하나이다. 이러한 위협을 해결하기 위해 암호화 기술을 적용한 여러 기술들이 연구되어 제안되었지만 과도하게 많은 통신 횟수와 연산이 발생되어 효율성이 떨어지는 문제가 존재한다. 따라서 본 논문에서는 클라우드 스토리지에 저장되는 데이터의 기밀성과 무결성을 보장하며, 연산량과 통신량에서 보다 효율적인 암호데이터 중복제거 기술을 제안한다.

Efficient Deduplication Scheme on Fixed-length Chunking System Using File Similarity Information (파일유사도 정보를 이용한 고정 분할 기반 중복 제거 기법)

  • Moon, Young Chan;Jung, Ho Min;Ko, Young Woong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.202-205
    • /
    • 2012
  • 기존의 고정 길이 분할 (FLC: Fixed Length Chunking) 중복 제거 기법은 파일이 조금이라도 수정이 되면 수정된 블록에 대한 해시 정보가 달라져 중복 데이터 임에도 불구하고 중복 블록으로 검색이 되지 않는 문제점이 있다. 본 연구에서는 FLC 기반의 중복 제거 기법에 데이터 위치(offset) 정보를 활용하여 중복 블록을 효율적으로 찾아냄으로써 기존의 FLC 기반의 중복 제거 기법보다 더 좋은 성능을 발휘하는 유사도 정보를 활용하는 중복 제거 기법(FS_FLC: File Similarity based Fixed Length Chunking)을 설계하고 구현했다. 실험 결과 제안한 알고리즘은 낮은 오버헤드로 가변 분할 기법(VLC: Variable Length Chunking)만큼의 높은 중복 데이터 탐색 성능을 보여주었다.

Vertical Relation Partitioning Method With Attribute Replications (속성 중복을 고려한 릴레이션의 수직 분할방법)

  • 유종찬;김재련
    • Proceedings of the Korea Database Society Conference
    • /
    • 1997.10a
    • /
    • pp.504-514
    • /
    • 1997
  • 관계형 데이터베이스의 성능을 향상시키는데 중요한 요소 중의 하나는 트랜잭션을 처리하기 위해 데이터를 디스크에서 주기억장치로 옮기는데 필요한 디스크 액세스(access) 횟수이다. 본 연구는 관계형 데이터베이스에서 트랜잭션을 처리할 때, 릴레이션(relation)을 수직분할하여 디스크에 단편(fragment)으로 저장하므로써 필요한 단편만 액세스하여 액세스 횟수를 감소시키는데 목적이 있다. 단편에 속성을 중복할당하여 수직분할하므로써 트랜잭션을 만족시키는 단편의 수를 감소시켜 중복할당을 고려하지 않은 방법보다 디스크 액세스 횟수를 감소시킬 수 있다. 갱신트랜잭션의 경우 하나의 속성이 갱신되면 중복된 속성을 모두 갱신하여야 하므로 액세스 횟수가 증가하지만, 조회트랜잭션의 경우 각 단편에 속성을 중복할당하여 액세스 횟수를 감소시킬 수 있다. 본 연구에서는 속성의 중복을 허용하여 단편을 구성하는 경우에 중복을 고려하지 않은 경우를 포함하므로 효과적으로 디스크 액세스 횟수를 감소시킬 수 있다. 본 연구에서는 중복할당을 고려하여 디스크의 액세스 횟수를 최소화시킬 수 있는 수직분할문제의 0-1 정수계획모형을 개발하고, 모형에 대한 최적해법으로 분지한계법을 제안한다.

  • PDF