• 제목/요약/키워드: 중복도

검색결과 3,884건 처리시간 0.032초

다중 문서요약에서 문장의 중복도 측정방법 개선 (Measuring Improvement of Sentence-Redundancy in Multi-Document Summarization)

  • 임정민;강인수;배재학;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.493-495
    • /
    • 2003
  • 다중문서요약에서는 단일문서요약과 달리 문장간의 중복도를 측정하는 방법이 요구된다. 기존에는 중복된 단어의 빈도수를 이용하거나, 구문트리 구조를 이용한 방법이 있으나, 중복도를 측정하는데 도움이 되지 못하는 단어와, 구문분석기 성능에 따라서 중복도 측정에 오류를 발생시킨다. 본 논문은 주절 종속절의 구분, 문장성분, 주절 용언의 의미를 이용하는 문장간 중복도 측정방법을 제안한다. 위의 방법으로 구현된 시스템은 기존의 중복된 단어 빈도수 방식에 비해 정확율에서 56%의 성능 향상이 있었다.

  • PDF

스트림 기반 DNA 리드 중복제거 방법 (Stream based DNA Read Deduplication Method)

  • 이현병;송석일;유재수
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2019년도 춘계종합학술대회
    • /
    • pp.9-10
    • /
    • 2019
  • NGS 분석과정 중 증폭된 DNA 리드(Read)는 중복이 발생하여 이로 인해 다음 단계의 정확도 저하 등의 문제를 야기한다. 이 논문에서는 기존 DNA 리드 중복 제거 도구 중 하나인 Samblaster의 중복제거 알고리즘을 이용하여 분산 병렬 형태로 중복제거를 수행하는 방법을 제안한다. 제안하는 중복제거 방법은 중복제거 전단계인 정렬단계애서 정렬된 리드에 대해 중복제거 키를 생성하고 이를 스트림으로 전달하여 중복제거를 수행한다.

  • PDF

뉴스 중복 제거에 따른 정보 유실 방지하기 위한 중복 뉴스 결합 시스템 (Near Duplicate News Combining System to Prevent Information Loss Due to Deduplication of News)

  • 김태환;최원재;김정선
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.391-392
    • /
    • 2020
  • 본 논문에서는 중복 데이터가 가장 많은 인터넷 뉴스 상에서 중복 뉴스를 제거하는 경우 중복 뉴스로 판단되는 유사 중복 문서를 제거할 때 정보의 유실이 발생한다. 본 논문에서는 인터넷 뉴스를 대상으로 유사 중복 뉴스를 제거할 때 발생하는 정보의 유실을 해결하기 위해 제거 된 뉴스와 결합하여 새로운 뉴스를 만드는 중복 뉴스 결합 시스템을 제안한다. 제안하는 방법은 뉴스의 기본 문장과 탐지된 중복 뉴스의 문장 간의 관계 유사도를 활용하여 유실 된 정보를 파악하고 파악된 결과를 기본 뉴스에 결합하여 정보의 유실을 최소화 시키는 것을 실험을 통해 보였다. 향후 뉴스분야뿐만 아니라 중복 문서 제거가 필요한 문서를 다루는 모든 분야에서 정보의 유실을 최소화하기 위한 방법으로 활용할 수 있을 것으로 기대 한다.

  • PDF

노드중복과 링크중복문제를 고려한 로짓선택확률의 비교연구 (A study on logit choice probability model taking into account the problems of common-nodes and common-links)

  • 백승걸;임용택;임강원
    • 대한교통학회지
    • /
    • 제18권2호
    • /
    • pp.63-71
    • /
    • 2000
  • 로짓경로선택모형의 문제점으로 지적되고 있는 순환교통류(cyclic flow)와 경로중복(path overlapping)은 노드중복(common nodes)과 링크중복(common links)문제로 해석할 수 있다. 노드중복은 최단경로 보장문제 및 균형배정시 효율성 문제와, 링크중복은 비관련대안의 독립성 문제와 관련된다. 최근 위 문제들에 대한 연구가 각각 이루어지고 있으나, 두 가지 문제를 모두 고려한 연구나 이런 경우 로짓모형의 속성을 비교한 연구는 없었다. 이 글에서는 노드중복과 링크중복을 고려한 경우와 그렇지 않은 경우의 선택확률을 비교하여 현재 이용되고 있는 로짓경로선택모형의 문제점과 한계를 살펴보았다. 이를 위하여 본 연구에서는 노드중복문제와 링크중복문제를 동시에 고려한 로짓경로선택모형을 제시하였다. 이는 기존의 링크중복개념을 특정링크를 기준으로 통행기점에서 특정링크의 초기노드가지의 링크중복과 특정링크 종점노드부터 통행종점가지의 링크중복으로 세분화한 것이라고 할 수 있다. 제시된 모형을 이용하여 가상네트워크에서 경로 및 링크선택확률을 계산한 결과, 노드 중복과 링크중복을 고려함으로써 선택대안들간의 차별성을 고려하면서 특정경로 또는 특정링크의 선택확률이 과소 또는 과대추정되는 문제를 감소시킬 수 있었다. 이러한 결과를 통해 중복경로와 순환경로를 배제한 다중경로를 보다 효과적으로 도출할 수 있을 것으로 기대된다.

  • PDF

공간 데이터베이스의 중복 제어를 위한 Floating Primary Copy 기법 (Floating Primary Copy Method for Replica Control of Spatial Data)

  • 최진오
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2002년도 춘계학술발표논문집(상)
    • /
    • pp.68-72
    • /
    • 2002
  • CIS 응용에서 공간 객체들이 여러 사이트에 걸쳐 중복 저장되어 있다면, 이 객체들의 수정 시 일관성 제어를 위한 중복 제어 기법이 필요하다. 그러나, 일반적인 비즈니스 데이터를 위한 정통적인 중복 제어기법은 공간 데이터에는 그대로 사용될 수 없다. 공간 데이터의 수정은 긴 트랜 션을 필요로 하며, 또한 일반 데이터와 달리 데이터간의 공간 종속성을 지니기 때문이다. 본 논문은 기존의 Primary Copy 중복 제어 기법을 확장하며, time-stamp에 기반하여 Primary Copy 사이트가 변경되는 Floating Primary Copy 기법을 제안한다. 본 논문에서 제안하는 중복 제어 기법은 Primary Copy 사이트를 동적으로 변경함으로써, 긴 트랜 션의 중복 일관성 제어를 지원할 수 있다.

  • PDF

클라우드 스토리지 시스템을 위한 중복제거 기술 연구 (A Study on De-Duplication for Cloud Storage Systems)

  • 김태훈;김지홍;엄영익
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.188-190
    • /
    • 2012
  • 클라우드 스토리지에 저장되는 데이터가 급증하면서 데이터 중복으로 인한 스토리지의 저장 비용이 증가하고 있다. 이러한 데이터 중복 문제를 해결하기 위해서 기존의 스토리지 환경에서는 다양한 데이터 중복제거 기술이 제안되었다. 이에 본 논문에서는 클라우드 스토리지를 위한 데이터 중복제거 기술의 분석을 통하여 대규모 클라우드 스토리지에서의 데이터 중복 제거율을 높이기 위해 데이터 유형의 특성을 고려한 스토리지 중복제거 기술의 필요성을 제시한다.

예비타당성조사 R&D 중복성 검토의 판단 및 개선 방안에 대한 연구 : 조사 담당자의 설문 응답 기반 분석 (Study on Judgement and Improvement of R&D Overlap Analysis during National R&D Pre-feasibility Study : Analysis based on Survey Response of Pre-feasibility Studying Team)

  • 박창현
    • 한국기술혁신학회:학술대회논문집
    • /
    • 한국기술혁신학회 2017년도 추계학술대회 논문집
    • /
    • pp.535-546
    • /
    • 2017
  • 국가 R&D 사업에 대한 예비타당성조사 시 R&D 중복성에 대한 검토는 중복된 투자를 방지하여 재정 투자의 효율성을 높이는데 중요하다. 본 연구에서는 예비타당성조사 담당자들을 대상으로 중복성 검토에 대한 중요요인, 개선사항, 판단기준, 판단주체에 대한 설문조사 분석을 진행하였고, 외부 전문가 그룹의 인식차이와 비교하였다. 설문조사 결과에 대한 통계 분석을 통해 중복성 검토에서 가장 중요한 요인은 '중복성 판단기준, 시스템의 데이터베이스 및 검색 알고리즘'으로 확인되었고, 3가지 요인에 대한 개선이 중복성 검토를 개선하는데 가장 중요함을 확인하였다. 또한 다중회귀분석을 통해 주요 요인들이 중복성 검토결과의 정확성에 미치는 영향성을 분석하여 요인들의 유의성에 대해 확인하였다. 본 연구를 통해 예비타당성 조사 시 R&D 중복성에 대한 검토가 향후 어떤 방향으로 개선되어야하는지에 대해 시사점이 제시된다.

  • PDF

클라우드 스토리지 환경을 위한 안전하고 효율적인 암호데이터 중복제거 기술 (A Safe and Efficient Secure Data Deduplication for Cloud Storage Environment)

  • 김원빈;이임영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.714-717
    • /
    • 2015
  • 기존의 암호데이터 중복제거 기술은 데이터의 중복 여부를 판단하기 위해 다양한 방식으로 데이터를 전송하고 이를 기존에 저장된 데이터와 비교하여 중복여부를 판단하게 된다. 이러한 데이터 중복제거 기술의 중복제거 효율성을 높이기 위해 최근 블록 단위의 중복제거 기술이 사용되고 있다. 하지만 블록 단위 중복제거 기술의 적용 과정에서 다양한 보안 위협이 발생하는데, 이 중 포이즌 어택은 무결성 및 데이터 저장 시 저장되는 데이터에 대한 검증이 이루어지지 않는 시스템에서 발생하는 위협 중 하나이다. 이러한 위협을 해결하기 위해 암호화 기술을 적용한 여러 기술들이 연구되어 제안되었지만 과도하게 많은 통신 횟수와 연산이 발생되어 효율성이 떨어지는 문제가 존재한다. 따라서 본 논문에서는 클라우드 스토리지에 저장되는 데이터의 기밀성과 무결성을 보장하며, 연산량과 통신량에서 보다 효율적인 암호데이터 중복제거 기술을 제안한다.

파일유사도 정보를 이용한 고정 분할 기반 중복 제거 기법 (Efficient Deduplication Scheme on Fixed-length Chunking System Using File Similarity Information)

  • 문영찬;정호민;고영웅
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.202-205
    • /
    • 2012
  • 기존의 고정 길이 분할 (FLC: Fixed Length Chunking) 중복 제거 기법은 파일이 조금이라도 수정이 되면 수정된 블록에 대한 해시 정보가 달라져 중복 데이터 임에도 불구하고 중복 블록으로 검색이 되지 않는 문제점이 있다. 본 연구에서는 FLC 기반의 중복 제거 기법에 데이터 위치(offset) 정보를 활용하여 중복 블록을 효율적으로 찾아냄으로써 기존의 FLC 기반의 중복 제거 기법보다 더 좋은 성능을 발휘하는 유사도 정보를 활용하는 중복 제거 기법(FS_FLC: File Similarity based Fixed Length Chunking)을 설계하고 구현했다. 실험 결과 제안한 알고리즘은 낮은 오버헤드로 가변 분할 기법(VLC: Variable Length Chunking)만큼의 높은 중복 데이터 탐색 성능을 보여주었다.

속성 중복을 고려한 릴레이션의 수직 분할방법 (Vertical Relation Partitioning Method With Attribute Replications)

  • 유종찬;김재련
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 1997년도 International Conference MULTIMEDIA DATABASES on INTERNET
    • /
    • pp.504-514
    • /
    • 1997
  • 관계형 데이터베이스의 성능을 향상시키는데 중요한 요소 중의 하나는 트랜잭션을 처리하기 위해 데이터를 디스크에서 주기억장치로 옮기는데 필요한 디스크 액세스(access) 횟수이다. 본 연구는 관계형 데이터베이스에서 트랜잭션을 처리할 때, 릴레이션(relation)을 수직분할하여 디스크에 단편(fragment)으로 저장하므로써 필요한 단편만 액세스하여 액세스 횟수를 감소시키는데 목적이 있다. 단편에 속성을 중복할당하여 수직분할하므로써 트랜잭션을 만족시키는 단편의 수를 감소시켜 중복할당을 고려하지 않은 방법보다 디스크 액세스 횟수를 감소시킬 수 있다. 갱신트랜잭션의 경우 하나의 속성이 갱신되면 중복된 속성을 모두 갱신하여야 하므로 액세스 횟수가 증가하지만, 조회트랜잭션의 경우 각 단편에 속성을 중복할당하여 액세스 횟수를 감소시킬 수 있다. 본 연구에서는 속성의 중복을 허용하여 단편을 구성하는 경우에 중복을 고려하지 않은 경우를 포함하므로 효과적으로 디스크 액세스 횟수를 감소시킬 수 있다. 본 연구에서는 중복할당을 고려하여 디스크의 액세스 횟수를 최소화시킬 수 있는 수직분할문제의 0-1 정수계획모형을 개발하고, 모형에 대한 최적해법으로 분지한계법을 제안한다.

  • PDF