• 제목/요약/키워드: 역 크기

검색결과 1,100건 처리시간 0.032초

대용량 데이터 색인에 적합한 역파일의 구현 (Implementation of the Inverted File for Indexing Large-volume Data)

  • 임성채
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.909-912
    • /
    • 2008
  • 대용량 문서에 대한 키워드 검색을 위해 역파일(inverted-file) 색인 기법이 널리 쓰이고 있다. 역파일 색인 기법을 구현함에 있어 고려되어야 할 점은 키워드 검색 처리 시에 디스크 사용을 최소로 할 수 있는 방법이다. 크기가 작은 역파일이라면 디스크 I/O 사용도 작고 필요시 역파일을 메모리에 적재하여 둠으로써 디스크 사용을 크게 줄일 수 있다. 하지만, 웹 검색이나 규모가 큰 도서관 시스템에서와 같이 색인 데이터 크기가 매우 큰 경우 역파일을 읽는 디스크 비용이 급격히 증가할 수 있다. 본 논문에서는 매우 큰 크기의 역파일을 사용하는 검색 환경에서 디스크 사용을 최소로 할 수 있는 역파일 구조를 제안한다. 제안된 구조는 질의 처리 과정을 고려해 계층 구조로 설계되며 실제 상용 시스템에 적용되어 안정성 및 성능을 입증했다.

n-gram/2L: 공간 및 시간 효율적인 2단계 n-gram 역색인 구조 (n-Gram/2L: A Space and Time Efficient Two-Level n-Gram Inverted Index Structure)

  • 김민수;황규영;이재길;이민재
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권1호
    • /
    • pp.12-31
    • /
    • 2006
  • n-gram 기반 역색인 구조는 언어 중립적이고 에러 허용적인 장점들로 인해 일부 아시아권 언어에 대한 정보 검색이나 단백질과 DNA의 sequence의 근사 문자열 매칭에 유용하게 사용되고 있다. 그러나, n-gram 기반의 역색인 구조는 색인의 크기가 크고 질의 처리 시간이 오래 걸린다는 단점들을 가지고 있다. 이에 본 논문에서는 n-gram 기반 역색인의 장점을 그대로 유지하면서 색인의 크기를 줄이고 질의 처리 성능을 향상시킨 2단계 n-gram 역색인(간단히 n-gram/2L 역색인이라 부른다)을 제안한다. n-gram/2L 역색인은 n-gram 기반 역색인에 존재하던 위치 정보의 중복을 제거한다. 이를 위해 문서로부터 길이 m의 m-subsequence들을 추출하고, 그 m-subsequence들로부터 n-gram을 추출하여 2단계로 역색인을 구성한다. 이러한 2단계 구성 방법은 이론적으로 의미 있는 다치 종속성이 존재하는 릴레이션을 정규화하여 중복을 제거하는 것과 동일하며, 이를 본문에서 정형적으로 증명한다. n-gram/2L 역색인은 데이타의 크기가 커질 수록 n-gram 역색인에 비해 색인 크기가 줄어들며 질의 처리 성능이 향상되고, 질의 문자열의 길이가 길어져도 질의 처리 시간이 거의 증가하지 않는 좋은 특성을 가진다. 1GByte 크기의 데이타에 대한 실험을 통하여, n-gram/2L 역색인은 n-gram 기반 역색인에 비해 최대 1.9${\~}$2.7배 더 작은 크기를 가지면서, 동시에 질의 처리 성능은 3${\~}$18 범위의 길이를 가지는 질의들에 대해 최대 13.1배 향상됨을 보였다.

역가우스분포에 대한 쿨백-라이블러 정보 기반 적합도 검정 (Kullback-Leibler Information-Based Tests of Fit for Inverse Gaussian Distribution)

  • 최병진
    • 응용통계연구
    • /
    • 제24권6호
    • /
    • pp.1271-1284
    • /
    • 2011
  • 본 논문에서는 위치와 척도모수가 모두 알려지지 않은 역가우스분포에 대한 적합도 검정으로 기존에 개발된 엔트로피 기반 검정을 확장한 쿨백-라이블러 정보 기반 적합도 검정을 소개한다. 역가우스분포에 대한 단순 또는 복합 영가설을 검정하기 위한 4가지 형태의 검정통계량을 제시하고 검정통계량의 계산에 사용할 표본크기에 따른 윈도크기와 기각값을 모의실험을 통해 결정하여 표의 형태로 제공한다. 검정력 분석을 위해 수행한 모의실험의 결과에서 위치와 척도모수가 모두 알려진 역가우스분포에 대한 쿨백-라이블러 정보 기반 적합도 검정은 모든 대립분포와 표본크기에서 EDF 검정들보다 좋은 검정력을 가지는 것으로 나타난다. 위치모수 또는 척도모수만 알려진 역가우스분포에 대한 쿨백-라이블러 정보 기반 적합도 검정은 모든 대립분포에 대해서 표본크기가 커짐에 따라 검정력이 증가하는 경향을 보인다. 위치와 척도모수가 모두 알려지지 않은 역가우스분포에 대한 쿨백-라이블러 정보 기반 적합도 검정은 대체적으로 엔트로피 기반 검정과 비슷한 수준의 검정력을 보이는 것으로 나타나고 이 결과를 통해서 두 검정은 동일함을 확인할 수 있다.

데이터 스트림에 대한 키워드 검색을 위한, 효율적인 갱신이 가능한 디스크 기반 역색인 구조 (An Update-Efficient, Disk-Based Inverted Index Structure for Keyword Search on Data Streams)

  • 박은주;이기용
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권4호
    • /
    • pp.171-180
    • /
    • 2016
  • 트위터와 같은 소셜 네트워킹 서비스(social networking service)의 확산으로 스트림 형태의 데이터가 크게 증가하고 있다. 스트림 형태로 들어와 누적되는 데이터를 효율적으로 검색하기 위해서는 색인이 반드시 필요하다. 본 논문에서는 스트림 형태로 들어와 계속 누적되는 데이터에 대한 키워드 검색을 효율적으로 할 수 있게 해주는, 효율적인 갱신이 가능한 디스크 기반 역색인(inverted index) 구조를 제안한다. 데이터 스트림을 검색하기 위해서는 데이터의 유입에 따라 역색인을 계속해서 갱신해 주어야 한다. 전통적인 역색인을 사용하는 경우, 역색인을 갱신하기 위해서는 매번 디스크에 저장된 모든 색인 데이터를 읽고 다시 써야 하므로 디스크 I/O 측면에서 매우 비효율적이다. 이러한 문제를 해결하기 위해 본 논문에서는 역색인을 크기가 지수적으로 증가하는 여러 역색인들로 나누어 저장한다. 새로운 데이터가 들어오면 우선 가장 작은 크기의 역색인에 삽입하고, 작은 크기의 역색인들을 더 큰 크기를 가진 역색인들과 나중에 병합함으로써 평균적으로 역색인을 갱신하는 비용을 크게 낮춘다. 또한 디스크에 저장된 역색인들을 병합할 때 발생하는 디스크 I/O 비용을 최소화함으로써 역색인의 갱신 비용을 더욱 낮춘다. 다양한 실험을 통해 기존 방법과 제안 방법의 효율성을 비교하고, 제안 방법이 갱신 비용에 있어 기존 방법에 비해 훨씬 효율적임을 보인다.

시분할 듀플렉싱 기반의 적응 직교 주파수 분할 다중 접속 시스템에서 부대역-프레임 크기와 모드 변환점의 최적 결정 기법 (An Optimal Determination of Subband-Frame Size and Mode Switching Level for Adaptive OFDM-TDD System)

  • 신길호;이창석;김정곤;김형명
    • 한국통신학회논문지
    • /
    • 제30권6C호
    • /
    • pp.512-522
    • /
    • 2005
  • 이 논문에서는 주파수 선택적 시변 채널환경에서 시분할 듀플렉싱(TDD) 기반의 적응 직교 주파수 분할 다중 접속 시스템(OFDM)에 적합한 최적의 부대역-프레임 크기와 모드 변환점 결정 기법을 제안하고 이를 분석하였다. 목표 BER을 만족시키면서, 주파수 선택성과 사용자의 이동성과 모드 변환 정보에 의한 시그널링 오버헤드를 고려한 스펙트럼 효율을 최대화하는 관점에서 최적화된 모드 변환점 및 이에 따른 부대역과 프레임 크기를 구하는 방법을 제시하였다. 이를 위해 부대역-프레임 크기가 고정값으로 주어진 상황에서, 목표 BER을 만족하면서 스펙트럼 효율이 최대화되는 모드 변환점을 찾은 후에, 다음으로 여러 후보군 중에서 스펙트럼 효율을 최대화시키는 부대역-프레임 크기가 결정될 수 있도록 하였다. 모의 실험 결과를 통해서 제안한 방식이 스펙트럼 효율과 BER 관점에서 기존의 방식보다 성능이 뛰어남을 보여준다.

역가우스분포에 대한 변형된 엔트로피 기반 적합도 검정 (A Modi ed Entropy-Based Goodness-of-Fit Tes for Inverse Gaussian Distribution)

  • 최병진
    • 응용통계연구
    • /
    • 제24권2호
    • /
    • pp.383-391
    • /
    • 2011
  • 이 논문에서는 역가우스분포의 적합을 위한 변형된 엔트로피 기반 검정을 제시한다. 이 검정은 자료생성분포와 역가우스분포의 엔트로피 차이에 기초를 두고 있으며 검정통계량은 엔트로피 차이의 추정량을 사용한다. 엔트로피 차이의 추정량은 자료생성분포에 대한 엔트로피 추정량으로 Vasicek의 표본엔트로피와 역가우스분포에 대한 엔트로피 추정량로 균일최소분산불편추정량을 사용하여 얻는다. 모의실험을 통해 얻은 표본크기와 윈도크기에 따른 검정통계량의 기각값들을 표의 형태로 제공한다. 제안한 검정의 검정력 알아보기 위해 여러 대립분포와 표본크기에 대해서 모의실험을 수행하고 기존의 엔트로피 기반 검정과 비교한다.

2-Stage Pipeline 구조를 이용한 역제곱근 연산기의 설계 (Design of Inverse Square Root Unit Using 2-Stage Pipeline Architecture)

  • 김정훈;김기철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (B)
    • /
    • pp.198-201
    • /
    • 2007
  • 본 논문에서는 변형된 Newton-Raphson 알고리즘과 LUT(Look Up Table)를 사용하는 역제곱근 연산기를 제안한다. Newton-Raphson 부동소수점 역수 알고리즘은 일정한 횟수의 곱셈을 반복하여 역수 제곱근을 계산하는 방식이다. 변형된 Newton-Raphson 알고리즘은 하드웨어 구현에 적합하도록 변환되었으며, LUT는 오차를 줄이기 위해 개선되었다. 제안된 연산기는 LUT의 크기를 최소화하고, 순환적인 구조가 아닌 2-stage pipeline 구조를 가진다. 또한 IEEE-754 부동소수점 표준을 기초로 하는 24-bit 데이터 형식을 사용해 면적과 속도 향상에 유리하여 휴대용 기기의 멀티미디어 분야의 응용에 적합하다. 본 역제곱근 연산기는 소수점 이하 8-bit의 정확도를 가지며 VHDL을 이용하여 설계되었다. 그 크기는 $0.18{\mu}m$ CMOS 공정에서 약 4,000 gate의 크기를 보였으며 150MHz에서 동작이 가능하다.

  • PDF

마이크로스트립 라인-프로브 급전구조를 갖는 광대역 패치 안테나의 설계 (The Design of Broadband Patch Antenna with Microstrip Line-Probe Feeder)

  • 박종열;이윤경;윤현보
    • 한국전자파학회논문지
    • /
    • 제13권7호
    • /
    • pp.687-692
    • /
    • 2002
  • 본 논문에서는 중심주파수가 5.8 GHz에서 동작하는 새로운 급전구조를 갖는 광대역 마이크로스트립 패치 안테나를 설계 및 제작하였다. 제안된 새로운 급전구조인 마이크로스트립 라인-프로브 급전구조는 광대역 특성을 가지며, 안테나의 패치 크기를 줄일 수 있다. 광대역 특성을 확인하기 위해 기존의 프로브 급전 마이크로스트립 패치 안테나와 비교하였으며, 그 결과 대역폭은 34.5 % 증가하였으며, 패치의 크기는 45 % 축소되었다.

반사율을 고려한 동백섬 해역의 파랑 분포 (Wave Distribution with Reflection In Dongbaek Island Area)

  • 유동훈;신수훈
    • 한국해안해양공학회:학술대회논문집
    • /
    • 한국해안해양공학회 2003년도 한국해안해양공학발표논문집
    • /
    • pp.254-258
    • /
    • 2003
  • 파도가 심해역에서 천해역으로 들어오게 되면 천수, 굴절, 회절 및 마찰손실 등에 의하여 급격하게 변이한다. 따라서 수치모형의 격자는 해저지형 및 파의 변이 정도에 따라 상당히 작은 크기를 사용하여야 하는데 대개 100 m 내외가 되며 때로는 10 m까지 상당히 작은 크기의 격자를 사용하여야 하는 경우도 있다. (중략)

  • PDF

유사도 검색을 위한 데이터 재배열을 이용한 공간 효율적인 역 색인 기법 (A Space-Efficient Inverted Index Technique using Data Rearrangement for String Similarity Searches)

  • 임마누;김종익
    • 정보과학회 논문지
    • /
    • 제42권10호
    • /
    • pp.1247-1253
    • /
    • 2015
  • 유사도 검색에서는 효율적으로 유사성을 만족하는 문자열을 찾기 위해서 데이터에 대한 역 색인을 구축하여 이용한다. 일반적으로 기존의 기법들은 빠른 응답속도의 질의처리를 위해서 역 색인을 메모리에 상주시킨다. 하지만 구축된 역 색인은 그 크기가 매우 크다는 문제점을 가지고 있다. 따라서 데이터의 크기가 매우 큰 경우나 자원이 제약적인 환경에서는 역 색인을 이용한 질의처리가 불가능할 수 있다. 본 논문에서는 동일한 q-그램을 포함하는 문자열들이 서로 인접한 위치가 되도록 재배치시킨 후 해당 문자열들을 범위로 표현한다. 실험을 통하여 질의처리의 성능을 희생하지 않으면서도 색인의 크기가 줄어드는 것을 보인다.