• 제목/요약/키워드: 최대길이 시퀀스

검색결과 14건 처리시간 0.018초

사전 학습 모델의 위치 임베딩 길이 제한 문제를 극복하기 위한 방법론 (Methodology for Overcoming the Problem of Position Embedding Length Limitation in Pre-training Models)

  • 정민수;허탁성;이주환;김지수;이경욱;김경선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.463-467
    • /
    • 2023
  • 사전 학습 모델을 특정 데이터에 미세 조정할 때, 최대 길이는 사전 학습에 사용한 최대 길이 파라미터를 그대로 사용해야 한다. 이는 상대적으로 긴 시퀀스의 처리를 요구하는 일부 작업에서 단점으로 작용한다. 본 연구는 상대적으로 긴 시퀀스의 처리를 요구하는 질의 응답(Question Answering, QA) 작업에서 사전 학습 모델을 활용할 때 발생하는 시퀀스 길이 제한에 따른 성능 저하 문제를 극복하는 방법론을 제시한다. KorQuAD v1.0과 AIHub에서 확보한 데이터셋 4종에 대하여 BERT와 RoBERTa를 이용해 성능을 검증하였으며, 실험 결과, 평균적으로 길이가 긴 문서를 보유한 데이터에 대해 성능이 향상됨을 확인할 수 있었다.

  • PDF

최대길이 시퀀스를 이용한 암호동기신호 생성 기법 (Cryptographic synchronization signal generation method using maximal length sequence)

  • 손영호;배건성
    • 한국정보통신학회논문지
    • /
    • 제21권7호
    • /
    • pp.1401-1410
    • /
    • 2017
  • 암호통신에서 암호기와 복호기 간의 암호 알고리즘 내부 상태 동기와 스트림 동기를 일치시키는 암호동기 기능은 암호통신 품질에 많은 영향을 준다. 암호통신 중 송신기와 수신기 간에 동기 이탈이 발생하면 재동기를 이루기까지 통신 불능 상태가 된다. 특히 BER이 높은 무선 채널에서 이루어지는 암호통신에서는 암호동기 성능이 암호통신의 품질을 좌우하는 요소가 된다. 본 논문에서는 BER이 높은 잡음 환경에서도 동기 성능을 향상시킬 수 있는 새로운 형태의 암호동기신호 생성 및 검출 기법을 제안하였다. 제안한 방법에서는 최대길이 시퀀스 기반의 마스킹 구조 형태로 동기신호를 생성하고, 최대길이 시퀀스의 상관함수 특성을 이용하여 동기신호를 검출한다. 다양한 모의실험을 통해 제안한 마스킹 구조 형태의 동기신호가 기존의 연접 형태의 동기신호에 비하여 잡음환경에서 우수한 동기 성능을 보임을 확인하였다.

차종 시퀀스 패턴을 이용한 구간통행시간 계측 (Measurement of Travel Time Using Sequence Pattern of Vehicles)

  • 임중선;최경현;오규삼;박종헌
    • 한국ITS학회 논문지
    • /
    • 제7권5호
    • /
    • pp.53-63
    • /
    • 2008
  • 교본 연구는, 구간속도 검지를 위한 기존의 방법인 프로브차량 방식과 차량 번호판 인식 방식의 문제점을 보완할 수 있는 대안으로써, 도로 구간 시.종점에서의 차량 시퀀스 패턴을 이용하여 구간속도 검지가 가능토록 하는 알고리즘을 개발, 제시하였다. 본 알고리즘은 구간 시.종점에서의 차량들을 '차종 순차(Precedence)패턴을 순서대로 나열한 일정한 길이의 시퀀스 그룹'으로 인식하고, 종점에서의 특정 시퀀스에 대응하는, 시점에서의 시퀀스를 탐색하여 가장 유사도가 높은 시퀀스를 동일 그룹으로 간주하여 해당 구간의 통행 시간을 산출하였다. 유사도 비용의 정의에 따라 세 가지의 모델을 제시하였으며, 차량 유출입에 의한 이상치를 제거하고 가공함으로써 정보제공 주기에 가장 적합한 구간 대표 통행시간을 산출할 수 있도록 하였다. 컴퓨터 모의 실험을 통해 구간길이와 통과차량 수를 증가시키면서 차종별, 시.종점의 시퀀스 길이별로 반복 시뮬레이션 한 결과, 평균 최대 오차율 3.46%로서 현장 적용성에서 뛰어난 가능성을 보였다.

  • PDF

시계열 데이터베이스에서 단일 색인을 사용한 정규화 변환 지원 서브시퀀스 매칭 (A Single Index Approach for Subsequence Matching that Supports Normalization Transform in Time-Series Databases)

  • 문양세;김진호;노웅기
    • 정보처리학회논문지D
    • /
    • 제13D권4호
    • /
    • pp.513-524
    • /
    • 2006
  • 정규화 변환은 시계열 시퀀스를 구성하는 엔트리들의 전체적인 패턴을 분석하는데 매우 유용하다. 본 논문에서는 단일 색인을 사용한 정규화 변환 지원 서브시퀀스 매칭 방법을 제안한다. 기존의 정규화 변환 지원 서브시퀀스 매칭 방법은 다양한 길이의 질의 시퀀스를 지원하기 위하여 여러 개의 색인을 생성해야 하고, 이에 따라 색인 저장 공간의 오버헤드와 색인 관리의 오버헤드가 발생한다. 본 논문에서는 하나의 색인을 사용하면서도 다양한 길이의 질의 시퀀스에 대한 정규화 변환을 지원하는 효율적인 서브시퀀스 매칭 방법을 제안한다. 이를 위하여, 우선 정규화 변환을 일반화한 포함-정규화 변환(inclusion-normalization transform) 개념을 제시한다. 포함 정규화 변환이란 색인에 저장할 윈도우에 대해서 해당 윈도우를 포함하는 서브시퀀스의 평균과 표준편차로 정규화하는 것으로서, 기본적인 정규화 변환을 윈도우 및 서브시퀀스 개념을 사용하여 확장한 것이다. 다음으로, 포함-정규화 변환을 기존 서브시퀀스 매칭 연구에 적용하기 위한 이론적 근거를 정리로서 제시하고 증명한다. 그리고, 이 방안을 구현하기 위한 색인 구성 알고리즘 및 서브시퀀스 매칭 알고리즘을 각각 제시한다. 실제 주식 데이터에 대한 실험 결과, 제안한 방법은 기존 방법에 비해 최대 $2.5{\sim}2.8$배까지 성능을 향상 시킨 것으로 나타났다. 본 논문에서 제안한 정규화 변환 지원 서브시퀀스 매칭은 정규화 변환 이외의 다른 변환을 지원하는 서브시퀀스 매칭으로 일반화 될 수 있다. 따라서, 제안한 방법은 정규화 변환을 포함하는 많은 다른 종류의 변환을 지원하는 서브시퀀스 매칭에 폭넓게 적용될 수 있는 좋은 연구결과라 사료된다.

시계열 데이터베이스에서의 서브시퀀스 매칭을 위한 윈도우 구성의 일반화 (Generalization of Window Construction for Subsequence Matching in Time-Series Databases)

  • 문양세;한욱신;황규영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권3호
    • /
    • pp.357-372
    • /
    • 2001
  • 본 논문에서는 서브시퀀스 매칭에서 윈도우 구성의 일반화 개념을 제안하고, 이에 기반한 새로운 서브시퀀스 매칭 방법인 GeneralMatch를 제안한다. 기존 연구인 Faloutsos 등의 방법 (간단히 FRM이라 한다)은 점 여과 효과의 결여로 인해 많은 착오해답을 발생시켰다. 본 저자들의 DualMatch는 점 여과 효과를 발휘하여 성능을 크게 향상시켰으나, 주어진 최소 질의 시퀀스 길이에 대해 최대 윈도우 크기가 작은(FRM의 1/2) 문제가 있었다. GeneralMatch는 DualMatch를 더욱 개선한 방법으로서, 두 방법의 장점을 모두 취한다. 즉, FRM과 같이 큰 윈우를 사용할 수 있으며, 동시에 DualMatch와 같이 점 여과 효과를 발휘할 수 있다. GeneralMatch는 데이터 시퀀스를 J-슬라이딩 윈도우(일반화된 슬라이딩 윈도우)로 나누고, 질의 시퀀스를 J-디스조인트 윈도우(일반화된 디스조인트 윈도우)로 나누는 방법을 사용한다. 본 논문에서는 GerneralMatch의 정확성, 즉 GeneralMatch가 착오기각이 발생하지 않음을 증명한다. 또한, 주어진 최소 질의 시퀀스 길이에 대해 GeneralMatch가 바르게 동작하기 위한 최대 윈도우 크기가 있음을 증명한다. 그리고, 페이지 액세스 횟수를 최소로 하는 J 값의 결정 방법을 제안하다. 실제 주식 데이터에 대한 실험 결과, GeneralMatch는 낮은 선택률 범위($10^{-6}~10^{-4}$)에서 DualMatch에 비해 평균 114%, FRM에 비해 998% 성능을 향상시켰으며, 높은 선택률 범위($10^{-6}~10^{-4}$)에서도 DualMatch에 비해 평균 46%, FRM에 비해 평균 65% 성능을 향상시켰다.

  • PDF

런-길이 제한 코드의 패턴을 이용한 PRML 검출 방법 (PRML detection using the patterns of run-length limited codes)

  • 이주현;이재진
    • 한국통신학회논문지
    • /
    • 제30권3C호
    • /
    • pp.77-82
    • /
    • 2005
  • 비터비 알고리즘을 이용한 부분 응답 최대 유사도 (PRML) 검출 방법은 원래의 정보 시퀀스와 가장 유사한 시퀀스를 결정하기 위해 유사도 메트릭 계산 방법이 사용된다. 일반적으로, 트렐리스도에서 각 노드의 가지는 동일한 확률을 갖는다고 가정한다. 그러나, 최소 및 최대 런-길이 구속을 갖는 변조 코드가 사용될 경우, 코드의 특정 패턴에 대한 발생 비율(Ro)은 서로 다르게 되어, 결과적으로 이러한 가정은 틀리게 된다. 본 논문에서는 PRML 검출에 있어 코드의 특정 패턴에 대한 발생 비율을 이용한 유사도 메트릭 계산 방법을 제안한다. 모의 실험에서는 두 종류의 (1, 7) 런-길이 제한 코드에 대해 PR 목표 응답의 차수를 변화시켜 가면서 발생 비율을 계산하였다. 그 결과, 제안한 PRML 검출 방법은 고밀도 자기기록 및 광 기록 채널에서 기존의 PRML 방법과 비교하여 10/sup -5/ BER에서 약 0.5dB 이상의 SNR 성능 이득을 가져옴을 확인하였다.

Noncoherent FSK DS/SSMA 통신의 다중 경로 다이버시티 수신 특성 (Multipath Diversity Reception of Noncoherent FSK DS/SSMA Communications)

  • 안재영;이재경;황금찬
    • 한국통신학회논문지
    • /
    • 제16권7호
    • /
    • pp.663-679
    • /
    • 1991
  • 본 논문에서는 다중 경로 페이딩 채널에서 최대 다중 경로 지연폭이 한 비트 폭보다 큰 경우 발생할 수 있는 심볼간 간섭을 극복하기 위해 M-ary 신호 방식과 절환 신호 방식을 채용한 다중 경로 다이버시티 수신 noncoherent F나 ds / SSMA 통신 시스템의 평균 오율을 평가하였다. 시스템의 평균 오율은 가우스 근사법을 이용해 채널 파라메타와 PN 시퀀스의 길이와 같은 시스템 파라메타에 대한 식으로 표현하였고, 이러한 결과식을 이용해 M-ary FSK 시스템과 두 종류의 절환 수신기에 대한 FSK시스템의 평균 오율을 수치적으로 분석하였다.

  • PDF

고밀도 수직자기기록을 위한 저복잡도 잡음 예측 최대 유사도 검출 방법 (Low Complexity Noise Predictive Maximum Likelihood Detection Method for High Density Perpendicular Magnetic Recording:)

  • 김성환;이주현;이재진
    • 한국통신학회논문지
    • /
    • 제27권6A호
    • /
    • pp.562-567
    • /
    • 2002
  • 잡음 예측 최대 유사도(noise predictive maximum likelihood, NPML) 검출기는 잡음 예측/백색화 과정을 비터비 검출기의 가지 메트릭 계산 과정에 삽입하여 데이터 검출의 신뢰성을 높이게 된다. 따라서 기존의 PRML 검출기에 잡음 예측기를 포함시킴으로써 그것의 실제 성능이 향상되고 복잡도가 줄어드는 이점이 있다. 본 논문에서는 선형 채널과 비선형 채널 하에서 랜덤 시퀀스와 런-길이 제한 (1,7) 시퀀스를 적용하여, 고밀도 수직 자기 기록 (1.7$\leq$K$_{p}$$\leq$3.0)에서 잡음 예측 PR-등화 신호에 의한 NP(1221)ML 검출 시스템이 보다 높은 타수의 PR(12321)ML 시스템보다 복잡도가 낮으면서 우월한 성능을 나타냄을 모의 실험을 통해 분석, 검증하였다.

위상천이 네트워크를 사용한 X-마스크 기법 (An X-masking Scheme for Logic Built-In Self-Test Using a Phase-Shifting Network)

  • 송동섭;강성호
    • 대한전자공학회논문지SD
    • /
    • 제44권2호
    • /
    • pp.127-138
    • /
    • 2007
  • 본 논문에서는 최대길이 의사무작위 이진 시퀀스(m-시퀀스)의 쉬프트-덧셈 특성에 근거한 위상천이를 이용하여 회로 출력에 나타나는 X-값을 효과적으로 마스크 함으로써 내장된 자체 테스트를 실현할 수 있는 기법을 제안한다. 이 기법은 패턴생성기인 LFSR의 출력을 적절하게 위상천이 하여 마스크 패턴을 생성할 수 있는 위상천이 네트워크를 이용한다. 테스트 절차 동안에 각 스캔 체인에 인가되는 마스크 패턴의 위상 천이 수는 재구성 가능하다. LFSR의 출력을 적절하게 위상 천이하여 모든 스캔 체인 마스크 패턴을 생성할 수 있는 위상천이 네트워크 합성 알고리즘을 제안한다. 본 논문에서 제안하는 X-마스크 회로는 각 스캔 체인 마스크 패턴을 생성할 수 있는 후보 위상천이 수가 많기 때문에 하드웨어 오버헤드를 효과적으로 감축할 수 있다. 실험을 통하여 제안된 위상천이를 이용한 X-마스크 회로는 기존의 연구 결과보다 훨씬 적은 저장공간과 하드웨어 오버헤드를 필요로 함을 증명한다.

생물학적 데이터 서열들에서 빈번한 최대길이 연속 서열 마이닝 (Mining Maximal Frequent Contiguous Sequences in Biological Data Sequences)

  • 강태호;유재수
    • 정보처리학회논문지D
    • /
    • 제15D권2호
    • /
    • pp.155-162
    • /
    • 2008
  • DNA 염기 서열이나 단백질 아미노산 서열과 같은 생물학적 서열 데이터들은 일반적으로 많은 수의 항목들을 가지고 있다. 생물학적 데이터 서열들에는 보통 빈번하게 발생하는 수 백개의 항목으로 이루어진 연속된 서열들이 존재한다. 이들 서열들에서 빈번하게 발생하는 연속 서열을 검색하는 것은 생물학적 서열 분석에서 중요한 부분을 차지하고 있다. 이전에는 순차 패턴을 효과적으로 발견하고자 하는 많은 연구들이 수행되었으며 대부분의 기존 순차패턴 마이닝 기법들은 Apriori 알고리즘을 기반으로 한다. PrefixSpan 알고리즘은 Apriori 기반의 가장 효율적인 순차패턴 마이닝 기법이다. 하지만 이 알고리즘은 길이-1인 빈발 패턴들로 부터 서열 패턴을 확장해나가는 방식이다. 따라서 길이가 긴 연속 서열을 포함하는 생물학적 데이터서열들에 대한 검색방법으로는 적합하지 않다. 최근에는 기존의 PrefixSpan방식을 이용하면서도 반복적인 처리과정을 줄인 MacosVSpan이 제안되었다. 하지만 이 알고리즘 또한 길이가 긴 생물학적 데이터 서열들로부터 빈번하게 발생하는 연속 서열들을 검색하기에는 효율적이지 않다. 본 논문에서는 많은 양의 생물학적 데이터 서열들로부터 빈번한 연속서열을 고정길이 확장 트리를 이용하여 효과적으로 찾아내는 방법을 제안한다. 그리고 다양한 환경에서 실험을 통해 제안하는 방식이 MacosVSpan알고리즘에 비해 검색성능이 보다 우수함을 보인다.