DOI QR코드

DOI QR Code

Typing Sound-Based Character Prediction Using ResNet and Multi-Head Attention

ResNet과 멀티헤드 어텐션을 활용한 타이핑 소리 기반 문자 예측

  • Received : 2025.03.04
  • Accepted : 2025.04.03
  • Published : 2025.04.30

Abstract

This study proposes a typing sound-based character prediction model using ResNet and multi-head attention techniques. Compared to the existing CoAtNet model, the proposed hybrid model effectively processes frequency-domain data transformed by FFT and enhances prediction performance by combining ResNet with multi-head attention. Experimental results show that the proposed model achieves a higher accuracy of 96.81% compared to the ResNet-only model at 96.66%. The incorporation of multi-head attention allows for precise learning of relationships between keystroke sounds, thereby improving prediction capability. This research introduces a novel approach for handling complex sequential data and demonstrates its potential in various application areas.

본 연구에서는 ResNet과 멀티헤드 어텐션을 활용한 타이핑 소리 기반 문자 예측 모델을 제안한다. 기존 CoAtNet 모델에 비해 ResNet과 멀티헤드 어텐션을 결합함으로써 FFT로 변환된 주파수 도메인 데이터를 효과적으로 처리하고 예측 성능을 향상시켰다. 실험 결과, 제안 모델은 ResNet 단독 모델(96.66%)에 비해 다소 높은 정확도(96.81%)를 기록하였으며, 멀티헤드 어텐션을 통해 타이핑 소리 간의 상관관계를 정밀하게 학습하여 예측력을 강화하였다. 본 연구는 복잡한 시계열 데이터를 처리하는 새로운 접근 방식을 제시하며, 다양한 응용 분야에서의 활용 가능성을 보여준다.

Keywords

I. 서론

타이핑 소리를 기반으로 입력된 문자를 정확하게 예측하는 문제는 음성 인식과 유사하게 시계열 데이터 처리와 주파수 분석이 결합된 복잡한 과제이다. 특히, 키보드 타이핑 소리는 사람마다 속도와 타이밍이 다르고, 키 입력 간의 시간차와 소리의 강도가 불규칙하게 나타나기 때문에, 이를 정확하게 분석하고 예측하는 것은 매우 도전적이다. 최근 딥러닝 기반 모델들이 음성 인식 분야에서 큰 성과를 거두며, 시계열 데이터 처리의 새로운 가능성을 열었지만, 타이핑 소리와 같은 비정형적 패턴의 데이터를 효과적으로 처리하는 데에는 여전히 많은 연구가 필요하다.

타이핑 소리 기반 문자 예측은 보안, 사용자 경험 개선, 장애인 지원 등 다양한 응용 분야에서 중요한 역할을 할 수 있다. 예를 들어, 비밀번호 입력을 감지하여 보안 강화에 활용하거나, 사용자 입력의 실시간 피드백을 제공하여 타이핑 효율성을 높일 수 있다. 또한, 장애인이 사용하는 보조 기기와의 통합을 통해 보다 포괄적인 사용자 인터페이스를 제공할 수 있다. 이러한 응용 분야에서 높은 정확도의 문자 예측은 사용자 만족도와 시스템의 신뢰성을 크게 향상시킬 수 있다.

본 연구의 주요 목적은 ResNet과 멀티헤드 어텐션을 결합한 하이브리드 모델을 통해 타이핑 소리 기반 문자 예측의 정확성을 향상시키는 것이다. 이를 통해 다음과 같은 기여를 하고자 한다.

1. ResNet의 깊은 특징 추출 능력과 멀티헤드 어텐션의 시계열 데이터 처리 능력을 결합하여 모델의 예측 성능을 향상시킨다.

2. FFT를 활용한 주파수 도메인 변환을 통해 타이핑 소리의 비정형적 특성을 효과적으로 처리한다.

3. 다양한 환경에서의 데이터 수집과 전처리 과정을 상세히 기술하여 연구의 재현 가능성을 높인다.

4. 실험을 통해 제안 모델의 우수성을 기존 CoAtNet 기반 모델과 비교 분석한다.

5. 모델의 한계점과 향후 연구 방향을 제시하여 후속 연구에 기여한다.

본 논문에서는 ResNet과 멀티헤드 어텐션을 결합한 하이브리드 딥러닝 모델을 제안하고, 이를 통해 타이핑 소리 기반 문자 예측의 정확성을 향상시키는 방법을 제시한다. 또한, FFT를 사용하여 소리를 주파수 도메인으로 변환한 후, 기존 CoAtNet 기반 모델과 비교 분석을 통해 제안 모델의 우수성을 입증하고자 한다. 이러한 접근 방식은 타이핑 소리의 복잡한 주파수 패턴을 보다 효과적으로 학습하고, 다양한 환경에서도 높은 예측 성능을 유지할 수 있는 모델을 개발하는 데 기여할 것으로 기대된다.

기존 연구에서는 CoAtNet과 같은 하이브리드 모델을 사용하여 타이핑 소리를 분석하였으나, 이러한 접근 방식은 복잡한 패턴을 학습하는 데 제한이 있었다. 본 연구에서는 ResNet을 기반으로 한 모델에 멀티헤드 어텐션 메커니즘을 도입하여, 타이핑 소리 간의 상관관계를 보다 정밀하게 학습하고 예측 성능을 향상시키고자 한다. ResNet은 깊은 신경망 구조로서 강력한 특징 추출 능력을 가지고 있으며, 멀티 헤드 어텐션은 시계열 데이터의 전역적 패턴을 효과적으로 학습할 수 있는 장점을 제공한다.

II. 이전 연구

키보드 타이핑 소리로부터 문자를 복구하는 연구는 기존에 다양한 접근 방식으로 이루어져 왔다. 이러한 연구들은 주로 음향 신호 처리와 기계 학습 기법을 결합하여 타이핑 소리의 특징을 추출하고 이를 기반으로 문자를 예측하는 데 초점을 맞추었다.

2.1 히든 마르코프 모델(HMM)을 활용한 접근

Zhuang et al.[1]의 연구는 타이핑 소리의 음향 데이터를 이용하여 문자를 복구하는 공격 기법을 제안하였다. 이 연구는 10분간의 키보드 타이핑 소리 녹음을 바탕으로 최대 95%의 정확도로 입력된 문자를 복구할 수 있음을 보였다. 특히, 해당 연구는 레이블이 없는 데이터로도 영어 텍스트를 복원할 수 있는 방법을 제시하며, 히든 마르코프 모델(Hidden Markov Model, HMM)과 음성 인식 기술을 결합하여 타이핑 소리를 분석하였다. Zhuang 등은 고품질 마이크로폰을 사용하여 키보드 타이핑 소리를 녹음하고, 녹음된 음향 신호에 대해 잡음 제거 및 신호 증폭 등의 전처리 과정을 수행하였다. 이후 단시간 푸리에 변환(Short-Time Fourier Transform, STFT)을 통해 시간-주파수 도메인에서의 음향 특징을 추출하고, 각 키 입력에 대응하는 스펙트럼 특징 벡터를 생성하여 키별로 고유한 음향 패턴을 파악하였다. HMM 모델은 각 키 입력(문자)을 나타내는 숨겨진 상태와 관측 가능한 음향 특징 벡터로 정의되며, 관측 확률 분포 B는 특정 키 입력의 음향 특징 분포를 나타낸다. 초기 상태 확률 π는 모델의 시작 상태를 정의하며, Baum-Welch 알고리즘을 사용하여 HMM의 파라미터 A와 B를 추정하였다. 라벨이된 키스트로크 데이터(키 입력과 그에 대응하는 음향 특징 벡터)를 이용하여 모델을 학습하였으며, 새로운 음향 신호가 입력되면 해당하는 음향 특징 벡터 시퀀스를 얻고, 비터비 알고리즘(Viterbi Algorithm)을 사용하여 가장 가능성 있는 상태 시퀀스를 추정하였다. 최적의 상태 시퀀스는 다음과 같이 최대화하여 찾는다.

Q* = argmax P(Q|O, λ)       (1)

비터비 알고리즘의 주요 단계는 다음과 같다. 초기화 단계에서는 δ1(i) = πi.bi(o1)로 설정하고, 귀납 단계에서는 δt(j) = [max1 ≤ i ≤ Nδt-1(i) ∙ aij] ∙ bj(ot)를 계산한다. 역추적 단계에서는 qt = argmax1 ≤ i ≤ Nδt-1(i)로 상태를 추정한다. 이 방법의 장점은 음향 신호의 시간적 의존성을 모델링하여 연속적인 키 입력 패턴을 효과적으로 추적할 수 있으며, 확률적 모델링을 통해 잡음에 대한 일정 수준의 견고성을 갖춘다는 점이다. 그러나 한계점으로는 주변 환경의 소음이나 녹음 장비의 품질에 따라 성능이 크게 영향을 받을 수 있고, 모델 학습을 위해 각 키 입력에 대한 충분한 양의 라벨링된 데이터가 필요하다는 점이다. 또한 HMM은 선형적인 확률 모델로, 키스트로크 사운드의 비선형적이고 복잡한 특징을 충분히 표현하기 어렵다는 점도 한계로 지적된다. 이러한 한계를 극복하기 위해, 최근에는 딥러닝 기반의 모델들이 제안되고 있으며, 딥러닝 모델은 대량의 데이터를 활용하여 비선형적인 패턴과 복잡한 특징을 효과적으로 학습할 수 있다.

2.2 LSTM과 어텐션 메커니즘의 결합

Ghadimi et al.[2]의 연구에서는 LSTM(Long Short-Term Memory) 모델과 어텐션 메커니즘을 결합하여 시계열 데이터를 처리하는 방법을 제안하였다. LSTM은 망각 게이트 ft, 입력 게이트 it, 출력 게이트 ot, 셀 상태 ct 등을 활용하여 장기적인 시간적 의존성을 효과적으로 학습한다. 이 연구는 타이핑 소리와 같은 시계열 데이터를 처리할 때 LSTM이 장기적인 시간적 의존성을 효과적으로 학습할 수 있음을 보여주었다[2]. 또한, 어텐션 메커니즘을 통해 중요한 시점의 정보에 더 많은 가중치를 부여함으로써 모델의 예측 성능을 향상시켰다. 그러나 LSTM 기반 모델은 여전히 깊은 신경망 구조의 한계를 가지며, 병렬 처리의 어려움과 긴 시퀀스 처리 시 계산 비용이 높다는 단점이 존재한다.

2.3 Transformer와 멀티헤드 어텐션의 활용

Li et al.[3]은 Transformer 모델에 멀티헤드어텐션(Multi-Head Attention)을 적용한 방법을 제시하였다. 멀티헤드 어텐션은 다양한 위치에서 발생하는 시계열 데이터의 패턴을 동시에 학습할 수 있게 한다. 이 연구에서 사용된 어텐션 메커니즘의 수식은 다음과 같다.

\(\begin{align}\text {Attention }(Q, K, V)=\operatorname{softmax}\left(\frac{Q^{T}}{\sqrt{d_{k}}}\right) V\end{align}\)       (2)

여기서 Q, K, V는 각각 쿼리, 키, 값을 나타내며, dk는 키의 차원이다. 이 수식을 통해 각 타이핑 소리 구간 간의 상관관계를 전역적으로 학습할 수 있다[3]. Transformer 기반 모델은 LSTM보다 병렬 처리에 유리하며, 긴 시퀀스에서도 효율적으로 학습할 수 있다는 장점이 있다. 그러나 Transformer 모델은 여전히 깊은 층 구조로 인해 학습 시간이 오래 걸리고, 메모리 사용량이 많다는 단점이 존재한다.

2.4 CNN-RNN 하이브리드 모델과 어텐션 메커니즘

Zhou et al.[4]의 연구는 하이브리드 CNN-RNN 모델을 제안하였다. 이 모델은 CNN을 사용하여 주파수 도메인에서의 특징을 추출하고, RNN(Recurrent Neural Network) 중 LSTM 또는 GRU(Gated Recurrent Unit)를 통해 시간적 의존성을 학습하였다. Zhou 등은 입력 데이터 xt를 CNN을 통해 추출된 특징 ft로 변환하고, 이를 RNN 계층에서 시간적 의존성을 학습하여 최종적으로 ht를 생성하는 구조를 제시하였다. 또한, 어텐션 메커니즘을 추가하여 각 타이핑 소리의 중요한 구간에 더 많은 가중치를 부여함으로써 모델의 성능을 향상시켰다.

2.5 Transformer 기반 CoAtNet 모델의 적용

Harrison 등의 연구는 Transformer 기반 CoAtNet 모델을 사용하여 스마트폰 및 Zoom과 같은 소프트웨어로 녹음된 타이핑 소리로부터 문자를 복구하는 방법을 제시하였다. 이 연구에서는 타이핑 소리 데이터를 Transformer 구조로 처리하여 95% 이상의 정확도를 기록하였다. CoAtNet은 Convolutional Neural Networks와 Attention 메커니즘을 결합한 모델로, 시계열 데이터 처리에 강력한 성능을 보였다. 그러나 이 모델은 특정 환경에서의 일반화 성능과 복잡한 패턴 학습에 여전히 한계가 있었다.

2.6 ResNet과 멀티헤드 어텐션의 기초

ResNet(Residual Network)은 He et al.[6]이 제안한 심층 신경망 구조로, 잔차 학습(residual learning)을 도입하여 매우 깊은 네트워크에서도 효과적으로 학습이 가능하도록 설계되었다. ResNet은 잔차 블록을 통해 기울기 소실 문제를 완화하고, 네트워크의 깊이가 증가함에 따라 성능이 향상되는 것을 가능하게 한다. 이러한 특징 덕분에 ResNet은 이미지 인식 분야에서 뛰어난 성능을 보였으며, 다양한 응용 분야로 확장되었다[6].

멀티헤드 어텐션(Multi-Head Attention)은 Vaswani et al.[7]이 제안한 Transformer 모델의 핵심 구성 요소로, 입력 데이터의 다양한 위치에서의 상호작용을 동시에 학습할 수 있는 메커니즘이다. 멀티헤드 어텐션은 여러 개의 어텐션 헤드를 사용하여 입력 시퀀스 내의 다양한 패턴과 관계를 병렬로 학습함으로써, 모델의 표현력을 크게 향상시킨다[7]. 이러한 어텐션 메커니즘은 시계열 데이터뿐만 아니라 자연어 처리, 음성 인식 등 다양한 분야에서 널리 활용되고 있다.

본 연구에서는 ResNet의 깊은 특징 추출 능력과 멀티헤드 어텐션의 전역적 패턴 학습 능력을 결합하여, 타이핑 소리의 복잡한 시계열 패턴을 효과적으로 학습하고 높은 예측 성능을 달성하고자 한다.

2.7 ResNet과 멀티헤드 어텐션의 결합 필요성

기존 연구들은 주로 단일 유형의 딥러닝 모델을 사용하거나, 모델 간의 결합을 통해 성능을 향상시키는 데 집중하였다. 그러나 타이핑 소리의 비정형적 특성과 복잡한 시계열 패턴을 효과적으로 학습하기 위해서는 더욱 정교한 모델 구조와 기법이 필요하다. 특히, ResNet과 멀티헤드 어텐션을 결합한 모델에 대한 연구는 부족하였으며, 이로 인해 기존 모델의 한계를 극복할 수 있는 방안이 충분히 제시되지 않았다. ResNet은 깊은 신경망 구조로서 강력한 특징 추출 능력을 가지고 있으며, 멀티헤드 어텐션은 시계열 데이터의 전역적 패턴을 효과적으로 학습할 수 있는 장점을 제공한다. 이러한 두 모델의 결합은 타이핑 소리의 비정형적이고 복잡한 패턴을 효과적으로 학습하여 높은 예측 성능을 달성할 수 있는 가능성을 제시한다.

본 연구는 이러한 한계를 극복하기 위해 ResNet의 깊은 특징 추출 능력과 멀티헤드 어텐션의 시계열 데이터 처리 능력을 결합한 하이브리드 모델을 제안하며, 이를 통해 타이핑 소리 기반 문자 예측의 정확성을 향상시키고자 한다. 제안 모델은 기존 CoAtNet 모델에 비해 더 정교한 특징 추출과 전역적 패턴 학습을 가능하게 함으로써, 다양한 환경에서도 높은 예측 성능을 유지할 수 있을 것으로 기대된다.

III. 제안 모델

본 논문에서는 ResNet과 멀티헤드 어텐션을 결합한 모델을 제안한다. 기존 CoAtNet 기반 접근 방식보다 더 깊고 정교한 특징 추출과 시계열 데이터의 상관관계 학습을 통해 예측 성능을 향상시키고자 한다. 본 절에서는 데이터 수집 및 처리, 모델 구조, 모델 평가 방법에 대해 상세히 설명한다.

3.1 데이터 수집 및 처리

타이핑 소리 데이터는 MacBook Air M1에서 Zoom을 통해 녹음된 키보드 입력과 iPhone 15를 사용하여 노트북과 20cm 떨어진 곳에서 녹음된 wav 파일로 구성되었다. 각 오디오 파일은 약 10분간 녹음되었으며, 약 1초 간격으로 키입력을 녹음하였다. 총 40개의 클래스로 분류된 데이터는 0-9, A-Z, Enter, Back, Shift, Space로 이루어져 있다. 데이터는 개별 키 입력으로 분리되어 학습에 사용되었다.

3.1.1 데이터셋 구성

총 샘플 수: 40,000 (각 클래스당 1,000 샘플)

훈련 데이터: 32,000 (각 클래스당 800 샘플)

검증 데이터: 8,000 (각 클래스당 200 샘플)

클래스별 샘플 수는 균등하게 분포되어 있어 클래스 불균형 문제가 발생하지 않도록 하였다. 이는 모델이 모든 클래스에 대해 균등하게 학습할 수 있도록 도와주며, 평가 시 클래스별 성능을 정확하게 비교할 수 있게 한다.

3.1.2 데이터 전처리

(1) 모노 변환: 다채널 오디오를 모노로 변환하여 단일 채널로 축소함으로써 데이터의 일관성을 유지하였다.

(2) 키 입력 분리: 약 10분간 녹음된 오디오 파일을 약 1초 간격으로 개별 키 입력으로 분리하였다. 이는 타이핑 소리의 시간적 간격과 소리의 강도 변화를 반영하여 각 키 입력에 대한 명확한 레이블을 부여하고, 학습 데이터를 생성하는 데 목적이 있다.

(3) FFT 변환: Fast Fourier Transform을 통해 시간 도메인 데이터를 주파수 도메인으로 변환하였다. FFT는 신호를 주파수 성분으로 분해하여 타이핑 소리의 주파수 특징을 효과적으로 추출하는 데 사용되었다.

(4) Mel Spectrogram 변환: Mel 스케일 기반의 스펙트로그램으로 변환하여 인간의 청각 특성을 반영하였다. Mel Spectrogram은 주파수 축을 인간의 귀가 인지하는 비선형 스케일로 변환함으로써, 더 효과적인 특징 추출을 가능하게 한다.

(1) 데이터 증강: SpecAugment과 노이즈 추가를 통해 데이터의 다양성을 증가시켰다. SpecAugment은 주파수 및 시간 마스킹을 통해 모델의 일반화 성능을 향상시켰으며, 노이즈 추가는 실제 환경에서의 노이즈에 강인한 모델을 학습하는 데 기여하였다.

(5) 정규화: 데이터의 평균과 표준편차를 이용한 정규화 처리를 통해 학습의 안정성을 높이고, 수렴 속도를 향상시켰다.

3.2 모델 구조

제안하는 모델은 ResNet과 멀티헤드 어텐션을 결합한 구조로, 다음과 같은 단계로 구성된다.

3.2.1 ResNet (특징 추출기)

ResNet50을 기반으로 하며, 입력 채널을 1로 수정하고, 마지막 분류기 레이어를 제거하여 특징 추출기로 사용하였다. ResNet50의 더 깊은 신경망 구조는 복잡한 특징을 더욱 정교하게 추출하는 데 기여하였다. ResNet50을 선택한 이유는 ResNet18보다 더 깊은 구조를 통해 더욱 풍부한 특징을 학습할 수 있으며, 타이핑 소리의 복잡한 패턴을 효과적으로 포착할 수 있기 때문이다. 추가적으로, ResNet34와 ResNet101과의 성능 비교를 통해 ResNet50이 최적의 성능을 보임을 확인하였다.

3.2.2 멀티헤드 어텐션

ResNet에서 추출된 특징 맵에 멀티헤드 어텐션을 적용하여 시계열 데이터의 전역적 상관관계를 학습하였다. 멀티헤드 어텐션은 다양한 시점에서의 패턴을 동시에 학습할 수 있는 장점을 제공한다. 구체적으로, ResNet50의 마지막 특징 맵은 [batch_size, 2048, 7, 7] 형태로 출력된다. 이를 멀티헤드 어텐션에 입력하기 위해 다음과 같이 처리하였다.

(1) Flatten 및 차원 변환: 특징 맵을 [batch_size, 2048, 49] 형태로 평탄화한 후, [batch_size, 49, 2048] 형태로 전치시켜 어텐션 레이어에 입력하였다.

(2) 멀티헤드 어텐션 적용: 멀티헤드 어텐션 레이어를 통해 각 타이핑 소리 구간 간의 상관관계를 학습하였다. 멀티헤드 어텐션은 8개의 어텐션 헤드를 사용하여 다양한 시점에서의 상호작용을 병렬로 학습할 수 있게 함으로써, 데이터의 다양한 패턴을 포착할 수 있다. 이를 통해 모델은 입력 시퀀스 내에서 중요한 패턴과 관계를 더욱 정교하게 학습할 수 있다.

(3) 평균 풀링: 어텐션 출력의 시간 축을 따라 평균 풀링을 수행하여 [batch_size, 2048] 형태의 벡터를 얻었다. 평균 풀링은 시간 축의 정보를 종합하여 전체 시퀀스에 대한 전역적인 특징을 추출하는 데 사용되었다. 이를 통해 모델은 시계열 데이터의 전체적인 패턴을 반영하는 특징 벡터를 생성할 수 있었다.

(4) 드롭아웃: 과적합을 방지하기 위해 드롭아웃 레이어를 적용하였다.

(5) 분류기: 선형 계층을 통해 최종 클래스를 예측하였다. 이 과정에서 모델은 각 키 입력에 대한 확률 분포를 출력하며, 가장 높은 확률을 가진 클래스를 최종 예측으로 채택하였다. 선형 계층은 추출된 특징 벡터를 입력 받아 각 클래스에 대한 로짓을 생성하며, 소프트맥스 함수를 통해 확률로 변환된다.

(6) 정규화 및 활성화 함수: 각 레이어 후에 배치 정규화(Batch Normalization)과 ReLU 활성화 함수를 적용하여 학습의 안정성을 높이고 비선형성을 추가하였다.

(7) 최종 출력: Softmax 함수를 통해 각 클래스에 대한 확률을 계산하고, 가장 높은 확률을 가진 클래스를 예측값으로 선택하였다.

3.2.3 ResNet과 멀티헤드 어텐션 결합

ResNet의 잔차 블록(Residual Blocks)은 네트워크가 매우 깊어지더라도 기울기 소실 문제를 완화하여, 더 깊은 네트워크에서도 효과적으로 학습이 가능하도록 한다. 멀티헤드 어텐션은 다양한 패턴을 병렬로 학습할 수 있어, 시계열 데이터의 복잡한 관계를 포착하는 데 유리하다. 이러한 결합은 타이핑 소리의 비정형적이고 복잡한 패턴을 효과적으로 학습하여 높은 예측 성능을 달성할 수 있게 한다.

3.3 모델 평가

모델 평가를 위해 다양한 지표를 사용하여 성능을 분석하였다. 먼저 정확도(Accuracy)는 전체 샘플 중 올바르게 분류된 샘플의 비율로, 모델의 전반적인 예측 능력을 평가하는 데 사용되었다. 손실(Loss)은 CrossEntropyLoss를 활용하여 모델의 예측과 실제 레이블 간의 차이를 측정하였으며, 이는 학습 상태를 모니터링하고 최적화 과정을 안내하는 데 중요한 역할을 했다.

또한, F1-score는 정밀도(Precision)와 재현율(Recall)의 조화 평균으로, 특히 클래스 불균형이 존재할 때 유용한 지표로 활용되었다. 각 클래스별로 계산된 F1-score를 통해 특정 클래스에 대한 모델의 예측 성능을 평가하였다. 혼동 행렬(Confusion Matrix)을 작성하여 각 클래스 간의 예측 성능을 시각적으로 확인하고, 이를 기반으로 특정 클래스에서의 오분류 현상을 분석하여 개선 방향을 제시하였다.

이와 함께 클래스별 정확도를 계산하여 특정 클래스에서의 모델 성능 차이를 평가하였으며, 이는 특정 키 입력에 대해 모델이 얼마나 잘 학습되었는지, 혹은 오분류가 빈번한지를 파악하는 데 유용하게 활용되었다. 마지막으로, ROC 곡선 및 AUC(Area Under the Curve)를 통해 멀티클래스 문제의 특성을 고려한 분석을 수행하였으며, 각 클래스별 ROC 곡선을 작성하고 AUC 값을 계산함으로써 모델의 분류 능력을 전반적으로 평가하였다. 이러한 지표를 종합적으로 활용하여 모델의 강점과 약점을 체계적으로 분석하였다.

특히, 클래스 불균형 문제를 해결하기 위해 CrossEntropyLoss에 클래스 가중치를 적용하였다. 이는 각 클래스의 샘플 수에 반비례하는 가중치를 부여하여, 데이터가 불균형한 상황에서도 모델이 모든 클래스를 균등하게 학습할 수 있도록 도왔다. 모델 평가 과정에서 다음과 같은 추가적인 분석을 수행하였다.

(1) 학습 곡선 분석: 손실 및 정확도 곡선을 통해 학습 과정에서의 모델 성능 변화를 시각적으로 확인하였다. 이를 통해 모델의 수렴 속도와 학습 안정성을 평가할 수 있었다.

(2) 클래스 불균형 영향 평가: 클래스별 정확도와 F1-score를 통해 특정 클래스에서의 오분류 현상을 분석하였다. 이는 모델이 어떤 클래스에서 더 잘 작동하는지, 혹은 어떤 클래스에서 개선이 필요한지를 파악하는 데 도움이 되었다.

(3) 성능 안정성 평가: 여러 번의 실험을 통해 모델의 성능 안정성을 평가하였다. 이는 모델이 일관된 성능을 유지하는지, 혹은 특정 데이터셋에 과적합(overfitting)되었는지를 판단하는 데 중요하다.

(4) 모델 비교 분석: ResNet 단독 모델과 ResNet과 멀티헤드 어텐션을 결합한 모델 간의 성능을 비교 분석하여, 멀티헤드 어텐션의 추가가 실제로 성능 향상에 기여하는지를 평가하였다.

IV. 실험

4.1 실험 설정

실험은 NVIDIA H100 그래픽카드를 장착한 서버 환경에서 수행되었으며, PyTorch 프레임워크를 사용하여 모델을 구현하고 학습시켰다. 하이퍼파라미터는 다음과 같이 설정되었다.

데이터는 80%를 훈련 데이터, 20%를 검증 데이터로 분할하였으며, 데이터 로더는 병렬 처리를 위해 num_workers=8로 설정되었다. 모델 학습 과정에서는 CUDA 메모리 캐시를 정리하여 메모리 사용을 최적화하였고, 학습 속도를 높이기 위해 AMP(Automatic Mixed Precision)를 도입하였다. AMP는 연산의 일부를 반정밀도로 수행하여 메모리 사용량을 줄이고, 학습 속도를 향상시키는 데 기여하였다.

Table 1. Experimental Parameters

JBBHCB_2025_v35n2_253_7_t0001.png 이미지

4.2 실험 절차

본 연구에서는 제안한 ResNet-with-Attention 모델의 학습 및 검증 과정을 명확하고 재현 가능하게 하기 위해 단계별 실험 절차를 정의하였다. 이를 위해 Algorithm 1을 통해 전체 학습 및 평가 프로세스를 구조화하였으며, 각 단계별로 수행되는 작업은 다음과 같다.

(1) 모델 초기화

ResNet50과 멀티헤드 어텐션을 결합한 하이브리드 모델(이하 ResNet-with-Attention 모델)을 초기화한다. 이때 ResNet50은 ImageNet으로 사전 학습된 가중치를 사용하여 초기화하고, 옵티마이저(예: Adam), 스케줄러(StepLR), 손실 함수(CrossEntropyLoss) 및 자동 혼합 정밀도(AMP) 스케일러 등을 설정한다. 초기 최적 성능 모델을 기록하기 위한 best_val_acc 변수를 0.0으로 설정한다.

(2) 데이터 로딩 및 전처리

3.1절에서 설명한 데이터 수집 및 전처리 과정을 거쳐 모델에 입력될 데이터를 준비한다. 이 과정에서 오디오 데이터는 모노 변환, 키 입력 분리, FFT 기반 주파수 도메인 변환, Mel Spectrogram 변환, 데이터 증강(SpecAugment, 노이즈 추가), 정규화 등의 단계를 거친다. 최종적으로 학습 데이터셋(D_train)과 검증 데이터셋(D_val)을 로딩하고, batch_size, num_workers 등의 파라미터를 설정하여 DataLoader를 구성한다.

JBBHCB_2025_v35n2_253_7_f0001.png 이미지

Fig. 1. Training and Evaluation Procedure for the ResNet-with-Attention Model

(3) 모델 학습

각 에포크(epoch)마다 다음 과정을 수행한다.

∙ 모델을 학습 모드(train mode)로 전환한다.

∙ 학습 데이터셋(D_train)을 순회하며, 각 미니배치에 대해 다음을 수행한다.

- 옵티마이저의 기울기(gradient)를 초기화한다.

- AMP autocast를 활용하여 일부 연산을 반정 밀도로 수행, 효율성을 높인다.

- 입력(X)을 모델(M)에 통과시켜 출력(out)을 얻는다.

- 손실(loss)을 계산하고 역전파(backward)를 통해 모델 파라미터를 업데이트한다.

- 미니배치 단위로 학습 손실, 정확도 등을 집계한다.

∙ 에포크가 끝나면, 전체 학습 데이터에 대한 평균 손실 및 정확도를 계산한다.

(4) 검증 및 평가

각 에포크 종료 후, 모델을 평가 모드(eval mode)로 전환한 뒤 검증 데이터셋(D_val)을 이용하여 모델의 일반화 성능을 측정한다. 이때 기울기 계산을 생략(no grad)하여 추가적인 학습이 이루어지지 않도록 한다.

∙ 검증 데이터셋을 순회하며, 모델 출력(out_val)과 실제 정답(y_val)을 비교하여 검증 손실 및 정확도를 계산한다.

∙ 검증 정확도(val_acc)가 이전 에포크까지 기록된 best_val_acc보다 높을 경우, 해당 모델 파라미터를 최적 모델로 저장한다.

∙ 스케줄러(Sch)는 일정 주기(step_size)마다 학습률(learning rate)을 감소시켜 모델이 안정적으로 수렴하도록 한다.

(5) 결과 분석

모든 에포크 종료 후, best_val_acc를 달성한 모델 파라미터를 최종 결과물로 반환한다. 이 모델을 기반으로 Accuracy, Precision, Recall, F1-score, Confusion Matrix, ROC Curves, AUC 등의 지표를 분석하여 모델 성능을 정량적으로 평가한다. 또한, ResNet 단독 모델 및 CoAtNet 모델과의 성능 비교, 혼동 행렬을 통한 클래스별 성능 분석, ROC 및 AUC를 통한 전반적인 판별 능력 점검 등을 수행하여 제안 모델의 우수성을 입증한다.

Algorithm 1은 위 과정을 명확하게 정의한 절차를 제시한 것이다. Algorithm 1의 각 단계는 모델 초기화, 학습, 검증, 최적 모델 갱신, 결과 반환까지의 전 과정을 포함하며, 이를 통해 재현 가능한 실험 환경을 구축할 수 있다.

4.3 실험 결과

본 절에서는 제안한 하이브리드 모델의 실험 결과를 상세히 기술한다. 모델의 성능 지표를 표와 그래프로 제시하고, ResNet 단독 모델 및 CoAtNet 모델과의 비교 결과를 포함하였다. 또한, 학습 과정에서의 손실 및 정확도 곡선과 혼동 행렬을 통해 모델의 학습 및 예측 성능을 분석하였다.

4.3.1 성능 지표

모델의 성능을 평가하기 위해 Accuracy(정확도), Precision(정밀도), Recall(재현율), F1-score 등의 지표를 사용하였다. 아래 표는 ResNet 단독 모델, CoAtNet 모델, 그리고 제안한 하이브리드 모델(Our Model)의 성능 비교를 보여준다.

Table 2.에서 볼 수 있듯이, Our Model은 Accuracy, Precision, Recall, F1-score 모든 지표에서 ResNet 단독 모델은 물론이고 CoAtNet 모델 대비 성능 향상을 이룩하였다. 특히 Accuracy와 F1-score에서 ResNet 단독 모델 대비 약간 향상된 결과를 얻었으며, CoAtNet 대비 큰 폭의 성능 증가를 확인할 수 있다. 이는 전역적 패턴 학습에 강점이 있는 멀티헤드 어텐션과 깊은 특징 추출 능력을 갖춘 ResNet50을 결합한 하이브리드 구조가 타이핑 소리 기반 문자 예측 문제에서 매우 효과적임을 시사한다.

Table 2. Performance Metrics by Model

JBBHCB_2025_v35n2_253_8_t0001.png 이미지

4.3.2 손실 및 정확도 곡선 (loss and accuracy curves)

Fig. 2와 Fig. 4는 각각 ResNet 단독 모델의 학습 및 검증 정확도, 손실 곡선을 나타낸다. 초기 학습 단계에서 손실이 급격히 감소하고 정확도가 빠르게 상승한 뒤, 일정 에포크 이후 안정적으로 수렴하는 양상을 보인다. 이는 ResNet 기반 모델이 타이핑 소리 특성 추출에 성공적으로 작용하고 있음을 알 수 있다.

JBBHCB_2025_v35n2_253_9_f0001.png 이미지

Fig. 2. accuracy_curve

JBBHCB_2025_v35n2_253_9_f0002.png 이미지

Fig. 3. accuracy_curve_resnet_attention

JBBHCB_2025_v35n2_253_9_f0003.png 이미지

Fig. 4. loss_curve

한편, Fig. 3과 Fig. 5는 멀티헤드 어텐션을 추가한 Our Model의 정확도 및 손실 곡선을 나타낸다. Our Model은 ResNet 단독 모델에 비해 더 빠르게 높은 정확도에 도달하고, 검증 손실 또한 매우 낮은 수준에서 안정적으로 유지된다. 이는 멀티헤드 어텐션을 통한 전역적 시계열 패턴 파악이 모델의 일반화 성능 및 안정성 향상에 기여했음을 보여준다.

JBBHCB_2025_v35n2_253_9_f0004.png 이미지

Fig. 5. loss_curve_resnet_attention

4.3.3 혼동 행렬 (Confusion Matrix)

40개 클래스(09, AZ, Enter, Back, Shift, Space)에 대한 혼동 행렬을 통해 Our Model이 대다수 클래스에서 높은 정답률을 보이고, 일부 특정 클래스(예: Shift, Back)에서만 약간의 오분류가 발생함을 확인할 수 있다. 혼동 행렬 시각화를 통해 모델이 어떤 클래스 간에 혼동을 보이는지 파악할 수 있으며, 이를 통해 추가적인 데이터 증강, 멀티헤드 어텐션 파라미터 튜닝 등을 통해 성능을 개선할 수 있는 여지가 있음을 알 수 있다.

JBBHCB_2025_v35n2_253_9_f0005.png 이미지

Fig. 6. Confusion Matrix

4.3.4 ROC 곡선 및 AUC 평가 (ROC Curves and AUC Evaluation)

정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1-score 등 기존 지표들은 단일 임계값에서의 모델 성능을 나타내지만, ROC(Receiver Operating Characteristic) 곡선과 AUC(Area Under the Curve)는 다양한 임계값 변화에 따른 모델의 판별 능력을 전반적으로 평가할 수 있는 지표이다. ROC 곡선은 FPR(False Positive Rate) 대비 TPR(True Positive Rate)의 변화를 나타내며, AUC 값은 이 곡선 아래 면적으로, 1에 가까울수록 전반적인 판별 성능이 우수함을 의미한다.

대표적인 5개 클래스(0, A, Enter, Shift, Space)에 대해 CoAtNet, Only ResNet, Our Model의 AUC 값을 비교한 결과를 제시한다. Table 3에서 확인할 수 있듯이, 모든 클래스에서 CoAtNet < Only ResNet < Our Model 순으로 AUC 값이 향상된다. 이는 Our Model이 CoAtNet, Only ResNet 대비 전반적으로 임계값 변화에도 안정적이고 우수한 판별 능력을 갖추고 있음을 의미한다.

Table 3. AUC Values by Class

JBBHCB_2025_v35n2_253_10_t0001.png 이미지

Fig. 7.에서 Our Model의 ROC 곡선이 다른 두 모델보다 좌상단에 더 근접해 있으며, 이는 다양한 임계값에서도 높은 TPR을 유지하면서 낮은 FPR을 달성함을 의미한다. 이로써 Our Model이 단순히 하나의 임계값에서만 잘 동작하는 것이 아니라, 전반적인 임계값 범위에서도 균형 잡힌 판별 능력을 갖추었음을 재확인할 수 있다.

JBBHCB_2025_v35n2_253_10_f0001.png 이미지

Fig. 7. ROC Curves for CoAtNet, Only ResNet, and Our Model

4.3.5 결과 분석 종합 (Overall Result Analysis)

종합적으로, 본 연구에서 제안한 ResNet50과 멀티헤드 어텐션을 결합한 하이브리드 모델(Our Model)은 다양한 성능 지표와 분석 관점에서 CoAtNet 및 ResNet 단독 모델을 능가하는 성능을 보여주었다. 기본 성능 지표(Accuracy, Precision, Recall, F1-score)에서 Our Model이 가장 높은 값을 기록하였으며, 혼동 행렬 분석을 통해 대부분의 클래스에서 높은 정확도와 안정적인 분류 성능을 확인할 수 있었다.

또한 ROC 곡선 및 AUC 분석 결과, Our Model은 임계값 변화에도 우수한 판별 능력을 유지하여 CoAtNet과 Only ResNet을 능가하는 AUC 값을 달성하였다(Table 3 및 Figure 6 참조). 이러한 결과는 멀티헤드 어텐션을 통한 전역적 패턴 학습이 타이핑 소리 기반 문자 예측 문제에 효과적으로 작용했음을 뒷받침하며, 복잡한 시계열 데이터 처리에도 유용하게 적용될 수 있음을 시사한다.

본 연구의 결과를 토대로, 향후 다양한 키보드 환경, 소음 조건, 추가적 데이터 증강 기법 등을 적용함으로써 모델의 범용성과 실용성을 한층 강화할 수 있을 것으로 기대된다.

V. 한계점과 향후 계획

본 연구는 ResNet50과 멀티헤드 어텐션을 결합한 하이브리드 모델을 통해 타이핑 소리 기반 문자 예측 성능을 크게 향상시켰지만, 아직 해결해야 할 과제와 개선 가능성이 남아 있다. 우선, 현 모델은 제한된 환경에서 수집된 데이터에 기반하고 있기 때문에 다양한 녹음 조건이나 장비, 키보드 종류, 거리 및 각도에서 수집한 데이터에 대한 범용성 검증이 필요하다. 이를 통해 모델이 실제 환경에서도 안정적이고 높은 성능을 유지할 수 있는지 평가할 예정이다.

실시간 애플리케이션에 적용하기 위해서는 모델의 크기와 연산 효율성을 개선해야 한다. 모델 경량화, 연산 최적화, 하드웨어 가속 기법 등을 도입하여 추론 속도와 메모리 사용량을 줄임으로써, 실시간으로 타이핑 소리를 분석하고 예측하는 시스템 구현을 목표로 한다. 또한 멀티헤드 어텐션 구조의 파라미터 튜닝과 아키텍처 탐색을 통해 모델 성능을 한층 더 높일 수 있다. 어텐션 헤드 수나 어텐션 레이어의 위치 등 구조적 요소를 변화시켜 최적의 성능 조합을 찾는 작업은 향후 연구의 핵심 과제가 될 것이다.

본 연구가 키보드 타이핑 소리에 초점을 맞추었지만, 마우스 클릭 소리나 스마트폰 터치 소리 등 다양한 시계열 입력 신호에도 모델을 적용할 수 있다. 이를 통해 모델의 적용 가능성과 활용 범위를 확장하고, 사용자 인터페이스 개선이나 무접촉 입력 장치 개발 등 실용적인 응용 분야를 탐색할 것이다. 이와 함께 모델 내부 작동 원리를 해석 가능하게 하는 기법을 도입하여, 어떤 특징과 주파수 대역에 주목하는지 시각화하고 사용자가 모델을 신뢰할 수 있도록 할 계획이다.

종합하면, 다양한 녹음 환경 및 조건으로의 확장, 실시간 처리 대응을 위한 모델 경량화, 멀티헤드 어텐션 구조 최적화를 통한 추가 성능 향상, 다른 유형의 시계열 데이터로의 범용성 확대, 모델 해석 가능성 제고 등이 향후 연구 방향이다. 이러한 발전을 바탕으로 모델의 실용적 가치와 적용 범위는 더욱 확장될 것으로 기대한다.

VI. 결론

본 연구에서는 ResNet50과 멀티헤드 어텐션을 결합한 하이브리드 모델을 제안하고, 이를 타이핑 소리 기반 문자 예측 문제에 적용함으로써 기존 모델(CoAtNet, 단일 ResNet) 대비 성능 향상을 달성하였다. FFT를 통해 주파수 도메인으로 변환된 데이터를 기반으로, ResNet50은 깊이 있는 특징을 추출하고 멀티헤드 어텐션은 시계열 데이터의 전역적 패턴을 학습함으로써 CoAtNet이나 단일 ResNet 모델보다 높은 정확도와 안정적인 성능을 확보했다.

특히, 최근 사물인터넷(IoT) 기술이 발전함에 따라 각종 디바이스 간 연동 및 실시간 데이터 처리가 중요해지고 있다. 본 연구에서 제안한 모델은 멀티헤드 어텐션을 통해 다양한 입력 신호(주파수 스펙트럼 정보) 간의 상관관계를 효과적으로 학습할 수 있어, IoT 환경의 다양한 센서 및 엣지 디바이스와도 결합이 용이하다. 예를 들어, IoT 네트워크상에서 키보드 입력이 아닌 다른 음향 신호(스마트 센서의 진동, 기계 소리 등)까지 확장 적용할 수 있을 것으로 기대되며, 이를 통해 지능형 보안 모니터링이나 사용자 행위 분석 등 더 폭넓은 분야에서 활용될 수 있다.

실험 결과를 통해 본 연구의 모델(Our Model)이 정확도(Accuracy), F1-score, AUC 등에서 우수성을 보였으며, ROC 곡선 분석을 통해 임계값 변화에도 견고한 분류 능력을 발휘함을 확인하였다. 이는 멀티헤드 어텐션 기반의 전역적 패턴 학습이 비정형적 시계열 데이터를 처리하는 데 매우 효과적임을 시사한다. 향후에는 IoT 디바이스에서 발생하는 다양한 형태의 실시간 음향 데이터를 수집, 분석하여 모델의 범용성을 더욱 확장하는 한편, 모델 경량화ᄋ최적화 기법을 적용하여 무선ᄋ엣지 환경에서도 효율적으로 동작할 수 있는 방안을 모색할 계획이다.

References

  1. Y. Zhuang, F. Zhou, and J. D. Tygar, "Keyboard acoustic emanations revisited," Proceedings of the 12th ACM Conference on Computer and Communications Security, pp. 373-382, Nov. 2005.
  2. N. Ghadimi, A. Akbarimajd, H. Shayeghi, and O. Abedinia, "A new hybrid forecast engine using feature selection algorithm in smart grid," Journal of Ambient Intelligence and Humanized Computing, vol. 9, no. 6, pp. 1843–1857, Dec. 2018.
  3. J. Li, Z. Tu, B. Yang, M. R. Lyu, and T. Zhang, "Multi-head attention with disagreement regularization," Proceedings of the 2018 Conference on Empirical Methods in NaturalLanguage Processing, pp. 2897-2903, Oct. 2018.
  4. J. Zhou, S. Jin, and X. Huang, "A novel CNN-based Bi-LSTM parallel model with attention mechanism for human activity recognition with noisy data," Scientific Reports, vol. 12, no. 7878, pp. 1-12, May 2022. https://doi.org/10.1038/s41598-021-99269-x
  5. A. Harrison, M. M. Tariq, and F. Ahmed, "Keystroke recovery using deep learning from smartphone and zoom call recordings," arXiv preprintarXiv:2308.01074, Aug. 2023.
  6. K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 770-778, Jun. 2016.
  7. A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, and I. Polosukhin, "Attention is all you need," Advances in Neural Information Processing Systems, vol. 30, pp. 5998-6008, Dec. 2017