• 제목/요약/키워드: 단어 식별

검색결과 69건 처리시간 0.029초

화자식별 기반의 AI 음성인식 서비스에 대한 사이버 위협 분석 (Cyber Threats Analysis of AI Voice Recognition-based Services with Automatic Speaker Verification)

  • 홍천호;조영호
    • 인터넷정보학회논문지
    • /
    • 제22권6호
    • /
    • pp.33-40
    • /
    • 2021
  • 음성인식(ASR: Automatic Speech Recognition)은 사람의 말소리를 음성 신호로 분석하고, 문자열로 자동 변화하여 이해하는 기술이다. 초기 음성인식 기술은 하나의 단어를 인식하는 것을 시작으로 두 개 이상의 단어로 구성된 문장을 인식하는 수준까지 진화하였다. 실시간 음성 대화에 있어 높은 인식률은 자연스러운 정보전달의 편리성을 극대화하여 그 적용 범위를 확장하고 있다. 반면에, 음성인식 기술의 활발한 적용에 따라 관련된 사이버 공격과 위협에 대한 우려 역시 증가하고 있다. 기존 연구를 살펴보면, 자동화자식별(ASV: Automatic Speaker Verification) 기법의 고안과 정확성 향상 등 기술 발전 자체에 관한 연구는 활발히 이루어지고 있으나, 실생활에 적용되고 있는 음성인식 서비스의 자동화자 식별 기술에 대한 사이버 공격 및 위협에 관한 분석연구는 다양하고 깊이 있게 수행되지 않고 있다. 본 연구에서는 자동화자 식별 기술을 갖춘 AI 음성인식 서비스를 대상으로 음성 주파수와 음성속도를 조작하여 음성인증을 우회하는 사이버 공격 모델을 제안하고, 상용 스마트폰의 자동화자 식별 체계를 대상으로 실제 실험을 통해 사이버 위협을 분석한다. 이를 통해 관련 사이버 위협의 심각성을 알리고 효과적인 대응 방안에 관한 연구 관심을 높이고자 한다.

대뇌반구간 한글 단어처리와 색채처리 특성 (Hemispheric Characteristics of Processing Hangul and Color)

  • 한광희;감기택
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.57-63
    • /
    • 1994
  • 인간의 정보처리 과정의 특성을 알아보기 위하여 반구별로 색채와 단어의 처리과정을 분석하였다. 단어와 색깔이라는 두가지 자극 속성이 있는 한 개의 자극에 대하여 각 자극 속성에 대한 판단과정을 반응키를 이용하여 반구별로 알아보았다. 단어에 대한 판단과 색깔에 대한 판단을 반구별로 분석한 결과, 색깔처리나 단어처리에 있어서 반구간 비대칭성은 나타나지 않았으나 색깔에 대한 판단이 단어에 대한 판단보다 신속하게 이루어지는 것으로 나타나 색채가 단어보다 기초적인 자극 속성임을 확인하였다. 단어와 색깔이라는 두가지 자극 속성을 이용한 경우에 한가지 자극속성을 처리할 때 다른 자극속성이 자동적으로 영향을 주는 것으로 나타났으나 그 정도에 있어서 반구간의 차이는 없었다. 그러나 색채가 단어처리를 간섭하는 정도가 단어가 색채처리를 간섭하는 정도보다 큰 것으로 나타나 기존의 스트룹 연구결과들과는 상반되는 결과를 얻었는데 이는 과제의 특성이라는 측면으로 기술되었다. 단어 처리에서 반구간 차이가 발견되지 않은 것은 한글의 시각적 특성과 관련지어 논의되었다. 자극의 한 속성이 자동적으로 다른 속성에 영향을 주지만 그 효과의 크기도 반구별로 차이가 없다는 것은 이전의 반구별 스트룹 효과를 알아본 연구들과 상반되는 결과이다. 따라서 자극속성이 상호영향을 줄 수 있는 좀더 일반적인 상황에서는 한 자극 속성이 다른 자극 속성의 처리에 자동적으로 영향을 주는 효과에서 반구 비대칭성이 발견되지 않으며 스트룹 효과는 두 자극 속성의 관계가 밀접한 특별한 경우에 나타나는 반구비대칭성 효과인 것으로 논의되었다.양 발생과 유의적으로 상관관계가 있었다. 본 연구의 결과는 phenol의 종류에 상관없이 식이 phenol에 조직의 항산화(산화억제)를 통해 암 예방(cancer prevention)에 영향을 미친다는 것을 제시해준다.물을 첨가하여 물내리기를 한 후 김이 오른 후 물내린 쌀가루에 15% 이상의 설탕을 첨가하여 20분간 쪄서 만든 백설기가 가장 바람직하다는 것을 알 수 있었다. 이 실험 중 가장 중요한 조건은 첨가하는 물의 양이 10%이며 첨가하는 당이 설탕일 경우는 김이 오른 후 설탕을 섞어 바로 쪄야 하며 설탕의 양이 15% 이상이라는 것이다. 이 조건은 대체적으로 hardness, adhesiveness, gumminess가 큰 수치를 나타낸다.순구조의 Tonpilz형 초음파 변환기와 비교하여 비록 송파전압감도에 있어서는 약 5 dB 정도의 음향출력의 손실이 불가피하지만, 그 대신 주파수 대역폭을 약 5 재 정도 확대시킬 수 있는 장점이 있기 때문에 이 넓은 주파수 대역을 효과적으로 활용하면 어종식별을 위한 음향산란신호를 정량적으로 수집 및 평가하는 것이 가능하다고 판단된다.n A was 11 ug.이, 0.9 ug/g and 3.7 ug/g in the blood, liver and kidney, respectively.sional-managerial who secure the higher autonomy and stability in their work have the highest life chance in the labor and health, and leisure life

  • PDF

긴 문서를 위한 BERT 기반의 End-to-End 한국어 상호참조해결 (Korean End-to-End Coreference Resolution with BERT for Long Document)

  • 조경빈;정영준;이창기;류지희;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.259-263
    • /
    • 2021
  • 상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 동일한 개체(entity)를 의미하는 멘션들을 찾아 그룹화하는 자연어처리 태스크이다. 최근 상호참조해결에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후, 멘션 탐지와 상호참조해결을 동시에 진행하는 end-to-end 모델이 주로 연구되었으나, 512 토큰 이상의 긴 문서를 처리하기 위해서는 512 토큰 이하로 문서를 분할하여 처리하기 때문에 길이가 긴 문서에 대해서는 상호참조해결 성능이 낮아지는 문제가 있다. 본 논문에서는 512 토큰 이상의 긴 문서를 위한 BERT 기반의 end-to-end 상호참조해결 모델을 제안한다. 본 모델은 긴 문서를 512 이하의 토큰으로 쪼개어 기존의 BERT에서 단어의 1차 문맥 표현을 얻은 후, 이들을 다시 연결하여 긴 문서의 Global Positional Encoding 또는 Embedding 값을 더한 후 Global BERT layer를 거쳐 단어의 최종 문맥 표현을 얻은 후, end-to-end 상호참조해결 모델을 적용한다. 실험 결과, 본 논문에서 제안한 모델이 기존 모델과 유사한 성능을 보이면서(테스트 셋에서 0.16% 성능 향상), GPU 메모리 사용량은 1.4배 감소하고 속도는 2.1배 향상되었다.

  • PDF

자동초록 작성시에 발생하는 유사의미 문장요소들의 통합에 관한 연구 (A Study on the Integration of Similar Sentences in Atomatic Summarizing of Document)

  • 이태영
    • 한국문헌정보학회지
    • /
    • 제34권2호
    • /
    • pp.87-115
    • /
    • 2000
  • 유사문장의 식별 및 통합을 위하여 문장의 구성성분, 품사, 절유형, 위치 등이 미치는 영향을 조사하고 유사도측정 공식과 통합방안을 모색하였다. 문법적 요인보다는 문장간에 일치하는 단어의 수가 유사성에 영향을 미치며 표제어와 기능절도 관여되었다. 문장간의 유사도 측정 공식은 설튼의 유사도 측정식과 코싸인계수를 혼합하여 사용하였다. 유사문장들의 통합에서 절들의 대체 방법을 사용하였는데 앞으로는 단어들의 대체 방법으로 전환하여야 할 것이다.

  • PDF

연구 논문의 의미 구조 기반 메타데이터 항목의 자동 식별 처리를 위한 문장 구조 분석 (Analyzing the Sentence Structure for Automatic Identification of Metadata Elements based on the Logical Semantic Structure of Research Articles)

  • 송민선
    • 정보관리학회지
    • /
    • 제35권3호
    • /
    • pp.101-121
    • /
    • 2018
  • 본 연구는 연구논문의 논리적 의미 구조 메타데이터 항목에 해당하는 데이터에 담겨 있는 문장의 구성에 따라 시스템에서 적절한 항목으로 자동 식별 처리될 수 있도록 하는, 문장의미론(Sentence Semantics)적 분석 방법을 제안하고자 하는 목적으로 수행되었으며, 의미 구조 메타데이터 항목 중 'Research Objectives'와 'Research Outcomes'에 해당하는 연구 논문 문장의 구조를 어절 수, 접속어 종류, 다수 출현한 단어들의 문장 내 역할, 문장에서 다수 출현한 어미 형태 등을 기준으로 분석해 정리하였다. 연구 결과, 문장들의 어절 수는 'Research Objectives'는 평균 38개, 'Research Outcomes'는 평균 212개로 나타났으며, 접속어의 경우 'Research Objectives'는 인과-순접-대등-환언/요약 관계를 나타내는 접속어 순으로, 'Research Outcomes'는 인과-대등-순접-환언/요약 관계를 나타내는 접속어 순으로 많이 출현한 것으로 파악되었다. 출현빈도가 높은 분석 대상 단어들은 각각 문장 내에서 주어, 목적어, 서술어 역할 등으로 사용되고 있었으며, '역할'이나 '요인', '관계'는 목적이나 결과 부분 모두에서 비슷한 역할을 담당하고 있었지만 '연구'는 같은 단어라도 연구의 목적 부분과 결과 부분에서 사용되는 역할에 차이를 보였다. 마지막으로 문장 내 동사의 어미는 'Research Objectives'에서 '~고자'와 '~였다', 'Research Outcomes'에서 '~었다', '~있다', '~였다'가 많이 출현하였다. 본 연구는 연구자의 학술적 이해형성을 지원하기 위해 연구논문이 담고 있는 공통된 논리적 의미를 반영한 메타데이터 요소의 자동 식별과 입력 방안을 제시하는 데 활용할 수 있는 기초 연구로서 의의가 있다.

Predicate-Argument Structure 기반의 어휘적 패턴을 이용한 관계 추출 (Relation Extraction using Lexical Patterns based on Predicate-Argument Structure)

  • 정창후;전홍우;최윤수;최성필
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.748-750
    • /
    • 2010
  • 문서 내에 존재하는 개체들 간의 관계를 자동으로 추출할 때 다양한 형태의 문서 분석 결과를 활용할 수 있는데, 본 논문에서는 문장 내에 존재하는 각 단어의 predicate-argument 관계를 분석하여 자질로 활용하는 PAS 패턴 기반 관계 추출 시스템을 제안한다. 관계 종류별로 구축된 PAS 패턴 집합을 활용하여 관계 식별기를 개발하였고, 실험을 통하여 개발된 관계 식별기의 성능을 측정하였다. 실험 결과 개체 간의 유의미한 관계를 표현해주는 PAS 패턴이 관계 추출 작업에 유용한 정보임을 알 수 있었다.

한국어 단모음의 분석 및 인식에 관한 고찰

  • 이용주
    • ETRI Journal
    • /
    • 제8권1호
    • /
    • pp.6-15
    • /
    • 1986
  • 본고는 보상훈련 기간 중 일본 동북대학 응용정보학 연구센타에서 수행한 연구 결과를 기술한 것이다. 음소 단위에 의한 한국어의 대용량 단어인식을 위한 기초연구로서, 그 기본이 되는 단모음을 대상으로 포먼트 주파수에 의한 음운간의 특징 및 발성자간의 개인성의 분산을 살펴보고 Battacharyya 거리를 구하여 음운간의 식별의 곤란성을 도출하였다. 또한, Karbunen-Loeve변환 및 Bayes결정에 의한 인식 그리고 spectral local peak에 의한 인식등의 실험에 의해 효과적인 인식 방법에 관하여 고찰하였다 .

  • PDF

온톨로지 지식 기반 특성치를 활용한 Bidirectional LSTM-CRF 모델의 시퀀스 태깅 성능 향상에 관한 연구 (Improving Bidirectional LSTM-CRF model Of Sequence Tagging by using Ontology knowledge based feature)

  • 진승희;장희원;김우주
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.253-266
    • /
    • 2018
  • 본 연구는 질의 응답(QA) 시스템에서 사용하는 개체명 인식(NER)의 성능을 향상시키기 위하여 시퀀스 태깅 방법론을 적용한 새로운 방법론을 제안한다. 사용자의 질의를 입력 받아 데이터베이스에 저장된 정답을 추출하기 위해서는 사람의 언어를 컴퓨터가 알아들을 수 있도록 구조화 질의어(SQL)와 같은 데이터베이스의 언어로 전환하는 과정이 필요한데, 개체명 인식은 사용자의 질의에서 데이터베이스에 포함된 클래스나 데이터 명을 식별하는 과정이다. 기존의 데이터베이스에서 질의에 포함된 단어를 검색하여 개체명을 인식하는 방식은 동음이의어와 문장성분 구를 문맥을 고려하여 식별하지 못한다. 다수의 검색 결과가 존재하면 그들 모두를 결과로 반환하기 때문에 질의에 대한 해석이 여러 가지가 나올 수 있고, 계산을 위한 시간복잡도가 커진다. 본 연구에서는 이러한 단점을 극복하기 위해 신경망 기반의 방법론을 사용하여 질의가 가지는 문맥적 의미를 반영함으로써 이러한 문제를 해결하고자 했고 신경망 기반의 방법론의 문제점인 학습되지 않은 단어에 대해서도 문맥을 통해 식별을 하고자 하였다. Sequence Tagging 분야에서 최신 기술인 Bidirectional LSTM-CRF 모델을 도입함으로써 신경망 모델이 가진 단점을 해결하였고, 학습되지 않은 단어에 대해서는 온톨로지 기반 특성치를 활용하여 문맥을 반영한 추론을 사용하였다. 음악 도메인의 온톨로지(Ontology) 지식베이스를 대상으로 실험을 진행하고 그 성능을 평가하였다. 본 연구에서 제안한 방법론인 L-Bidirectional LSTM-CRF의 성능을 정확하게 평가하기 위하여 학습에 포함된 단어들뿐만 아니라 학습에 포함되지 않은 단어들도 포함한 질의를 평가에 사용하였다. 그 결과 L-Bidirectional LSTM-CRF 모형을 재학습 시키지 않아도 학습에 포함되지 않은 단어를 포함한 질의에 대한 개체명 인식이 가능함을 확인하였고, 전체적으로 개체명 인식의 성능이 향상됨을 확인할 수 있었다.

동적 시간 신축 알고리즘을 이용한 화자 식별 (Speaker Identification Using Dynamic Time Warping Algorithm)

  • 정승도
    • 한국산학기술학회논문지
    • /
    • 제12권5호
    • /
    • pp.2402-2409
    • /
    • 2011
  • 음성에는 전달하고자 하는 정보 이외에 화자 고유의 음향적 특징을 담고 있다. 화자간의 음향적 차이를 이용하여 말하고 있는 사람이 누구인지 판단하는 방법이 화자 인식이다. 화자 인식에는 화자 확인과 화자 식별로 구분되는데 화자 확인은 1명의 음성을 대상으로 본인인지 아닌지를 검증하는 방법이다. 반면, 화자 식별은 미리 등록된 다수의 종속 문장으로부터 가장 유사한 모델을 찾아 대상 의뢰인이 누군지 식별하는 방법이다. 본 논문에서는 MFCC(Mel Frequency Cepstral Coefficient) 계수를 추출하여 특징 벡터를 구성하였고, 특징 간 유사도 비교는 동적 시간 신축(Dynamic Time Warping) 알고리즘을 이용한다. 각 화자마다 두 개의 종속 문장을 훈련 데이터로 사용하여 음운성에 기반을 둔 공통적 특징을 기술하였고, 이를 통해 데이터베이스에 저장되어 있지 않은 단어를 사용하더라도 동일 화자임을 식별할 수 있도록 하였다.

희소주성분분석을 이용한 텍스트데이터의 단어선택 (Feature selection for text data via sparse principal component analysis)

  • 손원
    • 응용통계연구
    • /
    • 제36권6호
    • /
    • pp.501-514
    • /
    • 2023
  • 텍스트데이터는 일반적으로 많은 단어로 이루어져 있다. 텍스트데이터와 같이 많은 변수로 구성된 데이터의 경우 과적합 등의 문제로 분석에 있어서의 정확성이 떨어지고, 계산과정에서의 효율성에도 문제가 발생하는 경우를 흔히 볼 수 있다. 이렇게 변수가 많은 데이터를 분석하기 위해 특징선택, 특징추출 등의 차원 축소 기법이 자주 사용되고 있다. 희소주성분분석은 벌점이 부여된 최소제곱법 중 하나로 엘라스틱넷 형태의 목적함수를 사용하여 유용하지 않은 주성분을 제거하고 각 주성분에서도 중요도가 큰 변수만 식별해내기 위해 활용되고 있다. 이 연구에서는 희소주성분분석을 이용하여 많은 변수를 가진 텍스트데이터를 소수의 변수만으로 요약하는 절차를 제안한다. 이러한 절차를 실제 데이터에 적용한 결과, 희소주성분분석을 이용하여 단어를 선택하는 과정을 통해 목표변수에 대한 정보를 이용하지 않고도 유용성이 낮은 단어를 제거하여 텍스트데이터의 분류 정확성은 유지하면서 데이터의 차원을 축소할 수 있음을 확인하였다. 특히 차원축소를 통해 고차원 데이터 분석에서 분류 정확도가 저하되는 KNN 분류기 등의 분류 성능을 개선할 수 있음을 알 수 있었다.