• 제목/요약/키워드: Natural Language Processing(NLP)

검색결과 156건 처리시간 0.03초

자연어 처리 기반의 음악 추천 챗봇 (Chatbot for Music Recommendation Based on Natural Language Processing)

  • 신상수;장두혁;김병일;김영종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.573-575
    • /
    • 2019
  • 현존하는 음악 추천형 챗봇들은 사용자의 의도가 아닌 챗봇 임의의 분류기준을 가지고 음악을 추천해왔다. 하지만 이러한 음악 추천은 공급자의 의도에 제한되어있는 단면적인 추천이 될 가능성이 높다. 이를 개선하고자 본 논문에서는 자연어를 처리하는 기법(NLP)의 처리를 통해 추출한 단어를 자연어 이해 기법(NLU)으로 특정 감성어 데이터를 마이닝하는 방법을 채용한다. 이를 통해 추출된 감성어를 원하는 쿼리에 따라 매핑된 음악데이터만을 추출한다. 이를 통해 닫힌 대화 구조에서의 사용자 의도 해석의 한계를 극복한다.

SG-Drop: Faster Skip-Gram by Dropping Context Words

  • Kim, DongJae;Synn, DoangJoo;Kim, Jong-Kook
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.1014-1017
    • /
    • 2020
  • Many natural language processing (NLP) models utilize pre-trained word embeddings to leverage latent information. One of the most successful word embedding model is the Skip-gram (SG). In this paper, we propose a Skipgram drop (SG-Drop) model, which is a variation of the SG model. The SG-Drop model is designed to reduce training time efficiently. Furthermore, the SG-Drop allows controlling training time with its hyperparameter. It could train word embedding faster than reducing training epochs while better preserving the quality.

머신러닝 기법을 이용한 한국어 보이스피싱 텍스트 분류 성능 분석 (Korean Voice Phishing Text Classification Performance Analysis Using Machine Learning Techniques)

  • 무사부부수구밀란두키스;진상윤;장대호;박동주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.297-299
    • /
    • 2021
  • Text classification is one of the popular tasks in Natural Language Processing (NLP) used to classify text or document applications such as sentiment analysis and email filtering. Nowadays, state-of-the-art (SOTA) Machine Learning (ML) and Deep Learning (DL) algorithms are the core engine used to perform these classification tasks with high accuracy, and they show satisfying results. This paper conducts a benchmarking performance's analysis of multiple SOTA algorithms on the first known labeled Korean voice phishing dataset called KorCCVi. Experimental results reveal performed on a test set of 366 samples reveal which algorithm performs the best considering the training time and metrics such as accuracy and F1 score.

감정 일기를 통한 6가지 감정 분류 : LSTM모델 연구 (Classification of 6 Emotions with Emotion Diary : LSTM Model)

  • 이단비;김가영;윤예진;이지은
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.932-933
    • /
    • 2023
  • 이 연구는 사람의 감정 변화를 건강하게 파악하고 분석하기 위해 시작되었다. Natural Language Processing(NLP)는 컴퓨터가 인간의 언어를 이해하기 위해 개발된 자연어 처리 기술이다. 본 논문에서는 이 기술을 이용하여 Text Mining을 통해 사용자가 작성한 일기에 담긴 감정을 분석하고 LSTM 모델과 GRU 모델을 비교군으로 두어 두 모델 중 감정 분석에 더 적합한 모델을 찾는 과정을 거쳤다. 이 과정을 정확도가 더 높은 LSTM 모델을 사용하여 감정 분석 결과를 분류하였다.

Korean Patent ELECTRA : 한국 특허문헌 자연어처리 연구를 위한 사전 학습된 언어모델(KorPatELECTRA) (Korean Patent ELECTRA : a pre-trained Korean Patent language representation model for the study of Korean Patent natural language processing(KorPatELECTRA))

  • 민재옥;장지모;조유정;노한성
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.69-71
    • /
    • 2021
  • 특허분야에서 자연어처리 태스크는 특허문헌의 언어적 특이성으로 문제 해결의 난이도가 높은 과제임에 따라 한국 특허문헌에 최적화된 언어모델의 연구가 시급한 실정이다. 본 논문에서는 대량의 한국 특허문헌 데이터를 최적으로 사전 학습(pre-trained)한 Korean Patent ELECTRA 모델과 tokenize 방식을 제안하며 기존 범용 목적의 사전학습 모델과 비교 실험을 통해 한국 특허문헌 자연어처리에 대한 발전 가능성을 확인하였다.

  • PDF

Korean Text to Gloss: Self-Supervised Learning approach

  • Thanh-Vu Dang;Gwang-hyun Yu;Ji-yong Kim;Young-hwan Park;Chil-woo Lee;Jin-Young Kim
    • 스마트미디어저널
    • /
    • 제12권1호
    • /
    • pp.32-46
    • /
    • 2023
  • Natural Language Processing (NLP) has grown tremendously in recent years. Typically, bilingual, and multilingual translation models have been deployed widely in machine translation and gained vast attention from the research community. On the contrary, few studies have focused on translating between spoken and sign languages, especially non-English languages. Prior works on Sign Language Translation (SLT) have shown that a mid-level sign gloss representation enhances translation performance. Therefore, this study presents a new large-scale Korean sign language dataset, the Museum-Commentary Korean Sign Gloss (MCKSG) dataset, including 3828 pairs of Korean sentences and their corresponding sign glosses used in Museum-Commentary contexts. In addition, we propose a translation framework based on self-supervised learning, where the pretext task is a text-to-text from a Korean sentence to its back-translation versions, then the pre-trained network will be fine-tuned on the MCKSG dataset. Using self-supervised learning help to overcome the drawback of a shortage of sign language data. Through experimental results, our proposed model outperforms a baseline BERT model by 6.22%.

지능형 문서처리 도입과 기록관리 변화에 관한 연구 (A Study on the Introduction of Intelligent Document Processing and Change of Record Management)

  • 류한조;이경남;황진현;임진희
    • 기록학연구
    • /
    • 제68호
    • /
    • pp.41-72
    • /
    • 2021
  • 빅데이터 분석을 위해서는 기계가독성을 높이는 개방형 문서 포맷으로의 변화와 자연어 처리 기술 도구가 필요하다. 본 연구는 지능형 문서 처리의 도입 배경과 연구 현황을 공공부문 중심으로 살펴보고, 지능형 문서 처리가 가져올 업무의 변화를 예측해 보았다. 나아가 지능형 문서 처리가 기록관리 업무에 가져올 변화를 전망해보고, 기록관리 전문가의 역할의 변화와 요구되는 역량 등을 고찰해 보았다. 기록관 업무 단계와 아카이브 업무 단계의 광범위한 영역에 걸쳐 기록관리 업무의 변화를 전망하였고, 특히 반복적인 기록관리 업무의 자동화나 기록물의 기술 및 활용 업무에 영향을 미칠만한 변화들을 서술하였다. 이러한 업무 수행의 변화에 맞추어 기록관리계는 새로운 업무 절차와 방법, 그리고 필요한 역량을 준비해야 할 것이다.

딥러닝 기반 스마트폰 피싱 공격 대응 방법 (A Deep Learning-Based Smartphone Phishing Attacks Countermeasures)

  • 이재경;서진범;조영복
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.321-322
    • /
    • 2022
  • 스마트폰 사용자가 늘어남에 따라 갖춰줘야 할 보안성이 취약하여, 다양한 바이러스 및 악성코드 위험에 노출되어 있다. 안드로이드는 운영체제 중 가장 많이 사용되는 운영체제로, 개방성이 높으며 수많은 악성 앱 및 바이러스가 마켓에 존재하여 위험에 쉽게 노출된다. 2년 넘게 이어진 코로나 바이러스(Covid-19)으로 인해 꾸준히 위험도가 높아진 피싱공격(Phshing attack)은 현재 최고의 스마트폰 보안 위협 Top10에 위치한다. 본 논문에서는 딥러닝 기반 자연어처리 기술을 통해 피싱 공격 대응 방법 제안 및 실험 결과를 도출하고, 또한 향후 제안 방법을 보완하여 피싱 공격 및 다양한 모바일 보안 위협에 대응할 수 있는 앱을 설계할 것이다.

  • PDF

CNN(Convolutional Neural Network) 알고리즘을 활용한 음성신호 중 비음성 구간 탐지 모델 연구 (A Study on a Non-Voice Section Detection Model among Speech Signals using CNN Algorithm)

  • 이후영
    • 융합정보논문지
    • /
    • 제11권6호
    • /
    • pp.33-39
    • /
    • 2021
  • 음성인식 기술은 딥러닝과 결합되며 빠른 속도로 발전하고 있다. 특히 음성인식 서비스가 인공지능 스피커, 차량용 음성인식, 스마트폰 등의 각종 기기와 연결되며 음성인식 기술이 산업의 특정 분야가 아닌 다양한 곳에 활용되고 있다. 이러한 상황에서 해당 기술에 대한 높은 기대 수준을 맞추기 위한 연구 역시 활발히 진행되고 있다. 그중에서 자연어처리(NLP, Natural Language Processing)분야에서 음성인식 인식률에 많은 영향을 주는 주변의 소음이나 불필요한 음성신호를 제거하는 분야에 연구가 필요한 상황이다. 이미 많은 국내외 기업에서 이러한 연구를 위해 최신의 인공지능 기술을 활용하고 있다. 그중에서 합성곱신경망 알고리즘(CNN)을 활용한 연구가 활발하게 진행되고 있다. 본 연구의 목적은 합성곱 신경망을 통해서 사용자의 발화구간에서 비음성 구간을 판별하는 것으로 5명의 발화자의 음성파일(wav)을 수집하여 학습용 데이터를 생성하고 이를 합성곱신경망을 활용하여 음성 구간과 비음성 구간을 판별하는 분류 모델을 생성하였다. 이후 생성된 모델을 통해 비음성 구간을 탐지하는 실험을 진행한 결과 94%의 정확도를 얻었다.

머신 러닝을 활용한 회사 SNS 메시지에 내포된 심리적 거리 추출 연구 (A Study on the Extraction of Psychological Distance Embedded in Company's SNS Messages Using Machine Learning)

  • 이성원;김진혁
    • 경영정보학연구
    • /
    • 제21권1호
    • /
    • pp.23-38
    • /
    • 2019
  • 소셜 네트워크 서비스(이하 SNS)는 회사의 마케팅 채널로 적극 활용되고 있으며, 회사들의 고객층에 적합한 내용과 어조를 활용하여 주기적으로 SNS 메시지를 작성하는 등 활발한 마케팅을 펼치고 있다. 본 논문에서는 이제까지 간과되었던 SNS 메시지에 내포된 심리적 거리에 초점을 맞춰 전통적인 코더를 활용한 내용 분석(content analysis)과 자연어 처리 기법 및 머신 러닝 방법을 혼합하여 심리적 거리를 측정하는 분석 방법을 연구하였다. SNS 메시지의 심리적 거리 분석을 위해 코더들을 활용하여 내용분석을 수행하였으며, 이와 같은 방법으로 레이블링된 데이터를 자연어 처리 방법을 이용하여 워드 임베딩을 수행함으로써 머신 러닝 수행을 위한 입력 데이터를 마련하였다. 머신 러닝 분석법 중 Support Vector Machine(SVM)을 이용하여 SNS 메시지와 심리적 거리 간의 관계를 학습시켰으며, 마지막으로 테스트 데이터를 이용하여 심리적 거리를 예측함으로써 머신 러닝 분석의 성과를 검증하였다. 심리적 거리측정 방법론 수행 결과, 코더들의 내용분석 결과가 특정 값으로 편향되어 SVM 예측의 민감도와 정밀도가 낮은 결과가 도출되었다. 심리적 거리 응답 비율을 보정하고 코더들의 1차 내용분석 결과 중 답변이 일치한 데이터로 한정지어 머신 러닝을 실행한 결과 심리적 거리 예측의 정확도, 민감도, 특이도, 정밀도 모두 향상되어 심리적 거리가 70% 이상 예측되는 성과를 보였다. 본 연구는 SNS 메시지의 심리적 거리를 측정하는 방법을 제시함으로써 독자와의 심리적 거리를 제어 가능한 전략 요소로 활용 가능하게 할 것이라 기대된다.