• Title/Summary/Keyword: 텍스트 연구

Search Result 3,492, Processing Time 0.033 seconds

An Empirical Study of Topic Classification for Korean Newspaper Headlines (한국어 뉴스 헤드라인의 토픽 분류에 대한 실증적 연구)

  • Park, Jeiyoon;Kim, Mingyu;Oh, Yerim;Lee, Sangwon;Min, Jiung;Oh, Youngdae
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.287-292
    • /
    • 2021
  • 좋은 자연어 이해 시스템은 인간과 같이 텍스트에서 단순히 단어나 문장의 형태를 인식하는 것 뿐만 아니라 실제로 그 글이 의미하는 바를 정확하게 추론할 수 있어야 한다. 이 논문에서 우리는 뉴스 헤드라인으로 뉴스의 토픽을 분류하는 open benchmark인 KLUE(Korean Language Understanding Evaluation)에 대하여 기존에 비교 실험이 진행되지 않은 시중에 공개된 다양한 한국어 라지스케일 모델들의 성능을 비교하고 결과에 대한 원인을 실증적으로 분석하려고 한다. KoBERT, KoBART, KoELECTRA, 그리고 KcELECTRA 총 네가지 베이스라인 모델들을 주어진 뉴스 헤드라인을 일곱가지 클래스로 분류하는 KLUE-TC benchmark에 대해 실험한 결과 KoBERT가 86.7 accuracy로 가장 좋은 성능을 보여주었다.

  • PDF

Automatic knowledgebase extraction based smishing SMS detection (자동 지식베이스 추출 기반 스미싱 SMS 탐지)

  • Baek, Seong-Bin;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.564-567
    • /
    • 2021
  • 스미싱은 SMS 문자를 통해 피해자를 현혹시켜 개인정보나 금전 등을 갈취하는 범죄이다. 발전하는 스미싱 범죄 수법에 대응하기 위해선 새로운 스미싱 범죄 사례에서 데이터를 추출하고, 추출한 데이터를 기존 시스템에 통합하여 빠르게 대응할 수 있어야 한다. 본 연구에서는 빠른 스미싱 대응을 위해 전처리를 하지 않은 SMS 문자 텍스트에서 지식베이스를 자동으로 추출하고 저장하는 자동 지식베이스 추출 모듈을 제안하며, 추출 시스템 지식베이스를 바탕으로 입력된 SMS가 스미싱인지 판별하는 스미싱 SMS 탐지 모듈을 통합한 자동 지식베이스 추출 기반 스미싱 SMS 탐지 시스템을 제시한다. 제시된 스미싱 SMS 탐지 모델은 UCI SMS Spam Collection Dataset을 기준으로 90.9 (F1 score)의 성능을 보여주었다.

  • PDF

Design for Mood-Matched Music Based on Deep Learning Emotion Recognition (딥러닝 감정 인식 기반 배경음악 매칭 설계)

  • Chung, Moonsik;Moon, Nammee
    • Annual Conference of KIPS
    • /
    • 2021.11a
    • /
    • pp.834-836
    • /
    • 2021
  • 멀티모달 감정인식을 통해 사람의 감정을 정확하게 분류하고, 사람의 감정에 어울리는 음악을 매칭하는 시스템을 설계한다. 멀티모달 감정 인식 방법으로는 IEMOCAP(Interactive Emotional Dyadic Motion Capture) 데이터셋을 활용해 감정을 분류하고, 분류된 감정의 분위기에 맞는 음악을 매칭시키는 시스템을 구축하고자 한다. 유니모달 대비 멀티모달 감정인식의 정확도를 개선한 시스템을 통해 텍스트, 음성, 표정을 포함하고 있는 동영상의 감성 분위기에 적합한 음악 매칭 시스템을 연구한다.

Performance Comparison of Word Embeddings for Sentiment Classification (감성 분류를 위한 워드 임베딩 성능 비교)

  • Yoon, Hye-Jin;Koo, Jahwan;Kim, Ung-Mo
    • Annual Conference of KIPS
    • /
    • 2021.11a
    • /
    • pp.760-763
    • /
    • 2021
  • 텍스트를 자연어 처리를 위한 모델에 적용할 수 있게 언어적인 특성을 반영해서 단어를 수치화하는 방법 중 단어를 벡터로 표현하여 나타내는 워드 임베딩은 컴퓨터가 인간의 언어를 이해하고 분석 가능한 언어 모델의 필수 요소가 되었다. Word2vec 등 다양한 워드 임베딩 기법이 제안되었고 자연어를 처리할 때에 감성 분류는 중요한 요소이지만 다양한 임베딩 기법에 따른 감성 분류 모델에 대한 성능 비교 연구는 여전히 부족한 실정이다. 본 논문에서는 Emotion-stimulus 데이터를 활용하여 7가지의 감성과 2가지의 감성을 5가지의 임베딩 기법과 3종류의 분류 모델로 감성 분류 학습을 진행하였다. 감성 분류를 위해 Logistic Regression, Decision Tree, Random Forest 모델 등과 같은 보편적으로 많이 사용하는 머신러닝 분류 모델을 사용하였으며, 각각의 결과를 훈련 정확도와 테스트 정확도로 비교하였다. 실험 결과, 7가지 감성 분류 및 2가지 감성 분류 모두 사전훈련된 Word2vec가 대체적으로 우수한 정확도 성능을 보였다.

Development of an emotional subtitle editor for the deaf and hearing impaired people (청각장애인을 위한 감성자막 편집기 개발)

  • Kim, Hyunsoon;Oh, Juhyun
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.469-471
    • /
    • 2020
  • 방송의 디지털화에 따른 비장애인 대비 소외 계층의 정보 접근성의 부족은 소외 계층에 대한 정보 격차를 심화시킬 수 있다. 이에 캐릭터 수화 방송, 자막 방송 등 장애인을 위한 방송 서비스의 양적, 질적 개선에 관한 연구가 진행되고 있다. 자막 방송 서비스의 경우, 관련 법령에 따라 서비스를 실시하고 있으며 지상파 UHD 방송의 경우에도 본 방송을 시작한 이래 폐쇄 자막 서비스 시스템을 구축하여 서비스를 제공하고 있다. 이러한 기존 자막 서비스는 텍스트 형태의 단조로운 내용 전달 방식이어서 다양한 스타일로 풍부하게 내용을 전달하는 것에 대한 요구가 있다. 이에 본 논문에서는 지상파 UHD 방송을 대상으로 개선된 형태의 자막 서비스인 감성자막 서비스를 소개하고 이를 위한 감성 자막 편집기 기술 개발에 대하여 다룬다. 감성자막 서비스는 화자의 감정 정보를 자막 메타데이터에 추가적으로 제공하여, 감정에 따라 다양한 이모티콘이나 다른 종류의 폰트 스타일로 자막 서비스가 가능하게 하는 서비스이다. 감성자막 편집기는 이러한 감성 자막 메타데이터를 추가, 편집하고 감성자막 파일로 생성하기 위한 시스템으로, 지상파 UHD 송출 시스템 및 폐쇄 자막 표준을 고려하여 개발하였다.

  • PDF

The Effect of Dessert Cafe's Servicescape on CustomerEngagement through Big Data Analysis (빅데이터 분석을 통한 디저트 카페의 서비스스케이프가 고객인게이지먼트에 미치는 영향)

  • DAYOUNG NO;GI-HWAN RYU
    • The Journal of the Convergence on Culture Technology
    • /
    • v.9 no.4
    • /
    • pp.693-697
    • /
    • 2023
  • As of 2022, dessert cafe trends are changing faster, customers' needs are becoming more demanding, and Koreans' consumption tendencies are changing rapidly, so this study investigates servicescape and customer engagement factors for dessert cafes through big data to identify servicescape and customer engagement factors.

MAS: Real-time Meeting Scripting and Summarization Service using BART and WebRTC library (MAS: BART 와 WebRTC 라이브러리를 이용한 실시간 회의 스크립트화 및 요약 서비스)

  • Kwon, Ki-Jun;Ko, Geon-Jun;Joo, Yeong-Hwan;Chi, Jeong-hee
    • Annual Conference of KIPS
    • /
    • 2022.11a
    • /
    • pp.619-621
    • /
    • 2022
  • COVID-19 사태의 지속화로 재택근무 및 화상 수업의 수요가 증가함에 따라, 화상 회의 서비스에 대한 수요 또한 증가하고 있다. 본 논문은 회의 내용의 텍스트화 및 요약 회의록 생성에 관한 연구를 통해 보다 효율적인 화상 회의 서비스를 제공하고자 한다. WebRTC를 기반으로 화상 회의 서비스를 제공하며, WebSpeech API 를 활용하여 회의 내용을 스크립트화 한다. 회의 스크립트는 BART를 통해 요약본으로 재생성되며, 회의 스크립트와 요약본은 언제든지 열람 및 다운로드가 가능하다. 본 논문은 회의 요약 기능을 제공하는 화상 회의 서비스 MAS (Meeting Auto Summarization)를 제안하며, MAS 의 설계 및 구현 방법을 소개한다.

Suggestion of development for domestic game market through big data analysis of global game trend (글로벌 게임 트렌드의 빅데이터 분석을 통한 국내 게임 시장의 발전 방향성 제시)

  • Song, Junhyup;Lim, Minwoo;Kim, Hansoo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.161-164
    • /
    • 2022
  • 게임 산업은 기술의 발전과 비대면 서비스 수요 증가로 해마다 발전하고 있다. 본 연구는 사용자들의 수요를 조사하기 위하여 대중성이 가장 높은 온라인 게임 플랫폼에서 이용 시간이 많은 게임 정보를 확인하였다. HTML 파싱(parsing) 라이브러리를 통해 해당 게임들의 리뷰를 크롤링하여 엑셀 파일로 데이터베이스화하였고, 자연어 처리 라이브러리를 활용하여 데이터를 정제하였다. 총 5개 장르에 대하여 분석한 결과 각 장르에 해당하는 대표적인 키워드를 확인할 수 있었다. 취득한 키워드는 범용 시각화 패키지를 활용하여 워드 클라우드 형태로 한눈에 알아볼 수 있도록 시각화하였다.

  • PDF

A Study on Adversarial AI Attack and Defense Techniques (적대적 AI 공격 및 방어 기법 연구)

  • Mun, Hyun-Jeong;Oh, Gyu-Tae;Yu, Eun-Seong;Lm, Jeong-yoon;Shin, Jin-Young;Lee, Gyu-Young
    • Annual Conference of KIPS
    • /
    • 2022.11a
    • /
    • pp.1022-1024
    • /
    • 2022
  • 최근 인공지능 기술이 급격하게 발전하고 빠르게 보급되면서, 머신러닝 시스템을 대상으로 한 다양한 공격들이 등장하기 시작하였다. 인공지능은 많은 강점이 있지만 인위적인 조작에 취약할 수 있기 때문에, 그만큼 이전에는 존재하지 않았던 새로운 위험을 내포하고 있다고 볼 수 있다. 본 논문에서는 데이터 유형 별 적대적 공격 샘플을 직접 제작하고 이에 대한 효과적인 방어법을 구현하였다. 영상 및 텍스트 데이터를 기반으로 한 적대적 샘플공격을 방어하기 위해 적대적 훈련기법을 적용하였고, 그 결과 공격에 대한 면역능력이 형성된 것을 확인하였다.

Sign Language Translation System Development Using MediaPipe (MediaPipe를 활용한 수어 번역 시스템 개발)

  • Kim, Kyung-Min;Song, Mi-Hwa
    • Annual Conference of KIPS
    • /
    • 2022.11a
    • /
    • pp.684-686
    • /
    • 2022
  • 다양한 언어로 소통하고 있는 우리는 다른 언어와 교류하기 위해 번역, 통역의 존재가 필수가 되기도 한다. 하지만 음성언어를 사용하지 않는 즉, 손으로 언어를 표현하는 수어를 번역하는 통역의 존재는 아직 실현되지 않았다. 이에 본 논문에서는 MediaPipe와 OpenCV 라이브러리를 이용하여 손의 형태를 인식하고 CNN 알고리즘을 통한 텍스트 데이터화 하여 수어 동작을 학습시켜 이를 번역시켜주는 시스템을 연구한다. 이를 통해 공공기관을 이용함에 불편함을 줄이고, 농인의 의사를 보다 빠르게 파악할 수 있도록 도와주는 번역 시스템 제작하는 것에 목적이 있다.