• Title/Summary/Keyword: koBERT

Search Result 76, Processing Time 0.023 seconds

Development of Tourism Information Named Entity Recognition Datasets for the Fine-tune KoBERT-CRF Model

  • Jwa, Myeong-Cheol;Jwa, Jeong-Woo
    • International Journal of Internet, Broadcasting and Communication
    • /
    • v.14 no.2
    • /
    • pp.55-62
    • /
    • 2022
  • A smart tourism chatbot is needed as a user interface to efficiently provide smart tourism services such as recommended travel products, tourist information, my travel itinerary, and tour guide service to tourists. We have been developed a smart tourism app and a smart tourism information system that provide smart tourism services to tourists. We also developed a smart tourism chatbot service consisting of khaiii morpheme analyzer, rule-based intention classification, and tourism information knowledge base using Neo4j graph database. In this paper, we develop the Korean and English smart tourism Name Entity (NE) datasets required for the development of the NER model using the pre-trained language models (PLMs) for the smart tourism chatbot system. We create the tourism information NER datasets by collecting source data through smart tourism app, visitJeju web of Jeju Tourism Organization (JTO), and web search, and preprocessing it using Korean and English tourism information Name Entity dictionaries. We perform training on the KoBERT-CRF NER model using the developed Korean and English tourism information NER datasets. The weight-averaged precision, recall, and f1 scores are 0.94, 0.92 and 0.94 on Korean and English tourism information NER datasets.

Hierarchical Automated Essay Evaluation Model Using Korean Sentence-Bert Embedding (한국어 Sentence-BERT 임베딩을 활용한 자동 쓰기 평가 계층적 구조 모델)

  • Minsoo Cho;Oh Woog Kwon;Young Kil Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.526-530
    • /
    • 2022
  • 자동 쓰기 평가 연구는 쓰기 답안지를 채점하는데 드는 시간과 비용을 절감할 수 있어, 교육 분야에서 큰 관심을 가지고 있다. 본 연구의 목적은 쓰기 답안지의 문서 구조를 효과적으로 학습하여 평가하고, 문장단위의 피드백을 제공하는데 있다. 그 방법으로는 문장 레벨에서 한국어 Sentence-BERT 모델을 활용하여 각 문장을 임베딩하고, LSTM 어텐션 모델을 활용하여 문서 레벨에서 임베딩 문장을 모델링한다. '한국어 쓰기 텍스트-점수 구간 데이터'를 활용하여 해당 모델의 성능 평가를 진행하였으며, 다양한 KoBERT 기반 모델과 비교 평가를 통해 제안하는 모델의 방법론이 효과적임을 입증하였다.

  • PDF

BERT-based Two-Stage Classification Models for Alzheimer's Disease and Schizophrenia Diagnosis (BERT 기반 2단계 분류 모델을 이용한 알츠하이머병 치매와 조현병 진단)

  • Jung, Min-Kyo;Na, Seung-Hoon;Kim, Ko Woon;Shin, Byong-Soo;Chung, Young-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.558-563
    • /
    • 2021
  • 알츠하이머병 치매와 조현병 진단을 위한 2단계 분류 모델을 제안한다. 정상군과 환자군의 발화에 나타난 페어 언어 모델 간의 Perplexity 차이에 기반한 분류와 기존 단일 BERT 모델의 미세조정(fine-tuning)을 이용한 분류의 통합을 시도하였다. Perplexity 기반의 분류 성능이 알츠하이머병, 조현병 모두 우수한 결과를 보임을 확인 하였고, 조현병 분류 모델의 성능이 소폭 증가하였다. 향후 설명 가능한 인공지능 기법을 적용에 따른 성능 향상을 기대할 수 있었다.

  • PDF

Automatic Classification of Academic Articles Using BERT Model Based on Deep Learning (딥러닝 기반의 BERT 모델을 활용한 학술 문헌 자동분류)

  • Kim, In hu;Kim, Seong hee
    • Journal of the Korean Society for information Management
    • /
    • v.39 no.3
    • /
    • pp.293-310
    • /
    • 2022
  • In this study, we analyzed the performance of the BERT-based document classification model by automatically classifying documents in the field of library and information science based on the KoBERT. For this purpose, abstract data of 5,357 papers in 7 journals in the field of library and information science were analyzed and evaluated for any difference in the performance of automatic classification according to the size of the learned data. As performance evaluation scales, precision, recall, and F scale were used. As a result of the evaluation, subject areas with large amounts of data and high quality showed a high level of performance with an F scale of 90% or more. On the other hand, if the data quality was low, the similarity with other subject areas was high, and there were few features that were clearly distinguished thematically, a meaningful high-level performance evaluation could not be derived. This study is expected to be used as basic data to suggest the possibility of using a pre-trained learning model to automatically classify the academic documents.

Speaker classification and prediction with language model (언어모델을 활용한 문서 내 발화자 예측 분류 모델)

  • Kim, Gyeongmin;Han, Seunggyu;Seo, Jaehyung;Lee, Chanhee;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.317-320
    • /
    • 2020
  • 연설문은 구어체와 문어체 두 가지 특성을 모두 갖고 있는 복합적인 데이터 형태이다. 발화자의 문장 표현, 배열, 그리고 결합에 따라 그 구조가 다르기 때문에, 화자 별 갖는 문체적 특성 또한 모두 다르다. 국정을 다루는 정치인들의 연설문은 국정 현황을 포함한 다양한 주요 문제점을 다룬다. 그러면 발화자의 문서 내 문체적 특성을 고려할 경우, 해당 문서가 어느 정치인의 연설문인지 파악 할 수 있는가? 본 연구에서는 대한민국 정책 브리핑 사이트로부터 한국어 기반 사전 학습된 언어 모델을 활용하여 연설문에 대한 미세조정을 진행함으로써 발화자 예측 분류 모델을 생성하고, 그 가능성을 입증하고자 한다. 본 연구는 5-cross validation으로 모델 성능을 평가하였고 KoBERT, KoGPT2 모델에서 각각 90.22%, 84.41% 정확도를 보였다.

  • PDF

Sentimental Analysis of YouTube Korean Subscripts Using KoBERT (KoBERT기반 Youtube 자막 감정 분석 연구)

  • Choi, Da-Eun;Kim, Hyo-Min;Lee, Hae-Rin;Hwang, Yu-Rim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.513-516
    • /
    • 2022
  • YouTube 이용자의 급증으로 많은 사람이 유튜브 알고리즘에 의해 무분별한 영상에 노출되고 있다. 이는 YouTube 이용자에게 부정적인 영향을 미칠 수 있으며 더 나아가 사회적으로 미성숙한 미디어 문화를 조장할 수 있다. 본 논문에서는 YouTube 컨텐츠에 대한 감정분석 연구를 처음으로 시도한다. 구체적으로, YouTube 컨텐츠 자막에 대해 기존의 자연어 처리 기반 감정분석 기법을 적용하여 성능을 분석한다.

Attention Patterns and Semantics of Korean Language Models (한국어 언어모델 주의집중 패턴과 의미적 대표성)

  • Yang, Kisu;Jang, Yoonna;Lim, Jungwoo;Park, Chanjun;Jang, Hwanseok;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.605-608
    • /
    • 2021
  • KoBERT는 한국어 자연어처리 분야에서 우수한 성능과 확장성으로 인해 높은 위상을 가진다. 하지만 내부에서 이뤄지는 연산과 패턴에 대해선 아직까지 많은 부분이 소명되지 않은 채 사용되고 있다. 본 연구에서는 KoBERT의 핵심 요소인 self-attention의 패턴을 4가지로 분류하며 특수 토큰에 가중치가 집중되는 현상을 조명한다. 특수 토큰의 attention score를 층별로 추출해 변화 양상을 보이고, 해당 토큰의 역할을 attention 매커니즘과 연관지어 해석한다. 이를 뒷받침하기 위해 한국어 분류 작업에서의 실험을 수행하고 정량적 분석과 함께 특수 토큰이 갖는 의미론적 가치를 평가한다.

  • PDF

The Solution for VoIP Voice Phishing Detection Based on KoBERT Model (KoBERT 기반 VoIP Voice Phishing 탐지 솔루션)

  • Yun-Ji Cho;Kyeong-Yoon Lee;Yun-Seo Lee;Jae-Hee Jeong;Se-Jin Park;Jong-Ho Yoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.947-948
    • /
    • 2023
  • 본 논문은 보이스피싱 취약 계층을 위해 통화 내용을 신속하게 처리하여 실시간으로 범죄 여부를 판별하는 VoIP 에 특화된 시스템을 제안하였다. 실제 보이스 피싱 통화 유형을 학습한 탐지 모델을 개발하여 API 로 배포하였다. 또한 보이스피싱 위험도가 일정 수준에 도달할 경우 사용자에게 보이스피싱 가능성을 경고하는 장치를 제작하였다. 본 연구는 보이스피싱을 사전에 탐지함으로써 개인정보의 유출 및 금융 피해를 예방하고 정보 보안을 실천하는 데 기여할 것으로 기대된다.

Document Classification Methodology Using Autoencoder-based Keywords Embedding

  • Seobin Yoon;Namgyu Kim
    • Journal of the Korea Society of Computer and Information
    • /
    • v.28 no.9
    • /
    • pp.35-46
    • /
    • 2023
  • In this study, we propose a Dual Approach methodology to enhance the accuracy of document classifiers by utilizing both contextual and keyword information. Firstly, contextual information is extracted using Google's BERT, a pre-trained language model known for its outstanding performance in various natural language understanding tasks. Specifically, we employ KoBERT, a pre-trained model on the Korean corpus, to extract contextual information in the form of the CLS token. Secondly, keyword information is generated for each document by encoding the set of keywords into a single vector using an Autoencoder. We applied the proposed approach to 40,130 documents related to healthcare and medicine from the National R&D Projects database of the National Science and Technology Information Service (NTIS). The experimental results demonstrate that the proposed methodology outperforms existing methods that rely solely on document or word information in terms of accuracy for document classification.

A Development of Sentiment Analysis Model for Pet Feed Products using BERT (BERT를 활용한 반려동물 사료제품의 감성분석 모델 개발)

  • Kim, Young Woong;Kang, Da Eun;Lee, Dong Kyu;Kim, Geonho;Yoon, Ji Seong;Kim, Geon Woo;Gil, Joon-Min
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.609-611
    • /
    • 2022
  • 본 논문에서는 맞춤형 반려동물 사료제품 추천을 위해 최근의 자연어처리 모델인 KoBERT 모델에 기반하여 반료동물 사료제품에 대한 감성분석 모델을 설계하고 구현한다. 본 논문을 통해 구현된 반려동물 사료제품의 감성분석 모델은 정확도 평가에 대해서 비교적 우수한 성능을 보였으며, 학습과정에 참여하지 않은 새로운 반려동물 사료제품에 대해서 0.93 이상의 정확도를 산출하였다.