• Title/Summary/Keyword: 한글데이터셋

Search Result 193, Processing Time 0.02 seconds

Hate Speech Detection in Chatbot Data Using KoELECTRA (KoELECTRA를 활용한 챗봇 데이터의 혐오 표현 탐지)

  • Shin, Mingi;Chin, Hyojin;Song, Hyeonho;Choi, Jeonghoi;Lim, Hyeonseung;Cha, Meeyoung
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.518-523
    • /
    • 2021
  • 챗봇과 같은 대화형 에이전트 사용이 증가하면서 채팅에서의 혐오 표현 사용도 더불어 증가하고 있다. 혐오 표현을 자동으로 탐지하려는 노력은 다양하게 시도되어 왔으나, 챗봇 데이터를 대상으로 한 혐오 표현 탐지 연구는 여전히 부족한 실정이다. 이 연구는 혐오 표현을 포함한 챗봇-사용자 대화 데이터 35만 개에 한국어 말뭉치로 학습된 KoELETRA 기반 혐오 탐지 모델을 적용하여, 챗봇-사람 데이터셋에서의 혐오 표현 탐지의 성능과 한계점을 검토하였다. KoELECTRA 혐오 표현 분류 모델은 챗봇 데이터셋에 대해 가중 평균 F1-score 0.66의 성능을 보였으며, 오탈자에 대한 취약성, 맥락 미반영으로 인한 편향 강화, 가용한 데이터의 정확도 문제가 주요한 한계로 포착되었다. 이 연구에서는 실험 결과에 기반해 성능 향상을 위한 방향성을 제시한다.

  • PDF

A Study on Methodology on Building NLI Benchmark Dataset in korean (한국어 추론 벤치마크 데이터 구축을 위한 방법론 연구)

  • Han, Jiyoon;Kim, Hansaem
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.292-297
    • /
    • 2020
  • 자연어 추론 모델은 전제와 가설 사이의 의미 관계를 함의와 모순, 중립 세 가지로 판별한다. 영어에서는 RTE(recognizing textual entailment) 데이터셋과 다양한 NLI(Natural Language Inference) 데이터셋이 이러한 모델을 개발하고 평가하기 위한 벤치마크로 공개되어 있다. 본 연구는 국외의 텍스트 추론 데이터 주석 가이드라인 및 함의 데이터를 언어학적으로 분석한 결과와 함의 및 모순 관계에 대한 의미론적 연구의 토대 위에서 한국어 자연어 추론 벤치마크 데이터 구축 방법론을 탐구한다. 함의 및 모순 관계를 주석하기 위하여 각각의 의미 관계와 관련된 언어 현상을 정의하고 가설을 생성하는 방안에 대하여 제시하며 이를 바탕으로 실제 구축될 데이터의 형식과 주석 프로세스에 대해서도 논의한다.

  • PDF

Synonyms/Antonyms-Based Data Augmentation For Training TOEIC Problems Solving Model (토익 문제 풀이 모델 학습을 위한 유의어/반의어 기반 데이터 증강 기법)

  • Jeongwoo Lee;Aiyanyo Imatitikua Danielle;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.333-335
    • /
    • 2023
  • 최근 글을 이해하고 답을 추론하는 연구들이 많이 이루어지고 있으며, 대표적으로 기계 독해 연구가 존재한다. 기계 독해와 관련하여 다양한 데이터셋이 공개되어 있지만, 과거에서부터 현재까지 사람의 영어 능력 평가를 위해 많이 사용되고 있는 토익에 대해서는 공식적으로 공개된 데이터셋도 거의 존재하지 않으며, 이를 위한 연구 또한 활발히 진행되고 있지 않다. 이에 본 연구에서는 현재와 같이 데이터가 부족한 상황에서 기계 독해 모델의 성능을 향상시키기 위한 데이터 증강 기법을 제안하고자 한다. 제안하는 방법은 WordNet을 이용하여 유의어 및 반의어를 기반으로 굉장히 간단하면서도 효율적으로 실제 토익 문제와 유사하게 데이터를 증강하는 것이며, 실험을 통해 해당 방법의 유의미함을 확인하였다. 우리는 본 연구를 통해 토익에 대한 데이터 부족 문제를 해소하고, 사람 수준의 우수한 성능을 얻을 수 있도록 한다.

  • PDF

A Dataset for Persona-based Korean Dialogue Modeling (페르소나 기반 한국어 대화 모델링을 위한 데이터셋)

  • Yohan Lee;Hyun Kim;Jonghun Shin;Minsoo Cho;Ohwoog Kwon;Youngkil Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.512-516
    • /
    • 2022
  • 페르소나 기반의 대화 시스템은 일관적인 대화를 수행할 수 있어 많은 관심을 받고 있다. 영어권에서 구축된 페르소나 대화 데이터셋은 서로의 페르소나를 알아가기 보다는 자신의 페르소나에 대해서만 말하는 경향을 보이며 이는 상대방의 말을 이해하여 관련 대화를 진행하는 대화의 특성을 반영하지 못한다. 본 연구에서는 회사 방문객이 안내 시스템과 대화하는 상황을 가정하여 안내 시스템이 주도적으로 방문객의 페르소나를 묻고 관련 대화를 수행하는 데이터셋을 구축함과 동시에 목적지향 대화 시스템의 대화 관리 프레임워크를 기반으로 시스템 주도적인 대화를 모델링하는 페르소나 대화 관리 모델을 제안한다. 실험을 통해 제안한 대화 관리 모델의 대화 이해 및 정책 성능을 검증하고 방문객의 페르소나를 예측할 때 대화 정책의 성능이 향상됨을 보임으로써 구축한 데이터셋이 이해와 정책이 포함된 대화의 특성을 반영하는 것을 확인한다.

  • PDF

MICA: Mind Care Dataset on Korean Anonymous Mental Health Platform (MICA: 한국 익명 심리건강 플랫폼 기반 심리상담 데이터셋)

  • Seungmoo Yang;Seonghyun Kim;Chanhee Jeong;Jeehye Koo;Seunghyeok Hong
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.210-215
    • /
    • 2022
  • 최근 전 세계적으로 불안감, 우울증 등을 비롯한 정신 건강 관리에 어려움을 겪고 있다. 특히 COVID-19 팬데믹 사태로 인해 경제적, 사회적으로 고립되는 시간이 길어지면서 정신 건강이 악화되고 있다. 한국의 경우도 심리상담을 받는 비율이 증가하는 등 정신 건강 관리의 수요가 높아지고 있다. 정신 건강 관리를 위한 여러 진입 장벽들을 극복하기 위해 개발된 비대면 심리상담들이 인기를 얻고 있다. 특히, 인공지능 기술과 정신 건강 관리를 결합하려는 시도가 많아지고 있으며, 미국, 중국 등 해외에서는 이미 워봇(Woebot), 유퍼(Youper) 같은 심리상담 챗봇이 상용화되어 서비스 중이다. 그러나 한국에서의 심리상담 챗봇은 아직까지 해외만큼 상용화 단계에 이르지 못했다. 또한, 이러한 챗봇을 구축하기 위한 데이터셋 연구가 부족한 실정이다. 본 논문에서는 익명 심리 플랫폼을 통하여, 심리전문가가 비식별화한 고민과 해당 고민에 대한 전문가 답변을 활용하여 구축한 MICA를 소개한다. 또한, 본 데이터셋을 활용해 딥러닝 기반의 언어 모델을 학습하고 정량적, 정성적 성능 평가를 통해 챗봇의 가능성을 확인하였다.

  • PDF

Transfer Learning-based Multi-Modal Fusion Answer Selection Model for Video Question Answering System (비디오 질의 응답 시스템을 위한 전이 학습 기반의 멀티 모달 퓨전 정답 선택 모델)

  • Park, Gyu-Min;Park, Seung-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.548-553
    • /
    • 2021
  • 비디오 질의 응답은 입력으로 주어진 비디오와 질문에 적절할 정답을 제공하기 위해 텍스트, 이미지 등 다양한 정보처리가 요구되는 대표적인 multi-modal 문제이다. 질의 응답 시스템은 질의 응답의 성능을 높이기 위해 다수의 서로 다른 응답 모듈을 사용하기도 하며 생성된 정답 후보군 중 가장 적절할 정답을 선택하는 정답 선택 모듈이 필요하다. 정답 선택 모듈은 응답 모듈의 서로 다른 관점을 고려하여 응답 선택을 선택할 필요성이 있다. 하지만 응답 모듈이 black-box 모델인 경우 정답 선택 모듈은 응답 모듈의 parameter와 예측 분포를 통해 지식을 전달 받기 어렵다. 그리고 학습 데이터셋은 응답 모듈이 학습에 사용했기 때문에 과적합 문제로 각 모듈의 관점을 학습하기엔 어려우며 학습 데이터셋 이외 비교적 적은 데이터셋으로 학습해야 하는 문제점이 있다. 본 논문에서는 정답 선택 성능을 높이기 위해 전이 학습 기반의 멀티모달 퓨전 정답 선택 모델을 제안한다. DramaQA 데이터셋을 통해 성능을 측정하여 제안된 모델의 우수성을 실험적으로 증명하였다.

  • PDF

A Study on the Construction of keyphrase dataset for paraphrase extraction (패러프레이즈 추출을 위한 키프레이즈 데이터셋 구축 방법론 연구)

  • Kang, Hyerin;Kang, Yejee;park, Seoyoon;Jang, Yeonji;Kim, Hansaem
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.357-362
    • /
    • 2020
  • 자연어 처리 응용 시스템이 패러프레이즈 표현을 얼마나 정확하게 포착하는가에 따라 응용 시스템의 성능 측면에서 차이가 난다. 따라서 자연어 처리의 응용 분야 전반에서 패러프레이즈 표현에 대한 중요성이 커지고 있다. 시스템의 성능 향상을 위해서는 모델을 학습시킬 충분한 말뭉치가 필요하다. 특히 이러한 패러프레이즈 말뭉치를 구축하기 위해서는 정확한 패러프레이즈 추출이 필수적이다. 따라서 본 연구에서는 패러프레이즈를 추출을 위한 언어 자원으로 키프레이즈 데이터셋을 제안하고 이를 기반으로 유사한 의미를 전달하는 패러프레이즈 관계의 문장을 추출하였다. 구축한 키프레이즈 데이터셋을 패러프레이즈 추출에 활용한다면 본 연구에서 수행한 것과 같은 간단한 방법으로 패러프레이즈 관계에 있는 문장을 찾을 수 있다는 것을 보였다.

  • PDF

100 K-Poison: Poisonous Texts Resistance Test Dataset For Korean Generative Models (100 K-Poison: 한국어 생성 모델을 위한 독성 텍스트 저항력 검증 데이터셋 )

  • Li Fei;Yejee Kang;Seoyoon Park;Yeonji Jang;Hansaem Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.149-154
    • /
    • 2023
  • 본고는 한국어 생성 모델의 독성 텍스트 저항 능력을 검증하기 위해 'CVALUE' 데이터셋에서 추출한 고난도 독성 질문-대답 100쌍을 바탕으로 한국어 생성 모델을 위한 '100 K-Poison' 데이터셋을 시범적으로 구축했다. 이 데이터셋을 토대로 4가지 대표적인 한국어 생성 모델 'ZeroShot TextClassifcation'과 'Text Generation7 실험을 진행함으로써 현재 한국어 생성 모델의 독성 텍스트 식별 및 응답 능력을 종합적으로 고찰했고, 모델 간의 독성 텍스트 저항력 격차 현상을 분석했으며, 앞으로 한국어 생성 모델의 독성 텍스트 식별 및 웅대 성능을 한층 더 강화하기 위한 '이독공독(以毒攻毒)' 학습 전략을 새로 제안하였다.

  • PDF

Proposal for the Dataset Structure for Developing Emotionally Intelligent Chatbots with Integrated Counseling Strategies (상담 전략을 통합한 정서 교감형 챗봇 개발을 위한 데이터셋 구조 제안)

  • Dong-Hyok Shin;Jae Hee Yang;Jin Yea Jang;Saim Shin
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.179-184
    • /
    • 2023
  • 본 연구는 우울감을 느끼거나 대화 상대 부재로 어려움을 겪는 사용자와 정서 교감형 시스템간의 대화로 구성된 한국어 데이터 셋을 구축하고 이때 시스템이 사용할 수 있는 효과적인 응대 전략을 제안하는데 목적이 있다. 데이터셋은 사용자와 시스템 간의 대화 쌍을 기본 단위로 하며, 사용자의 7가지 기본 감정(행복, 슬픔, 공포, 놀람, 분노, 혐오, 중립)과 시스템의 4가지 응대 전략(명료화, 공감적 응대, 제안, 페르소나)에 따라 주석이 된다. 이 중, 공감적 응대 전략은 10가지 독특한 반응 유형(수용적 경청, 후행 발화 요청, 승인/동의, 비승인/재고 요청, 놀람, 격려, 느낌 표시, 상대 발화 반복, 인사, 의견 제시) 및 4가지 후행 발화 요청 유형(무엇, 왜, 어떻게, 그밖에)을 포함하는 구조로 구체화되었다. 이러한 주석은 시스템이 사용자의 다양한 감정을 식별하고 적절한 공감 수준을 나타내는 응답을 생성하는 데 있어 연구적인 의의가 있으며, 필요시 사용자가 부정적 감정을 극복할 수 있는 활동을 제안하는 데 도움을 줄 수 있다는 점에서 실제적인 의의가 있다.

  • PDF

Domain adaptation of Korean coreference resolution using continual learning (Continual learning을 이용한 한국어 상호참조해결의 도메인 적응)

  • Yohan Choi;Kyengbin Jo;Changki Lee;Jihee Ryu;Joonho Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.320-323
    • /
    • 2022
  • 상호참조해결은 문서에서 명사, 대명사, 명사구 등의 멘션 후보를 식별하고 동일한 개체를 의미하는 멘션들을 찾아 그룹화하는 태스크이다. 딥러닝 기반의 한국어 상호참조해결 연구들에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후 멘션 탐지와 상호참조해결을 동시에 수행하는 End-to-End 모델이 주로 연구가 되었으며, 최근에는 스팬 표현을 사용하지 않고 시작과 끝 표현식을 통해 상호참조해결을 빠르게 수행하는 Start-to-End 방식의 한국어 상호참조해결 모델이 연구되었다. 최근에 한국어 상호참조해결을 위해 구축된 ETRI 데이터셋은 WIKI, QA, CONVERSATION 등 다양한 도메인으로 이루어져 있으며, 신규 도메인의 데이터가 추가될 경우 신규 데이터가 추가된 전체 학습데이터로 모델을 다시 학습해야 하며, 이때 많은 시간이 걸리는 문제가 있다. 본 논문에서는 이러한 상호참조해결 모델의 도메인 적응에 Continual learning을 적용해 각기 다른 도메인의 데이터로 모델을 학습 시킬 때 이전에 학습했던 정보를 망각하는 Catastrophic forgetting 현상을 억제할 수 있음을 보인다. 또한, Continual learning의 성능 향상을 위해 2가지 Transfer Techniques을 함께 적용한 실험을 진행한다. 실험 결과, 본 논문에서 제안한 모델이 베이스라인 모델보다 개발 셋에서 3.6%p, 테스트 셋에서 2.1%p의 성능 향상을 보였다.

  • PDF