• Title/Summary/Keyword: 도메인 공학

Search Result 465, Processing Time 0.03 seconds

Continual Learning with Mimicking Human Memory System For Multi-domain Response Generator (다중 도메인 답변 생성 모델을 위한 인간의 기억 시스템을 모방하는 지속 학습 기법)

  • Lee, Jun-Beom;Park, Hyeong-Jun;Song, Hyun-Je;Park, Seong-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.215-220
    • /
    • 2021
  • 다중 도메인에 대해 답변 생성 모델이 동작 가능하도록 하는 가장 쉬운 방법은 모든 도메인의 데이터를 순서와 상관없이 한번에 학습하는 것이다. 하지만 이경우, 발화에 상관 없이 지나치게 일반적인 답변을 생성하는 문제가 발생한다. 이에 반해, 도메인을 분리하여 도메인을 순차적으로 학습할 경우 일반적인 답변 생성 문제를 해결할 수 있다. 하지만 이경우 새로운 도메인의 데이터를 학습할 때, 기존에 학습한 도메인에 대한 성능이 저하되는 파괴적 망각 현상이 발생한다. 파괴적 망각 현상을 해결하기 위하여 다양한 지속학습기법이 제안되었으며, 그 중 메모리 리플레이 방법은 새로운 도메인 학습시 기존 도메인의 데이터를 함께 학습하는 방법으로 파괴적 망각 현상을 해결하고자 하였다. 본 논문에서는, 사람의 기억 시스템에 대한 모형인 앳킨슨-쉬프린 기억 모형에서 착안하여 사람이 기억을 저장하는것과 유사한 방법으로 메모리 리플레이 방법의 메모리 관리방법을 제안하였고, 해당 메모리 관리법을 활용하는 메모리 리플레이 방법을 통해 답변 생성 모델의 파괴적 망각 현상을 줄이고자 하였다. 다중 도메인 답변 생성에 대한 데이터셋인 MultiWoZ-2.0를 사용하여 제안 모델을 학습 및 평가하였고, 제안 모델이 다중 도메인 답변 생성 모델의 파괴적 망각 현상을 감소시킴을 확인하였다.

  • PDF

Question Generation of Machine Reading Comprehension for Data Augmentation and Domain Adaptation (추가 데이터 및 도메인 적응을 위한 기계독해 질의 생성)

  • Lee, Hyeon-gu;Jang, Youngjin;Kim, Jintae;Wang, JiHyun;Shin, Donghoon;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.415-418
    • /
    • 2019
  • 기계독해 모델에 새로운 도메인을 적용하기 위해서는 도메인에 맞는 데이터가 필요하다. 그러나 추가 데이터 구축은 많은 비용이 발생한다. 사람이 직접 구축한 데이터 없이 적용하기 위해서는 자동 추가 데이터 확보, 도메인 적응의 문제를 해결해야한다. 추가 데이터 확보의 경우 번역, 질의 생성의 방법으로 연구가 진행되었다. 그러나 도메인 적응을 위해서는 새로운 정답 유형에 대한 질의가 필요하며 이를 위해서는 정답 후보 추출, 추출된 정답 후보로 질의를 생성해야한다. 본 논문에서는 이러한 문제를 해결하기 위해 듀얼 포인터 네트워크 기반 정답 후보 추출 모델로 정답 후보를 추출하고, 포인터 제너레이터 기반 질의 생성 모델로 새로운 데이터를 생성하는 방법을 제안한다. 실험 결과 추가 데이터 확보의 경우 KorQuAD, 경제, 금융 도메인의 데이터에서 모두 성능 향상을 보였으며, 도메인 적응 실험에서도 새로운 도메인의 문맥만을 이용해 데이터를 생성했을 때 기존 도메인과 다른 도메인에서 모두 기계독해 성능 향상을 보였다.

  • PDF

Cross-Domain Recommendation System in Complete Cold Start Problem (완전한 콜드 스타트 문제에서 교차 도메인 추천 시스템)

  • Nam, Gyuhyeon;You, Jaeseong;Chae, Gyeongsu
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.514-518
    • /
    • 2019
  • 기존의 교차 도메인 추천은 일반적으로 서로 다른 도메인 데이터의 지식 결합이나 지식 공유를 바탕으로 진행된다. 이러한 방식들은 최소 한 개 이상의 도메인 데이터가 필요해서 모든 도메인의 피드백 데이터가 없는 실제 서비스 초기 상황에는 적합하지 않을 수 있다. 따라서 본 논문에서는 서비스 초반 모든 도메인의 피드백 데이터가 없고 콘텐츠 데이터만 존재하는 상황에서 교차 도메인 추천 시스템을 효과적으로 시작하기 위해 텍스트 임베딩, 클러스터링, 프로파일링 및 콘텐츠 기반 필터링을 활용한 추천 시스템 구성을 제안하고자 한다. 평가를 위해 여행지, 지역 축제, 공연을 포함하는 문화 관광 데이터와, 이에 대한 사용자 프로파일링 결과를 바탕으로 추천을 진행하였다. 그 결과, 콘텐츠 임베딩에 대한 유사도를 시각화하여 교차 도메인 아이템 간 유사성을 확인할 수 있었고, 사용자별 추천 결과를 통해 제안한 교차 도메인 추천 시스템이 유의미하게 동작함을 보였다.

  • PDF

Survey on DGA Botnet Domain Detection and Family Classification (DGA 봇넷 도메인 감지 및 패밀리 분류 연구 동향)

  • Jungmin Lee;Minjae Kang;Yeonjoon Lee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.543-546
    • /
    • 2023
  • 봇넷은 지속적으로 사이버 범죄에 이용되고 있으며 네트워크 환경에 큰 위협이 되고 있다. 기존에는 봇들이 C&C 서버와 통신하는 것을 방지하기 위해 블랙리스트를 기반으로 DNS 서버에서 봇넷 도메인을 탐지하는 방식을 주로 사용하였다. 그러나 도메인 생성 알고리즘(DGA)을 이용하는 봇넷이 증가하면서 기존에 사용하던 블랙리스트 기반의 도메인 차단 방식으로는 더 이상 봇넷 도메인을 효율적으로 차단하기 어려워졌다. 이에 따라 봇넷 도메인 생성 알고리즘을 통해 생성되는 도메인의 특성을 분석하고 이를 토대로 봇넷 도메인을 식별하고 차단하고자 하는 시도가 계속되고 있다. 특히 연속적인 데이터 처리에 주로 사용되는 딥러닝 알고리즘을 이용하여 봇넷 도메인의 특징을 효과적으로 추출하고 정확도가 높은 탐지 모델을 구축하고자 하는 연구가 주를 이루고 있으며, 탐지뿐만 아니라 봇넷 그룹(Family) 분류까지 연구가 확장되고 있다. 이에 본 논문에서는 봇넷 도메인 생성 알고리즘에 의해 생성되는 봇넷 도메인을 식별 및 분류하기 위해 딥러닝 기술을 적용한 최근 연구 동향을 조사하고 앞으로의 연구 방향성을 논의하고자 한다.

Multi Domain Dialog State Tracking using Domain State (도메인 상태를 이용한 다중 도메인 대화 상태 추적)

  • Jeon, Hyunmin;Lee, Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.421-426
    • /
    • 2020
  • 다중 도메인 목적 지향 대화에서 기존 딥 러닝을 이용한 대화 상태 추적(Dialog state tracking)은 여러 턴 동안 누적된 사용자와 시스템 간 대화를 입력 받아 슬롯 밸류(Slot value)를 추출하는 모델들이 연구되었다. 하지만 이 모델들은 대화가 길어질수록 연산량이 증가한다. 이에 본 논문에서는 다중 도메인 대화에서 누적된 대화의 history 없이 슬롯 밸류를 추출하는 방법을 제안한다. 하지만, 단순하게 history를 제거하고 현재 턴의 발화만 입력 받는 방법은 문맥 정보의 손실로 이어진다. 따라서 본 논문에서는 도메인 상태(Domain state)를 도입하여 매 턴 마다 대화 상태와 함께 추적하는 모델을 제안한다. 도메인 상태를 같이 추적함으로써 현재 어떠한 도메인에 대하여 대화가 진행되고 있는지를 파악한다. 또한, 함축된 문맥 정보를 담고 있는 이전 턴의 대화 상태와 도메인 상태를 현재 턴의 발화와 같이 입력 받아 정보의 손실을 줄였다. 대표적인 데이터 셋인 MultiWOZ 2.0과 MultiWOZ 2.1에서 실험한 결과, 대화의 history를 사용하지 않고도 대화 상태 추적에 있어 좋은 성능을 보이는 것을 확인하였다. 또한, 시스템 응답과 과거 발화에 대한 의존성을 제거하여 end-to-end 대화 시스템으로의 확장이 좀 더 용이할 것으로 기대된다.

  • PDF

Knowledge-grounded Dialogue Generation Using Domain-level Learning Approach for Practical Services (현업 서비스를 위한 도메인 수준 학습 방법을 활용한 지식 기반 대화생성)

  • Chae-Gyun Lim;Young-Seob Jeong;ChangWon Ok;Ho-Jin Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.619-623
    • /
    • 2022
  • 대화생성은 대규모 학습 데이터로부터 사전 학습된 언어모델을 활용한 도전적인 다운스트림 태스크 중 하나이다. 대화에서 특정한 지식에 대한 맥락이 보존된 응답 문장을 생성하기 위한 기술의 일환으로써 지식 기반 대화생성이 연구되고 있으며, 현업에서는 사업목표에 따른 대화 서비스를 제공하는 목적으로 이러한 기술을 적용할 수 있다. 본 논문에서는, 각각의 서비스 도메인에 특화된 모델을 적절히 활용 가능하도록 전체 데이터를 도메인별로 구분하여 학습한 다수의 대화생성 모델을 구축한다. 또한, 특정 도메인의 데이터로 학습된 모델이 나머지 도메인에서 어떤 수준의 대화생성이 가능한지 비교 분석함으로써 개별 학습된 모델들이 도메인의 특성에 따라 서로 다른 영향력이나 연관성을 나타낼 가능성을 확인한다. 이러한 실험적인 분석 결과를 바탕으로 현업의 서비스에서 개별 도메인에 특화된 모델이 적절히 활용하는 것이 유용함을 확인하고자 한다.

  • PDF

A Domain Selection for Multi-Domain Dialog System (멀티 도메인 대화시스템을 위한 도메인 결정 기술)

  • Lee, Injae;Kim, Kyungduk;Kim, Seokhwan;Lee, Donghyeon;Choi, Junwhi;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.133-135
    • /
    • 2011
  • 본 논문은 다중 도메인 대화 시스템에서 사용자의 발화에 가장 적합한 도메인을 결정하는 방법에 관하여 논한다. 다중 도메인 대화 시스템 구축 시, 도메인의 확장성 재고 및 각 도메인 별 특성의 효과적인 적용을 위해, 각 도메인 별 단일 도메인 대화 전문가를 구축하고, 다수의 도메인 대화 전문가들을 통합함으로써, 다양한 도메인을 처리할 수 있는 대화 시스템을 구축할 수 있다. 이 때, 자연스러운 대화 처리를 위해서 주어진 사용자의 발화에 가장 적합한 도메인을 결정하는 기술이 필요하다. 본 논문에서는 사용자 발화의 의도 분석 결과 및 이전 사용자 발화 도메인 정보를 이용하는 구축된 분류 모델에 기반한 도메인 결정 방법을 제안하고, 실험 결과를 통해 제안된 방법의 효과를 검증한다.

  • PDF

A Study of Semantic Role Labeling using Domain Adaptation Technique for Question (도메인 적응 기술 기반 질문 문장에 대한 의미역 인식 연구)

  • Lim, Soojong;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.246-249
    • /
    • 2015
  • 기계학습 방법에 기반한 자연어 분석은 학습 데이터가 필요하다. 학습 데이터가 구축된 소스 도메인이 아닌 다른 도메인에 적용할 경우 한국어 의미역 인식 기술은 10% 정도 성능 하락이 발생한다. 본 논문은 기존 도메인 적응 기술을 이용하여 도메인이 다르고, 문장의 형태도 다를 경우에 도메인 적응 알고리즘을 적용하여, 질의응답 시스템에서 필요한 질문 문장 의미역 인식을 위해, 소규모의 질문 문장에 대한 학습 데이터 구축만으로도 한국어 질문 문장에 대해 성능을 향상시키기 위한 방법을 제안한다. 한국어 의미역 인식 기술에 prior 모델을 제안한다. 제안하는 방법은 실험결과 소스 도메인 데이터만 사용한 실험보다 9.42, 소스와 타겟 도메인 데이터를 단순 합하여 학습한 경우보다 2.64의 성능향상을 보였다.

  • PDF

Related domain service by effective categorization (효율적인 카테고리 분류기법에 의한 연관 도메인 추천 서비스)

  • Hyung Wook Heo;Eun Ju Lee;Ung-Mo Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.702-705
    • /
    • 2008
  • 인터넷 사용자 증가에 따라 검색 엔진의 사용 또한 급격히 늘어나고 있는 추세이다. 국내외 다양한 검색 엔진들이 존재하지만 대부분의 자료들이 기본적인 카테고리별로 링크 횟수나 키워드 빈발 횟수에 따라 정렬이 되어 있다. 그러므로 사용자들은 수동적으로 정렬된 도메인들을 따라 가는 실정이다. 본 논문에서는 수동적인 서비스가 아닌 능동적인 서비스에 중점을 둔다. 특정 카테고리 내에서 접속한 사용자에게 최근 시점을 기준으로 가장 빈번하게 접속된 도메인 정보를 제공하여 시간의 단축과 유용한 서비스를 받도록 한다. 본 논문의 서비스 모델은 인터넷 사용자의 로그 데이터베이스와 도메인 데이터베이스를 기반으로 한다. 본 논문에서 제안하는 카테고리 분류 기법으로 두 데이터베이스를 통합하고 정제한다. 정제된 데이터들은 최종적으로 순차 패턴 마이닝 기법에 의해 최종 빈발 패턴을 추출 하게 되고 특정 카테고리에 접속한 사용자에게 도메인 형태로 변환 되어 서비스 하게 된다.

Korean Semantic Role Labeling Using Domain Adaptation Technique (도메인 적응 기술을 이용한 한국어 의미역 인식)

  • Lim, Soojong;Bae, Yongjin;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.56-60
    • /
    • 2014
  • 기계학습 방법에 기반한 자연어 분석은 학습 데이터가 필요하다. 학습 데이터가 구축된 소스 도메인이 아닌 다른 도메인에 적용할 경우 한국어 의미역 인식 기술은 15% 정도 성능 하락이 발생한다. 본 논문은 이러한 다른 도메인에 적용시 발생하는 성능 하락 현상을 극복하기 위해서 기존의 소스 도메인 학습 데이터를 활용하여, 소규모의 타겟 도메인 학습 데이터 구축만으로도 성능 하락을 최소화하기 위해 한국어 의미역 인식 기술에 prior 모델을 제안하며 기존의 도메인 적응 알고리즘과 비교 실험하였다. 추가적으로 학습 데이터에 사용되는 자질 중에서, 형태소 태그와 구문 태그의 자질 값을 기존보다 단순하게 적용하여 성능의 변화를 실험하였다.

  • PDF