• Title/Summary/Keyword: 도메인 공학

검색결과 465건 처리시간 0.023초

다중 도메인 답변 생성 모델을 위한 인간의 기억 시스템을 모방하는 지속 학습 기법 (Continual Learning with Mimicking Human Memory System For Multi-domain Response Generator)

  • 이준범;박형준;송현제;박성배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.215-220
    • /
    • 2021
  • 다중 도메인에 대해 답변 생성 모델이 동작 가능하도록 하는 가장 쉬운 방법은 모든 도메인의 데이터를 순서와 상관없이 한번에 학습하는 것이다. 하지만 이경우, 발화에 상관 없이 지나치게 일반적인 답변을 생성하는 문제가 발생한다. 이에 반해, 도메인을 분리하여 도메인을 순차적으로 학습할 경우 일반적인 답변 생성 문제를 해결할 수 있다. 하지만 이경우 새로운 도메인의 데이터를 학습할 때, 기존에 학습한 도메인에 대한 성능이 저하되는 파괴적 망각 현상이 발생한다. 파괴적 망각 현상을 해결하기 위하여 다양한 지속학습기법이 제안되었으며, 그 중 메모리 리플레이 방법은 새로운 도메인 학습시 기존 도메인의 데이터를 함께 학습하는 방법으로 파괴적 망각 현상을 해결하고자 하였다. 본 논문에서는, 사람의 기억 시스템에 대한 모형인 앳킨슨-쉬프린 기억 모형에서 착안하여 사람이 기억을 저장하는것과 유사한 방법으로 메모리 리플레이 방법의 메모리 관리방법을 제안하였고, 해당 메모리 관리법을 활용하는 메모리 리플레이 방법을 통해 답변 생성 모델의 파괴적 망각 현상을 줄이고자 하였다. 다중 도메인 답변 생성에 대한 데이터셋인 MultiWoZ-2.0를 사용하여 제안 모델을 학습 및 평가하였고, 제안 모델이 다중 도메인 답변 생성 모델의 파괴적 망각 현상을 감소시킴을 확인하였다.

  • PDF

추가 데이터 및 도메인 적응을 위한 기계독해 질의 생성 (Question Generation of Machine Reading Comprehension for Data Augmentation and Domain Adaptation)

  • 이현구;장영진;김진태;왕지현;신동훈;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.415-418
    • /
    • 2019
  • 기계독해 모델에 새로운 도메인을 적용하기 위해서는 도메인에 맞는 데이터가 필요하다. 그러나 추가 데이터 구축은 많은 비용이 발생한다. 사람이 직접 구축한 데이터 없이 적용하기 위해서는 자동 추가 데이터 확보, 도메인 적응의 문제를 해결해야한다. 추가 데이터 확보의 경우 번역, 질의 생성의 방법으로 연구가 진행되었다. 그러나 도메인 적응을 위해서는 새로운 정답 유형에 대한 질의가 필요하며 이를 위해서는 정답 후보 추출, 추출된 정답 후보로 질의를 생성해야한다. 본 논문에서는 이러한 문제를 해결하기 위해 듀얼 포인터 네트워크 기반 정답 후보 추출 모델로 정답 후보를 추출하고, 포인터 제너레이터 기반 질의 생성 모델로 새로운 데이터를 생성하는 방법을 제안한다. 실험 결과 추가 데이터 확보의 경우 KorQuAD, 경제, 금융 도메인의 데이터에서 모두 성능 향상을 보였으며, 도메인 적응 실험에서도 새로운 도메인의 문맥만을 이용해 데이터를 생성했을 때 기존 도메인과 다른 도메인에서 모두 기계독해 성능 향상을 보였다.

  • PDF

완전한 콜드 스타트 문제에서 교차 도메인 추천 시스템 (Cross-Domain Recommendation System in Complete Cold Start Problem)

  • 남규현;유재성;채경수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.514-518
    • /
    • 2019
  • 기존의 교차 도메인 추천은 일반적으로 서로 다른 도메인 데이터의 지식 결합이나 지식 공유를 바탕으로 진행된다. 이러한 방식들은 최소 한 개 이상의 도메인 데이터가 필요해서 모든 도메인의 피드백 데이터가 없는 실제 서비스 초기 상황에는 적합하지 않을 수 있다. 따라서 본 논문에서는 서비스 초반 모든 도메인의 피드백 데이터가 없고 콘텐츠 데이터만 존재하는 상황에서 교차 도메인 추천 시스템을 효과적으로 시작하기 위해 텍스트 임베딩, 클러스터링, 프로파일링 및 콘텐츠 기반 필터링을 활용한 추천 시스템 구성을 제안하고자 한다. 평가를 위해 여행지, 지역 축제, 공연을 포함하는 문화 관광 데이터와, 이에 대한 사용자 프로파일링 결과를 바탕으로 추천을 진행하였다. 그 결과, 콘텐츠 임베딩에 대한 유사도를 시각화하여 교차 도메인 아이템 간 유사성을 확인할 수 있었고, 사용자별 추천 결과를 통해 제안한 교차 도메인 추천 시스템이 유의미하게 동작함을 보였다.

  • PDF

DGA 봇넷 도메인 감지 및 패밀리 분류 연구 동향 (Survey on DGA Botnet Domain Detection and Family Classification)

  • 이정민;강민재;이연준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.543-546
    • /
    • 2023
  • 봇넷은 지속적으로 사이버 범죄에 이용되고 있으며 네트워크 환경에 큰 위협이 되고 있다. 기존에는 봇들이 C&C 서버와 통신하는 것을 방지하기 위해 블랙리스트를 기반으로 DNS 서버에서 봇넷 도메인을 탐지하는 방식을 주로 사용하였다. 그러나 도메인 생성 알고리즘(DGA)을 이용하는 봇넷이 증가하면서 기존에 사용하던 블랙리스트 기반의 도메인 차단 방식으로는 더 이상 봇넷 도메인을 효율적으로 차단하기 어려워졌다. 이에 따라 봇넷 도메인 생성 알고리즘을 통해 생성되는 도메인의 특성을 분석하고 이를 토대로 봇넷 도메인을 식별하고 차단하고자 하는 시도가 계속되고 있다. 특히 연속적인 데이터 처리에 주로 사용되는 딥러닝 알고리즘을 이용하여 봇넷 도메인의 특징을 효과적으로 추출하고 정확도가 높은 탐지 모델을 구축하고자 하는 연구가 주를 이루고 있으며, 탐지뿐만 아니라 봇넷 그룹(Family) 분류까지 연구가 확장되고 있다. 이에 본 논문에서는 봇넷 도메인 생성 알고리즘에 의해 생성되는 봇넷 도메인을 식별 및 분류하기 위해 딥러닝 기술을 적용한 최근 연구 동향을 조사하고 앞으로의 연구 방향성을 논의하고자 한다.

도메인 상태를 이용한 다중 도메인 대화 상태 추적 (Multi Domain Dialog State Tracking using Domain State)

  • 전현민;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.421-426
    • /
    • 2020
  • 다중 도메인 목적 지향 대화에서 기존 딥 러닝을 이용한 대화 상태 추적(Dialog state tracking)은 여러 턴 동안 누적된 사용자와 시스템 간 대화를 입력 받아 슬롯 밸류(Slot value)를 추출하는 모델들이 연구되었다. 하지만 이 모델들은 대화가 길어질수록 연산량이 증가한다. 이에 본 논문에서는 다중 도메인 대화에서 누적된 대화의 history 없이 슬롯 밸류를 추출하는 방법을 제안한다. 하지만, 단순하게 history를 제거하고 현재 턴의 발화만 입력 받는 방법은 문맥 정보의 손실로 이어진다. 따라서 본 논문에서는 도메인 상태(Domain state)를 도입하여 매 턴 마다 대화 상태와 함께 추적하는 모델을 제안한다. 도메인 상태를 같이 추적함으로써 현재 어떠한 도메인에 대하여 대화가 진행되고 있는지를 파악한다. 또한, 함축된 문맥 정보를 담고 있는 이전 턴의 대화 상태와 도메인 상태를 현재 턴의 발화와 같이 입력 받아 정보의 손실을 줄였다. 대표적인 데이터 셋인 MultiWOZ 2.0과 MultiWOZ 2.1에서 실험한 결과, 대화의 history를 사용하지 않고도 대화 상태 추적에 있어 좋은 성능을 보이는 것을 확인하였다. 또한, 시스템 응답과 과거 발화에 대한 의존성을 제거하여 end-to-end 대화 시스템으로의 확장이 좀 더 용이할 것으로 기대된다.

  • PDF

현업 서비스를 위한 도메인 수준 학습 방법을 활용한 지식 기반 대화생성 (Knowledge-grounded Dialogue Generation Using Domain-level Learning Approach for Practical Services)

  • 임채균;정영섭;옥창원;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.619-623
    • /
    • 2022
  • 대화생성은 대규모 학습 데이터로부터 사전 학습된 언어모델을 활용한 도전적인 다운스트림 태스크 중 하나이다. 대화에서 특정한 지식에 대한 맥락이 보존된 응답 문장을 생성하기 위한 기술의 일환으로써 지식 기반 대화생성이 연구되고 있으며, 현업에서는 사업목표에 따른 대화 서비스를 제공하는 목적으로 이러한 기술을 적용할 수 있다. 본 논문에서는, 각각의 서비스 도메인에 특화된 모델을 적절히 활용 가능하도록 전체 데이터를 도메인별로 구분하여 학습한 다수의 대화생성 모델을 구축한다. 또한, 특정 도메인의 데이터로 학습된 모델이 나머지 도메인에서 어떤 수준의 대화생성이 가능한지 비교 분석함으로써 개별 학습된 모델들이 도메인의 특성에 따라 서로 다른 영향력이나 연관성을 나타낼 가능성을 확인한다. 이러한 실험적인 분석 결과를 바탕으로 현업의 서비스에서 개별 도메인에 특화된 모델이 적절히 활용하는 것이 유용함을 확인하고자 한다.

  • PDF

멀티 도메인 대화시스템을 위한 도메인 결정 기술 (A Domain Selection for Multi-Domain Dialog System)

  • 이인재;김경덕;김석환;이동현;최준휘;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.133-135
    • /
    • 2011
  • 본 논문은 다중 도메인 대화 시스템에서 사용자의 발화에 가장 적합한 도메인을 결정하는 방법에 관하여 논한다. 다중 도메인 대화 시스템 구축 시, 도메인의 확장성 재고 및 각 도메인 별 특성의 효과적인 적용을 위해, 각 도메인 별 단일 도메인 대화 전문가를 구축하고, 다수의 도메인 대화 전문가들을 통합함으로써, 다양한 도메인을 처리할 수 있는 대화 시스템을 구축할 수 있다. 이 때, 자연스러운 대화 처리를 위해서 주어진 사용자의 발화에 가장 적합한 도메인을 결정하는 기술이 필요하다. 본 논문에서는 사용자 발화의 의도 분석 결과 및 이전 사용자 발화 도메인 정보를 이용하는 구축된 분류 모델에 기반한 도메인 결정 방법을 제안하고, 실험 결과를 통해 제안된 방법의 효과를 검증한다.

  • PDF

도메인 적응 기술 기반 질문 문장에 대한 의미역 인식 연구 (A Study of Semantic Role Labeling using Domain Adaptation Technique for Question)

  • 임수종;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.246-249
    • /
    • 2015
  • 기계학습 방법에 기반한 자연어 분석은 학습 데이터가 필요하다. 학습 데이터가 구축된 소스 도메인이 아닌 다른 도메인에 적용할 경우 한국어 의미역 인식 기술은 10% 정도 성능 하락이 발생한다. 본 논문은 기존 도메인 적응 기술을 이용하여 도메인이 다르고, 문장의 형태도 다를 경우에 도메인 적응 알고리즘을 적용하여, 질의응답 시스템에서 필요한 질문 문장 의미역 인식을 위해, 소규모의 질문 문장에 대한 학습 데이터 구축만으로도 한국어 질문 문장에 대해 성능을 향상시키기 위한 방법을 제안한다. 한국어 의미역 인식 기술에 prior 모델을 제안한다. 제안하는 방법은 실험결과 소스 도메인 데이터만 사용한 실험보다 9.42, 소스와 타겟 도메인 데이터를 단순 합하여 학습한 경우보다 2.64의 성능향상을 보였다.

  • PDF

효율적인 카테고리 분류기법에 의한 연관 도메인 추천 서비스 (Related domain service by effective categorization)

  • 허형욱;이은주;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.702-705
    • /
    • 2008
  • 인터넷 사용자 증가에 따라 검색 엔진의 사용 또한 급격히 늘어나고 있는 추세이다. 국내외 다양한 검색 엔진들이 존재하지만 대부분의 자료들이 기본적인 카테고리별로 링크 횟수나 키워드 빈발 횟수에 따라 정렬이 되어 있다. 그러므로 사용자들은 수동적으로 정렬된 도메인들을 따라 가는 실정이다. 본 논문에서는 수동적인 서비스가 아닌 능동적인 서비스에 중점을 둔다. 특정 카테고리 내에서 접속한 사용자에게 최근 시점을 기준으로 가장 빈번하게 접속된 도메인 정보를 제공하여 시간의 단축과 유용한 서비스를 받도록 한다. 본 논문의 서비스 모델은 인터넷 사용자의 로그 데이터베이스와 도메인 데이터베이스를 기반으로 한다. 본 논문에서 제안하는 카테고리 분류 기법으로 두 데이터베이스를 통합하고 정제한다. 정제된 데이터들은 최종적으로 순차 패턴 마이닝 기법에 의해 최종 빈발 패턴을 추출 하게 되고 특정 카테고리에 접속한 사용자에게 도메인 형태로 변환 되어 서비스 하게 된다.

도메인 적응 기술을 이용한 한국어 의미역 인식 (Korean Semantic Role Labeling Using Domain Adaptation Technique)

  • 임수종;배용진;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.56-60
    • /
    • 2014
  • 기계학습 방법에 기반한 자연어 분석은 학습 데이터가 필요하다. 학습 데이터가 구축된 소스 도메인이 아닌 다른 도메인에 적용할 경우 한국어 의미역 인식 기술은 15% 정도 성능 하락이 발생한다. 본 논문은 이러한 다른 도메인에 적용시 발생하는 성능 하락 현상을 극복하기 위해서 기존의 소스 도메인 학습 데이터를 활용하여, 소규모의 타겟 도메인 학습 데이터 구축만으로도 성능 하락을 최소화하기 위해 한국어 의미역 인식 기술에 prior 모델을 제안하며 기존의 도메인 적응 알고리즘과 비교 실험하였다. 추가적으로 학습 데이터에 사용되는 자질 중에서, 형태소 태그와 구문 태그의 자질 값을 기존보다 단순하게 적용하여 성능의 변화를 실험하였다.

  • PDF