• 제목/요약/키워드: 도메인 공학

검색결과 465건 처리시간 0.024초

도메인에 비종속적인 대화에서의 화행 분류 (Dialogue Act Classification for Non-Task-Oriented Korean Dialogues)

  • 김민정;한경수;박재현;송영인;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.246-253
    • /
    • 2006
  • 대화 에이전트와 관련된 지금까지의 연구는 대개 대상 도메인을 한정하고, 특정 목적을 달성하기 위해 사용자와 대화할 수 있는 에이전트에 관한 연구가 많았다. 본 연구에서는 도메인이 한정되지 않은 일반 도메인 대화에서 화행(speech act)정보를 수동으로 부착시켜 구축한 말뭉치에 대해 소개하고 이 말뭉치를 토대로 자동으로 화행을 분류할 수 있는 유용한 자질들을 선보인다. 그리고 도메인이 한정된 말뭉치와 도메인이 한정되지 않은 말뭉치를 자동으로 화행분류해 본 실험한 결과를 비교하였다.

  • PDF

R2FID: Joint Reranker기반 Fusion-In-Decoder를 이용한 오픈 도메인 테이블 질의 응답 (R2FID: Joint Reranker in Fusion-In-Decoder for Open Domain Question Answering over Tables)

  • 이성민;박은환;나승훈;서대룡;전동현;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.100-104
    • /
    • 2022
  • 오픈 도메인 질의 응답(Open Domain Question Answering)은 주어진 질문에 대한 단서가 주어지지 않은 환경에서 정답을 도출해 내는 어려운 문제이다. 최근 테이블 데이터와 같은 구조화된 데이터에서의 질의응답 시스템에 대한 중요도가 점차 높아지면서, 본 논문에서는 위키피디아에 등장하는 테이블들을 대상으로 한국어 테이블 오픈 도메인 질의 응답 시스템을 구성하기로 한다. 또한, 테이블 검색의 한계를 보완하기 위해 Joint Reranker 기반 Fusion-In-Decoder를 제안하고 적용하여 질의응답 Task에서 베이스라인에 대비하여 EM 3.36, F1-Score 3.25 향상을 이루어냈다.

  • PDF

A Self-Guided Approach을 활용한 한국어 텍스트 생성 쓰기 보조 기법의 향상 방법 (A Self-Guided Approach to Enhance Korean Text Generation in Writing Assistants)

  • 장동현;김진수;이민호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.541-544
    • /
    • 2023
  • LLM(Largescale Language Model)의 성능 향상을 위한 비용 효율적인 방법으로 ChatGPT, GPT-4와 같은 초거대 모델의 output에 대해 SLM(Small Language Model)을 finetune하는 방법이 주목받고 있다. 그러나, 이러한 접근법은 주로 범용적인 지시사항 모델을 위한 학습 방법으로 사용되며, 제한된 특정 도메인에서는 추가적인 성능 개선의 여지가 있다. 본 연구는 특정 도메인(Writing Assistant)에서의 성능 향상을 위한 새로운 방법인 Self-Guided Approach를 제안한다. Self-Guided Approach는 (1) LLM을 활용해 시드 데이터에 대해 도메인 특화된 metric(유용성, 관련성, 정확성, 세부사항의 수준별) 점수를 매기고, (2) 점수가 매겨진 데이터와 점수가 매겨지지 않은 데이터를 모두 활용하여 supervised 방식으로 SLM을 미세 조정한다. Vicuna에서 제안된 평가 방법인, GPT-4를 활용한 자동평가 프레임워크를 사용하여 Self-Guided Approach로 학습된 SLM의 성능을 평가하였다. 평가 결과 Self-Guided Approach가 Self-instruct, alpaca와 같이, 생성된 instruction 데이터에 튜닝하는 기존의 훈련 방법에 비해 성능이 향상됨을 확인했다. 다양한 스케일의 한국어 오픈 소스 LLM(Polyglot1.3B, PolyGlot3.8B, PolyGlot5.8B)에 대해서 Self-Guided Approach를 활용한 성능 개선을 확인했다. 평가는 GPT-4를 활용한 자동 평가를 진행했으며, Korean Novel Generation 도메인의 경우, 테스트 셋에서 4.547점에서 6.286점의 성능 향상이 발생했으며, Korean scenario Genration 도메인의 경우, 테스트 셋에서 4.038점에서 5.795 점의 성능 향상이 발생했으며, 다른 유사 도메인들에서도 비슷한 점수 향상을 확인했다. Self-Guided Approach의 활용을 통해 특정 도메인(Writing Assistant)에서의 SLM의 성능 개선 가능성을 확인했으며 이는 LLM에 비용부담을 크게 줄이면서도 제한된 도메인에서 성능을 유지하며, LLM을 활용한 응용 서비스에 있어 실질적인 도움을 제공할 수 있을 것으로 기대된다.

  • PDF

K-means 클러스터링과 트랜스포머 기반의 교차 도메인 추천 (Cross-Domain Recommendation based on K-Means Clustering and Transformer)

  • 김태훈;김영곤;박정민
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권5호
    • /
    • pp.1-8
    • /
    • 2023
  • 교차 도메인 추천은 다른 도메인에 있는 관련 사용자 정보 데이터와 아이템 데이터를 공유하는 방법입니다. 주로 사용자 중복이 많은 온라인 쇼핑몰이나 유튜브, 넷플릭스와 같은 멀티미디어 서비스 컨텐츠에서 사용됩니다. K-means 클러스터링을 통해 사용자 데이터와 평점을 기반으로 군집화를 실시하여 임베딩을 생성합니다. 이 결과를 트랜스포머 네트워크를 통해 학습한 후 사용자 만족도를 예측합니다. 그런 다음 트랜스포머 기반 추천 모델을 사용하여 사용자에게 적합한 아이템을 추천합니다. 이 연구를 통해 추천함으로써 더 적은 시간적 비용으로 초기 사용자 문제를 예측하고 사용자들의 만족도를 높일 수 있다는 결과를 실험을 통해 보여주었습니다.

도메인 특정 지식을 결합한 End-to-End Learning 방식의 한국어 식당 예약 대화 시스템 모델 개발 (Development of a Dialogue System Model for Korean Restaurant Reservation with End-to-End Learning Method Combining Domain Specific Knowledge)

  • 이동엽;김경민;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.111-115
    • /
    • 2017
  • 목적 지향적 대화 시스템(Goal-oriented dialogue system) 은 텍스트나 음성을 통해 특정한 목적을 수행 할 수 있는 시스템이다. 최근 RNN(recurrent neural networks)을 기반으로 대화 데이터를 end-to-end learning 방식으로 학습하여 대화 시스템을 구축하는데에 활용한 연구가 있다. End-to-end 방식의 학습은 도메인에 대한 지식 없이 학습 데이터 자체만으로 대화 시스템 구축을 위한 학습이 가능하다는 장점이 있지만 도메인 지식을 학습하기 위해서는 많은 양의 데이터가 필요하다는 단점이 존재한다. 이에 본 논문에서는 도메인 특정 지식을 결합하여 end-to-end learning 방식의 학습이 가능한 Hybrid Code Network 구조를 기반으로 한국어로 구성된 식당 예약에 관련한 대화 데이터셋을 이용하여 식당 예약을 목적으로하는 대화 시스템을 구축하는 방법을 제안한다. 실험 결과 본 시스템은 응답 별 정확도 95%와 대화 별 정확도 63%의 성능을 나타냈다.

  • PDF

프로덕트 라인에서 공통성과 가변성 분석을 통한 요구사항 관리방법 (A Method to Manage Requirements Analyzing the Commonality and Variability in Product Line)

  • 박동수;김동규;정기원
    • 정보처리학회논문지D
    • /
    • 제13D권7호
    • /
    • pp.909-922
    • /
    • 2006
  • 프로덕트 라인 공학(Product Line Engineering)에서 핵심자산은 제품계열에 속하는 패밀리 멤버들이 어플리케이션을 만드는데 기초가 되는 모든 자산을 포함한다. 핵심자산 가운데 하나인 요구사항은 전통적인 시스템 개발에서와 마찬가지로 모든 핵심자산의 기초가 되는 부분이며, 다른 핵심자산의 공통성과 가변성(Commonality and Variability : C&V)을 결정하는 중요한 요소가 된다. 하지만 요구사항은 도메인 전문가 혹은 개발자가 경험에 기반하여 정형적인 프로세스 없이 분석하고 있으며, 동일한 도메인 요구사항임에도 불구하고 요구사항이 재사용 되지 않고 있다. 따라서 도메인 요구사항은 객관적인 방법을 통해 공통성과 가변성을 도출하고 이를 재사용 할 수 있는 프로세스가 정립되어야 할 필요가 있다. 이에 본 논문에서는 도메인 요구사항을 객관적인 근거에 따라 분석할 수 있는 4가지 활동 즉 도메인 범위 결정, 도메인 요구사항 추출 및 일반화, 도메인 요구사항 분석 및 모델링, 도메인 요구사항 변경 관리 활동 및 그에 따른 세부적인 활동을 제시하였다. 이를 요구사항 관리에 적용할 경우 분석한 도메인 요구사항과 관련된 아키텍처 혹은 컴포넌트의 재사용성 증대를 통하여 제품 개발기간과 비용을 줄이며 생산성을 향상시키는 등의 장점을 가져올 수 있을 것으로 기대한다. 또한 프로덕트 라인 공학에서 핵심자산의 기초가 되는 요구사항을 체계적으로 분석하고 관리함으로써, 요구사항을 기반으로 산출되는 다양한 산출물의 품질을 높일 수 있을 것으로 기대한다.

한국어 의미역 결정을 위한 Korean PropBank 확장 및 도메인 적응 기술 적용 (Extending Korean PropBank for Korean Semantic Role Labeling and Applying Domain Adaptation Technique)

  • 배장성;오준호;황현선;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.44-47
    • /
    • 2014
  • 한국어 의미역 결정(Semantic Role Labeling)은 주로 기계 학습에 의해 이루어지며 많은 말뭉치 자원을 필요로 한다. 그러나 한국어 의미역 결정 시스템에서 사용되는 Korean PropBank는 의미역 부착 말뭉치와 동사 격틀이 영어 PropBank의 1/8 수준에 불과하다. 따라서 본 논문에서는 한국어 의미역 결정 시스템을 위해 의미역 부착 말뭉치와 동사 격틀을 확장하여 Korean PropBank를 확장 시키고자 한다. 의미역 부착 말뭉치를 만드는 일은 많은 자원과 시간이 소비되는 작업이다. 본 논문에서는 도메인 적응 기술을 적용해보고 기존의 학습 데이터를 활용하여, 적은 양의 새로운 학습 말뭉치만을 가지고 성능 하락을 최소화 할 수 있는지 실험을 통해 알아보고자 한다.

  • PDF

구조적으로 열린 공학 디자인을 위한 진화적설계 방법론 (Evolutionary Design Methodology for Topology Open-ended Engineering Design)

  • 서기성
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2005년도 춘계학술대회 학술발표 논문집 제15권 제1호
    • /
    • pp.189-192
    • /
    • 2005
  • 공학시스템의 설계 문제는 시스템 구성이 복잡하고, 구조적으로 열려있으며, 전기, 기계, 유압, 열등의 서로 다른 에너지 도메인 구성 요소를 포함한다. 최적의 설계를 위해서는 각 도메인에 대한 통합된 설계 방법과 자동적이고 구조적으로 열린 공간에 대한 효율적인 탐색방법이 요구된다. 본 논문은 도메인에 독립적이며 모델링과 해석에 장점을 가진 본드 그래프 (bond graph)와 대규모 공간 해의 탐색에 접합한 진화 알고리즘의 일종인 유전자 프로그래밍(Genetic Programming)을 결합하여 멀티 도메인 동적시스템에 대한 디자인 해를 자동적으로 생성해주는 설계 방법을 제시하고, 제안된 설계방법의 효용성을 입증하기 위해서 이를 아나로그 필터 설계에 문제에 적용하였다.

  • PDF

확장된 워크플로우 메커니즘을 통한 공통/비공통 컴포넌트 식별 및 공통 컴포넌트의 클러스터링에 관한 연구 (A Study on identifying Common/Uncommon Components and clustering Common Components through Extended Workflow Mechanism)

  • 김윤정;김영철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.199-202
    • /
    • 2004
  • 레거시 시스템을 위한 기존의 도메인 분석의 문제점을 해결하기 위하여 동적인 모델링인 확장된 워크플로우 메커니즘을 기반으로 하는 도메인 분석 방법을 제안하고자 한다. 이 도메인 분석을 통해 공통/비공통의 프로세스 컴포넌트 식별 및 공통 프로세스 컴포넌트들의 클러스터를 추출하고 마지막 단계에서 UML 기법으로 컴포넌트 내의 객체를 추출할 수 있다. 또한 제안한 컴포넌트 가중치 측정 매트릭스에 적용해 사용 빈도수가 많거나 중요한 컴포넌트 및 컴포넌트 클러스터를 찾는 방법을 제시하고자 한다.

  • PDF