• 제목/요약/키워드: FAQ 분류

검색결과 15건 처리시간 0.02초

신뢰성이 부족한 FAQ 데이터셋에서의 강건성 개선을 위한 모델의 예측 강도 기반 손실 조정 정규화 (Loss-adjusted Regularization based on Prediction for Improving Robustness in Less Reliable FAQ Datasets)

  • 박예원;양동일;김수필;이강욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.18-22
    • /
    • 2019
  • FAQ 분류는 자주 묻는 질문을 범주화하고 사용자 질의에 대해 가장 유사한 클래스를 추론하는 방식으로 진행된다. FAQ 데이터셋은 클래스가 다수 존재하기 때문에 클래스 간 포함 및 연관 관계가 존재하고 특정 데이터가 서로 다른 클래스에 동시에 속할 수 있다는 특징이 있다. 그러나 최근 FAQ 분류는 다중 클래스 분류 방법론을 적용하는 데 그쳤고 FAQ 데이터셋의 특징을 모델에 반영하는 연구는 미미했다. 현 분류 방법론은 이러한 FAQ 데이터셋의 특징을 고려하지 못하기 때문에 정답으로 해석될 수 있는 예측도 오답으로 여기는 경우가 발생한다. 본 논문에서는 신뢰성이 부족한 FAQ 데이터셋에서도 분류를 잘 하기 위해 손실 함수를 조정하는 정규화 기법을 소개한다. 이 정규화 기법은 클래스 간 포함 및 연관 관계를 반영할 수 있도록 오답을 예측한 경우에도 예측 강도에 비례하여 손실을 줄인다. 이는 오답을 높은 확률로 예측할수록 데이터의 신뢰성이 낮을 가능성이 크다고 판단하여 학습을 강하게 하지 않게 하기 위함이다. 실험을 위해서는 다중 클래스 분류에서 가장 좋은 성능을 보이고 있는 모형인 BERT를 이용했으며, 비교 실험을 위한 정규화 방법으로는 통상적으로 사용되는 라벨 스무딩을 채택했다. 실험 결과, 본 연구에서 제안한 방법은 기존 방법보다 성능이 개선되고 보다 안정적으로 학습이 된다는 것을 확인했으며, 데이터의 신뢰성이 부족한 상황에서 효과적으로 분류를 수행함을 알 수 있었다.

  • PDF

FAQ 분류 성능 향상을 위한 클래스 일치 여부 결합 학습 모델 (Jointly learning class coincidence classification for FAQ classification)

  • 양동일;함진아;이강욱;이지연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.12-17
    • /
    • 2019
  • FAQ(Frequently Asked Questions) 질의 응답 시스템은 자주 묻는 질문과 답변을 정의하고, 사용자 질의에 대해 정의된 답변 중 가장 알맞는 답변을 추론하여 제공하는 시스템이다. 정의된 대표 질문 및 대응하는 답변을 클래스(Class)라고 했을 때, FAQ 질의 응답 시스템은 분류(Classification) 문제라고 할 수 있다. 종래의 FAQ 분류는 동일 클래스 내 동의 문장(Paraphrase)에서 나타나는 공통적인 특징을 통해 분류 문제를 학습하였으나, 이는 비슷한 단어 구성을 가지면서 한 두 개의 단어에 의해 의미가 다른 문장의 차이를 구분하지 못하며, 특히 서로 다른 클래스에 속한 학습 데이터 간에 비슷한 의미를 가지는 문장이 존재할 때 클래스 분류에 오류가 발생하기 쉬운 문제점을 가지고 있다. 본 논문에서는 이 문제점을 해결하고자 서로 다른 클래스 내의 학습 데이터 문장들이 상이한 클래스임을 구분할 수 있도록 클래스 일치 여부(Class coincidence classification) 문제를 결합 학습(Jointly learning)하는 기법을 제안한다. 동일 클래스 내 학습 문장의 무작위 쌍(Pair)을 생성 및 학습하여 해당 쌍이 같은 클래스에 속한다는 것을 학습하게 하면서, 동시에 서로 다른 클래스 간 학습 문장의 무작위 쌍을 생성 및 학습하여 해당 쌍은 상이한 클래스임을 구분해 내는 능력을 함께 학습하도록 유도하였다. 실험을 위해서는 최근 발표되어 자연어 처리 분야에서 가장 좋은 성능을 보이고 있는 BERT 의 텍스트 분류 모델을 이용했으며, 제안한 기법을 적용한 모델과의 성능 비교를 위해 한국어 FAQ 데이터를 기반으로 실험을 진행했다. 실험 결과, 분류 문제만 단독으로 학습한 BERT 기본 모델보다 본 연구에서 제안한 클래스 일치 여부 결합 학습 모델이 유사한 문장들 간의 차이를 구분하며 유의미한 성능 향상을 보인다는 것을 확인할 수 있었다.

  • PDF

실세계의 FAQ 메일 자동분류를 위한 문서 특징추출 방법의 성능 비교 (Comparison of Document Features Extraction Methods for Automatic Classification of Real World FAQ Mails)

  • 홍진혁;류중원;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.271-273
    • /
    • 2001
  • 최근 문서 자동분류의 중요성이 널리 인식되어 다양한 연구가 진행되고 있다. 본 논문에서는 한글 문서의 효과적인 자동분류를 위한 다양한 특징추출 방법들을 구현하고 실제 질의메일에 대한 효율적인 특징주출 방법을 제시한다. 실험을 위해 문서 빈도(document frequency), 정보획득(information gain), 상호 정보량(mutual information), x$^2$등 7가지 특징추출 방법을 사용하였으며 463개의 실제 테스트 질의메일에 적용한 결과, x$^2$ 방법이 74.7%의 인식률을 내어 성능이 가장 좋음을 알 수 있었다. 반면에 x$^2$와 함께 가장 자주 쓰이는 방법 중의 하나인 정보 이득은 인식률이 최대 40.6%밖에 되지 않았다.

  • PDF

자기구성 지도를 이용한 인터넷 FAQ의 자동응답 및 개념적 브라우징 (Automatic Response and Conceptual Browsing of Internet FAQs Using Self-Organizing Maps)

  • 안준현;류중원;조성배
    • 한국지능시스템학회논문지
    • /
    • 제12권5호
    • /
    • pp.432-441
    • /
    • 2002
  • 최근 인터넷상의 정보를 가공하여 사용자에게 효율적으로 제공하는 서비스들이 많아지고 있지만, 컴퓨터에 익숙하지 않은 사용자들은 이러한 서비스를 쉽게 이용하지 못하기 때문에 사용자들을 돕는 시스템이 필요하다. 예를 들어, 웹사이트의 경우 전자우편을 통한 사용자들의 질문에 대해 관리자가 직접 답을 해줘야 하는데, 사용자의 증가로 질의응답 업무의 양이 커지고 있다. 본 논문에서는 이를 해결하기 위하여 사용자의 질의를 자동으로 분류하여 응답하고 사용자가 FAQ를 개념적으로 브라우징할 수 있도록 하는 시스템을 제안한다. 이 시스템은 다양한 크기의 질의 메일을 정형화된 크기로 만들기 위한 키워드 클러스터링 자기구성 지도(SOM)와 이를 실제 해당 답변 클래스로 분류하는 전자 우편 분류 SOM의 이단계 구조로 구성되어 사용자의 질의에 해당하는 답변을 자동으로 전송할 수 있으며, 사용자가 이차원상에 표현된 문서 지도를 이용하여 쉽게 전체 자료의 분포를 파악하여 검색할 수 있다. 실제 한 달간 수집한 2,206개의 한메일넷 질의 데이터에 대한 실험 결과, 95%의 분류율을 보여 그 유용성을 볼 수 있었으며, 단계별 검색이 가능하여 사용자가 효율적으로 검색할 수 있음을 확인할 수 있었다.

개인정보보호에 관한 시나리오 기반 질의응답서비스 품질이 이용의도에 미치는 요인에 관한 연구 (A Study on the Influencing Factors of Continuous Usage Intention for a Scenario based FAQ Service regarding on Private Information Protection)

  • 강상욱;이대철
    • 디지털융복합연구
    • /
    • 제12권2호
    • /
    • pp.223-236
    • /
    • 2014
  • 본 논문은 개인정보 보호에 관한 인지수준 제고를 위한 시나리오기반 인지형 질의응답서비스의 지속적인 사용 의도에 영향을 미치는 요인에 대해 실증하였다. 연구결과 시나리오기반 인지형 질의응답서비스의 지속사용의도에 영향을 미치는 요인은 크게 3가지이다. 첫째, 정보유형별 세분화 된 개인정보 보호 다차원 분류체계를 적용하여 검색의 용이성을 제고할 필요가 있는 것으로 나타났다. 둘째, 수요자 상황별로 질의답변 주제를 미리 제시하고 도입, 문제 상황, 질문, 해결방법으로 이어지는 개연성을 갖는 이야기 형식으로 보다 알기 쉽게 전달되어 사례의 이해도를 제고할 필요가 있다. 셋째, 연관서비스 등 다른 이용자의 문제해결 사례를 노출시켜 시나리오기반 인지형 질의응답 서비스를 통해 자신이 처해 있는 상황에 대한 문제해결이 가능하다는 확신을 줄 수 있어야 한다. 이와 같은 활동들은 국민 및 기업에게 개인정보 보호에 대해 쉽게 널리 알리는 효과를 가져다 줄 것으로 사료된다. 본 연구 결과를 통해 시나리오 기반 인지형 질의응답서비스가 개인정보 보호 사건의 문제해결에 도움을 주는 도구로써 유용하게 활용할 수 있다는 점을 밝혔으며, 특히 복잡한 문제를 담고 있는 정보를 제공하려는 서비스 분야에서는 시나리오기반 인지형 질의응답서비스 방식의 응용이 유용할 것으로 분석된다.

질의응답시스템 응답순위 개선을 위한 새로운 유사도 계산방법 (A New Similarity Measure for Improving Ranking in QA Systems)

  • 김명관;박영택
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제10권6호
    • /
    • pp.529-536
    • /
    • 2004
  • 본 논문에서는 질의응답시스템의 성능을 개선하기 위해 문장의 위치정보와 질의형태분류기를 사용하여 질의에 대한 대답순위를 조정하는 새로운 질의-문서 유사도 계산을 제안한다. 이를 위해 첫째로 문서내용을 표현하고 문서의 위치정보를 반영하기 위해 개념그래프를 사용한다. 이 방법은 문서비교에 대표적으로 사용되는 Dice-Coefficient에 기반하고 문장에서 단어의 위치정보론 반영한 유사도 계산이다. 두번째로 질의응답시스템의 대답순위를 개선하기 위하여 질의형태를 고려한 기계학습을 통한 질문에 대한 분류를 하였으며 이를 위해서 뉴스그룹의 FAQ 문서 30,000개를 가지고 기계학습 방법인 나이브 베이지안을 사용한 분류기를 구현하였다. 이에 대한 평가를 위해 세계적인 정보검색대회인 TREC-9의 질의응답시스템분야에 제출된 데이타를 가지고 실험하였으며 기존의 방법에 비해 자동학습기법을 사용하였음에도 평균상호순위가 0.29, 상위 5위에 정답을 포함시킨 경우가 55.1%의 성능을 보였다. 이 방법은 다른 시스템과 달리 질의형태분류를 기계학습 방법을 사용하여 자동으로 학습하는 것에 의의를 갖는다.

신경망을 이용한 사용자 질의 전자 메일 분류 (Classification of Query E-Mail Using Neural Network)

  • 변영철;홍영보
    • 한국멀티미디어학회논문지
    • /
    • 제7권3호
    • /
    • pp.438-449
    • /
    • 2004
  • 인터넷 사용 증가와 함께 질의 메일의 사용이 증가함에 따라 인터넷 사이트 운영자는 이용자가 질문을 하기 전에 먼저 FAQ나 Q&A를 먼저 확인하기를 바라고 있으나 사용자는 간단히 질의 메일을 보냄으로써 답을 손쉽게 얻으려고 한다. 이에 따라 질의 메일 증가는 상담자에게 많은 시간과 비용을 투자하도록 하고 있다. 본 연구는 질의 메일을 자동으로 분류함으로써 담당자가 메일을 효과적으로 처리하도록 하기 위한 방법에 관한 연구이다. 본 연구의 타당성을 검증하기 위하여 현재 한국통신(주) 코넷에서 받은 질의 메일을 실험 데이터로 사용하였다. 14개의 질의 메일 부류에 대해 210개의 학습 데이터와 280개의 테스트 데이터 등 모두 490개의 데이터를 이용하여 실험을 수행한 결과 신속한 답장을 바라는 사용자의 요구에 부응함을 알 수 있었다.

  • PDF

인터넷 게시판 질문 분류를 위한 인터랙티브 접근방법에 관한 연구 (An Interactive Approach to Categorize Questions on the Internet BBSs)

  • Jae-Kwang Lee;Seong-Ho Noh;Ok-Hyun Ryou
    • 한국전자거래학회지
    • /
    • 제8권3호
    • /
    • pp.177-195
    • /
    • 2003
  • 전통적인 고객지원방법에서는 콜 센터와 서비스 센터가 고객의 질문과 요구 사항을 접수하고 응대하는 기능을 담당해왔다. 최근 인터넷의 급속한 확산에 따라 전화, 우편, 방문 등의 전통적인 고객과의 의사소통수단이 전자우편과 인터넷 게시판과 같은 웹기반의 고객지원시스템으로 전환되고 있다. 인터넷 게시판은 기본적으로 고객의 질문에 관리자가 응답하는 시스템이므로 고객이 응답을 받는데 시간이 걸리는 제약이 있다. 이러한 시간적 제약을 해결하기 위하여 고객이 인터넷을 통하여 고객지원시스템에 접속하여 미리 구축된 지식 데이터베이스로부터 원격에서 질문에 대한 응답을 받을 수 있도록 공통적인 질문과 응답을 FAQ와 같은 형태를 제공한다. 그리고, 인터넷 게시판에 다양한 내용과 형태의 질문이 혼재되어 사용됨으로써 응답과 관리상의 어려움이 많다. 따라서 질문들을 체계적으로 분류하여 FAQ를 만들고, 인터넷 게시판의 관리작업을 지원하기 위한 도구의 필요성이 대두되고 있다. 본 연구에서는 키워드와 키워드들간의 친밀도를 이용하여 벡터형태로 표현한 질문들간의 유사 도를 계산하여 질문들을 클러스터링 하는 방법을 제안한다. 제안한 방법은 기본적으로 자동으로 질문들을 분류하지만, 내용이 애매모호한 질문의 경우 사용자가 상호작용을 통하여 사용자의 판단을 받아들일 수 있도록 개발되었다. 그리고, 제안한 방법의 성능을 평가하기 위하여 프로토타입 시스템을 개발하고 제한된 상황하에서 실험을 수행하였다.

  • PDF

자기 구성 지도를 이용한 전자메일 자동응답 및 브라우징 시스템의 사용성 평가 (A Usability Test of E-mail Automatic Response and Browsing System Using Self-Organizing Map)

  • 노영주;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.220-222
    • /
    • 2001
  • 컴퓨터의 사용인구가 많아지고, 인터넷의 보급이 급속히 늘어남에 따라 많은 정보가 생산되고 있다. 그리고 이러한 정보를 사용자에게 좀더 효율적인 방법으로 제공하는 서비스들도 많아지게 되었다. 그러나 컴퓨터에 익숙하지 않은 사용자들은 쉽게 이러한 서비스를 이용하지 못하기 때문에 사용자를 돕는 시스템이 필요하다. 인터넷 서비스제공 업체들은 사용자의 질문에 대해 관리자가 직접 답을 해주는데, 이들 시스템을 이용하는 사용자들의 증가로 질의응답 업무의 양이 커지고 있다. 본 논문에서는 이를 해결하기 위해 사용자의 질의를 자동으로 분류하여 응답하고 사용자가 FAQ를 개념적으로 브라우징 할 수 있는 시스템의 유용성을 입증하기 위하여, 그 적용 가능성과 일반 사용자들의 이용 결과를 통계적으로 분석하였다.

  • PDF

자동 추출 자질을 이용한 대화 속 질의 문장 유사성 분석 (Question Similarity Analysis in dialogs with Automatic Feature Extraction)

  • 오교중;이동건;임채균;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.347-351
    • /
    • 2018
  • 이 논문은 대화 시스템에서 질의를 이해하기 위해 딥 러닝 모델을 통해 추출된 자동 추출 자질을 이용하여 문장의 유사성을 분석하는 방법에 대해 기술한다. 문장 간 유사성을 분석하기 위한 자동 추출 자질로써, 문장 내 표현 순차적 정보를 반영하기 위한 RNN을 이용하여 생성한 문장 벡터와, 어순에 관계 없이 언어 모델을 학습하기 위한 CNN을 이용하여 생성한 문장 벡터를 사용한다. 이렇게 자동으로 추출된 문장 임베딩 자질은 금융서비스 대화에서 입력 문장을 분류하거나 문장 간 유사성을 분석하는데 이용된다. 유사성 분석 결과는 질의 문장과 관련된 FAQ 문장을 찾거나 답변 지식을 찾는데 활용된다.

  • PDF