• 제목/요약/키워드: 문서 기반 대화 시스템

검색결과 28건 처리시간 0.027초

문어체에서 대화체 문장 패턴기반 영한 번역기로의 특화 (Customizing a Pattern-based English-Korean MT System: From Written Style to Spoken Style)

  • 최승권;이기영;노윤형;권오욱;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.136-140
    • /
    • 2010
  • 본 논문은 지식경제부의 지원 하에 한국전자통신연구원 언어처리연구팀에서 2010년에 개발하고 있는 패턴기반 영한 메신저 대화체 문장 번역 시스템에 관한 것이다. 본 논문의 목표는 문어체 문장 위주의 패턴기반 영한 웹문서 자동번역 시스템을 대화체 문장 위주의 패턴기반 영한 메신저 자동번역 시스템으로 전환하고자 할 때, 특화하는 방법 및 모듈에 관해 기술하는 것이다. 영어권 Native speaker로부터 수집한 메신저 대화체 문장을 대상으로 번역률을 평가한 결과, 문어체 위주의 영한 웹 자동번역 시스템은 71.83%인 반면, 대화체 위주의 영한 메신저 자동번역 시스템은 76.88%였다. 대화체 문장을 대상으로 번역률을 5.05% 향상시킬 수 있었던 이유는 본 논문에서 제시한 특화 방법을 따른 결과라고 할 수 있다.

  • PDF

웹 상에서 XML에 기반한 교수 지원 시스템 설계 및 구현 (Design ana Implementation of Teacher Support System based on XML on Web)

  • 김행곤;김지영;최문경
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (상)
    • /
    • pp.603-606
    • /
    • 2002
  • 최근 WWW의 기하급수적인 성장과 더불어 인터넷 서비스를 통한 정보 획득과 공유 및 원격 시스템 접속을 통한 인터넷 응용 처리 서비스에 대한 연구가 많이 이루어지고 있고, 이는 학습과 교수 업무지원 분야에서도 용용되고 있다. 특히 교수를 위한 복잡한 학교 업무의 관리와 학습자료 및 업무 자료를 지원하기 위해서는 확장성과 호환성, 편의성을 제공하는 XML 형태의 전자문서가 제공되어져야 한다. 따라서 웹을 기반으로 다수의 교수자들이 교수 업무 지원을 위해 XML 문서를 효율적으로 작성하고 공유할 수 있는 적절한 교수 지원 시스템이 필요하게 되었다. 이는 웹 상에서 XML 문서의 효과적인 생성과 검색 및 의도된 문서를 재사용 가능하도록 제공함으로써 교수자의 다양한 요구 사항을 융통성있게 수용할 수 있다. 따라서 본 논문에서는 웹 상에서 XML 문서 제공을 위한 교수 지원 시스템을 구현하였다. 본 시스템을 통해서 교수자들은 XML 문서를 효율적으로 생성, 등록, 수정하고 또한 문서를 대화적으로 검색하고 이해하며, 다양한 형태의 문서를 획득할 수 있다. 따라서 교수 지원시 업무처리의 효율성과 작성된 XML 문서의 재사용성을 증대시킬 수 있다.

  • PDF

SGML 기반의 텍스트 문서 브라우저의 구현 (Implementation of A Browser for SGML-based Text Documents)

  • 장명길;이혜란;주종철;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.499-504
    • /
    • 1994
  • 기존의 문서 시스템은 문서의 논리적인 정보와 문서의 외양에 관련된 처리정보들이 확연히 구분되지 않음으로써 서로 다른 시스템간의 문서 교환시 정보의 손실을 가져올 뿐 아니라, 문서의 저장방식에서도 순차 화일 구조를 갖기 때문에 문서의 논리적 요소에 대한 대화식 검색이 불가능하다. 이러한 단점을 극복하고자 문서의 논리적 구조 및 내용을 중심으로 작성 가능한 표준 메타 언어인 SGML이 제정되었으며, 본 연구에서는 SGML 문서를 인식하고 해석하기 위한 SGML파서와 문서의 논리적 구조를 반영하는 저장구조 및 이를 이용한 브라우저를 구현하였다.

  • PDF

중간 문맥 식별 및 검색을 활용한 문서간 관계 추출 (Cross-document Relation Extraction using Bridging Context Identification)

  • 손준영;김진성;임정우;장윤나;소아람;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.654-658
    • /
    • 2023
  • 관계 추출은 질의응답이나 대화 시스템의 기반이 되는 지식을 구추하기 위한 작업으로, 정보 추출의 기초가 되는 기술이기도 하다. 최근 실세계 지식의 희소한 형태를 구현한 문서간 관계 추출 데이터셋이 제안되어, 여러 문서를 통해 분산되어 언급된 두 개체 사이의 관계 추론을 수행 및 평가할 수 있게 되었다. 이 작업에서 추론의 대상이 되는 개체쌍은 한 문서 안에 동시에 언급되지 않기 때문에 여러 문서에 언급된 중간 개체를 통하여 직/간접적으로 추론해야 하나, 원시 텍스트에서 이러한 정보를 수집하는 작업은 쉽지 않다. 따라서, 본 연구에서는 개체의 동시발생빈도에 기반하여 중간 개체의 중요도를 정량화하고, 이 중요도에 기반화여 중요한 문맥을 식별하는 방법론을 제안한다. 제안하는 방법론은 기존의 두 문서로 구성된 추론 경로를 식별된 중간 개체를 활용하여 확장하여, 관계 추론 모델의 수정 없이 추가된 문맥만을 활용하여 문서간 관계 추출 시스템의 성능을 개선할 수 있었다.

  • PDF

대화형 코퍼스의 설계 및 구조적 문서화에 관한 연구 (A Study in Design and Construction of Structured Documents for Dialogue Corpus)

  • 강창규;남명우;양옥렬
    • 한국콘텐츠학회논문지
    • /
    • 제4권4호
    • /
    • pp.1-10
    • /
    • 2004
  • 음성인식의 연구 대상은 낭독음성에서 대화음성으로 발전해가고 있다. 이를 위해서는 대량의 대화코퍼스가 필요하다. 그러나 아직 충분한 양의 대화코퍼스가 구축되어 있지 못하며 코퍼스의 주석 정보 또한 복잡하고 다양하게 표현하고 있어 효율적인 활용이 어렵다. 따라서 본 논문에서는 TEI를 기반으로 하여 대화 영역을 텔레뱅킹으로 설정하고 대화코퍼스를 구축하여 구축된 대화코퍼스의 주석 정보를 XML(extensible Markup Language)로 표준화할 수 있도록 DTD (Document Type Definition) 정의하고 저장 시스템을 설계하였다.

  • PDF

대화 요약 생성을 위한 한국어 방송 대본 데이터셋 (KMSS: Korean Media Script Dataset for Dialogue Summarization )

  • 김봉수;전혜진;전현규;정혜인;장정훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.198-204
    • /
    • 2022
  • 대화 요약은 다중 발화자와 발화문으로 이루어진 멀티턴 형식의 문서에 대해 핵심내용을 추출하거나 생성하는 태스크이다. 대화 요약 모델은 추천, 대화 시스템 등에 콘텐츠, 서비스 기록에 대한 분석을 제공하는 데 유용하다. 하지만 모델 구축에 필요한 한국어 대화 요약 데이터셋에 대한 연구는 부족한 실정이다. 본 논문에서는 생성 기반 대화 요약을 위한 데이터셋을 제안한다. 이를 위해 국내 방송사의 대용량 콘텐츠로 부터 원천 데이터를 수집하고, 주석자가 수작업으로 레이블링 하였다. 구축된 데이터셋 규모는 6개 카테고리에 대해 약 100K이며, 요약문은 단문장, 세문장, 2할문장으로 구분되어 레이블링 되었다. 또한 본 논문에서는 데이터의 특성을 내재화하고 통제할 수 있도록 대화 요약 레이블링 가이드를 제안한다. 이를 기준으로 모델 적합성 검증에 사용될 디코딩 모델 구조를 선정한다. 실험을 통해 구축된 데이터의 몇가지 특성을 조명하고, 후속 연구를 위한 벤치마크 성능을 제시한다. 데이터와 모델은 aihub.or.kr에 배포 되었다.

  • PDF

동적 편집과 포맷팅 기능을 갖는 XML 기반의 가변 데이터 출판 시스템 (XML-based Variable Data Publishing System with Dynamic Editing and Formatting Function)

  • 임광택
    • 한국산학기술학회논문지
    • /
    • 제11권11호
    • /
    • pp.4583-4591
    • /
    • 2010
  • 사용자가 직접 템플릿 규칙을 코딩하고 편집해야하는 기존의 XML 기반 가변데이터 출판 환경은 일반 사용자에게 문서제작에 많은 부담을 주고 어려움을 갖게 한다. 또한 매뉴얼이나 기술문서와 같은 대용량의 가변 XML 문서 처리시 편집을 위한 빠른 응답속도를 제공하기 위하여 신속한 포맷팅이 제공되어야 하지만 기존의 일괄적인 처리 방식으로는 해결하기 어렵다. 본 논문에서는 템플릿 기반의 가변문서의 처리 결과를 WYSIWYG 화면상에 표시하여 대화식 방식을 통해 템플릿을 편집할 수 있도록 하며 대용량 문서에 대해서도 사용자의 요청에 따라 신속하게 포맷팅하는, 동적 편집과 포맷팅 방식의 기능을 갖는 가변데이터 출판 시스템을 제안한다. 제안된 시스템은 개인이나 기업 또는 지역 등과 같이 개별적인 특성에 따라 변동되는 다량의 가변 데이터를 가지는 맞춤형 문서 제작을 위해 효과적으로 사용될 수 있으며, 입력문서와 템플릿 문서, 포맷된 결과문서는 모두 W3C에서 제안하는 XML, XSLT, XPath의 표준을 수용함으로써 웹 문서처리 시스템으로도 쉽게 확장될 수 있도록 하였다.

대화 시스템의 개체 생략 복원을 위한 유효 발화문 인식 (Valid Conversation Recognition for Restoring Entity Ellipsis in Chat Bot)

  • 소찬호;왕지현;이충희;이연수;강재우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.54-59
    • /
    • 2019
  • 본 논문은 대화 시스템인 챗봇의 성능 향상을 위한 생략 복원 기술의 정확률을 올리기 위한 유효 발화문 인식 모델을 제안한다. 생략 복원 기술은 챗봇 사용자의 현재 발화문의 생략된 정보를 이전 발화문으로부터 복원하는 기술이다. 유효 발화문 인식 모델은 현재 발화문의 생략된 정보를 보유한 이전 발화문을 인식하는 역할을 수행한다. 유효 발화문 인식 모델은 BERT 기반 이진 분류 모델이며, 사용된 BERT 모델은 한국어 문서를 기반으로 새로 학습된 한국어 사전 학습 BERT 모델이다. 사용자의 현재 발화문과 이전 발화문들의 토큰 임베딩을 한국어 BERT를 통해 얻고, CNN 모델을 이용하여 각 토큰의 지역적인 정보를 추출해서 발화문 쌍의 표현 정보를 구해 해당 이전 발화문에 생략된 개체값이 있는지를 판단한다. 제안한 모델의 효과를 검증하기 위해 유효 발화문 인식 모델에서 유효하다고 판단한 이전 발화문만을 생략 복원 모델에 적용한 결과, 생략 복원 모델의 정확률이 약 5% 정도 상승한 것을 확인하였다.

  • PDF

대화형 에이전트 인식오류 및 신조어 탐지를 위한 알고리즘 개발: 한글 음절 분리 기반의 단어 유사도 활용 (Developing a New Algorithm for Conversational Agent to Detect Recognition Error and Neologism Meaning: Utilizing Korean Syllable-based Word Similarity)

  • 이정원;임일
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.267-286
    • /
    • 2023
  • 인공지능 스피커로 대표되는 대화형 에이전트는 사람-컴퓨터 간 대화형이기 때문에 대화 상황에서 오류가 발생하는 경우가 잦다. 에이전트 사용자의 발화 기록에서 인식오류는 사용자의 발화를 제대로 인식하지 못하는 미인식오류 유형과 발화를 인식하여 서비스를 제공하였으나 사용자가 의도한 바와 다르게 인식된 오인식오류 유형으로 나뉜다. 이 중 오인식오류의 경우, 서비스가 제공된 것으로 기록되기 때문에 이에 대한 오류 탐지가 별도로 필요하다. 본 연구에서는 텍스트 마이닝 기법 중에서도 단어와 문서를 벡터로 바꿔주는 단어 임베딩과 문서 임베딩을 이용하여 단순 사용된 단어 기반의 유사도 산출이 아닌 단어의 분리 방식을 다양하게 적용함으로써 연속 발화 쌍의 유사도를 기반으로 새로운 오인식오류 및 신조어 탐지 방법을 탐구하였다. 연구 방법으로는 실제 사용자 발화 기록을 활용하여 오인식오류의 패턴을 모델 학습 및 생성 시 적용하여 탐지 모델을 구현하였다. 그 결과, 오인식오류의 가장 큰 원인인 등록되지 않은 신조어 사용을 탐지할 수 있는 패턴 방식으로 다양한 단어 분리 방식 중 초성 추출 방식이 가장 좋은 결과를 보임을 확인하였다. 본 연구는 크게 두 개의 함의를 가진다. 첫째, 인식오류로 기록되지 않아 탐지가 어려운 오인식오류에 대하여 다양한 방식 별 비교를 통해 최적의 방식을 찾았다. 둘째, 이를 실제 신조어 탐지 적용이 필요한 대화형 에이전트나 음성 인식 서비스에 적용한다면 음성 인식 단계에서부터 발생하는 오류의 패턴도 구체화할 수 있으며, 오류로 분류되지 않더라도 사용자가 원하는 결과에 맞는 서비스가 제공될 수 있음을 보였다.

웹 기반의 VoiceXML 문서 인터프리터의 설계 (The design of VoiceXML Interpreter based on the Web)

  • 이선남;김경아;이기호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.355-357
    • /
    • 2001
  • VoiceXML은 음성인식 및 음성합성과 음성처리기술을 이용하여, 시각에 의존하는 기존의 웹을 벗어나 음성 및 시각을 모두 활용할 수 있는 새로운 정보 서비스 패러다임으로 제시되어지고 있다. VoiceXML을 이용한 음성정보서비스를 제공할 경우, 마크업 언어형태로 작성된 시나리오를 인터프리터를 통해 서비스하기 때문에 시나리오 변경 요구시 재프로그램해야 하는 기존 음성정보서비스 시스템의 문제점을 쉽게 개선할 뿐만 아니라, 음성정보서비스의 개발자가 음성인식.음성합성과 같은 기술적인 문제와는 독립적으로 시나리오를 작성할 수 있다는 이점이 있다. 본 논문에서는 W3C Voice Browser Working Group에서 제안하는 문법표현.시스템구조.다이얼로그 모델 등을 지원하는 XML 기반 대화형 마크업 언어인 VoiceXML 문서의 인터프리터를 설계하고자 한다.

  • PDF