• 제목/요약/키워드: Sequence-to-Sequence

검색결과 15,234건 처리시간 0.037초

A Novel Similarity Measure for Sequence Data

  • Pandi, Mohammad. H.;Kashefi, Omid;Minaei, Behrouz
    • Journal of Information Processing Systems
    • /
    • 제7권3호
    • /
    • pp.413-424
    • /
    • 2011
  • A variety of different metrics has been introduced to measure the similarity of two given sequences. These widely used metrics are ranging from spell correctors and categorizers to new sequence mining applications. Different metrics consider different aspects of sequences, but the essence of any sequence is extracted from the ordering of its elements. In this paper, we propose a novel sequence similarity measure that is based on all ordered pairs of one sequence and where a Hasse diagram is built in the other sequence. In contrast with existing approaches, the idea behind the proposed sequence similarity metric is to extract all ordering features to capture sequence properties. We designed a clustering problem to evaluate our sequence similarity metric. Experimental results showed the superiority of our proposed sequence similarity metric in maximizing the purity of clustering compared to metrics such as d2, Smith-Waterman, Levenshtein, and Needleman-Wunsch. The limitation of those methods originates from some neglected sequence features, which are considered in our proposed sequence similarity metric.

개선된 Partial UIO sequence 생성 방법의 제안 (Improved Partial UIO sequence generation method)

  • 최진영;홍범기
    • 한국통신학회논문지
    • /
    • 제19권11호
    • /
    • pp.2255-2263
    • /
    • 1994
  • 프로토콜 적합성 시험은 시험 대상인 구현물을 하나의 black box로서 고려하여 input에 대한 output 과 결과 상태를 확인하는 일련의 과정으로 구성된다. 특히 결과 상태를 확인하는 방법에 따라 Unique Input/Output(UIO) Sequence, Distinguishing Sequence(DS) 및 Characterization Set(CS) 등으로 구분할 수 있다. 또한 UIO sequence가 존재하지 않는 상태에 대한 시험을 위해서라고 Partial UIO Set(CS) 등으로 구분 할 수 이따. 또한 PUIO sequence가 존재하지 않는 상태에 대한 시험을 위해서도 Partial UIO sequence 방법이 제안되었다. 본 논문에서는 이러한 PUIO sequence를 제시하고 이를 이용한 개선된 PUIO sequence 제안하였으며, 그 적용 결과로서 PUIO sequence의 수가 56%정도 줄어드는 것을 확인할 수 있었다.

  • PDF

Sequence to Sequence 모델을 이용한 영단어 음차 표기 (English to Korean transliteration using Sequence to Sequence model)

  • 신형진;육대범;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.627-629
    • /
    • 2018
  • 영단어를 음역 하는 방법으로 규칙 기반 방법, 통계 기반 방법, 최대 엔트로피 기반 방법 등이 연구되어 왔다. 본 연구에서는 최근 기계 번역에서 우수한 성능을 보인 Sequence-to-Sequence 모델을 영어-한글 음차 표기에 적용해보았다. 실험결과, 다른 방법에 비해 우수한 성능을 보였다.

  • PDF

MTRNN을 이용한 한국어 대화 모델 생성 (Korean Dialogue Modeling using MTRNN)

  • 신창욱;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.285-287
    • /
    • 2017
  • 본 논문에서는 Multi-layer sequence-to-sequence 구조를 이용해 한국어 대화 시스템을 개발하였다. sequence-to-sequence는 RNN 혹은 그 변형 네트워크에 데이터를 입력하고, 입력이 완료된 후의 은닉층의 embedding에 기반해 출력열을 생성한다. 우리는 sequence-to-sequence로 입력된 발화에 대해 출력 발화를 내어주는 대화 모델을 학습하였고, 그 성능을 측정하였다. RNN에 대해서는 약 80만 발화를, MTRNN에 대해서는 5만 발화를 학습하고 평가하였다. 모델의 결과로 나타난 발화들을 정리하고 분석하였다.

  • PDF

MTRNN을 이용한 한국어 대화 모델 생성 (Korean Dialogue Modeling using MTRNN)

  • 신창욱;차정원
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.285-287
    • /
    • 2017
  • 본 논문에서는 Multi-layer sequence-to-sequence 구조를 이용해 한국어 대화 시스템을 개발하였다. sequence-to-sequence는 RNN 혹은 그 변형 네트워크에 데이터를 입력하고, 입력이 완료된 후의 은닉층의 embedding에 기반해 출력열을 생성한다. 우리는 sequence-to-sequence로 입력된 발화에 대해 출력 발화를 내어주는 대화 모델을 학습하였고, 그 성능을 측정하였다. RNN에 대해서는 약 80만 발화를, MTRNN에 대해서는 5만 발화를 학습하고 평가하였다. 모델의 결과로 나타난 발화들을 정리하고 분석하였다.

  • PDF

Multi-task sequence-to-sequence learning을 이용한 한국어 형태소 분석과 구구조 구문 분석 (Korean morphological analysis and phrase structure parsing using multi-task sequence-to-sequence learning)

  • 황현선;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.103-107
    • /
    • 2017
  • 한국어 형태소 분석 및 구구조 구문 분석은 한국어 자연어처리에서 난이도가 높은 작업들로서 최근에는 해당 문제들을 출력열 생성 문제로 바꾸어 sequence-to-sequence 모델을 이용한 end-to-end 방식의 접근법들이 연구되었다. 한국어 형태소 분석 및 구구조 구문 분석을 출력열 생성 문제로 바꿀 시 해당 출력 결과는 하나의 열로서 합쳐질 수가 있다. 본 논문에서는 sequence-to-sequence 모델을 이용하여 한국어 형태소 분석 및 구구조 구문 분석을 동시에 처리하는 모델을 제안한다. 실험 결과 한국어 형태소 분석과 구구조 구문 분석을 동시에 처리할 시 형태소 분석이 구구조 구문 분석에 영향을 주는 것을 확인 하였으며, 구구조 구문 분석 또한 형태소 분석에 영향을 주어 서로 영향을 줄 수 있음을 확인하였다.

  • PDF

Sequence-to-sequence 모델을 이용한 한국어 구구조 구문 분석 (Korean phrase structure parsing using sequence-to-sequence learning)

  • 황현선;이창기
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.20-24
    • /
    • 2016
  • Sequence-to-sequence 모델은 입력열을 길이가 다른 출력열로 변환하는 모델로, 단일 신경망 구조만을 사용하는 End-to-end 방식의 모델이다. 본 논문에서는 Sequence-to-sequence 모델을 한국어 구구조 구문 분석에 적용한다. 이를 위해 구구조 구문 트리를 괄호와 구문 태그 및 어절로 이루어진 출력열의 형태로 만들고 어절들을 단일 기호 'XX'로 치환하여 출력 단어 사전의 수를 줄였다. 그리고 최근 기계번역의 성능을 높이기 위해 연구된 Attention mechanism과 Input-feeding을 적용하였다. 실험 결과, 세종말뭉치의 구구조 구문 분석 데이터에 대해 기존의 연구보다 높은 F1 89.03%의 성능을 보였다.

  • PDF

Multi-task sequence-to-sequence learning을 이용한 한국어 형태소 분석과 구구조 구문 분석 (Korean morphological analysis and phrase structure parsing using multi-task sequence-to-sequence learning)

  • 황현선;이창기
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.103-107
    • /
    • 2017
  • 한국어 형태소 분석 및 구구조 구문 분석은 한국어 자연어처리에서 난이도가 높은 작업들로서 최근에는 해당 문제들을 출력열 생성 문제로 바꾸어 sequence-to-sequence 모델을 이용한 end-to-end 방식의 접근법들이 연구되었다. 한국어 형태소 분석 및 구구조 구문 분석을 출력열 생성 문제로 바꿀 시 해당 출력 결과는 하나의 열로서 합쳐질 수가 있다. 본 논문에서는 sequence-to-sequence 모델을 이용하여 한국어 형태소 분석 및 구구조 구문 분석을 동시에 처리하는 모델을 제안한다. 실험 결과 한국어 형태소 분석과 구구조 구문 분석을 동시에 처리할 시 형태소 분석이 구구조 구문 분석에 영향을 주는 것을 확인 하였으며, 구구조 구문 분석 또한 형태소 분석에 영향을 주어 서로 영향을 줄 수 있음을 확인하였다.

  • PDF

Sequence-to-sequence 모델을 이용한 한국어 구구조 구문 분석 (Korean phrase structure parsing using sequence-to-sequence learning)

  • 황현선;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.20-24
    • /
    • 2016
  • Sequence-to-sequence 모델은 입력열을 길이가 다른 출력열로 변환하는 모델로, 단일 신경망 구조만을 사용하는 End-to-end 방식의 모델이다. 본 논문에서는 Sequence-to-sequence 모델을 한국어 구구조 구문 분석에 적용한다. 이를 위해 구구조 구문 트리를 괄호와 구문 태그 및 어절로 이루어진 출력열의 형태로 만들고 어절들을 단일 기호 'XX'로 치환하여 출력 단어 사전의 수를 줄였다. 그리고 최근 기계번역의 성능을 높이기 위해 연구된 Attention mechanism과 Input-feeding을 적용하였다. 실험 결과, 세종말뭉치의 구구조 구문 분석 데이터에 대해 기존의 연구보다 높은 F1 89.03%의 성능을 보였다.

  • PDF

A NOTE ON THE MODIFIED k-FIBONACCI-LIKE SEQUENCE

  • Kwon, Youngwoo
    • 대한수학회논문집
    • /
    • 제31권1호
    • /
    • pp.1-16
    • /
    • 2016
  • The Fibonacci sequence is a sequence of numbers that has been studied for hundreds of years. In this paper, we introduce the modified k-Fibonacci-like sequence and prove Binet's formula for this sequence and then use it to introduce and prove the Catalan, Cassini, and d'Ocagne identities for the modified k-Fibonacci-like sequence. Also, the ordinary generating function of this sequence is stated.