• Title/Summary/Keyword: 단어길이

검색결과 147건 처리시간 0.025초

『노걸대』 분석을 통해서 바라본 우리 반도의 외국어 교육 (Foreign Language Education of Korean Peninsula: Insights from Nogeldae)

  • 김정렬
    • 한국콘텐츠학회논문지
    • /
    • 제17권6호
    • /
    • pp.408-414
    • /
    • 2017
  • 본 연구는 고려말에 저자미상의 실용적인 목적으로 만들어진 외국어 교재 "노걸대"에 대하여 어떻게 고려말부터 조선 500년 동안 지속적으로 외국어 교재로 사용될 수 있었는지 외국어 교재로서 그 지속성의 가치는 어디에 있는지를 알아보고자 하는데 있다. 이를 위해서 "노걸대"에 있는 대화문 구성된 의사소통 상황별로 정광의 "노걸대" 역주본에 나와 있는 106편의 대화를 만남(12편), 숙박(17편), 대도행(21편), 대도 생활(34편), 귀국(11편)으로 구분하여 평균문장길이, 어휘길이, 타입-토큰 비율, 본동사 앞 단어 수, 명사구 평균 수식어수 항목 측정치를 활용하여 외국어 교재로서의 계열성을 파악하고자 한다. "노걸대"는 제시된각 의사소통기능에서 일부 명사구 내의 계열성이 무시된 경우를 제외하면 전체적으로 복잡도의 계열성을 확인할 수 있었다. 문장 길이, 문장의 복잡도 계열성은 전체적으로 확인되었다. 어휘의 다양성은 계열성이 제대로 구성되었다고 볼 수는 없으나 어휘의 반복율이 높은 것은 기본적인 어휘의 사용이 많이 이루어졌다는 것을 의미한다.

효과적인 HLA개체인식을 위한 부분매칭기법 (The partial matching method for effective recognizing HLA entities)

  • 채정민;정영희;이태민;채지은;오흥범;정순영
    • 컴퓨터교육학회논문지
    • /
    • 제14권2호
    • /
    • pp.83-94
    • /
    • 2011
  • 생의학분야에서 문헌에 표기된 개체를 인식하기 위해 길이우선매칭기법을 빈번히 사용한다. 길이우선매칭기법은 사전을 이용한 개체인식기법으로 좋은 사전만 구축되어 있다면 빠르고 정확하게 개체를 찾아낼 수 있다는 장점을 가진다. 그러나 개체가 나열되고 중복된 단어가 생략될 경우에는 길이우선매칭기법을 이용할 경우 성능이 현저히 떨어지게 된다. 우리는 이러한 인식성능문제를 해결하기 위해 부분매칭기법을 제안한다. 제안된 부분매칭기법은 생략이 발생될 수 있다는 것을 가정하여 다수의 후보개체를 만들어 내고 그 후에 최적화 알고리즘을 통해 다수의 개체후보 중에서 가장 타당해 보이는 개체를 선택한다. 우리는 생의학분야의 개체 중에서 나열되는 경우가 빈번한 HLA 유전자, HLA 항원, HLA 대립유전자 개체들을 대상으로 길이우선매칭기법과 제안된 부분매칭기법의 개체인식성능을 분석하였다. 3종의 HLA 개체들을 인식하기 위해서 먼저 확장사전과 태그기반사전을 구축하였으며, 그 후 구축된 사전을 이용해 길이우선매칭과 부분매칭을 수행하였다. 실험결과에 따르면 길이우선매칭기법은 HLA 항원 개체에서 좋은 성능을 보였으며 부분매칭기법은 생략된 표현이 빈번한 HLA 유전자 개체, HLA 대립유전자 개체에서 좋은 성능을 보였다. 부분매칭기법은 HLA 대립유전자 개체를 대상으로 95.59%의 높은 F-score를 얻었다.

  • PDF

Sequence-to-sequence 모델을 이용한 한국어 구구조 구문 분석 (Korean phrase structure parsing using sequence-to-sequence learning)

  • 황현선;이창기
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.20-24
    • /
    • 2016
  • Sequence-to-sequence 모델은 입력열을 길이가 다른 출력열로 변환하는 모델로, 단일 신경망 구조만을 사용하는 End-to-end 방식의 모델이다. 본 논문에서는 Sequence-to-sequence 모델을 한국어 구구조 구문 분석에 적용한다. 이를 위해 구구조 구문 트리를 괄호와 구문 태그 및 어절로 이루어진 출력열의 형태로 만들고 어절들을 단일 기호 'XX'로 치환하여 출력 단어 사전의 수를 줄였다. 그리고 최근 기계번역의 성능을 높이기 위해 연구된 Attention mechanism과 Input-feeding을 적용하였다. 실험 결과, 세종말뭉치의 구구조 구문 분석 데이터에 대해 기존의 연구보다 높은 F1 89.03%의 성능을 보였다.

  • PDF

Pointer-Generator Networks를 이용한 cQA 시스템 질문 요약 (Pointer-Generator Networks for Community Question Answering Summarization)

  • 김원우;김선훈;장헌석;강인호;박광현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.126-131
    • /
    • 2018
  • cQA(Community-based Question Answering) 시스템은 사용자들이 질문을 남기고 답변을 작성하는 시스템이다. cQA는 사용자의 편의를 위해 기존의 축적된 질문을 검색하거나 카테고리로 분류하는 기능을 제공한다. 질문의 길이가 길 경우 검색이나 카테고리 분류의 정확도가 떨어지는 한계가 있는데, 이를 극복하기 위해 cQA 질문을 요약하는 모델을 구축할 필요가 있다. 하지만 이러한 모델을 구축하려면 대량의 요약 데이터를 확보해야 하는 어려움이 존재한다. 본 논문에서는 이러한 어려움을 극복하기 위해 cQA의 질문 제목, 본문으로 데이터를 확보하고 필터링을 통해 요약 데이터 셋을 만들었다. 또한 본문의 대표 단어를 이용하여 추상 요약을 하기 위해 딥러닝 기반의 Pointer-generator model을 사용하였다. 실험 결과, 기존의 추출 요약 방식보다 딥러닝 기반의 추상 요약 방식의 성능이 더 좋았으며 Pointer-generator model이 보다 좋은 성능을 보였다.

  • PDF

Attention 기반의 대화 발화 예측 모델 (Attention-based Next Utterance Classification in Dialogue System)

  • 황태선;이동엽;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.40-43
    • /
    • 2018
  • 대화 발화 예측(Next Utterance Classification)은 Multi-turn 대화에서 마지막에 올 발화를 정답 후보들 중에서 예측을 하는 연구이다. 기존에 제안된 LSTM 기반의 Dual Encoder를 이용한 모델에서는 대화와 정답 발화에 대한 관계를 고려하지 않는 문제와 대화의 길이가 너무 길어 중간 정보의 손실되는 문제가 존재한다. 본 연구에서는 이러한 두 문제를 해결하기 위하여 ESIM구조를 통한 단어 단위의 attention, 대화의 turn별 문장 단위의 attention을 제안한다. 실험 결과 총 5000개의 검증 대화 데이터에 대하여 1 in 100 Recall@1의 성능이 37.64%로 기존 모델 대비 약 2배 높은 성능 향상을 나타내었다.

  • PDF

유성/무성/묵음 분류기와 주파수 스펙트럼을 이용한 음소 경계 검출 (Phoneme Segmentation Using Voice/Unvoiced/Silence Classifier and Spectral Information)

  • 이상래;한현배;한민수
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 1호
    • /
    • pp.86-91
    • /
    • 1999
  • 본 논문에서는 유성/무성/묵음 분류기와 주파수 스펙트럼 비교를 통하여 음소 경계 검출기를 구현하였다. 음소경계 검출은 음성 인식, 합성 및 분석 둥의 분야에서 매우 중요하다 유성/무성/묵음 분류기를 이용하여 유성음으로 판별되는 구간은 스펙트럼 비교를 통하여 음소 단위로 세분하였고 무성음으로 판별되는 구간은 한국어의 음성 특성을 고려하여 하나의 음소 단위로 간주하였다. 유성음 구간에 대한 스펙트럼 비교는 수정된 Itakura-Saito distance measure 와 Euclidean MFCC(Mel Frequency Cepstrum Coeffcients) distance measure를 사용하였고 비교 프레임은한 프레임을 건너 윈 경우가 가장 결과가 좋았다. 최종적으로 평균 음소 길이 정보를 이용하여 음소의 경계로 검출된 구간을 더 세분하거나 통합하였다. 유성/무성/묵음 분류기의 경우는 사무실에서 녹음한 고립단어에 대하여 $94.247\%$의 정확도를 보였고 음소 경계 검출의 경우는 $72.8\%$의 정확도를 보였다.

  • PDF

SVM 분류기를 이용한 문서 범주화 연구 (An Experimental Study on Text Categorization using an SVM Classifier)

  • 정영미;임혜영
    • 정보관리학회지
    • /
    • 제17권4호
    • /
    • pp.229-248
    • /
    • 2000
  • 문서 범주화에 이용되는 학습알고리즘 중에서 이원 패턴인식 문제를 해결하기 위해 제안된 SVM은 다른 분류기 보다 우수한 성능을 보이고 있다. 본 연구에서는 Reuters-21578 (ModApte 분할판)을 대상으로 SVM 분류기를 이용하여 단어빈도, 역문헌빈도, 문헌길이 정규화 공식을 자질에 대한 가중치로 적용하여 성능을 평가하고, 선형 SVM과 비선형 SVM의 분류 성능을 비교하였다. 또한 이원 분류기를 승자독식 방법과 쌍단위 분류방법에 의해 다원 분류기로 확정하여 실험한 후 이원 분류기와의 성능을 비교 분석하였다.

  • PDF

이런과학자, 저런기술자 - 불운의 여성 과학자 '로절린드 프랭클린'

  • 한국과학기술단체총연합회
    • 과학과기술
    • /
    • 제32권11호통권366호
    • /
    • pp.32-34
    • /
    • 1999
  • 1953년 4월 어느날, 권위있는 영국의 종합과학지 "네이처" 편집부에는 논문 한편이 도착했다. "우리는 디옥시리보핵산(DNA)의 염기의 구조를 제안하려고 한다. 이 구조는 생물학적으로 볼 때 매우 흥미를 자아내는 참신한 성질을 갖추고 있다"는 머리말로 시작되는 9백단어 길이의 이 논문은 생물학의 세계를 바꾸는 중대한 계기를 제공했다.그래서 논문의 공동저자인 제임스 와트슨과 프란시스 크릭은 모리스 윌킨스와 함께 1962년 노벨 의학ㆍ생리학 상을 받았다. 그러나 이 연구에서 매우 중요한 공헌을 한 젊은 여성과학자가 있었다는 사실을 아는 사람은 많지 않다. 핵산의 분자구조를 해명하여 하루 아침에 세계 과학계의 정상에 오른 와트슨 등 세사람의 수상자들과는 대조적으로 그녀는 그늘에서 살다가 37세라는 나이에 암으로 세상을 떴다.

  • PDF

Sequence-to-sequence 모델을 이용한 한국어 구구조 구문 분석 (Korean phrase structure parsing using sequence-to-sequence learning)

  • 황현선;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.20-24
    • /
    • 2016
  • Sequence-to-sequence 모델은 입력열을 길이가 다른 출력열로 변환하는 모델로, 단일 신경망 구조만을 사용하는 End-to-end 방식의 모델이다. 본 논문에서는 Sequence-to-sequence 모델을 한국어 구구조 구문 분석에 적용한다. 이를 위해 구구조 구문 트리를 괄호와 구문 태그 및 어절로 이루어진 출력열의 형태로 만들고 어절들을 단일 기호 'XX'로 치환하여 출력 단어 사전의 수를 줄였다. 그리고 최근 기계번역의 성능을 높이기 위해 연구된 Attention mechanism과 Input-feeding을 적용하였다. 실험 결과, 세종말뭉치의 구구조 구문 분석 데이터에 대해 기존의 연구보다 높은 F1 89.03%의 성능을 보였다.

  • PDF

한국어 어절 재인의 시뮬레이션 모델 (A Simulation Model for Korean Eojeol Retrieval)

  • 임희석;남기춘
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.301-304
    • /
    • 2002
  • 본 논문은 한국인 피험자를 대상으로 이루어진 어절 재인 실험 시 관찰된 언어 현상인 길이 효과, 빈도 효과, 그리고 이웃 효과를 설명할 수 있는 한국어 어절 재인 시뮬레이션 모델을 제안한다. 제안한 모델은 코퍼스에서 나타난 어절의 빈도를 이용하여 정렬한 트라이(trie) 구조를 기반으로 하고 있다. 본 모델은 피험자들의 어절 재인 현상을 모두 설명할 수 있으며 피험자들을 대상으로 한 실험에서 사용한 동일 자료를 이용하여 시뮬레이션한 결과 유의미한 상관 관계를 보였다. 현재 시뮬레이션 중 발견된 언어 현상이 한국인 피험자에서도 나타나는지를 규명하기 위한 실험과 영어 단어 재인시의 언어 현상에 대해서도 적용할 수 있는 확장 방안에 대하여 연구를 수행하고 있다.

  • PDF