• 제목/요약/키워드: 언어TEXT

검색결과 756건 처리시간 0.024초

한글 문서의 단어 동시 출현 정보에 개선된 TextRank를 적용한 키워드 자동 추출 기법 (Keyword Automatic Extraction Scheme with Enhanced TextRank using Word Co-Occurrence in Korean Document)

  • 송광호;민지홍;김유성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.62-66
    • /
    • 2016
  • 문서의 의미 기반 처리를 위해서 문서의 내용을 대표하는 키워드를 추출하는 것은 정확성과 효율성 측면에서 매우 중요한 과정이다. 그러나 단일문서로부터 키워드를 추출해 내는 기존의 연구들은 정확도가 낮거나 한정된 분야에 대해서만 검증을 수행하여 결과를 신뢰하기 어려운 문제가 있었다. 따라서 본 연구에서는 정확하면서도 다양한 분야의 텍스트에 적용 가능한 키워드 추출 방법을 제시하고자 단어의 동시출현정보와 그래프 모델을 바탕으로 TextRank 알고리즘을 변형한 새로운 형태의 알고리즘을 동시에 적용하는 키워드 추출 기법을 제안하였다. 제안한 기법을 활용하여 성능평가를 진행한 결과 기존의 연구들보다 향상된 정확도를 얻을 수 있음을 확인하였다.

  • PDF

과학교과서의 학년 간 언어적 특성 분석 -텍스트 정합성을 중심으로- (An Analysis of Linguistic Features in Science Textbooks across Grade Levels: Focus on Text Cohesion)

  • 류지수;전문기
    • 한국과학교육학회지
    • /
    • 제41권2호
    • /
    • pp.71-82
    • /
    • 2021
  • 교과서를 통한 학습의 효율성을 최대화하기 위해서는 교과서에 수록된 텍스트 특성이 예상된 학습자의 특성(i.e., 언어적 및 인지적 능력, 배경지식 수준)에 따라 체계적으로 조절되어야 한다. 이에 따라 현재 연구에서는 과학교과서 개발에 이러한 체계적인 원칙이 반영되어 있는지를 알아보기 위하여 중학교 1, 2, 3학년 과학교과서의 학년 간 언어적 특성을 비교 분석하였다. 구체적으로 한국어 분석 프로그램인 Auto-Kohesion 시스템을 활용하여 기존 텍스트 분석 연구에 많이 활용되었던 텍스트 표층 구조 측정치, 어휘 관련 측정치, 통사적 복잡성 측정치와 같은 피상적 측정치에 더하여 여러 정합성 관련 측정치(e.g., 명사 반복, 접속사, 대명사)를 분석하였다. 주요 분석 결과, 대체로 어절 및 문장 길이, 어휘 빈도와 같은 피상적으로 두드러지는 특성에 대해서는 학년이 증가함에 따라 텍스트 복잡도가 상승하는 방향으로 단계적으로 조절이 이루어졌지만, 그 외의 많은 언어적 특질에 대해서는 체계적으로 조절되지 않은 것으로 나타났다. 특히 여러 정합성 측정치들이 교과서 개발 과정에서 충분히 고려되지 않은 것으로 시사되었다. 이러한 결과는 저학년 학습자들이 교과서를 사용할 때 발달 단계에 맞지 않는 어려운 텍스트를 접할 가능성이 있어서 학습 의욕 및 효율성 저하 현상이 발생할 수 있다는 것을 제시한다. 아울러 고학년 교과서가 고등 교육을 대비하여 더욱 복잡한 텍스트를 처리할 수 있는 능력을 개발시키기 위한 용도로 적절하지 않을 수 있음을 시사한다. 본 연구는, 추후 교과서 개발 과정에서, 예상된 독자 특성의 변화에 따라 정합성 측정치를 포함한 여러 언어적 특성이 단계적으로 조절되어야 함을 제안한다.

오디오북 텍스트 형상화를 위한 공감각적 음성 훈련 연구 - 유사언어를 활용하여 - (Audiobook Text Shaping for Synesthesia Voice Training - Focusing on Paralanguages -)

  • 조예신;최재오
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제13권8호
    • /
    • pp.167-180
    • /
    • 2019
  • 본 연구는 오디오북 텍스트 형상화를 위해 유사언어를 활용하여 공감각적 음성 훈련 성과를 알아보려는 것에 그 목적이 있다. 훈련을 위한 오디오북 텍스트는 톨스토이의 <사람은 무엇으로 사는가> 작품을 이용하였고 음색, 톤, 포즈, 속도, 억양, 강세, 감정표현의 유사언어를 활용하였으며, H 도서관 시각장애인 교육생 10명을 연구 참여자로 선정해 질적 분석을 하였다. 본 연구에서 제기한 연구문제를 토대로 연구한 결과는 다음과 같다. 첫째, 오디오 북 텍스트 형상화를 위한 음성훈련에서 오감의 두 개 감각 이상이 동시에 작용하는 공감각적 음성 훈련은 화자에게 텍스트가 갖고 있는 본래의 목적과 의미, 배경 등의 시각화를 형상화하면서 결과물을 창출하였다. 둘째, 유사언어의 활용은 오디오북 텍스트 형상화를 위한 문장과 대사의 의미 전달을 표현하는 전 과정에서 도움이 되었다. 또한 연구대상자마다 조금의 차이는 있었지만 톤, 포즈, 억양이 중요하다고 생각하는 공통점을 발견할 수 있었다. 셋째, 시각장애인은 감각적인 면과 기억력이 발달되어 있어 훈련과정에서 대사 습득과 전달 수용정도가 빨랐다. 또한 훈련과정에서 교사의 우호적 행동이 매우 중요한 핵심적 매개 작용을 하면서 이들의 적극적인 참여로 많은 발전을 하여 훌륭한 결과를 도출하였다.

구텐베르그 프로젝트 텍스트 데이터를 활용한 시각화 및 용례 검색 (Text Visualization and Concordance Search Using Gutenberg Project Text Data)

  • 김동성;신연수;이지안;유지민
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.175-178
    • /
    • 2017
  • 본 연구는 거시적 빅데이터 인문학과 미시적 언어 텍스트 검색 시스템을 구축하고, 이를 통해서 언어를 통한 문화의 역동적 변화를 시간적 순서에 따라 살펴보고자 한다. 연구의 최종적인 목표는 문화도 생물체처럼 변화하는 존재라 여기고 그 구성요소들을 연구한다는 뜻인 '문화체학(文化體學; Culturomics)'과 같은 '인문학 + 정보과학 + 사회과학' 등등의 다학문간의 융합적 연구에 있다. 이 시스템을 통해서 인류 역사의 기록인 텍스트 빅데이터를 통한 인문학적 성찰을 시각화하고 있다. 이러한 구글의 업적은 인문학과 정보기술의 융합을 통해서 인문학 자체의 지평을 넓히고, 사회과학을 변형시키고, 산업과 상아탑 사이의 관계를 재조정하는데 있다.

  • PDF

교차언어 문서검색에서 다국어 온톨로지에 기반한 한영 질의어 변환 (Korean-to-English Query Translation based on Multilingual Ontology in Cross-Language Text Retrieval)

  • 천정훈;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.43-49
    • /
    • 1999
  • 본 논문에서는 교차언어 문서검색(CLTR: Cross-Language Text Retrieval)에서의 한-영 질의어 변환을 다룬다. 질의어 변환시 영어 대역어 획득과정에서는 다음 두 가지를 고려한다. 첫째, 한국어 질의어를 구성하는 단어가 한가지 개념을 기호화하지만 이에 대응되는 영어 대역어들이 하나 이상인 경우이다. 둘째, 질의어 구성 단어가 둘 이상의 개념들을 기호화하는 다의성을 지닌 경우이다. 전자의 경우는 영어 대역어들이 모두 동일한 개념, 또는 유사한 개념을 나타내므로 그대로 검색에 이용한다 해도 검색 성능을 크게 좌우하지 않지만, 후자의 경우는 모든 개념을 다 검색에 이용하게 되면 정확률(precision)이 크게 떨어지게 된다. 이에 본 연구에서는 개념 선택단계와 선택된 개념의 영어 대역어들에 가중치를 주는 가중치 부가단계로 나누어 질의어 변환을 수행한다. 본 논문의 질의어 변환에서 영어 대역어는 대역사전 대신 다국어 온톨로지인 KAIST 분류어휘표와 한영 음차복원 모듈을 통해 얻어진다.

  • PDF

MASS와 복사 메커니즘을 이용한 한국어 문서 요약 (Korean Text Summarization using MASS with Copying Mechanism)

  • 정영준;이창기;고우영;윤한준
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.157-161
    • /
    • 2020
  • 문서 요약(text summarization)은 주어진 문서로부터 중요하고 핵심적인 정보를 포함하는 요약문을 만들어 내는 작업으로, 기계 번역 작업에서 주로 사용되는 Sequence-to-Sequence 모델을 사용한 end-to-end 방식의 생성(abstractive) 요약 모델 연구가 활발히 진행되고 있다. 최근에는 BERT와 MASS 같은 대용량 단일 언어 데이터 기반 사전학습(pre-training) 모델을 이용하여 미세조정(fine-tuning)하는 전이 학습(transfer learning) 방법이 자연어 처리 분야에서 주로 연구되고 있다. 본 논문에서는 MASS 모델에 복사 메커니즘(copying mechanism) 방법을 적용하고, 한국어 언어 생성(language generation)을 위한 사전학습을 수행한 후, 이를 한국어 문서 요약에 적용하였다. 실험 결과, MASS 모델에 복사 메커니즘 방법을 적용한 한국어 문서 요약 모델이 기존 모델들보다 높은 성능을 보였다.

  • PDF

온톨로지를 이용한 텍스트 애니메이션 객체 탐색 (Searching Animation Models with a Lexical Ontology for Text Animation)

  • 장은영;이희진;박종철
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.469-474
    • /
    • 2007
  • 텍스트 애니메이션 시스템에서는 자연언어 단어로 표현된 개체들을 한정된 수의 애니메이션 모델로 나타낸다. 그러나 자연언어 단어의 수에 비해 기존의 모델DB에 있는 모델의 수가 훨씬 적은 것이 일반적이기 때문에 해당 단어에 대응되는 애니메이션 모델이 존재하지 않는 경우가 있게 된다. 이러한 경우, 해당 단어가 가지는 의미를 최대한 보존할 수 있는 대체 모델을 찾을 수 있는 방법이 필요하다. 본 논문은 애니메이션에서 캐릭터 또는 사물로 표현되어야 하는 명사에 대해, 온톨로지에서 해당 명사와 상위(hypernym), 하위(hyponym), 부분(member meronymy) 관계에 있는 다른 단어를 탐색하여 적절한 모델을 찾는 방안을 제안한다.

  • PDF