• 제목/요약/키워드: 텍스트 개념

검색결과 379건 처리시간 0.024초

텍스트 마이닝의 개념과 응용

  • 조태호
    • 지식정보인프라
    • /
    • 통권5호
    • /
    • pp.76-85
    • /
    • 2001
  • 정보검색시스템은 물론 텍스트 데이터를 대상으로하는 지식관리 시스템, 문서관리시스템, 그리고 전자도서관등에서 텍스트 마이닝에 대한 기술에 대한 수요가 증가하고 있는 추세이다. 이 글에서는 텍스트 마이닝의 개념을 소개하고, 텍스트 마이닝의 주요기능, 그리고, 응용사례등을 기술할것이다. 텍스트 마이닝은 텍스트 데이터를 대상으로 하여 그들간의 암묵적인 정보를 추출하는 과정으로 정의할 수 있다. 데이터마이닝과 텍스트 마이닝의 차이는 대상이 텍스트 데이터와 수치 데이터하는 점에서 구분되고 텍스트 마이닝은 데이터 마이닝과 달리 이를 구조화시키는 과정이 필요하다. 텍스트마이닝에 있어서 구조화하는 과정에서 가장 보편적으로 사용되는것은 문서색인이다.

  • PDF

위키피디아 기반의 3차원 텍스트 표현모델을 이용한 개념망 구축 기법 (Building Concept Networks using a Wikipedia-based 3-dimensional Text Representation Model)

  • 홍기주;김한준;이승연
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권9호
    • /
    • pp.596-603
    • /
    • 2015
  • 개념망(Concept Network)은 시멘틱 검색, 개인화 검색, 추천, 텍스트마이닝 기법의 개선 등에 필수적인 지식베이스이다. 최근 효과적인 개념망 구축을 위해 온톨로지를 기반으로 하여 개념의 표현을 확장시키는 연구가 활발하다. 이에 본 논문은 World Knowledge로 평가받고 있는 위키피디아 데이터를 '개념' 집합의 원천으로 활용하여 3차원 텍스트 표현 모델 기반 개념망을 구축하는 기법을 제안한다. 사실상 개념들 간의 관계 정보는 시간의 흐름에 따라 변동하기 때문에, 텍스트 문서로부터 도출되는 '개념'은 Formal Concept Analysis 이론체계의 개념에 따르는 것이 바람직하다. 이를 위해 본 논문은 하나의 개념을 '단어'와 '문서' 간의 2차원 행렬로 표현하여 문서집합에 잠재된 개념간의 연관망을 보다 정확하게 생성하게 한다.

위키피디어 기반 개념 공간을 가지는 시멘틱 텍스트 모델 (A Semantic Text Model with Wikipedia-based Concept Space)

  • 김한준;장재영
    • 한국전자거래학회지
    • /
    • 제19권3호
    • /
    • pp.107-123
    • /
    • 2014
  • 텍스트마이닝 연구의 기본적인 난제는 기존 텍스트 표현모델이 자연어 문장으로 기술된 텍스트 데이터로부터 의미 또는 개념 정보를 표현하지 않는데 기인한다. 기존 텍스트 표현모델인 벡터공간 모델(vector space model), 불리언 모델(Boolean model), 통계 모델(statistical model), 텐서공간 모델(tensor space model) 등은 'Bag-of-Words' 방식에 바탕을 두고 있다. 이러한 텍스트 모델들은 텍스트에 포함된 단어와 그것의 출현 횟수만으로 텍스트를 표현하므로, 단어의 함축 의미, 단어의 순서 및 텍스트의 구조를 전혀 표현하지 못한다. 대부분의 텍스트 마이닝 기술은 대상 문서를 'Bag-of-Words' 방식의 텍스트 모델로 표현함을 전제로 하여 발전하여 왔다. 하지만 오늘날 빅데이터 시대를 맞이하여 방대한 규모의 텍스트 데이터를 보다 정밀하게 분석할 수 있는 새로운 패러다임의 표현모델을 요구하고 있다. 본 논문에서 제안하는 텍스트 표현모델은 개념공간을 문서 및 단어와 동등한 매핑 공간으로 상정하여, 그 세 가지 공간에 대한 연관 관계를 모두 표현한다. 개념공간의 구성을 위해서 위키피디어 데이터를 활용하며, 하나의 개념은 하나의 위키피디어 페이지로부터 정의된다. 결과적으로 주어진 텍스트 문서집합을 의미적으로 해석이 가능한 3차 텐서(3-order tensor)로 표현하게 되며, 따라서 제안 모델을 텍스트 큐보이드 모델이라 명명한다. 20Newsgroup 문서집합을 사용하여 문서 및 개념 수준의 클러스터링 정확도를 평가함으로써, 제안 모델이 'Bag-of-Word' 방식의 대표적 모델인 벡터공간 모델에 비해 우수함을 보인다.

영·한 통번역을 위한 성경 텍스트 클리셰(cliche)의 실증적 분석 (Empirical Analysis on the Holy Bible Texts' Cliche for English-Korean Interpretation and Translation)

  • 유선영
    • 한국콘텐츠학회논문지
    • /
    • 제17권10호
    • /
    • pp.54-64
    • /
    • 2017
  • 본 연구는 클리셰(cliche)의 개념화에 주목하여 성경 텍스트에 나타난 클리셰를 분석함으로써 클리셰의 개념과 범주를 올바로 규정짓고자 하였다. 클리셰의 개념을 비롯하여 클리셰와 관용어의 범주를 구분하여 설명하고, 성경 텍스트를 분석함으로써 클리셰의 개념과 정확한 사용을 위한 기준점을 제시하였다. 분석은 신뢰도를 높일 수 있도록 13권의 영어 성경 텍스트를 통해 클리셰를 정리하고 분석하였다. 분석 결과로는 성경 텍스트의 클리셰를 분석에 있어 그 의의를 발견함과 동시에 클리셰의 범주를 확실히 할 수 있었다. 본고는 영 한 통번역을 위해 성경 텍스트에 나타난 클리셰를 분석함으로써 클리셰의 흥미로움을 발견함과 동시에 클리셰의 기능을 모색하고, 이를 통해 통번역 분야에 개념적 발판을 마련한 데에 그 의미가 있다. 영 한 통번역에 있어서 관용어를 비롯하여 클리셰의 개념에 대한 학습과 교육적 가치에 있어서 매우 도움이 될 것으로 생각된다. 클리셰는 어느 언어에서나 다양하게 나타날 수 있는 비유 표현이자, 언어를 특징짓는 일부가 되는 언어 표현 도구로써 사회 문화적인 현실 속에서 사용되면서 그 사회와 문화를 특징짓는 중요한 요소가 되기 때문이다. 따라서 본고에서의 클리셰의 개념 이해와 분석을 토대로 독자로 하여금 영 한 통번역 현장에서의 클리셰 연구의 필요성이 인식되고 클리셰 연구가 더욱 활발해질 것으로 기대한다.

개념간 유사성 측정을 이용한 개념 기반 이미지 검색 (Concept based Image Retrieval Using Similarity Measurement Between Concepts)

  • 조미영;최춘호;신주현;김판구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.253-255
    • /
    • 2003
  • 기존의 개념 기반 이미지 검색에서는 이미지의 의미적 내용 인식을 위해 일반적으로 어휘적 정보나 텍스트 정보를 이용했다. 이러한 텍스트 정보 기반 이미지 검색은 전통적인 검색 방법인 키워드 검색 기술을 그대로 사용하여 쉽게 구현할 수 있으나 텍스트의 개념적 매칭이 아닌 스트링 매칭이므로 주석처리된 단어와 정확한 매칭이 없다면 찾을 수가 없었다. 이에 본 논문에서는 ontology의 일종인 WordNet을 이용하여 깊이 정보량 링크 타입, 밀도 등을 고려한 개념간 유사성 측정으로 패턴 매칭의 문제를 해결하고자 했다. 또한 키워드로 주석처리 되어 있는 Microsofts Design Gallery Live의 이미지를 이용하여 개념간 유사성 측정법을 실질적으로 개념 기반 이미지 검색에 적용해 보았다.

  • PDF

개념 기반 이미지 검색 시스템을 위한 WordNet 적용 방안 (Applying Method WordNet for Concept based Image Retrieval system)

  • 조미영;최준호;김판구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.487-489
    • /
    • 2002
  • 기존의 키워드 기반 이미지 검색에서는 의미적 내용 인식을 위해 일반적으로 어휘적 정보나 텍스트 정보를 인간이 주석 형태로 달아주었다. 그러나 이런 텍스트 정보 기반 이미지 검색은 개념적 매칭이 아닌 스트링 매칭이므로 주석을 달아놓은 단어와 정확한 매칭이 없다면 찾을 수가 없다. 이러한 문제를 해결하기 위해 본 논문에서는 개념 기반 이미지 검색 시스템을 위한 WordNet의 적용 방안에 대해 연구했다. WordNet은 단언형이 아닌 단어의 의미 즉 synset이 구성 요소라는 특징을 이용해 각각의 이미지에 텍스트 정보 대신 적합한 개념의 Synset번호를 저장한다. 그리고 검색시 개념간의 유사성 측정을 이용해 검색어와 개념적으로 유사한 모든 이미지를 검색하도록 한다.

  • PDF

뇌텍스트(Brain Text) 및 뇌개념(Brain Concept)의 형성원리와 문학윤리학비평 (The Forming Mechanism of Brain Text and Brain Concept in the Theory of Ethical Literary Criticism)

  • 섭진교;윤석민
    • 대중서사연구
    • /
    • 제25권1호
    • /
    • pp.193-215
    • /
    • 2019
  • 문학윤리학비평이론은 모든 문학에 텍스트가 있다고 전제한다. 구비 문학의 원뜻은 말로 전승되는 문학의 한 형태이다. 구비문학의 텍스트는 구두로 표현되기 전에 이미 사람의 뇌에 저장되어 있기 때문에, 뇌텍스트(Brain Text)라고 일컫는다. 뇌텍스트는 인간의 대뇌에 기억되어 있는 텍스트로서, 인간이 문자와 정보 저장 방식을 발명하기 이전의 텍스트 형식이다. 문자가 탄생한 뒤에도 뇌텍스트는 여전히 존재한다. 뇌텍스트와 유사한 텍스트는 문자 텍스트와 전자 텍스트이다. 모든 뇌텍스트는 뇌개념(Brain Concept)으로 구성된다. 뇌개념은 물상(物象)개념과 추상(抽象)개념 두 유형으로 분류된다. 뇌개념은 사유에 필요한 도구이며, 사유는 뇌개념을 이해하고 운용함이다. 뇌개념을 운용하여 사유를 전개하면, 사상을 확보할 수 있게 되며, 이 사상은 뇌텍스트를 매개체로 한다. 뇌개념 조합 과정의 완성은 사유 과정의 끝맺음을 의미한다. 사유과정의 끝맺음에 사상이 생겨나고, 뇌텍스트를 형성하게 된다. 뇌텍스트는 인간의 사상과 행위를 결정하는 확정과정으로서, 정보의 교류와 확산에 작용할 뿐만 아니라 인간의 의식, 사유, 판단, 선택, 행동, 감정까지도 결정한다. 뇌텍스트는 인간의 생활방식과 도덕행위를 결정하고, 인간의 존재를 결정하며, 인간의 본질까지도 결정한다. 어떠한 뇌텍스트가 어떠한 사상과 행위를 결정하고, 어떠한 뇌텍스트가 어떠한 인간을 결정하는 것인가? 이 문제의식은 곧바로 문학윤리학비평이론과 연계된다.

텍스트이해를 위한 개념도사용의 효과적 활용전략:협력적 논쟁과 자기설명의 상호작용 효과 (Effects of Collaborative Argumentation and Self-Explanation on Text Comprehension in a Concept Mapping Context)

  • 김종백
    • 교육심리연구
    • /
    • 제22권2호
    • /
    • pp.461-478
    • /
    • 2008
  • 개념도는 학생들이 갖고 있는 지식의 내용을 들여다 볼 수 있는 방법을 제공함으로써 학생들의 지식을 진단, 학습결과를 평가하는데 활용되고 있다. 더 나아가서 개념도를 활용하여 자신이 공부하는 내용을 조직하고 정리하는데 효과적인 전략으로 활용할 수 있을 뿐 아니라 서로 다른 생각을 가진 동료들 사이 협력을 용이하게 한다. 즉, 정신모형(mental model)을 쉽게 드러낼 수 있기 때문에 다른 생각을 파악하여 설득이나 설명을 용이하게 한다. 개념도의 잠재력을 잘 활용하기 위해서는 개념들 간 관계를 단순하게 연결짓기 보다는 그들 간 관계의 본질과 의미를 학생들이 생각해보도록 해야 한다. 본 연구는 개념도의 전략적 활용방법으로서 협력적 논쟁 상황과 개념들 간 설명의 요구가 대학생 52명의 텍스트이해에 긍정적인 영향이 있는 지 살펴보고자 하였다. 개념도 프로그램인 IHMC CMaptools를 활용하여 피험자들이 약 한 달에 걸쳐서 실험에 참여하였다. 협력적 논쟁여부 및 설명여부에 따라 네 조건에 피험자들은 무선배치되었다. 연구의 결과 우선 설명이 있는 집단 보다 오히려 설명이 없는 집단에서 개념이나 링크의 수가 유의미하게 높았음이 드러났다. 이는 제한된 실험시간에서 개념간 관계에 대한 설명의 시도가 개념이나 링크의 수와 부적인 관계를 가질 수 있다는 추측이 가능하다. 텍스트의 이해에 있어서 협력적 논쟁이나 설명의 여부 모두 주효과는 없었으며 대신 협력과 설명의 상호작용 효과가 통계적으로 유의한 것으로 나타났다. 개인학습 조건에서 설명이 있는 경우가 더 텍스트 이해에 효과적이었으며 반대로 협력적 논쟁조건에서는 설명이 없는 경우가 더 높은 텍스트 이해를 보였다. 이와 같은 연구결과를 논의에서는 실험 조건 및 문화적인 환경의 측면에서 해석을 시도하였다.

과학교과서 텍스트의 계량적 분석을 이용한 과학 개념어의 생산적 지식 교육 방안 탐색 (Exploring Teaching Method for Productive Knowledge of Scientific Concept Words through Science Textbook Quantitative Analysis)

  • 윤은정
    • 한국과학교육학회지
    • /
    • 제40권1호
    • /
    • pp.41-50
    • /
    • 2020
  • 과학 개념에 대한 이해를 언어학적 관점에서 바라보면 학생들이 과학 개념어에 대한 깊고 정교한 이해와 더불어 정확하게 사용할 수 있는 능력을 길러주는 것이 매우 중요하다. 본 연구에서는 지금까지 과학 교육에서 과학 개념어에 대한 생산적 지식 교육의 기틀이 잘 마련되어 있지 않음에 주목하고, 과학 개념을 구성하고 있는 단어들 사이의 관계를 생산적이고 효과적으로 교육할 수 있는 방안을 탐색함으로써 과학 개념어의 생산적 지식 교육의 기틀을 제공하고자 하였다. 이를 위해 첫째, 몇 가지의 계량 언어학적 텍스트 분석 방법을 이용하여 과학 교과서 텍스트로 부터 과학 개념을 구성하고 있는 단어들과 그들 사이의 관계를 추출하고, 둘째, 각 방법의 결과로 추출된 단어 관계의 의미를 정성적으로 살펴본 뒤, 셋째, 이를 이용하여 과학 개념어의 생산적 지식 향상에 도움을 줄 수 있는 쓰기 활동 방법을 제안해 보았다. 중학교 1학년 과학교과서 '힘과 운동' 단원 텍스트를 클러스터 분석, 공기 빈도 분석, 텍스트 네트워크 분석, 그리고 워드임베딩의 네 가지 계량 언어학적 분석 방법을 사용하여 분석해 보았다. 연구 결과 첫째, 클러스터 분석 결과를 활용하여 문장 완성하기 활동을 제안하였다. 둘째, 공기 빈도 분석 결과를 이용한 빈 칸 채우기 활동을 제안하였다. 셋째, 네트워크 분석 결과를 이용하여 소재 중심 글쓰기 활동을 제안하였다. 넷째, 워드임베딩을 이용한 학습 중요 단어 목록 작성을 제안하였다.

하이퍼텍스트의 개념과 응용에 관한 고찰 (An Overview of Hypertext and Its Applications)

  • 정영미
    • 정보관리학회지
    • /
    • 제6권2호
    • /
    • pp.3-20
    • /
    • 1989
  • 하이퍼텍스트시스템은 비직선적이며 비연속적인 형태로 문헌을 조직하고 이용할 수 있는 새로운 형태의 정보시스템이다. 하이퍼텍스트는 정보뭉치를 소장하는 노드와 상호 관련된 노드들을 연결하는 링크로 구성되며 노드에는 텍스트, 그래프, 그림, 비디오화면, 소리 등의 정보가 소장될 수 있다. 이용자는 링크를 선택함으로써 원하는 정보에 자유롭게 접근할 수 있다. 이 논문에서는 하이퍼텍스트의 개념, 구성요소, 특성 둥을 구체적으로 살펴보고 PC용 상용시스템인 Guide에 관해 간단한 응용 예를 들어 기술하였다.

  • PDF