• Title/Summary/Keyword: 텍스트 중요도

Search Result 690, Processing Time 0.027 seconds

Comparison of Term-Weighting Schemes for Environmental Big Data Analysis (환경 빅데이터 이슈 분석을 위한 용어 가중치 기법 비교)

  • Kim, JungJin;Jeong, Hanseok
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.236-236
    • /
    • 2021
  • 최근 텍스트와 같은 비정형 데이터의 생성 속도가 급격하게 증가함에 따라, 이를 분석하기 위한 기술들의 필요성이 커지고 있다. 텍스트 마이닝은 자연어 처리기술을 사용하여 비정형 텍스트를 정형화하고, 문서에서 가치있는 정보를 획득할 수 있는 기법 중 하나이다. 텍스트 마이닝 기법은 일반적으로 각각의 분서별로 특정 용어의 사용 빈도를 나타내는 문서-용어 빈도행렬을 사용하여 용어의 중요도를 나타내고, 다양한 연구 분야에서 이를 활용하고 있다. 하지만, 문서-용어 빈도 행렬에서 나타내는 용어들의 빈도들은 문서들의 차별성과 그에 따른 용어들의 중요도를 나타내기 어렵기때문에, 용어 가중치를 적용하여 문서가 가지고 있는 특징을 분류하는 방법이 필수적이다. 다양한 용어 가중치를 적용하는 방법들이 개발되어 적용되고 있지만, 환경 분야에서는 용어 가중치 기법 적용에 따른 효율성 평가 연구가 미비한 상황이다. 또한, 환경 이슈 분석의 경우 단순히 문서들에 특징을 파악하고 주어진 문서들을 분류하기보다, 시간적 분포도에 따른 각 문서의 특징을 반영하는 것도 상대적으로 중요하다. 따라서, 본 연구에서는 텍스트 마이닝을 이용하여 2015-2020년의 서울지역 환경뉴스 데이터를 사용하여 환경 이슈 분석에 적합한 용어 가중치 기법들을 비교분석하였다. 용어 가중치 기법으로는 TF-IDF (Term frequency-inverse document frquency), BM25, TF-IGM (TF-inverse gravity moment), TF-IDF-ICSDF (TF-IDF-inverse classs space density frequency)를 적용하였다. 본 연구를 통해 환경문서 및 개체 분류에 대한 최적화된 용어 가중치 기법을 제시하고, 서울지역의 환경 이슈와 관련된 핵심어 추출정보를 제공하고자 한다.

  • PDF

Text Summarisation with Rhetorical Structure (수사구조를 이용한 텍스트 자동요약)

  • Lee, Yu-Ri;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.97-102
    • /
    • 1999
  • 텍스트 요약이란 중요정보만을 추출하여 본래 텍스트의 의미를 전달하는 축약 과정이다. 인터넷을 통한 온라인 정보가 급증함에 따라 정보에 대한 처리와 신속한 내용 파악을 위한 효율적인 자동 텍스트 방법이 필요하다. 기존의 통계적 방법으로는 전체 텍스트의 구조적인 특징을 고려할 수가 없기 때문에, 생성된 요약문의 의미적 흐름이 부자연스럽고, 문장간 응집도가 떨어지게 된다. 수사학적 방법은 요약문을 생성하기 위해서 문장간의 접속관계를 이용한다. 수사 구조란 텍스트를 이루는 문장들간의 논리적인 결합관계로, 수사학적 방법은 이러한 결합관계를 파악하여 요약문을 생성하는 방법이다. 본 논문에서는 표지들이 나타내는 접속 관계정보를 사용하여, 텍스트의 수사구조를 분석한 후 요약문을 생성하는 시스템을 구현한다. 수사구조 파싱 과정은 문장간의 수사구조 파싱과 문단간의 수사구조 파싱, 두 단계로 이루어진다. 파싱은 차트파싱 방법을 사용하여 상향식으로 진행된다. 입력된 문장들로부터 두 단계 파싱에 의해 전체 텍스트의 수사구조 트리를 생성하며, 생성된 트리에서 가중치를 계산하여 중요 문장들을 요약문으로 추출한다.

  • PDF

An Automatic Classification of Discourse Relations in the Arguing Structure of Korean Texts (한국어 텍스트의 논증 구조 내 담화 관계의 자동 분류 연구)

  • Lee, Sana;Shin, Hyopil
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.59-64
    • /
    • 2015
  • 최근 온라인 텍스트 자료를 이용하여 대중의 의견을 분석하는 작업이 활발히 이루어지고 있다. 이러한 작업에는 주관적 방향성을 갖는 텍스트의 논증 구조와 중요 내용을 파악하는 과정이 필요하며, 자료의 양과 다양성이 급격히 증가하면서 그 과정의 자동화가 불가피해지고 있다. 본 연구에서는 정책에 대한 찬반 의견으로 구성된 한국어 텍스트 자료를 직접 구축하고, 글을 구성하는 기본 단위들 사이의 담화 관계를 정의하였다. 각 단위들 사이의 관계는 기계학습과 규칙 기반 방식을 이용하여 예측되고, 그 결과는 합성되어 하나의 글에 대응되는 트리 구조를 이룬다. 또한 텍스트의 구조상에서 주제문을 직접적으로 뒷받침하는 문장 혹은 절을 추출하여 글의 중요 내용을 얻고자 하였다.

  • PDF

An Extensible Text Mining Technique for the Extraction of Protein-Protein Interaction (단백질 상호작용 추출을 위한 확장성을 가진 텍스트 마이닝 기법)

  • 이현철;여은주;강희영;조완섭;김학용;유재수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.256-258
    • /
    • 2004
  • 단백질간의 상호작용에 대한 연구는 생물학적 프로세스를 이해하기 위해 중요한 부분이다. 이러한 단백질간의 상호작용에 대한 정보는 주로 생명과학 관련 연구논문에 존재하지만 컴퓨터로 자동으로 처리하여 상호작용에 관안 정보를 추출할 수 있기 위해서는 텍스트 마이닝 기술이 적용되어야 한다 바이오 텍스트 마이닝에서 대두되고 있는 중요한 쟁점은 대용량의 연구논문에서 필요한 정보를 어떻게 효율적으로 정확하게 추출할 것인가에 대한 내용이다. 또한, 관심이 있는 단백질의 종류나 관련성을 표시하는 문장내 패턴의 다양성을 수용하기 위하여 개발하는 시스템의 확장성을 높이는 것도 소프트웨어 공학적인 측면에서 중요한 이슈이다 이 논문의 목적은 생물학적 내용을 담고 있는 연구논문으로부터 단백질간의 상호작용을 추출하는 확장성을 가진 텍스트 마이닝 기법을 제안하는데 있다.

  • PDF

A Text Classification System based on a Supervised Learning Algorithm (교사학습 알고리즘을 이용한 텍스트 분류 시스템)

  • 김진상;성정호;김성주
    • Proceedings of the Korea Database Society Conference
    • /
    • 1998.09a
    • /
    • pp.421-430
    • /
    • 1998
  • 지식경영을 위한 다양한 대상 업무중에서 텍스트 데이터의 마이닝은 특히 중요하다. 그 이유는 텍스트 데이터가 양적인 면에서 가장 풍부하고, 또 발견할 수 있는 지식을 가장 많이 포함하고 있기 때문이다. 본 논문에서는 텍스트 데이터베이스에서 지식발견을 위한 한 과정으로 텍스트 데이터베이스 내의 텍스트들을 분류하는 기법을 기술한다. 특히 문서 분류 방법은 데이터베이스의 일부 데이터를 훈련, 예제로 간주하여 교사 학습 알고리즘을 통해 학습한 후 나머지 데이터를 이용해 분류 정확성을 검증 및 향상시킨다. 시험 데이터로는 인터넷의 뉴스그룹의 기사를 이용하였고, 시험 결과 분류의 정확성은 한글 및 영문 모두 최소 70% 이상으로 나타났다.

  • PDF

Mobile Phone Camera Based Scene Text Detection Using Edge and Color Quantization (에지 및 컬러 양자화를 이용한 모바일 폰 카메라 기반장면 텍스트 검출)

  • Park, Jong-Cheon;Lee, Keun-Wang
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.11 no.3
    • /
    • pp.847-852
    • /
    • 2010
  • Text in natural images has a various and important feature of image. Therefore, to detect text and extraction of text, recognizing it is a studied as an important research area. Lately, many applications of various fields is being developed based on mobile phone camera technology. Detecting edge component form gray-scale image and detect an boundary of text regions by local standard deviation and get an connected components using Euclidean distance of RGB color space. Labeling the detected edges and connected component and get bounding boxes each regions. Candidate of text achieved with heuristic rule of text. Detected candidate text regions was merged for generation for one candidate text region, then text region detected with verifying candidate text region using ectilarity characterization of adjacency and ectilarity between candidate text regions. Experctental results, We improved text region detection rate using completentary of edge and color connected component.

Text Region Detection using Feature of Adaptive Character-Edge Map in Natural Images (자연영상에서 적응적 문자-에지 맵 특징을 이용한 텍스트 영역 검출)

  • Park, Jong-Cheon;Hwang, Dong-Guk;Lee, Woo-Ram;Jun, Byoung-Min
    • Proceedings of the KAIS Fall Conference
    • /
    • 2007.05a
    • /
    • pp.181-184
    • /
    • 2007
  • 자연영상에 포함된 텍스트는 많은 중요한 정보를 포함하고 있으므로 자연영상에서 텍스트 정보를 검출하는 연구가 활발히 진행되고 있다. 본 논문에서는 문자 영역의 구조적인 특정을 배열문법으로 정의한 적응적 문자-에지 맵을 제안하여 텍스트 영역을 검출한다. 캐니-에지 검출기로 에지를 추출하고, 생성된 에지 이미지를 레이블링하고 그 영역의 문자구조 특징을 분석하기 위해서 적응적 문자-에지 맵을 분석한다. 적응적 문자-에지 랩의 분포 상태를 분석함으로서 텍스트 후보 영역을 검출하고, 텍스트 영역의 에지 히스토그램 프로파일을 분석함으로서 텍스트 후보 영역에 대한 검증을 수행하여 최종적인 텍스트 영역을 검출한다. 제안한 방법은 다양한 종류의 자연영상을 대상으로 실험하였고, 기울어진 텍스트와 다양한 크기의 텍스트 구성된 자연영상에서 텍스트 영역을 효과적으로 검출하였다.

  • PDF

A Study on Feasibility of Full-text Search Using Super-structure of Text (텍스트의 상부구조를 이용한 전문탐색 기법의 타당성 고찰)

  • 이병기
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1996.08a
    • /
    • pp.19-22
    • /
    • 1996
  • 본 연구는 전문 D/B의 본문 필드를 텍스트 언어학적 상부구조로 분할하고 태그를 부여함으로써 이용자의 목적이나 상황에 따라서 필요한 부분만을 검색할 수 있는 전문탐색기법의 타당성을 고찰하였다. 한 문헌은 다수의 텍스트 단위로 구성되며, 이 텍스트는 의사소통이나 인지과정의 기본 단위로써 문헌 전체를 통괄하는 상부구조에 의해 연결된다. 상부구조는 텍스트의 생성과 이해에 중요한 매개체 역할을 하며, 정보요구의 상황이나 목적과 밀접하게 관련되어 있음을 밝히고 정보검색시스템의 주요 대상인 학술문헌의 상부구조를 고찰하였다.

  • PDF

Text Region Detection Using Connected Component Feature in Mobile Phone Images (모바일폰 영상에서 연결요소 특징을 이용한 텍스트 영역 검출)

  • Gwon, Gyo-Hyeon;Park, Jong-Cheon;Jun, Byoung-Min
    • Proceedings of the KAIS Fall Conference
    • /
    • 2012.05b
    • /
    • pp.716-718
    • /
    • 2012
  • 본 논문에서는 모바일 폰으로 획득한 영상의 텍스트영역 검출을 제안한다. 최근 모바일 폰을 이용한 영상기반 응용 분야의 연구가 활발히 진행되고 있으며, 특히 영상에서 텍스트를 인식하기 위한 전단계로 텍스트 영역 검출은 중요하다. 본 논문은 텍스트 영역 검출을 위해 먼저, 컬러 영상을 입력 받아 그레이 이미지로 변환하여 영상내에 내포된 잡음을 제거하고 열림/닫힘 연산의 특징을 이용해 각 연결요소를 검출하고 검출된 요소들을 레이블링 한다. 레이블링 된 영상은 텍스트가 갖는 특정 조건에 의해 텍스트 영역인지 텍스트 영역이 아닌지를 검출하고 검출된 텍스트 영역은 검증을 통해 최종 텍스트 영역을 검출한다. 제안한 방법은 기존의 택스트 영역 겁출보다 정확도가 향상할 수 있다.

  • PDF

Korean and English Text Image Super-Resolution for Improving Text Recognition Accuracy (텍스트 인식률 개선을 위한 한글 및 영어 텍스트 이미지 초해상화)

  • Kwon, Junhyeong;Cho, Nam Ik
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.11a
    • /
    • pp.72-75
    • /
    • 2022
  • 야외 환경을 카메라로 촬영한 일반 영상에서 텍스트 이미지를 검출하고 인식하는 기술은 로봇 비전, 시각 보조 등의 기반이 되는 기술로 활용될 수 있어 매우 중요한 기술이다. 하지만 저해상도의 텍스트 이미지의 경우 텍스트 이미지에 포함된 노이즈나블러 등이 더 두드러지기 때문에 텍스트 내용을 인식하는 것이 어렵다. 이에 본 논문은 일반 영상에서의 저해상도 한글 및 영어 텍스트에 대한 이미지 초해상화를 통해 텍스트 인식 정확도를 개선하였다. 트랜스포머에 기반한 모델로 한글 및 영어 텍스트에 대한 이미지 초해상화를 수행하였으며, 영어 및 한글 데이터셋에 대해 제안한 초해상화 방법을 적용했을 때 그렇지 않을 때보다 텍스트 인식 성능이 개선되는 것을 확인하였다.

  • PDF