• Title/Summary/Keyword: 자동정보 추출

Search Result 1,996, Processing Time 0.03 seconds

Development of Automatic Rule Extraction Method in Data Mining : An Approach based on Hierarchical Clustering Algorithm and Rough Set Theory (데이터마이닝의 자동 데이터 규칙 추출 방법론 개발 : 계층적 클러스터링 알고리듬과 러프 셋 이론을 중심으로)

  • Oh, Seung-Joon;Park, Chan-Woong
    • Journal of the Korea Society of Computer and Information
    • /
    • v.14 no.6
    • /
    • pp.135-142
    • /
    • 2009
  • Data mining is an emerging area of computational intelligence that offers new theories, techniques, and tools for analysis of large data sets. The major techniques used in data mining are mining association rules, classification and clustering. Since these techniques are used individually, it is necessary to develop the methodology for rule extraction using a process of integrating these techniques. Rule extraction techniques assist humans in analyzing of large data sets and to turn the meaningful information contained in the data sets into successful decision making. This paper proposes an autonomous method of rule extraction using clustering and rough set theory. The experiments are carried out on data sets of UCI KDD archive and present decision rules from the proposed method. These rules can be successfully used for making decisions.

Text Categorization Based on Terminology and Information Extraction (전문용어 및 정보추출에 기반한 문서분류시스템)

  • Lee, Kyung-Soon;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.79-84
    • /
    • 1999
  • 본 연구에서는 문서분류시스템에서 자질의 표현으로 전문분야사전을 이용한 분야정보와 개체정보추출을 통한 개체정보를 이용한다. 또한 지식정보를 보완하기 위해 통계적인 방법으로 범주 전문용어를 인식하여 자질로 표현하는 방법을 제안한다. 문서에 나타난 용어들이 어떤 특정 전문분야에 속하는 용어들이 많이 나타나는 경우 그 문서는 용어들이 속한 분야의 문서일 가능성이 높다. 또한, 정보추출을 통해 용어가 어떠한 개체를 나타내는지를 인식하여 문서를 표현함으로써 문서가 내포하는 의미를 보다 잘 반영할 수 있게 된다. 분야정보나 개체정보를 알 수 없는 용어에 대해서는 학습문서로부터 전문분야를 자동 인식함으로써 문서표현의 지식정보를 보완한다. 전문분야, 개체정보 및 범주전문용어에 기반해서 표현된 문서의 자질에 대해서 지지벡터기계 학습에 기반한 문서분류기틀 이용하여 각 범주에 대해 이진분류를 하였다. 제안된 문서자질표현은 용어기반의 자질표현에 비해 좋은 성능을 보이고 있다.

  • PDF

Visualization of Spatial Information using Google Maps API (Google Maps API를 이용한 공간 정보 시각화)

  • Min, Tae-Hong;Lee, Jae Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.187-189
    • /
    • 2015
  • 최근 한국어 문서에서 공간 정보를 자동으로 추출하는 연구가 진행됨에 따라, 이를 응용한 다양한 소프트웨어 개발이 가능해 졌다. 본 논문에서는 문서에서 추출된 공간 정보 중 공간 관계 정보를 Google Maps API를 이용하여 시각화하는 방법에 대해 설명한다. 공간 관계 정보 중, 거리, 방향 등의 정적인 정보와 이동을 나타내는 동적 관계 정보를 표현하였으며, 이런 시각화는 문서에 나타난 공간 정보를 이해하는데 큰 도움을 줄 수 있을 것으로 기대한다.

  • PDF

Clustering Noun Using Syntactic Relations (용언의 구문관계를 이용한 명사 분류)

  • Kim, Hyun-Jin;Park, Se-Young;Jang, Myung-Gil;Park, Jay-Duke;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.111-115
    • /
    • 1997
  • 자연언어를 처리하는 응용시스템에서는 의미적으로 유사한 집합으로 분류된 단어들을 이용하는 것이 필요하다. 특히 한국어에서는 명사마다 함께 쓰이는 용언들이 제한되어 있다. 이 논문에서는 문장에서 용언과 명사의 구문 관계로 추출되는 정보를 이용하여 명사를 분류하는 방법을 제시한다. 또한 실제 코퍼스에서 추출된 명사들을 중심으로 의미적 집합으로 묶는 작업을 하고, 각 의미군마다 특징적인 구문 정보를 적용하여 자동 명사 추출에서 나타나는 모호성 해소에도 이용하였다. 용언의 구문관계 추출은 기존 연구된 용언 하위 분류 연구를 이용하였고, 코퍼스를 통해 얻은 명사와 용언을 이용하여 수정 및 보완하였다. 실험 코퍼스는 1만 문장 가량의 구문 구조가 부착된 코퍼스(Tree Tagged Corpus)를 이용하였다.

  • PDF

A Model for XML Data Conversion with Style Editor (XSL 편집기를 이용한 데이터 변환 모델)

  • Lee, Eun-Jung;Woo, Gyun
    • Annual Conference of KIPS
    • /
    • 2001.10b
    • /
    • pp.1119-1122
    • /
    • 2001
  • XML 데이터의 스타일 편집기 시스템을 이용한 문서의 변환 방법을 소개한다. 스타일 편집을 위한 XSL 정보는 XML 데이터에서 스타일을 적용할 부분을 선택하고 적용할 스타일을 기술하는데, 적용 결과는 원본 XML 문서에서 일부를 추출하는 효과가 된다. 본 논문에서는 이 때 추출되는 XML 문서의 부분을 새로운 문서로 생성하는 XSLT 의 자동 생성 알고리즘을 제안하였다. 이 때 생성된 XSLT 코드에 의해 XML 문서를 변환한 결과가 다음과 같은 성질을 만족함을 보였다. 1) 변환된 결과 문서에 편집의 결과인 XSL 스타일을 그대로 적용할 수 있으며, 2) 결과 문서가 최소한의 노드만을 가진다. 일반적으로 스타일을 적용할 때 원본 XML 문서는 불필요하거나 공개될 수 없는 많은 정보를 포함하고 있다. 본 논문에서 제시된 모델을 실제 문서 전송 시스템에 적용하면 스타일 편집의 결과로 XML 의 필요한 부분만을 추출하는 XSLT 코드와 그 추출 문서에 적용 가능한 XSL 스타일 정보를 생성함으로써 효율적인 전송과 데이터 보호의 목적을 동시에 만족시킬 수 있다.

  • PDF

Car License-Plate Extraction using Color Information and Intensity Vector (색상 정보와 명암 벡터를 이용한 차량 번호판 추출)

  • 권숙연;전병환
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.415-417
    • /
    • 2001
  • 본 논문에서는 주차 단속의 자동화를 위해 입력된 차량 영상으로부터 번호판 영역의 복합 색상 정보와 명암 벡터를 이용하여 번호판 영역을 추출하는 알고리즘을 제안한다. 일반적으로 명암도 영상에서는 번호판 영역의 숫자나 문자와 배경간의 명암도 변화는 뚜렷하게 나타나고, 다른 영역에 비하여 명암벡터의 밀집도가 높다는 특징을 가지고 있다. 이러한 특징을 이용하여, 번호판 영상의 하측 라인부터 명암 벡터의 부호 변화가 임계치 이상으로 나타나고, 자가용 또는 영업용 번호판 색상이 일정 수준으로 검출되는 구간을 번호판 영역으로 검출하고 이를 기준으로 대략 박스를 설정한다. 정교한 번호판 영역은 수직 소벨 에지 영상의 프로젝션으로 추출한다. 제안한 알고리즘을 평가하기 위하여, 다양한 시간과 장소에서 촬영되고 차량 주변의 복잡한 배경이 충분히 포함된 총 100장의 주차 단속 영상을 사용하였다. 실험 결과, 명암벡터와 색상정보를 함께 사용한 제안한 방법 이 명암벡터만을 사용한 방법에 비해 약 10% 향상된 97%의 번호판 추출률을 보였으며, 차량 종류의 자동 구분도 가능하였다.

  • PDF

A Design of Spark Based System for Extracting Hierarchical Relationships from RDB View Definitions (RDB 뷰 정의로부터 상하위 관계를 추출하는 스파크 기반 시스템 설계)

  • Ahn, Jinhyun;Im, Dong-Hyuk;Kim, Hong-Gee
    • Annual Conference of KIPS
    • /
    • 2016.04a
    • /
    • pp.80-81
    • /
    • 2016
  • 기계가 읽을 수 있는 형태의 정보로 구성된 시맨틱웹 환경이 주목을 받고 있다. 온톨로지는 정보를 구조적으로 표현하는 방법론의 일종으로 시맨틱웹에서 중요한 역할을 한다. 사람이 일일이 정보를 처음부터 온톨로지로 만드는 것은 쉽지 않기 때문에 관계형 데이터베이스를 온톨로지로 자동으로 변환하는 연구가 진행되고 있다. 최근 하둡을 활용하여 관계형 데이터베이스의 뷰 정의로부터 상하위 관계를 추출하는 연구가 제안 됐다. 하지만, 하둡은 디스크 기반이기 때문에 속도가 느리다는 단점이 있다. 본 논문에서는 관계형 데이터베이스의 뷰 정의로부터 상하위 관계를 추출하는 과정을 인메모리 분산 처리 시스템인 스파크에서 수행하는 방법을 제안한다. 주어진 뷰 정의에 있는 테이블 이름으로 분산시킨 후 각각에서 독립적으로 상하위 관계를 추출한다.

An Extensible Text Mining Technique for the Extraction of Protein-Protein Interaction (단백질 상호작용 추출을 위한 확장성을 가진 텍스트 마이닝 기법)

  • 이현철;여은주;강희영;조완섭;김학용;유재수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.256-258
    • /
    • 2004
  • 단백질간의 상호작용에 대한 연구는 생물학적 프로세스를 이해하기 위해 중요한 부분이다. 이러한 단백질간의 상호작용에 대한 정보는 주로 생명과학 관련 연구논문에 존재하지만 컴퓨터로 자동으로 처리하여 상호작용에 관안 정보를 추출할 수 있기 위해서는 텍스트 마이닝 기술이 적용되어야 한다 바이오 텍스트 마이닝에서 대두되고 있는 중요한 쟁점은 대용량의 연구논문에서 필요한 정보를 어떻게 효율적으로 정확하게 추출할 것인가에 대한 내용이다. 또한, 관심이 있는 단백질의 종류나 관련성을 표시하는 문장내 패턴의 다양성을 수용하기 위하여 개발하는 시스템의 확장성을 높이는 것도 소프트웨어 공학적인 측면에서 중요한 이슈이다 이 논문의 목적은 생물학적 내용을 담고 있는 연구논문으로부터 단백질간의 상호작용을 추출하는 확장성을 가진 텍스트 마이닝 기법을 제안하는데 있다.

  • PDF

Biomedical Terminology Extraction using Syllable Bigram and CRFs (음절 바이그램과 CRFs를 이용한 의학 전문 용어 추출)

  • Song, Soo-Min;Shin, Junsoo;Kim, Harksoo
    • Annual Conference of KIPS
    • /
    • 2010.04a
    • /
    • pp.505-507
    • /
    • 2010
  • 웹(Web)상에 전문용어를 포함한 문서가 증가함에 따라 전문용어를 자동으로 추출하는 연구가 계속해서 이루어지고 있다. 기존 연구에서는 전문용어를 추출하는 단계에서 대부분 형태소 분석기를 이용한다. 그러나 전문용어의 특성으로 인해 형태소 분석 단계에서 오분석 되는 경우가 발생한다. 이러한 문제를 해결하기 위해서 본 논문에서는 음절 바이그램과 CRFs(Conditional Random Fields)를 이용하여 의학 전문 용어를 추출하는 방법을 제안한다. 네이버 지식인의 의사 답변 문서 2000개로부터 5-fold cross validation을 이용하여 실험하였다. 실험 결과 정확률은 평균 68.91%, 재현율은 평균 71.25%로 나타났으며 F-measure는 70.06%로 나타났다.

Traffic Sign Recognition Using Color Information and Neural Network with Multi-layer Perceptron (컬러정보와 다층퍼셉트론 신경망을 이용한 교통표지판 인식)

  • Bang, Gul-Won;Kang, Dea-Yook;Kim, Byung-Ki;Cho, Wan-Hyun
    • Annual Conference of KIPS
    • /
    • 2007.05a
    • /
    • pp.305-308
    • /
    • 2007
  • 본 논문은 교통표지판을 자동으로 인식하는 방법에 관한 연구로 기존의 교통표지판 인식시스템에서는 인식하는데 걸리는 시간이 길고 잡음환경에서 인식률이 저하되며 변경된 교통표지판은 인식하지 못하는 문제점이 있다. 본 논문에서는 이와 같은 문제점을 해결하기위해 컬러정보를 이용하여 교통표지판 영역을 추출하고 추출된 이미지를 인식하는데 다층퍼셉트론 신경망 알고리즘을 적용하여 교통표지판 인식시스템을 제안한다. 제안된 방법은 교통표지판의 컬러를 분석하여 영상에서 교통표지판 영역을 추출한다. 영역을 추출하는 방법은 RGB 컬러 공간으로부터 YUV, YIQ, CMYK 컬러 공간이 가지는 특성을 이용한다. 형태처리는 교통표지판의 기하학적 특성을 이용하여 군집화한다. 교통표지판 인식은 학습이 가능한 다층퍼셉트론의 오류역전파알고리즘을 적용하여 인식한다. 다층퍼셉트론 신경망 알고리즘은 패턴인식 분야에서 우수한 성능이 입증 되었다.