• 제목/요약/키워드: 데이터 추출

검색결과 6,310건 처리시간 0.032초

XML 데이터의 효율적인 DTD 추출 (An Efficient Technique for Extracting DTD from XML Data)

  • 양은주;박경현;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.97-100
    • /
    • 2000
  • 기존의 데이터를 인터넷상에서 XML 데이터 형태로 전송 시 부하를 줄이기 위해 DTD가 없는 형태로 전송하지만, 전송 받은 XML 데이터에 대한 저장 및 질의처리를 최적화하기 위해서는 DTD 추출이 필요하다. 따라서 이 논문에서는 반구조적 데이터의 특징을 갖는 XML 데이터에 대한 DTD를 추출하기 위해 기존의 데이터로그(DataLog)를 이용하여 반구조적 데이터의 최소 경계 스키마를 추출하는 방법보다 향상된 방법인 시뮬레이션을 이용한 최소 경계 스키마 추출 방법을 제시함으로써 보다 효율적인 DTD 추출을 가능하게 하는 방범을 제시한다.

  • PDF

LiDAR 데이터를 이용한 차량정보 추출에 관한 연구 (A Study on the extraction of vehicle information using LiDAR data)

  • 권승준
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2009년도 춘계학술대회 논문집
    • /
    • pp.350-353
    • /
    • 2009
  • 본 논문에서는 국토모니터링 기술의 한 부분으로서 도로 지역에 대한 효율적인 실시간 교통모니터링을 위해 도로상의 차량 정보를 LiDAR 데이터로부터 취득하는 과정을 실험하였다. 도로영역의 데이터를 추출하기 위해서 좌표 변환된 수치지도와 LiDAR 데이터를 이용하였고, 국지적 임계치 필터링을 사용하여 추출된 도로영역의 데이터를 차량과 도로의 자료로 분리시키는 작업을 수행하였으며, 추출된 차량의 포인트들을 이용하여 차량을 표현할 수 있는 기본 속성값을 추출하였다. 마지막으로, 분리된 차량의 포인트에 대해서 MDC(Minimum Distance Classification) 클러스터링를 이용하여 차량의 종류를 분류하였다. 결과적으로 본 연구를 통하여 차량인식과 차량의 종류에 대한 분류를 수행할 수 있음을 확인하였다.

  • PDF

오류 데이터로부터의 데이터 품질 메트릭의 정립 (Establishing Data Quality Metric from Dirty Data)

  • 김수경;최병주
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.409-411
    • /
    • 2000
  • 소프트웨어 제품의 품질을 보증하는 일은 매우 중요하며, 국제 표준인 ISO/IEC9126은 소프트웨어 품질 특성 및 측적 메트릭 표준을 제공하고 있다. 이때 ISO/IEC 9126에서는 소프트웨어를 프로그램, 절차, 규칙 및 관련문서로 한정하고 있기 때문에 데이터의 품질에는 적용할 수 없다. 본 논문에서는 데이터 품질 평가 및 제어를 위하여 오류 데이터 형태를 분류하고, 이를 기반으로 데이터 품질 특성을 추출한다. 추출된 데이터 품질 특성을 측정하기 위해, 오류 데이터를 품질 속성으로 하는 데이터 품질 특성을 추출한다. 본 논문에서 제시하는 데이터 품질 메트릭은 지식 공학(knowledge engineering) 시스템이 최종 사용자에게 제공하는 데이터나 지식의 품질 측정 및 제어에 기준이 된다.

  • PDF

RNA 시퀀싱 데이터를 이용한 병렬 SNP 추출 알고리즘 (A parallel SNP detection algorithm for RNA-Seq data)

  • 김덕근;이덕해;공진화;이은주;윤지희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1260-1263
    • /
    • 2011
  • 최근 차세대 시퀀싱 (Next Generation Sequencing, NGS) 기술이 발전하면서 DNA, RNA 등의 시퀀싱 데이터를 이용한 유전체 분석 방식에 관한 연구가 활발히 이루어지고 있다. 차세대 시퀀싱 데이터를 이용한 유전체 분석 방식은 마이크로어레이 혹은 EST/cDNA 데이터를 이용한 기존의 분석 방식에 비하여 비용이 적게 들고 정확한 결과를 얻을 수 있다는 장점이 있다. 그러나 이 들 DNA, RNA 시퀀싱 데이터는 각 시퀀스의 길이가 짧고 전체 용량은 매우 커서 이 들 데이터로부터 정확한 분석 결과를 추출하는 데에 많은 어려움이 있다. 본 연구에서는 클라우드 컴퓨팅 기술을 기반으로 하여 대용량의 RNA 시퀀싱 데이터를 고속으로 처리하는 병렬 SNP 추출 알고리즘을 제안한다. 전체 게놈 데이터 중 유전자 영역만을 high coverage로 시퀀싱하여 얻어지는 RNA 시퀀싱 데이터는 유전자 변이 추출을 목적으로 분석되며, SNP(Single Nucleotide Polymorphism)와 같은 유전자 변이는 질병의 원인 규명 및 치료법 개발에 직접 이용된다. 제안된 알고리즘은 동시에 실행되는 다수의 Map/Reduce 함수에 의해서 대규모 RNA 시퀀스를 병렬로 처리하며, 레퍼런스 시퀀스에 매핑된 각 염기의 출현 빈도와 품질점수를 이용하여 SNP를 추출한다. 또한 이 들 SNP 추출 결과에 대한 시각적 분석 도구를 제공하여 SNP 추출 과정 및 근거를 시각적으로 확인/검증할 수 있도록 지원한다.

웹 로그(WEB LOG) 데이터 분석 방법에 관한 연구 (Web Log Data Analysis)

  • 김석기;안정용;한경수
    • 응용통계연구
    • /
    • 제14권2호
    • /
    • pp.261-271
    • /
    • 2001
  • 정보 공유와 비즈니스 수행 등의 매체로서 World Wide Web의 이용이 보편화됨에 따라 다양하고 방대한 데이터를 웹을 통하여 얻을 수 있게 되었으며, 이러한 데이터로부터 유용한 정보를 추출하기 위한 데이터 분석과 활용은 많은 분야에서 중요한 사안으로 인식되고 있다. 본 연구에서는 웹 로그(web log)데이터로부터 정보를 추출하기 위한 과정 및 방안에 대해 살펴보고자 한다. 로그 데이터의 특징과 통계 데이터와의 차이점, 데이터 수집 및 사전 처리 과정, 추출할 수 있는 정보 및 분석 방법 등을 제시하고 로그 데이터 분석 예제를 제시한다.

  • PDF

적응적 상관도를 이용한 주성분 분석에 관한 연구 (A Study on PCA using Adaptive Correlation)

  • 고명숙
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.13-14
    • /
    • 2020
  • 고차원의 데이터를 처리하기 위해서는 데이터의 성질을 유지하면서 특징을 잘 반영할 수 있는 특징 추출 방법이 필요하며 주성분분석 방법은 대표적인 특징 추출 방법이다. 본 연구에서는 데이터가 고차원인 경우 데이터 특징 추출을 위한 주성분 분석의 주성분 변수 선정시 적응적 상관도(Correlation)를 기반으로 한 주성분 분석 방법을 제안한다. 제안하는 방법은 입력 데이터간의 상관관계를 기반으로 상관도를 적응적으로 반영하여 데이터의 주성분을 분석함으로써 실제 데이터의 특징을 나타내는 세분화 변수 선정 시 데이터 편향성의 영향을 줄이기 위한 방법이다.

데이터 집합을 이용한 고유명사 추출 (Proper Noun Extraction Using Data Sets)

  • 김태현;이현숙;하유선;이만호;맹성현
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.11-18
    • /
    • 2000
  • 본 논문에서는 한국어 고유명사의 특징에 대해 살펴보고, 이를 기반으로 문서로부터 고유명사를 추출하기 위한 기본 모델을 제안한다. 고유명사는 문서의 내용을 대표하는데 주도적인 역할을 하기 때문에, 이를 효과적으로 추출해내는 것은 문서의 의미를 보다 정확하게 표현할 수 있는 방법이 될 수 있다. 문서에서 고유명사를 효과적으로 추출할 수 있도록 하기 위해, 본 연구에서는 이름집합, 접사집합, 단서집합을 구성할 수 있는 데이터 수집기 모델과 데이터 집합을 기본으로 이용하여 고유명사를 추출하는 고유명사 추출기 모델을 제안하였다. 그리고, 실제로 이 모델을 적용하여, 회사명과 관련된 데이터를 수집하고, 이를 이용해 문서로부터 회사명을 추출할 수 있도록 하는 시스템을 구현하였다. 구현된 회사명 추출 시스템을 이용해 고유명사 추출 실험을 수행한 결과, 외래어로 이루어진 회사명으로 인한 문제를 제외할 경우 만족할 만한 정확율과 재현율을 얻을 수 있었다.

  • PDF

관계추출 모델 학습을 위한 반자동 패턴 마이닝 (Semiautomatic Pattern Mining for Training a Relation Extraction Model)

  • 최규현;남상하;최기선
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.257-262
    • /
    • 2016
  • 본 논문은 비구조적인 자연어 문장으로부터 두 개체 사이의 관계를 표현하는 구조적인 트리플을 밝히는 관계추출에 관한 연구를 기술한다. 사람이 직접 언어적 분석을 통해 트리플이 표현되는 형식을 입력하여 관계를 추출하는 규칙 기반 접근법에 비해 기계가 데이터로부터 표현 형식을 학습하는 기계학습 기반 접근법은 더 다양한 표현 형식을 확보할 수 있다. 기계학습을 이용하려면 모델을 훈련하기 위한 학습 데이터가 필요한데 학습 데이터가 수집되는 방식에 따라 지도 학습, 원격지도 학습 등으로 구분할 수 있다. 지도 학습은 사람이 학습 데이터를 만들어야하므로 사람의 노력이 많이 필요한 단점이 있지만 양질의 데이터를 사용하는 만큼 고성능의 관계추출 모델을 만들기 용이하다. 원격지도 학습은 사람의 노력을 필요로 하지 않고 학습 데이터를 만들 수 있지만 데이터의 질이 떨어지는 만큼 높은 관계추출 모델의 성능을 기대하기 어렵다. 본 연구는 기계학습을 통해 관계추출 모델을 훈련하는데 있어 지도 학습과 원격지도 학습이 가지는 단점을 서로 보완하여 타협점을 제시하는 학습 방법을 제안한다.

  • PDF

관계추출 모델 학습을 위한 반자동 패턴 마이닝 (Semiautomatic Pattern Mining for Training a Relation Extraction Model)

  • 최규현;남상하;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.257-262
    • /
    • 2016
  • 본 논문은 비구조적인 자연어 문장으로부터 두 개체 사이의 관계를 표현하는 구조적인 트리플을 밝히는 관계추출에 관한 연구를 기술한다. 사람이 직접 언어적 분석을 통해 트리플이 표현되는 형식을 입력하여 관계를 추출하는 규칙 기반 접근법에 비해 기계가 데이터로부터 표현 형식을 학습하는 기계학습 기반 접근법은 더 다양한 표현 형식을 확보할 수 있다. 기계학습을 이용하려면 모델을 훈련하기 위한 학습 데이터가 필요한데 학습 데이터가 수집되는 방식에 따라 지도 학습, 원격지도 학습 등으로 구분할 수 있다. 지도 학습은 사람이 학습 데이터를 만들어야하므로 사람의 노력이 많이 필요한 단점이 있지만 양질의 데이터를 사용하는 만큼 고성능의 관계추출 모델을 만들기 용이하다. 원격지도 학습은 사람의 노력을 필요로 하지 않고 학습 데이터를 만들 수 있지만 데이터의 질이 떨어지는 만큼 높은 관계추출 모델의 성능을 기대하기 어렵다. 본 연구는 기계학습을 통해 관계추출 모델을 훈련하는데 있어 지도 학습과 원격지도 학습이 가지는 단점을 서로 보완하여 타협점을 제시하는 학습 방법을 제안한다.

  • PDF

비연계 DB 테이블상에서의 데이터 추출을 위한 규칙 기반의 데이터 마이닝 기법 (A Rule-Based Data Mining Method among the Unrelated DataBase Table)

  • 김찬일;조대호
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2000년도 추계학술대회 학술발표 논문집
    • /
    • pp.220-224
    • /
    • 2000
  • 데이터 마이닝란 대량의 실제 데이터에서 묵시적이고 잠재적으로 유용한 정보를 추출하는 작업이다. 본 논문에서 서로 관계가 정의되지 않은 데이터베이스의 각 테이블간에서 필요한 정보를 추출 또는 가공하기 위해 데이터 마이닝 기법을 사용한다. 마이닝 기법인 연관 규칙은 어떤 사건이 일어나면 다른 사건이 일어나는 관련성을 의미하는 것이고, 제시된 규칙 기반의 데이터 마이닝 기법은 연관 규칙의 한 분야로서 데이터를 규칙 맞게 분류하는 기법이다. 이런 마이닝 기법을 구현하기 위해 인공지능 분야의 규칙 기반의 전문가 시스템을 사용하였고, 실 시스템인 GDS(Grating automatic Drawing System)에 적용하였다.

  • PDF