• 제목/요약/키워드: 데이터 연관

검색결과 1,883건 처리시간 0.033초

서열 분석을 위한 연관 규칙 탐사 (Association Rule Discovery for Sequence Analysis)

  • 김정자;이도헌
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.91-93
    • /
    • 2001
  • 최근 지놈(Genome) 프로젝트를 통해 핵산, 단백질 서열 정보가 밝혀짐에 따라 분자 수준의 유전자 정보를 다루는 기법들이 활발히 연구되면서 방대한 서열 정보를 데이터 베이스화하고, 부족하기 위한 효과적인 도구와 컴퓨터 알고리즘의 개발을 필요로 하고 있다. 본 논문에서는 여러 단백질에 공통적으로 존재하는 서열 정보간에 존재하는 연관성을 탐사하기 위한 서열 연관 규칙 알고리즘을 제안한다. 원자 항목을 취급하였던 기존 알고리즘과는 달리 중복을 반영해야 하는 서열 데이터의 특성을 고려하여야 한다. 실험을 단백질 서열 데이터를 대상으로 수행하였다. 먼저 여러 서열에 빈발하게 발생하는 부 서열 집합을 찾고, 부 서열 집합들간에 존재하는 관련성을 탐사한다. 본 연구의 결과는 탐사된 규칙으로부터 다른 단백질의 구조와 기능을 예측할 수 있고, 이 정보는 필요로 하는 생물학적 분석을 방향을 제시할 것이다. 이는 생물학적 실험 대상의 후부조합을 최소화함으로써 많은 시간과 노력 비용을 절감할 수 있다.

  • PDF

빈발 항목집합 추출을 위한 알고리즘 (Algorithm for Extraction of Large itemsets)

  • 채덕진;황부현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.117-120
    • /
    • 2000
  • 데이터 마이닝이란 대량의 실제 데이터로부터, 이전에 잘 알려지지는 않았지만, 잠재적으로 유용한 정보를 추출하는 작업이라 정의한다. 데이터 마이닝 기술 중에서 현재 가장 활발하게 연구되고 있는 것들 중의 하나가 연관 규칙 탐사이다. 연관 규칙이란 어떤 사건이 일어나면 다른 사건이 일어나는 관련성을 의미한다. 기존의 연관 규칙을 발견하기 위한 알고리즘들은 k-빈발 항목집합을 추출하기 위하여 k-후보 항목집합의 개수를 줄이거나 데이터베이스의 크기를 줄이는데 많은 연구가 이루어져 오고 있다. 본 논문에서는 상대적으로 많은 후보 항목집합의 데이터베이스 스캔을 통하여 추출되는 2-빈발 항목집합은 해쉬 기법을 사용하여 추출하고 k(k>2)-빈발 항목집합은 데이터베이스를 전처리하여 트랜잭션의 길이에 따라 두 개의 트랜잭션 집합으로 분리하고 분리된 데이터베이스에 다른 알고리즘을 사용하여 빈발 항목집합을 찾는 알고리즘을 제안한다. 그리고 성능 평가를 통하여 제안하는 방법의 성능 및 타당성을 보인다.

  • PDF

대용량 데이터베이스에서 클러스터링을 이용한 빈발 패턴 생성 (Creation of Frequent Patterns using Clustering in Large Database)

  • 김의찬;황병연
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.100-102
    • /
    • 2005
  • 데이터베이스에 저장되어 있는 데이터들을 통해서 의미있는 정보를 찾는 것이 데이터 마이닝이다. 많은 데이터 마이닝 기법들 중에 연관규칙을 다루는 연구가 많이 이루어지고 있다. 연관규칙 기법도 다양하게 연구되고 있는데 그 중 빈발 패턴 트리(FP-Tree)라는 방법을 이용하여 빈발 패턴을 찾아내는 연구가 활발히 진행되고 있다. 빈발 패턴 트리는 기존에 잘 알려져있는 연관규칙 생성 기법인 Apriori 기법보다 우수한 성능을 가지는 방법이다. 그러나 빈발 패턴 트리도 몇가지 문제점을 가지고 있다. 본 논문에서는 빈발 패턴 트리의 문제점 중 하나인 과도한 FP-Tree 생성을 줄이려 한다. 조건부 패턴 베이스를 통해 얻어지는 조건부 FP-Tree의 생성을 줄여 기존의 FP-Tree보다 더 나은 성능을 얻기 위해서 적절한 클리스터링을 이용하려 한다. 클러스터링 기법은 비트 트랜잭션을 이용한 클러스터링 방법을 이용한다.

  • PDF

수량 연관규칙 생성을 위한 데이터의 지역성을 고려한 효과적인 알고리즘 제안 (An Efficient Algorithm Using the locality of Data for Mining Quantitative Association Rules)

  • 이혜정;박원환;박두순
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 춘계학술발표대회논문집
    • /
    • pp.126-129
    • /
    • 2003
  • 최근 대용량의 데이터베이스로부터 연관규칙을 발견하여 이를 활용하는 단계에서 이러한 연관규칙을 수량항목에도 적용할 수 있도록 확장하는 연구가 소개되고 있다. 본 논문에서는 수량 항목을 이진항목으로 변환하기 위하여 빈발구간 항목집합(Large Interval Itemsets)을 생성할 때 수량 항목이 특정 영역에 집중하여 발생하거나 골고루 분포되어 있지 않은 경우, 이러한 지역성(locality)을 고려하여 빈발구간 항목집합을 생성하는 방법을 제안한다. 이 방법은 기존의 방법보다 많은 수의 세밀한 빈발구간 항목들을 생성할 수 있을 뿐만 아니라 의미 있는 구간을 중심으로 빈발구간 항목들이 순서대로 생성되기 때문에 세밀도를 판단하여 활용할 수 있으며, 원 데이터가 가지고 있는 특성의 손실을 최소화할 수 있는 특징이 있다 또한 인구센서스등 실 데이터를 사용한 성능평가를 통하여 기존의 방법보다 우수함을 보였다.

  • PDF

웹 로그에 대한 온라인 연관 규칙 기법 (Online Association Rule Technique for Web Access Log)

  • 박은주;권혜련;김은주;이일병
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 춘계학술발표논문집 (상)
    • /
    • pp.333-336
    • /
    • 2001
  • 본 논문에서는 웹에서 온라인상으로 발생되는 기록 데이터들의 연관 규칙을 구성할 수 있는 효과적인 기법을 제안하고 있다. 기본적으로, 온라인상에서 연관 규칙을 추출하는 방법은 Carma 알고리즘을 바탕으로 하였기 때문에 최대 데이터의 scan 회수를 2회로 유지하였다. 각 사용자가 방문한 웹 사이트의 수에 대하여 정규 분포를 따르는 가중치를 Phase I 알고리즘의 지지도 관련 변수에 영향을 줌으로써, lattice 의 크기를 조절하는 요소로 사용하여 처리 시간을 단축시키고 있다. 기존의 Carma 알고리즘과 제안하는 W-Carma(Weighted-Carma) 알고리즘과 처리 시간을 비교하였으며, 대량의 데이터일 경우 좋은 성능을 보이고 있다.

  • PDF

인공지능 서비스 로봇 시장의 동향 (Artificial Intelligence Service Robot Market Trend)

  • 황의철
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제63차 동계학술대회논문집 29권1호
    • /
    • pp.111-112
    • /
    • 2021
  • 로봇은 인공지능(AI) 기술을 비롯해 빅데이터, 센서기술, 클라우드 등 다양한 신 분야의 축적된 기술력과 노하우를 필요로 한다. 코로나 19 여파로 비대면 서비스에 대한 수요가 증가하고 정보통신기술이 발전되고 있는 가운데 청소용, 잔디 깎기, 가사용, 동반자, 엔터테인먼트 및 레저용, 노약자 및 장애인 지원 로봇 등 우리생활 주변에서도 서비스 로봇이 빠르게 도입되고 있다. 본 논문에서는 최근 3년간(2018.1~2020.12) 중앙지, 경제지 등 54개 언론사 기사를 빅카인즈와 데이터랩을 이용하여 서비스 로봇&인공지능을 키워드로 관계도 분석, 키워드 트렌드, 연관어 분석을 하였다. 연관어 키워드 빈도수로는 인공지능(534), LG전자(157), 드론(112), 자율주행(101), 빅데이터(81), 로보티즈(61), 사물인터넷(34) 순으로 서비스 로봇의 성장은 인공지능을 비롯한 4차 산업혁명 관련 기술과 연관성이 매우 컸다. 2016년~2020년 기간에 산업용 로봇은 1.89배 증가했으며, 서비스 로봇은 5.21배 증가하여 서비스 로봇의 수요가 다양한 분야에서 확산됨을 확인할 수 있었다.

  • PDF

감성대화 말뭉치로 보는 청소년의 문제 도출 (Identifying issues facing youth through emotional dialogue corpus)

  • 김상민;이병천;우지영
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제65차 동계학술대회논문집 30권1호
    • /
    • pp.331-332
    • /
    • 2022
  • 현대사회에서는 다양한 방법, 통로로 자신들의 의견을 표현하고 또한 감정들을 표출한다. 이렇게 표출된 다양한 문장 및 감정들을 통해 각 연령별로 어떤 문제를 가지고 있는지, 무슨 상황에 놓여있는지 등을 알 수 있다. 본 논문에서는 이렇게 모여진 감성대화 말뭉치를 이용해 청소년들이 문장에서 추출한 단어들과 감정, 상황과 어떠한 연관성을 보이는지 확인해보고자 연구를 진행하였다. 청소년들이 남성의 경우 학교폭력 및 따돌림과 관련한 문제, 여성의 경우 가족관계와 관련한 문제와 연관성이 크다는 것을 확인하였다.

  • PDF

올바른 연관성 규칙 생성을 위한 의사결정과정의 제안 (Decision process for right association rule generation)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권2호
    • /
    • pp.263-270
    • /
    • 2010
  • 데이터마이닝은 방대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 체계적이고도 자동적으로 찾아내는 기법이다. 데이터마이닝의 중요한 목표 중의 하나는 여러 변수들 간의 관계를 발견하고 결정하는 것이다. 연관성 규칙은 항목 집합으로 표현된 트랜잭션에서 각 항목간의 연관성을 반영하는 규칙으로서, 항목 집합간의 관계를 지지도, 신뢰도, 순수 신뢰도 등과 같은 흥미도 측도에 의해 명확히 수치화함으로써 두 개 이상의 항목집합간의 관련성을 표시해주기 때문에 현업에서 많이 활용되고 있다. 본 논문에서는 기존에 많이 활용되고 있는 흥미도 측도인 신뢰도와 순수 신뢰도의 문제점을 보완하여 연관성 규칙을 올바르게 생성하기 위한 새로운 의사결정과정을 제안하고자 한다. 본 논문에서 제안하는 의사결정과정은 특히 스트리밍 데이터베이스에서의 연관성 규칙을 탐색하는 데 효율적이다.

형식개념분석기법을 이용한 사용자 질의 기반의 연관관계 추출 자동화지원도구의 개발 (On Development of an Automatic Tool for Extracting Association Rules of a user query using Formal Concept Analysis)

  • 김응희;황석형;김홍기
    • 정보처리학회논문지D
    • /
    • 제15D권3호
    • /
    • pp.429-440
    • /
    • 2008
  • 형식개념분석기법(Formal Concept Analysis)은, 주어진 데이터로부터 공통속성을 갖는 객체들을 개념단위로 추출, 계층화하여 데이터에 내재된 개념들의 구조를 가시화 해주는 데이터분석기법으로써, 최근 다양한 분야에서 응용되고 있다. 본 연구에서는, 형식개념분석기법을 토대로, 사용자의 질의에 대한 함의관계(Implication)와 연관관계(Association rule)에 관한 정보추출과, 추출된 제반 정보들을 구조화하여 가시적으로 표현하기 위한 기법을 제안하고, 이를 지원하기 위하여, 함의/연관관계 추출 및 가시화 지원도구인 QAG-Wizard를 개발하였다. 본 연구결과는, 주어진 데이터의 속성을 기반으로 하는 사용자의 질의에 대하여, 데이터에 내재되어 있는 관계정보를 보다 다양하게 추출하고 직관적으로 표현 가능하므로, 데이터분석과 마이닝 뿐만 아니라, 질의기반의 정보검색분야 등에서 다양한 목적에 맞추어 활용될 수 있다.

병렬처리를 이용한 효율적인 수량 연관규칙 (Efficient Quantitative Association Rules with Parallel Processing)

  • 이혜정;홍민;박두순
    • 한국멀티미디어학회논문지
    • /
    • 제10권8호
    • /
    • pp.945-957
    • /
    • 2007
  • 수량 연관규칙은 대량의 데이터베이스에 존재하는 데이터 중 수량적 속성이 강한 데이터를 항목으로 만들어 이진 연관규칙에 적용한다. 만약 중요한 의미를 내포하는 수량 데이터의 정의역 범위가 넓을 경우 정의역을 최소지지도에 만족하는 적정 구간으로 분할하여 빈발구간 항목을 생성하는 작업이 필요하다. 이러한 빈발구간 항목은 어떻게 생성되었느냐에 따라 생성된 규칙의 신뢰도에 큰 영향을 미치게 된다. 따라서 본 논문에서는 빈발구간 항목을 효율적으로 생성하는 방법을 제시한다. 본 논문에서 제안하는 방법은 기존 방법들에 비해 의미가 있는 구간을 분실하지 않고 최소지지도에 근접하는 세밀한 빈발구간을 생성하기 때문에 데이터가 가진 특성의 손실을 최소화할 수 있는 효율적인 방법이다. 또한 병합이 불필요한 곳에서는 병합을 시도하지 않고 빈도가 높은 구간만을 취해 병합하므로 수량의 정의역이 넓을 경우 기존 방법에 비해 실행속도가 월등히 빠른 효율적인 방법이다. 그리고 인구센서스와 같은 실제로 사용되는 데이터를 이용하여 클루닉스 HPC 시스템에서 병렬처리 수행을 통하여 제안 방법이 우수함을 보였다.

  • PDF