• 제목/요약/키워드: 데이터 연관

검색결과 1,868건 처리시간 0.04초

프라이버시 보장 k-비트 내적연산 기법 (Privacy-Preserving k-Bits Inner Product Protocol)

  • 이상훈;김기성;정익래
    • 정보보호학회논문지
    • /
    • 제23권1호
    • /
    • pp.33-43
    • /
    • 2013
  • 정보의 양이 많아짐에 따라 많은 양의 정보를 효과적으로 관리, 운용할 수 있는 데이터 마이닝 기법의 연구가 활발해졌다. 다양한 데이터 마이닝 기법들이 연구되었는데 그 중에는 프라이버시를 보호할 수 있는 프라이버시 보호 데이터 마이닝(Privacy Preserving Data Mining) 연구도 진행됐다. 프라이버시 보호 데이터 마이닝은 크게 연관규칙, 군집화, 분류 등의 알고리즘이 존재한다. 그 중 연관규칙 알고리즘은 데이터간의 연관규칙을 찾아내는 알고리즘으로 주로 마케팅에 주로 사용된다. 본 논문에서는 Shamir의 비밀 분배 기법을 이용하여 다자간 프라이버시 보호 데이터 마이닝 환경에서 단일 비트가 아닌 멀티 비트 정보를 공유할 수 있는 내적연산 기법을 제안한다.

LOCK을 확장한 3차원 단백질 구조비교 및 분석시스템의 설계 및 구현 (Comparison and Analyzing System for Protein Tertiary Structure Database expands LOCK)

  • 정광수;한욱;박성희;류근호
    • 정보처리학회논문지D
    • /
    • 제12D권2호
    • /
    • pp.247-258
    • /
    • 2005
  • 단백질의 구조는 단백질의 기능과 밀접한 연관을 가지고 있으며 단백질 구조비교는 단백질의 모티프와 패밀리를 결정하고 나아가서 그들의 기능을 파악하는데 매우 중요한 역할을 한다. 이 논문에서는 단백질 구조데이터 및 관련된 문헌 데이터의 통합된 데이터베이스를 구축하고 웹 환경에서 질의된 단백질과 유사성 비교를 진행하여 그 결과 및 연관된 문헌데이터를 검색하여 체계적으로 정보를 제공하는 단백질 분석시스템을 제안한다. 제안 시스템을 구축하기 위하여 현재까지 가장 큰 단백질 구조데이터의 저장소인 Protein Data Bank의 플랫파일 데이터에 대해 분석을 진행하고 여기에서 단백질의 구조비교 알고리즘에 필수적인 구조데이터정보를 추출하여 새로운 구조비교에 사용되는 엔트리 플랫 파일을 만들어서 데이터베이스를 구축한다 이러한 엔트리에 연관된 분석정보 데이터는 데이터베이스 스키마를 작성하여 문헌정보 데이터베이스를 구축한다. 따라서 사용자가 인터넷을 통하여 진행한 질의는 구조비교엔진을 통하여 유사부분과 RMSD값이 계산되고 이와 연관된 문헌정보의 검색이 진행된 후 체계적으로 출력화면에 보여준다. 제안 시스템은 기존의 구조비교시스템보다 빠른 검색을 지원하고 더 훌륭한 분석환경을 제공한다.

데이터 스트림 환경에서 효율적인 빈발 항목 집합 탐사 기법 (A Method for Frequent Itemsets Mining from Data Stream)

  • 서복일;김재인;황부현
    • 정보처리학회논문지D
    • /
    • 제19D권2호
    • /
    • pp.139-146
    • /
    • 2012
  • 데이터 마이닝은 다양한 분야에서 축적된 데이터로부터 필요한 지식을 탐사하기 위하여 널리 이용되고 있다. 연관규칙을 탐사하기 위하여 이벤트의 빈발 횟수에 기반을 둔 많은 방법들이 존재하지만, 이들은 이벤트가 연속적으로 발생하는 스트림 환경에는 적합하지 않다. 또한 실시간으로 연관규칙을 탐사해야 하는 스트림 환경에 적용하기에는 많은 비용이 든다. 이 논문에서는 스트림 환경에서 연관규칙을 탐사하기 위한 새로운 방법을 제안한다. 제안하는 방법은 데이터 스트림에서 목적 이벤트의 발생 간격에 따른 가변 윈도우로부터 이벤트의 존재 유무에 근거한 COBJ(Count object) 계산법을 이용하여 데이터 항목을 추출한다. 추출된 데이터는 FPMDSTN(Frequent Pattern Mining over Data Stream using Terminal Node) 알고리즘을 통해 실시간으로 연관규칙을 탐사한다. 실험 결과를 통해 제안하는 방법이 기존의 방법에 비해 스트림 환경에 효율적임을 보인다.

전자상거래에서 연관규칙을 이용한 추천 시스템의 설계 및 구현 (Design of recommendation system using association rule in e-Commerce)

  • 오재영;전종훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.121-123
    • /
    • 2004
  • 본 논문은 데이터 마이닝에서 사용되는 연관규칙(Association Rule)을 활용하여 고객에게 상품을 추천하는 방법을 제안한다. 일반적으로 한명의 고객에 대하여 적용할 수 있는 연관규칙의 개수가 한 개 이상이 될 수 있다는 가정하에, 고객과 연관규칙과의 적합성 여부를 값으로 나타내는 방안을 고안하고 이를 이용하여 고객에 대한 연관규칙의 순위를 부여하는 방식을 연구한다. 또한 상품 추천 시 범위 값을 가지는 속성을 고려하여 상품을 추천하도록 하는 방법을 제안하고 이 방법의 타당성과 타 방식과의 비교우위를 실험을 통하여 검증한다.

  • PDF

흥미도 측도 관점에서 상대적 인과 강도의 고찰 (A study on the relatively causal strength measures in a viewpoint of interestingness measure)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권1호
    • /
    • pp.49-56
    • /
    • 2017
  • 빅 데이터를 분석하기 위한 기법 중에서 연관성 규칙은 여러 가지 연관성 평가 기준을 이용하여 항목들 간에 연관성 유무를 탐색하는 기법이다. 이러한 연관성 규칙 기법은 규칙의 생성 방향에 따라 정과 부, 그리고 역의 연관성 규칙 등이 있다. 본 논문에서는 여러 가지 상대적 인과 강도를 흥미도 측도의 관점에서 어떤 유형의 연관성 규칙에 적용 가능한 지를 탐색하는 동시에 기존의 기본적인 평가측도 증에서 여러 가지 유형의 신뢰도들과의 관계를 규명하고자 하였다. 그 결과, 후항변수가 발생할 비율이 0.5 이상이면 Good이 제안한 측도 ($RCS_{IJ1}$)가 Lewis가 제안한 측도 ($RCS_{LR1}$) 보다 값의 변화폭이 더 크므로 $RCS_{IJ1}$이 더 바람직한 측도가 되며, 그 비율이 0.5 미만이면 $RCS_{LR1}$이 더 바람직하다고 할 수 있다.

단백질 구조 예측을 위한 서열 연관 규칙 탐사 (Discovering Sequence Association Rules for Protein Structure Prediction)

  • 김정자;이도헌;백윤주
    • 정보처리학회논문지D
    • /
    • 제8D권5호
    • /
    • pp.553-560
    • /
    • 2001
  • 바이오정보학(bioinformatic)은 생물학 분야 특히 분자 수준의 유전체 연구에서 발생하는 데이터를 저장, 관리, 분석하여 실험 프로젝트를 지원함은 물론, 기능 예측 및 조절에 대한 실험 설계를 가능하게 하는 제반 컴퓨터 기술을 의미한다. 유전체 연구의 다양한 접근 방식 중 단백체학(proteomics)는 유전체의 최종 산물인 단백질을 직접적으로 다룬다는 측면에서 그 효용성에 대해 많은 기대를 모으고 있다. 본 논문에서는 단백질의 기능을 결정하는 가장 중요한 요소 중 하나인 단백질의 구조를 예측하기 위한 데이터 마이닝 기법을 제안한다. 단백질의 일차 구조인 아미노산 서열에 타나나는 부서열간의 연관성이 해당 단백질의 이차 혹은 삼차 구조를 결정하는 중요한 단서임을 설명하고, 아미노산 부서열간의 연관성을 표현하기 위한 모델로서 서열 연관 규직을 정의한다. 서열 연관 규칙의 유용성을 평가하기 위한 지지도와 신뢰도를 새롭게 정의하고, 주어진 단백질 집단으로부터 유용한 서열 연관 규칙을 발견하기 위한 기법을 제안한다. 아울러, SWISS-PROT 단백질 데이터베이스로부터 입수한 단백질 서열 데이터를 이용하여 제안한 기법의 성능을 평가한다.

  • PDF

동시 비 발생 빈도를 고려한 유사성 측도의 연관성 규칙 평가 기준 활용 방안 (Association rule thresholds of similarity measures considering negative co-occurrence frequencies)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권6호
    • /
    • pp.1113-1121
    • /
    • 2011
  • 최근 여러 분야에서 다양한 데이터 마이닝 방법들을 현업에 적용하고 있는 추세이다. 가장 많이 활용되고 있는 데이터 마이닝 기법 중의 하나인 연관성 규칙은 대용량 데이터베이스에 내재되어 있는 항목들 간의 관련성을 수치화하여 그들 간의 연관 정도를 나타내는 기법이다. 의미 있는 연관성 규칙을 생성하기 위해 지지도, 신뢰도, 향상도 등의 측도가 가장 기본적으로 활용되고 있다. 본 논문에서는 군집 분석이나 다차원 분석법에서 많이 활용되고 있는 유사성 측도들 중에서 동시 비 발생 빈도를 고려한 유사성 측도를 연관성 평가 기준으로 제안한 후, 예제를 통하여 기존의 신뢰도 및 지지도와 비교함으로써 그 유용성을 알아보았다. 모의실험 결과를 종합해볼 때, 동시 발생 빈도 또는 동시 비 발생 빈도가 증가하면 본 논문에서 고려한 모든 유사성 측도들은 지지도 및 신뢰도와 마찬가지로 증가하며, 불일치 계수의 값이 증가하면 이 측도들은 감소하게 된다는 사실을 알 수 있었다. 또한 이들 유사성 측도들은 지지도 및 신뢰도와 매우 유의한 상관관계가 있는 것으로 나타났으며, 전항과 후항이 바뀌더라도 값의 변화가 없기 때문에 신뢰도 보다 더 바람직한 연관성 규칙 평가 기준이라고 할 수 있다.

연관 규칙 마이닝에서의 평가기준 표준화 방안 (Standardization for basic association measures in association rule mining)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권5호
    • /
    • pp.891-899
    • /
    • 2010
  • 연관성 규칙은 방대한 양의 데이터베이스 속에 있는 각 항목들 간의 관련성을 수치화함으로써 두개 이상의 항목간의 관련성을 나타내는 기법으로 데이터 마이닝 분야에서 가장 많이 활용되고 있다. 의미 있는 연관성 규칙을 탐색하기 위한 가장 기본적인 평가기준에는 지지도, 신뢰도, 향상도 등이 있으며, 이들을 이용하여 연관성 규칙을 생성하게 된다. 이 때 사용되는 향상도는 그 값의 범위가 지지도나 신뢰도와는 다르므로 지지도나 신뢰도의 범위를 동일하도록 하기 위해 표준화할 필요가 있으며, 지지도와 신뢰도도 하나의 후항변수에 대해 여러 개의 전항변수들이 있는 경우 이들 중 어느 것이 후항변수와 가장 연관성이 있는지를 객관적으로 비교하기 위해서도 표준화가 필요하다. 본 논문에서는 각 항목집합의 주변 발생확률을 고려하여 객관적이고도 정확한 연관성 정도를 파악하기 위해 연관성 평가기준을 표준화하는 방안에 대해 연구하고자 한다. 또한 흥미도 측도의 세 가지 조건의 충족 여부를 점검해 본 후, 구체적인 예제를 통하여 기존의 연관성 평가기준과 표준화된 연관성 평가기준을 비교 분석하고자 한다.

점진적 연관 규칙을 이용한 침입탐지 시스템의 오 경보 패턴 분석 프레임워크 설계 (A design of framework for false alarm pattern analysis of intrusion detection system using incremental association rule mining)

  • 전원용;김은희;신문선;류근호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.307-309
    • /
    • 2004
  • 침입탐지시스템에서 발생되는 오 경보는 false positive 와 false negative 로 구분된다. false positive는 실제적인 공격은 아니지만 공격이라고 오인하여 경보를 발생시켜 시스템의 효율성을 떨어뜨리기 때문에 false positive 패턴에 대한 분석이 필요하다. 오 경보 데이터는 시간이 지남에 따라 데이터의 양뿐만 아니라 데이터 패턴의 특성 또한 변하게 된다 따라서 새로운 데이터가 추가될 때마다 오 경보 데이터의 패턴을 분석할 수 있는 도구가 필요하다. 이 논문에서는 오 경보 데이터로부터 false positive 의 패턴을 분석할 수 있는 프레임워크에 대해서 기술한다. 우리의 프레임워크는 시간이 지남에 따라 변하는 데이터의 패턴 특성을 분석할 수 있도록 하기 위해 점진적 연관규칙 기법을 적용한다. 이 프레임워크를 통해서 false positive 패턴 특성의 변화를 효율적으로 관리 할 수 있다.

  • PDF

데이터의 카테고리 연관성을 이용한 색인어 자동 추출 (Automated Keyword Extraction using Category Correlation of Data)

  • 우영호;허태성;허웅;박영배;민홍기
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2005년도 추계학술대회 논문집
    • /
    • pp.242-245
    • /
    • 2005
  • 본 논문에서는 특정 영역에서 나타날 수 있는 데이터를 카테고리별로 저장한 시소러스를 이용하여 색인어 후보를 추출한다. 그리고 각 데이터의 카테고리 간의 상호 연관성을 고려하여 검출되는 색인어의 정확도를 향상시킬 수 있는 연관 중요도를 적용한 색인어 자동 추출 시스템을 제안하였다. 제안된 시스템은 출현빈도를 고려한 방법보다 47% 시소러스를 이용한 방법보다 18% 향상된 성능을 보였다.

  • PDF