• 제목/요약/키워드: 집합 기반 분석

검색결과 536건 처리시간 0.031초

훈련데이터 집합을 사용하지 않는 소프트웨어 품질예측 모델 (A Software Quality Prediction Model Without Training Data Set)

  • 홍의석
    • 정보처리학회논문지D
    • /
    • 제10D권4호
    • /
    • pp.689-696
    • /
    • 2003
  • 설계 개체의 결함경향성을 판별하는 위험도 예측 모델은 분석이나 설계 같은 소프트웨어 개발 초기 단계에서 시스템의 문제 부분들을 찾아 내는데 사용된다. 복잡도 메트릭에 기반한 많은 위험도 예측 모델들이 제안되었지만 그들 대부분은 모델 훈련을 위한 훈련데이터 집합을 필요로 하는 모델들이었다. 하지만 대부분의 개발집단은 훈련데이터 집합을 보유하고 있지 않기 때문에 이들 모델들은 대부분의 개발집단에서 사용될 수 없다는 커다란 문제점이 있었다. 이러한 문제점을 해결하기 위해 본 논문에서는 Kohonen SOM 신경망을 이용하여 훈련데이터 집합을 사용하지 않는 새로운 예측 모델 KSM을 제안한다. 여러 내부 특성들과 모델 사용의 용이성 그리고 모의실험을 통한 예측 정확도 비교를 통해 KSM을 잘 알려진 예측 모델인 역전파 신경망 모델(BPM)과 비교하였으며 그 결과 KSM의 성능이 BPM에 근접하다는 것을 보였다.

홈네트워크에서의 보안 요구사항 분석

  • 정재학
    • 정보보호학회지
    • /
    • 제14권5호
    • /
    • pp.19-22
    • /
    • 2004
  • 홈네트워크가 최근 주목을 받으면서 다양한 업계에서 구현되고 있다. 그러나 보안에 대한 고려를 충분히 하지 못한 상태에서 기능 구현에 주로 초점을 맞추고 있으며 최근에 와서야 보안에 대한 관심을 기울이고 있는 상황이다. 홈네트워크는 단일 서비스가 아닌 다양한 서비스의 집합으로서의 성격이 강하므로 보안에 대한 요구사항 또한 다양할 수 밖에 없다. 본 논문에서는 암호, 인증 기술을 기반으로 어떠한 요구사항이 있으며, 이를 위한 보안 대책에 대한 내용을 논의한다.

의미기반 한국어 복합명사 분석 (The Analysis of Compound Nouns based on Semantic Processing)

  • 이용훈;옥철영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.221-224
    • /
    • 2011
  • 본 논문에서는 U-WIN의 어휘 관계 정보를 기반으로 얻은 구성명사간 2-gram 유사도 분석 결과를 이용해 의미기반 복합명사 분석을 수행하는 방법을 제안한다. 음절별 분해 패턴의 제한을 없애기 위해 모든 경우로 후보를 분해하여 규칙에 따라 분석에 사용될 최적의 분해 후보를 찾으며 분석시간, 비교대상을 줄이고 정확도를 높이기 위해 사전의 원어정보를 이용한다. 유사도는 각 개념을 구성하는 관련명사 집합들간의 비교로 구하며 가장 큰 문제인 데이터 부족 문제를 해결하기 위해 7종류의 대상으로부터 추출한 관련명사들을 이용한다.

단변량 분석과 LVF 알고리즘을 결합한 하이브리드 속성선정 방법 (A Hybrid Feature Selection Method using Univariate Analysis and LVF Algorithm)

  • 이재식;정미경
    • 지능정보연구
    • /
    • 제14권4호
    • /
    • pp.179-200
    • /
    • 2008
  • 본 연구에서는 사례기반 추론 기법을 대상으로 효율성과 효과성을 함께 증진시킬 수 있는 속성선정 방법을 개발하였다. 기본적으로, 본 연구에서 개발한 속성선정 방법은 기존에 개발된 단변량 분석 방법과 LVF 알고리즘을 통합하는 것이다. 먼저, 단변량 분석 방법 중 선택효과를 사용하여 전체 속성 중에서 예측력이 우수하다고 판단되는 일부분의 속성들을 추려낸다. 이 속성들로부터 생성해낼 수 있는 모든 가능한 부분집합을 생성해낸 후에, LVF 알고리즘을 이용하여 이 부분집합들이 가지는 불일치 비율을 평가함으로써 최종적으로 속성 부분집합을 선정한다. 본 연구에서 개발한 속성선정 방법을 UCI에서 제공하는 데이터 집합들에 적용하여 성능을 측정한 후, 기존 기법의 성능들과 비교한 결과, 본 연구에서 개발된 속성선정 방법이 선정된 속성의 개수도 만족할만하고 적중률도 향상되어서, 효율성과 효과성 모두의 측면에서 우수함을 보였다.

  • PDF

논리 프로그램의 타입 및 모드 분석의 계층 구조 (A Hierarchical Structure of Type and Mode Analyses of Logic Programs)

  • 창병모
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권3호
    • /
    • pp.335-342
    • /
    • 1999
  • 논리 프로그램의 타입 및 모드 분석은 실행 시간에 변수가 갖는 텀의 집합에 대한근사값을 구하는데 보통 요약 해석을 기반으로 하여 설계되고 개발되어 왔다. 이 논문에서는 타입 및 모드 분석을 위해서 설계된 다양한 요약 도메인을 고려하여 그들간의 계층 관계를 Galois insertion을 기준으로 밝힌다. 이 논문에서는 요약 도메인으로써 타입 그래프, 깊이-k 타입 , 깊이-k 모드, 순환모드, 그리고 모드를 고려할 것이다. 특히 깊이-k 모드는 타입 및 모드 분석을 통합하기 위한 도메인으로써 깊이-k 타입을 확장하여 제안하였다.

스트림 데이터에서 슬라이딩 윈도우를 사용한 조인 연산의 효율에 관한 연구 (A Study on the Efficiency of Join Operation On Stream Data Using Sliding Windows)

  • 양영휴
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권2호
    • /
    • pp.149-157
    • /
    • 2012
  • 이 논문은 슬라이딩 윈도우를 사용하는 스트림 데이터에서 모든 조인 연산의 상태를 저장하기에 메모리가 충분하지 않을 경우에, 연속적인 슬라이딩 윈도우 조인 연산의 근사치 답을 구하는 문제에 대한 연구이다. 근사치를 구하는 두 가지 방법으로는 최대 부분집합으로 근사치를 구하는 방법과 조인 결과에서 임의의 결과를 택하는 방법이 있다. 전자는 잃어버리는 튜플의 수를 최소화 하고, 후자는 조인의 결과가 집계로 나타날 때 사용된다. 이 논문에서는 임의의 입력 데이터에 슬라이딩 윈도우가 사용되는 경우 두 가지 방법으로 얻는 근사치 모두 효율적이지 못함을 보여준다. 기존의 최대 부분집합에 의해 근사치를 구하는 모델에서는 빈도-기반 모델을 사용하였는데. 샘플링이 문제가 되었다. 오히려 스트림 도착한 이후의 연령-기반 모델이 많은 응용분야에서 더 적절하게 사용 될 수 있음을 보여주고 있다. 이 논문에서는 최대 부분 집합과 임의의 결과라는 두 가지 근사치 측정법을 분석, 그 효율성을 비교하여 보여 준다. 또한, 메모리가 제한 되어있는 환경에서 다중 조인 연산이 수행 될 경우에, 어떤 경우에도 근사치 측정을 최적화할 수 있도록, 조인 연산 전체에 필요한 메모리를 적절하게 할당하는 알고리즘의 효율성을 분석한다.

대용량 데이터 분석을 위한 맵리듀스 기반 kNN join 질의처리 알고리즘 (A MapReduce-based kNN Join Query Processing Algorithm for Analyzing Large-scale Data)

  • 이현조;김태훈;장재우
    • 정보과학회 논문지
    • /
    • 제42권4호
    • /
    • pp.504-511
    • /
    • 2015
  • 최근 모바일 기술의 발달 및 소셜 네트워크 서비스의 활성화를 통해 사용자 데이터가 급격히 증대되고 있다. 이에 따라 대용량 데이터에 대한 효율적인 데이터 분석 기법에 대한 연구가 활발히 이루어지고 있다. 대표적인 대용량 데이터 분석 기법으로는 맵리듀스 환경에서 보로노이 다이어그램을 이용한 k 최근접점 조인(VkNN-join) 알고리즘이 존재한다. 데이터집합 R, S에 대해, VkNN-join 알고리즘은 부분집합 Ri에 연관된 부분집합 Sj만을 후보탐색 영역으로 선정하여 질의처리를 수행하기 때문에, 대용량 데이터에 대한 join 질의처리 시간을 감소시키는 장점이 존재한다. 그러나 VkNN-join은 보로노이 다이어그램을 사용하기 때문에, 색인 구축 비용이 높은 단점이 존재한다. 아울러 kNN 질의처리를 위한 후보 영역 선정 시 k값에 비례하여 후보영역의 크기가 증가하기 때문에, kNN 연산 오버헤드가 증가하는 문제점이 존재한다. 이를 해결하기 위해 본 논문에서는 대용량 데이터 분석을 위한 맵리듀스 기반 kNN join 질의처리 알고리즘을 제안한다. 제안하는 질의처리 알고리즘은 시드 기반의 동적 분할을 통해 색인구조 구축비용을 절감한다. 또한 시드 간 평균 거리를 기반으로 질의 처리 후보 영역을 선정함으로써, kNN-join 질의를 위한 연산 오버헤드를 감소시킨다. 아울러, 성능 평가를 통해 제안하는 기법이 질의처리 시간 측면에서 기존 기법에 비해 우수함을 보인다.

특허 정보를 활용한 R&D 과제 유사도 측정 모델 (A Model for Measuring the R&D Project Similarity using Patent Information)

  • 김종배;변정원;선동주;김태균;김융
    • 한국정보통신학회논문지
    • /
    • 제18권5호
    • /
    • pp.1013-1021
    • /
    • 2014
  • 정부의 입장에서 R&D 과제간의 유사도를 분석하는 것은 불필요한 예산의 낭비를 없애고, R&D 투자의 효과를 높이는데 있어서 매우 중요한 문제이다. 그 동안, 문서의 내용을 대표하는 키워드를 중심으로 두 문서간의 유사도를 분석하거나, 문장 단위로 유사도를 분석함으로써, R&D 과제의 중복 여부를 판단하기 위한 연구들이 시도되어 왔으나, 여러 가지 이유로 아직까지 그 정확도는 매우 낮은 실정이다. 이에, 본 연구는 기 수행된 R&D 관련 특허를 조사, 수집하는 정부 R&D 특허기술동향조사사업의 특허분석 DB를 활용하여 R&D 과제간의 유사도를 분석할 수 있는 방안을 제시하고자 한다. 이를 위해, 집합 이론 및 확률 이론을 기반으로 한 유사도 측정 모델을 제시하였다. 또한, 제시한 모델의 검증을 위해 156개 과제, 160,218개의 유효특허를 기반으로 유효특허기반 과제 유사도 측정 실험을 수행하고, 그 사례를 제시하였다.

$\alpha$-수준집합을 이용한 퍼지기반 교우관계 분석시스템 설계 (The Design of Fuzzy-Based Peer Relationship Analysis System Using $\alpha$-cut)

  • 정인준;전우천
    • 한국정보교육학회:학술대회논문집
    • /
    • 한국정보교육학회 2005년도 하계학술대회
    • /
    • pp.257-266
    • /
    • 2005
  • 학급에서의 아동 상호간의 관계 파악은 아동 성향 파악 및 생활지도 등에 유용하게 사용될 수 있다. 이러한 교우관계를 파악하게 되면 서로 잘 어울리는 친구들이나 외톨이로 있는 아동을 미리 찾아내어 아이들 상호간의 감정의 흐름을 파악할 수 있고 서로 협력하는 학급을 만들기 쉬울 것이다. 이에 본 논문에서는 학급 아동 상호간의 호감도에 의해 교우관계를 분석할 수 있는 시스템을 퍼지 (Fuzzy) 이론을 응용하여 설계하고 그룹화 할 수 있는 방안을 제시하였다. 교우관계의 특성상 애매모호하고 불확실한 감정과 호감도를 몇 마디 말 또는 '좋아한다', '좋아하지 않는다'는 이분법적인 방법으로 분석하기에는 아동 상호간에 복잡한 감정을 다 표현하기 어렵기 때문에 퍼지이론을 적용하여 수치화된 정보로 상대적 비교가 가능하도록 함으로써 좀 더 정확한 아동 상호 관계를 분석할 수 있도록 설계하였다. 또한, 퍼지이론을 바탕으로 연결차수를 계산한 그룹화 방안을 제시하였다. 본 논문에서 제안하는 시스템과 분석화 방법의 특징은 첫째, 인간관계의 애매하고 모호한 점을 상대적 비교가 가능하게 함으로써 정확한 분석을 가능하게 하고, 둘째, 퍼지 이론의 적용을 통하여 해밍거리 (Hamming Distance)에 의한 유사도 분석이 가능한 시스템과 $\alpha$-수준집합 ($\alpha$-cut)에 의한 그룹화 방법을 제안하였으며, 셋째, 교육현장에서 발생할 수 있는 애매한 상황과 아동의 성향파악 등 수치적인 파악이 불가능한 부분을 분석이 가능한 데이터로 만들 수 있는 기초를 마련하였다.

  • PDF

패턴 부트스트랩핑을 이용한 특허 문헌에서의 시맨틱 트리플 추출 (Extracting Semantic Triples from Patent Documents Using Pattern Bootstrapping)

  • 정창후;전홍우;최윤수;송사광;최성필;조민희;정한민
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2012년도 춘계 종합학술대회 논문집
    • /
    • pp.281-282
    • /
    • 2012
  • 문서에 존재하는 중요한 개체를 인식하고 그것들 간의 관계를 식별하는 시맨틱 트리플 추출은 문헌 분석의 기반이 되는 중요한 작업이다. 본 논문에서는 특허 문헌에서 이러한 시맨틱 트리플을 추출하는 방법에 대해서 설명한다. 특허 문헌의 효과적인 자동 분석을 위하여 문장 내의 다양한 구문적 변형을 인식하여 하나의 정규화된 의미 형태로 표현해주는 술어-논항 구조 기반의 패턴을 사용하였고, 패턴의 자동화된 확장을 위하여 부트스트랩핑 방법을 적용하였다. 이러한 방법은 소규모의 시드 데이터를 활용하여 특정의미 관계를 갖는 패턴을 자동으로 확장하고 최종적으로는 유의미한 트리플을 추출하는 방법으로 다량의 이진 관계 집합을 처리해야 할 때 아주 유용한 방법이다. 시스템 적용을 통하여 특허 문헌에 적합한 38개의 연관관계 집합을 생성하였고, 32,608개의 유의미한 트리플을 추출하였다.

  • PDF