• 제목/요약/키워드: Cosine Similarity Analysis

검색결과 81건 처리시간 0.023초

멀티모달 기반 악성코드 유사도 계산 기법 (Multi-Modal Based Malware Similarity Estimation Method)

  • 유정도;김태규;김인성;김휘강
    • 정보보호학회논문지
    • /
    • 제29권2호
    • /
    • pp.347-363
    • /
    • 2019
  • 사람의 DNA가 변하지 않는 것과 같이 사이버상의 악성코드도 변하지 않는 고유의 행위 특징을 갖고 있다. APT(Advanced Persistent Threat) 공격에 대한 방어수단을 사전에 확보하기 위해서는 악성코드의 악성 행위 특징을 추출해야 한다. 이를 위해서는 먼저 악성코드 간의 유사도를 계산하여 유사한 악성코드끼리 분류할 수 있어야 한다. 본 논문에서는 Windows OS 상에서 동작하는 악성코드 간의 유사도 계산 방법으로 'TF-IDF 코사인 유사도', 'Nilsimsa 유사도', '악성코드 기능 유사도', 'Jaccard 유사도'를 사용해 악성코드의 유형을 예측해보고, 그 결과를 보인다. 실험결과, 유사도 계산 방식마다 악성코드 유형에 따라 예측률의 차이가 매우 컸음을 발견할 수 있었다. 모든 결과에 월등한 정확도를 보인 유사도는 존재하지 않았으나, 본 실험결과를 이용하여 특정 패밀리의 악성코드를 분류할 때 어떤 유사도 계산 방식을 활용하는 것이 상대적으로 유리할지를 결정할 때 도움이 될 것으로 판단된다.

워드 임베딩(Word Embedding)을 활용한 최적의 키워드 추출 및 검색 방법 연구 (A Study on the Optimal Search Keyword Extraction and Retrieval Technique Generation Using Word Embedding)

  • 이정인;안진희;고경택;김영석
    • 한국지반신소재학회논문집
    • /
    • 제22권2호
    • /
    • pp.47-54
    • /
    • 2023
  • 본 논문에서는 자료 조사를 위한 최적의 키워드 추출 및 검색 방법을 제안하였으며, 북한 건설 관련 동향 파악을 예시로 제안 방법을 검증하였다. 대표적인 국내 언론 플랫폼인 빅카인즈(BigKinds)를 활용하여 표본 기사를 선정하고 키워드를 추출하였다. 추출된 키워드는 워드 임베딩(Word Embedding)을 활용하여 벡터화하였으며, 이를 토대로 코사인 유사도(Cosine Similarity)를 통해 추출된 키워드 간의 유사도를 검사하였다. 또한 상위 빈도수 10개에 대한 키워드를 기준으로 유사도 0.5 이상인 키워드들을 군집화하였다. 각 군집들은 빅카인즈 검색 양식에 맞추어 군집 내부 키워드 간에는 'OR', 군집 간에는 'AND'로 형성하였다. 심층 분석 결과, 본래 목적에 맞는 유의미한 기사들이 추출되었음을 확인할 수 있었다. 기존의 분류체계 및 검색 양식을 변형시키지 않은 상태에서 사용자의 세부 목적을 충족시키는 자료 조사·분류가 가능하게 되었다는 점에서 의의를 갖는다.

Nonlinear damage detection using linear ARMA models with classification algorithms

  • Chen, Liujie;Yu, Ling;Fu, Jiyang;Ng, Ching-Tai
    • Smart Structures and Systems
    • /
    • 제26권1호
    • /
    • pp.23-33
    • /
    • 2020
  • Majority of the damage in engineering structures is nonlinear. Damage sensitive features (DSFs) extracted by traditional methods from linear time series models cannot effectively handle nonlinearity induced by structural damage. A new DSF is proposed based on vector space cosine similarity (VSCS), which combines K-means cluster analysis and Bayesian discrimination to detect nonlinear structural damage. A reference autoregressive moving average (ARMA) model is built based on measured acceleration data. This study first considers an existing DSF, residual standard deviation (RSD). The DSF is further advanced using the VSCS, and then the advanced VSCS is classified using K-means cluster analysis and Bayes discriminant analysis, respectively. The performance of the proposed approach is then verified using experimental data from a three-story shear building structure, and compared with the results of existing RSD. It is demonstrated that combining the linear ARMA model and the advanced VSCS, with cluster analysis and Bayes discriminant analysis, respectively, is an effective approach for detection of nonlinear damage. This approach improves the reliability and accuracy of the nonlinear damage detection using the linear model and significantly reduces the computational cost. The results indicate that the proposed approach is potential to be a promising damage detection technique.

생물학적 후각 시스템을 모방한 대규모 가스 센서 어레이에서 코사인 유사도와 퍼지 클러스터링을 이용한 중복도 제거 방법 (The Redundancy Reduction Using Fuzzy C-means Clustering and Cosine Similarity on a Very Large Gas Sensor Array for Mimicking Biological Olfaction)

  • 김정도;김정주;박성대;변형기;;임승주
    • 센서학회지
    • /
    • 제21권1호
    • /
    • pp.59-67
    • /
    • 2012
  • It was reported that the latest sensor technology allow an 65536 conductive polymer sensor array to be made with broad but overlapping selectivity to different families of chemicals emulating the characteristics found in biological olfaction. However, the supernumerary redundancy always accompanies great error and risk as well as an inordinate amount of computation time and local minima in signal processing, e.g. neural networks. In this paper, we propose a new method to reduce the number of sensor for analysis by reducing redundancy between sensors and by removing unstable sensors using the cosine similarity method and to decide on representative sensor using FCM(Fuzzy C-Means) algorithm. The representative sensors can be just used in analyzing. And, we introduce DWT(Discrete Wavelet Transform) for data compression in the time domain as preprocessing. Throughout experimental trials, we have done a comparative analysis between gas sensor data with and without reduced redundancy. The possibility and superiority of the proposed methods are confirmed through experiments.

텍스트 유사성을 위한 파라미터 및 비 파라미터 측정 (Parametric and Non Parametric Measures for Text Similarity)

  • 존 믈랴히루;김종남
    • 융합신호처리학회논문지
    • /
    • 제20권4호
    • /
    • pp.193-198
    • /
    • 2019
  • 인터넷상에서의 진짜 및 가짜 정보의 범람이 수많은 텍스트 분석에 대한 연구를 이끌었다. 문헌 표기 없이 타인의 저작물을 무단 복제 및 관련 없는 연구결과 조작 등이 한동안 세간의 주목을 이끌었다. 연구 분야에서 표절과 이의 대항 및 감소를 위해 다양한 도구들이 개발되었다. Pearson Spearman 본 연구에서는 코사인 유사성과 및 상관관계를 이용하는 파라미터 및 비 파라미터 방법을 이용하여 문장 유사성을 측정한다. Pearson 코사인 유사성과 상관관계는 가장 높은 유사성 계수를 얻었으나 Spearman 상관관계는 낮은 유사성 계수를 보여주었다. 본 논문에서는 정상성 가정과 편향성에 의존하는 파라미터 방법들에 반하도록 비정상성 가정으로 인한 문장 유사도를 측정하는 데 있어 비 파라미터 방법들을 사용하는 것을 제안한다.

NCS 능력단위 요소와 기존 교육과정 간 갭 분석을 위한 평가모델 (Evaluation Model for Gab Analysis Between NCS Competence Unit Element and Traditional Curriculum)

  • 김대경;김창복
    • 한국항행학회논문지
    • /
    • 제19권4호
    • /
    • pp.338-344
    • /
    • 2015
  • 국가 직무능력 표준 (NCS; national competency standards)은 직무를 수행하기 위해 요구되는 능력에 대한 체계화 및 표준화이다. NCS는 특정 직무능력인 능력단위 요소로 구체화하고 표준화하여 학습모듈을 개발한다. 기존 교육과정은 NCS 능력단위 요소를 교육 훈련에 활용하기 위해서 갭 분석 (gab analysis)이 필수적이다. 기존에 갭 분석은 전문가가 주관적으로 평가하였다. 전문가에 의한 갭 분석은 심리적 요소에 의해 주관적 결정, 정확성 결여, 시간 및 공간적 비효율성 문제가 제기되었다. 본 논문은 주관적 평가의 문제 해결을 위해 자동화 평가모델을 제시하였다. 본 논문은 기존 교육과정과 능력단위 요소 간 갭 분석을 위해, 색인어 추출, 단어빈도수-역 빈도수 기반 특징 값 추출, 코사인 유사도 알고리즘을 이용하였다. 또한, 기존 교육과정과 NCS 능력단위요소 사이 유사도 매핑 테이블을 제시하였다. 본 논문의 평가모델은 구조적 특징이나 속도 면에서 개선된 알고리즘을 통해 보완해야 한다.

다차원 메타데이터 공간을 활용한 학술 문헌 추천기법 연구 (A Study on the Method of Scholarly Paper Recommendation Using Multidimensional Metadata Space)

  • 감미아;이지연
    • 정보관리학회지
    • /
    • 제40권1호
    • /
    • pp.121-148
    • /
    • 2023
  • 본 연구는 '우수한 성능의 메타데이터 속성 유사도 기반의 학술 문헌추천시스템'을 제안하는 데에 목적을 두고 있다. 본 연구에서는 정보조직에서 다루는 메타데이터의 활용과 계량정보학에서 다루고 있는 동시인용, 저자-서지결합법, 동시출현 빈도, 코사인 유사도의 개념을 활용한 문헌정보학 기반의 학술 문헌 추천기법을 제안하고자 하였다. 실험을 위해 수집한 '불평등', '격차' 관련 총 9,643개의 논문 메타데이터를 정제하여 코사인 유사도를 활용한 저자, 키워드, 제목 속성 간의 상대적 좌표 수치를 도출하였고, 성능 좋은 가중치 조건 및 차원의 수를 선정하기 위해 실험을 수행하였다. 실험 결과를 제시하여 이용자의 평가를 거쳤으며, 이를 이용해 기준노드와 추천조합 특성 분석 및 컨조인트 분석, 결과 비교 분석을 수행하여 연구질문 중심의 논의를 수행하였다. 그 결과 전반적으로는 저자 관련 속성을 제한 조합 혹은 제목 관련 속성만 사용하는 경우 성능이 뛰어난 것으로 나타났다. 본 연구에서 제시한 기법을 활용하고 광범위한 표본의 확보를 이룬다면, 향후 정보서비스의 문헌 추천 분야뿐 아니라 사회의 다양한 분야에 대한 추천기법 성능 향상에 도움을 줄 수 있을 것이다.

기회적 네트워크에서의 유사도 기반의 포워딩 기법의 성능 분석 (Performance Analysis of Forwarding Schemes Based on Similarities for Opportunistic Networks)

  • 김선겸;이태석;김완종
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제24권3호
    • /
    • pp.145-150
    • /
    • 2018
  • 기회적 네트워크(Opportunistic networks)의 포워딩은 간헐적인 연결로 인하여 출발지와 목적지 간에 안정된 경로가 존재하지 않아 기존 포워딩 기법들은 성능이 저하되는 문제를 가지고 있다. 최근 소셜 네트워크 관계망을 이용한 연구가 활발히 진행되고 있으며, 유사도(Similarity)는 소셜 네트워크 분석을 위한 매우 중요한 분석 방법 중 하나이다. 본 논문은 대표적인 유사도를 이용한 포워딩 기법들을 제안하고 기회적 네트워크에서 유사도에 기반한 포워딩 기법을 적용시에 얼마나 성능 향상이 있는지 알아본다. 그 결과로, 이 기법들은 목적지와 유사도가 높은 노드를 중개 노드로 선정하여 포워딩하기 때문에 낮은 트래픽 및 홉 수를 가지게 되며, 준수한 전송 딜레이를 유지한다.

사람과 강화학습 인공지능의 게임플레이 유사도 측정 (Measuring gameplay similarity between human and reinforcement learning artificial intelligence)

  • 허민구;박창훈
    • 한국게임학회 논문지
    • /
    • 제20권6호
    • /
    • pp.63-74
    • /
    • 2020
  • 최근, 사람 대신 인공지능 에이전트를 이용하여 게임 테스트를 자동화하는 연구가 관심을 모으고 있다. 본 논문은 게임 밸런싱 자동화를 위한 선행 연구로써 사람과 인공지능으로부터 플레이 데이터를 수집하고 이들의 유사도를 분석하고자 한다. 이때, 사람과 유사한 플레이를 할 수 있는 인공지능의 생성을 위해 학습 단계에서 제약사항을 추가하였다. 플레이 데이터는 14명의 사람과 60개의 인공지능을 대상으로 플리피버드 게임을 각각 10회 실시하여 획득하였다. 수집한 데이터는 코사인 유사도 방법으로 이동 궤적, 액션 위치, 죽은 위치를 비교 분석하였다. 분석 결과 사람과의 유사도가 0.9 이상인 인공지능 에이전트를 찾을 수 있었다.

이웃 선정 조건에 따른 협력 필터링의 성능 향상 분석 (Analysis of Performance Improvement of Collaborative Filtering based on Neighbor Selection Criteria)

  • 이수정
    • 컴퓨터교육학회논문지
    • /
    • 제18권4호
    • /
    • pp.55-62
    • /
    • 2015
  • 협력 필터링을 통한 추천 시스템은 정보 검색 편의성을 제공함으로써 다방면에서 성공적으로 활용되어왔다. 유사도 측정은 추천인들의 범위를 결정하는 기준이 되기 때문에 이러한 시스템의 성능을 좌우하는 결정적 요소이다. 본 연구에서는 기존의 유사도 측정 공식에서 산출되는 유사도값의 분포를 분석하고, 유사도값과 공통평가항목수와의 관계를 조사하였다. 이를 통해 발견된 문제점을 보완하기 위하여 유사도값의 제한을 통하여 신뢰할 만한 추천인들을 선정하는 방법을 제시하였다. 실험 결과, 유사도의 상한값과 하한값을 동시에 제한하는 방법이 기존보다 월등한 성능 향상을 가져왔다. 특히 적은 수의 최인접이웃을 참조했을 때 두드러졌는데, 코사인 유사도에 대해서는 최대 0.047, 피어슨에 대해서는 최대 0.03의 추천 성능 향상을 보였다. 이 결과는 피어슨과 코사인 유사도를 이용하는 협력필터링 시스템에서 매우 높거나 낮은 유사도의 이웃의 평가 등급은 참조하지 않는 것이 바람직함을 암시한다.