• 제목/요약/키워드: K-Means Similarity Clustering

검색결과 79건 처리시간 0.031초

Opcode와 API의 빈도수와 상관계수를 활용한 Cerber형 랜섬웨어 탐지모델에 관한 연구 (A Study on the Cerber-Type Ransomware Detection Model Using Opcode and API Frequency and Correlation Coefficient)

  • 이계혁;황민채;현동엽;구영인;유동영
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권10호
    • /
    • pp.363-372
    • /
    • 2022
  • 최근 코로나 19 팬더믹 이후 원격근무의 확대와 더불어 랜섬웨어 팬더믹이 심화하고 있다. 현재 안티바이러스 백신 업체들이 랜섬웨어에 대응하고자 노력하고 있지만, 기존의 파일 시그니처 기반 정적 분석은 패킹의 다양화, 난독화, 변종 혹은 신종 랜섬웨어의 등장 앞에 무력화될 수 있다. 이러한 랜섬웨어 탐지를 위한 다양한 연구가 진행되고 있으며, 시그니처 기반 정적 분석의 탐지 방법과 행위기반의 동적 분석을 이용한 탐지 연구가 현재 주된 연구유형이라고 볼 수 있다. 본 논문에서는 단일 분석만을 이용하여 탐지모델에 적용하는 것이 아닌 ".text Section" Opcode와 실제 사용하는 Native API의 빈도수를 추출하고 K-means Clustering 알고리즘, 코사인 유사도, 피어슨 상관계수를 이용하여 선정한 특징정보들 사이의 연관성을 분석하였다. 또한, 타 악성코드 유형 중 웜과 Cerber형 랜섬웨어를 분류, 탐지하는 실험을 통해, 선정한 특징정보가 특정 랜섬웨어(Cerber)를 탐지하는 데 특화된 정보임을 검증하였다. 위와 같은 검증을 통해 최종 선정된 특징정보들을 결합하여 기계학습에 적용하여, 최적화 이후 정확도 93.3% 등의 탐지율을 나타내었다.

한국어 정보 검색에서 의미적 용어 불일치 완화 방안 (Alleviating Semantic Term Mismatches in Korean Information Retrieval)

  • 윤보현;박성진;강현규
    • 한국정보처리학회논문지
    • /
    • 제7권12호
    • /
    • pp.3874-3884
    • /
    • 2000
  • 정보검색시스템은 색인어와 질의어가 정확히 일치하지 않더라도 사용자 질의에 적합한 문서를 검색할 수 있어야 한다. 그러나, 색인어와 질의어간의 용어 불일치는 검색성능의 개선에 심각한 장애요소로 작용해 왔다. 따라서, 본 논문에서는 문서 코퍼스의 단어들간에 자동 용어 정규화를 수행하고, 용어 정규화의 산물을 한국어 정보검색 시스템에 적용하는 방안을 제시한다. 용어 불일치를 완화하기 위해 두가지 용어 정규화, 동치부류와 공기단어 클러스터를 수행한다. 첫째, 음역어, 절차오류, 그리고 동의어를 위해 문맥 유사도를 이용하여 동치부류로 구축하는 작업이다. 둘째, 상호정보와 단어 문맥의 조합을 이용하여 단어 유사도를 계산하고 문맥 기반 용어를 정규화한다. 그런 다음, K-means 알고리즘을 이용하여 자율 클러스터링을 수행하고 공기단어 클러스터를 구축한다. 본 논문에서는 이러한 용어 정규화의 산물들을 용어 불일치를 완화하기 위해 질의어 확장과정에서 사용한다. 다시 말해서 동치부류와 공기단어 클러스터는 새로운 용어로 질의를 확장하는 자원으로서 사용된다. 이러한 질의확장으로 사용자는 질의어에 음역어를 추가하여 질의어를 포괄적으로 만들거나 특정어를 추가하여 질의어를 세밀하게 만들 수 있다. 질의어 확장을 위해 두 가지 상호보완적인 방법인 용어 제시와 용어 적합성 피드백을 이용한다. 실험 결과는 제안된 시스템이 의미적 용어 불일치를 완화할 수 있고, 적절한 유사도 값을 제공할 수 있음을 보여준다. 결과적으로 제안한 시스템이 정보 검색 시스템의 검색 효율을 향상시킬 수 있음을 알 수 있다.

  • PDF

해양환경 공간분포 패턴 분석을 위한 공간자기상관 적용 연구 - 광양만을 사례 지역으로 - (Application of Spatial Autocorrelation for the Spatial Distribution Pattern Analysis of Marine Environment - Case of Gwangyang Bay -)

  • 최현우;김계현;이철용
    • 한국지리정보학회지
    • /
    • 제10권4호
    • /
    • pp.60-74
    • /
    • 2007
  • 해양환경의 시공간적 분포 패턴을 정량적으로 분석하기 위해 남해 광양만 해양환경 관측 자료를 이용하여 글로벌 및 국지적 공간자기상관 통계를 적용하였다. 연구지역 전체의 해양환경 분포 패턴을 이해하기 위해 Moran's I, General G와 같은 글로벌 공간자기상관 지수를 사용하였으며, 대상 피쳐(feature)와 이웃 피쳐들과의 유사성 정도를 측정하고 hot spot 및 cold spot을 탐지하기 위해 국지적 Moran's I ($I_i$), $G_i{^*}$와 같은 LISA(local indicators of spatial association)를 사용하였고, 공간 군집 패턴의 신뢰성은 Z-score를 통한 통계적 유의성 검증을 수행하였다. 공간 통계 결과를 통해 년 중 해양환경 공간분포 패턴의 변화를 정량적으로 알 수 있었는데, 일반 해양수질, 영양염, 클로로필 및 식물플랑크톤은 여름철에 강한 군집 패턴을 보였다. 글로벌 지수에서 강한 군집 패턴을 보였을 때 속성 값의 공간적인 변화가 심한 음적 $I_i$ 값을 가지는 전선지역이 탐지되었다. 또한, 글로벌 지수에서 임의적 패턴을 보였을 때 국지적 지수인 $G_i{^*}$에서는 좁은 지역에서 hot spot과(또는) cold spot이 탐지되었다. 따라서 글로벌 지수는 연구 지역 전체 군집 패턴의 강도와 시계열적 변화 과정 탐지에, 국지적 지수를 통해서는 hot spot과 cold spot 위치 추적에 유용함을 알 수 있었다. 해양환경 공간분포 패턴과 군집 특성을 정량화는 것은 해양환경을 보다 깊이 이해할 수 있도록 할 뿐 아니라, 패턴의 원인을 찾는데도 중요한 역할을 할 것이다.

  • PDF

특허 등록 예측을 위한 특허 문서 분석 방법 (Analysis method of patent document to Forecast Patent Registration)

  • 구정민;박상성;신영근;정원교;장동식
    • 한국산학기술학회논문지
    • /
    • 제11권4호
    • /
    • pp.1458-1467
    • /
    • 2010
  • 최근 지식재산권의 모방과 권리 침해는 국가 산업발전의 저해요소로 인식되고 있다. 많은 연구자들은 이러한 저해요소로 인하여 발생하는 막대한 손실을 막기 위해 지식재산권의 보호와 효율적 관리에 관한 연구를 다양하게 진행 중이다. 특히, 특허 등록 예측은 지식재산권 보호와 권리 주장을 위해 매우 중요한 연구이다. 본 연구는 텍스트 마이닝 기법을 이용한 특허문서 분석을 통하여 특허 등록 및 거절 여부를 예측하는 방법을 제안한다. 먼저 거절된 특허문서들의 단어 빈도수를 이용하여 데이터베이스를 생성한다. 그리고 생성한 데이터베이스와 다른 특허문서들을 비교하여 각 문서와 데이터베이스와의 유사한 정도를 판단하는 유사치를 도출한다. 본 논문에서는 특허 거절 기준 값을 선정하기 위하여 분할 군집화 알고리즘인 k-means 사용하였다. 그 결과로 거절된 특허 문서와 유사한 특허 문서는 거절될 가능성이 높다는 결론을 얻을 수 있었다. 실험을 위한 데이터는 현재 미국에 출원되어 있는 블루투스 기술, 태양전지 기술 그리고 디스플레이에 관한 특허 문서를 이용하였다.

Tumor Habitat Analysis Using Longitudinal Physiological MRI to Predict Tumor Recurrence After Stereotactic Radiosurgery for Brain Metastasis

  • Da Hyun Lee;Ji Eun Park;NakYoung Kim;Seo Young Park;Young-Hoon Kim;Young Hyun Cho;Jeong Hoon Kim;Ho Sung Kim
    • Korean Journal of Radiology
    • /
    • 제24권3호
    • /
    • pp.235-246
    • /
    • 2023
  • Objective: It is difficult to predict the treatment response of tissue after stereotactic radiosurgery (SRS) because radiation necrosis (RN) and tumor recurrence can coexist. Our study aimed to predict tumor recurrence, including the recurrence site, after SRS of brain metastasis by performing a longitudinal tumor habitat analysis. Materials and Methods: Two consecutive multiparametric MRI examinations were performed for 83 adults (mean age, 59.0 years; range, 27-82 years; 44 male and 39 female) with 103 SRS-treated brain metastases. Tumor habitats based on contrast-enhanced T1- and T2-weighted images (structural habitats) and those based on the apparent diffusion coefficient (ADC) and cerebral blood volume (CBV) images (physiological habitats) were defined using k-means voxel-wise clustering. The reference standard was based on the pathology or Response Assessment in Neuro-Oncologycriteria for brain metastases (RANO-BM). The association between parameters of single-time or longitudinal tumor habitat and the time to recurrence and the site of recurrence were evaluated using the Cox proportional hazards regression analysis and Dice similarity coefficient, respectively. Results: The mean interval between the two MRI examinations was 99 days. The longitudinal analysis showed that an increase in the hypovascular cellular habitat (low ADC and low CBV) was associated with the risk of recurrence (hazard ratio [HR], 2.68; 95% confidence interval [CI], 1.46-4.91; P = 0.001). During the single-time analysis, a solid low-enhancing habitat (low T2 and low contrast-enhanced T1 signal) was associated with the risk of recurrence (HR, 1.54; 95% CI, 1.01-2.35; P = 0.045). A hypovascular cellular habitat was indicative of the future recurrence site (Dice similarity coefficient = 0.423). Conclusion: After SRS of brain metastases, an increased hypovascular cellular habitat observed using a longitudinal MRI analysis was associated with the risk of recurrence (i.e., treatment resistance) and was indicative of recurrence site. A tumor habitat analysis may help guide future treatments for patients with brain metastases.

균체 지방산 분석을 이용한 Bacillus anthracis의 동정 (Analysis of Cellular Fatty Acid Methyl Esters (FAMEs) for the Identification of Bacillus anthracis)

  • 김원용;송태욱;송미옥;남지연;박철민;김기정;정상인;최철순
    • 대한미생물학회지
    • /
    • 제35권1호
    • /
    • pp.31-40
    • /
    • 2000
  • Bacillus anthracis, the etiological agent of anthrax has been classified into the Bacillus subgroup I with B. cereus, B. mycoides and B. thuringiensis based on morphological and DNA similarity. DNA studies have further indicated that these species have very AT-rich genomes and high homology, indeed it has been proposed that these four sub-species be recognized as members of the one species. Several methods have been developed to obtain good differentiation between these species. However, none of these methods provides the means for an absolutely correct differntiation. The analysis of fatty acid methyl esters (FAMEs) was employed as a quick, simple and reliable method for the identification of 21 B. anthracis strains and closley related strains. The most significant differences were found between B. anthracis and B. anthracis closely related strains in FAMEs profiles. All tested strains of B. anthracis had a branched fatty acid C17:1 Anteiso A, whereas the fraction of unsaturated fatty acid Iso C17:1 w10c was found in B. anthracis closely related strains. By UPGMA clustering analysis of FAMEs profiles, all of the tested strains were classified into two clusters defined at Euclidian distance value of 24.5. The tested strains of B. anthracis were clustered together including Bacillus sp. Kyungjoo 3. However, the isolates of B. anthracis closely related spp. Rho, S10A, 11R1, CAU9910, CAU9911, CAU9912 and CAU9913 were clustered with the other group. On the basis of these results, isolates of B. anthracis Bongchon, Kyungjoo 1, 2 and Bacillus sp. Kyungjoo 3 were reclassified as a B. anthracis. It is concluded that FAMEs analysis provides a sensitive and reliable method for the identification of B. anthracis from closely related taxa.

  • PDF

일반영향요인과 댓글기반 콘텐츠 네트워크 분석을 통합한 유튜브(Youtube)상의 콘텐츠 확산 영향요인 연구 (A Study on the Impact Factors of Contents Diffusion in Youtube using Integrated Content Network Analysis)

  • 박병언;임규건
    • 지능정보연구
    • /
    • 제21권3호
    • /
    • pp.19-36
    • /
    • 2015
  • 대표적 소셜미디어인 유튜브는 기존 폐쇄형 콘텐츠 서비스와는 다르게 개방형 콘텐츠 서비스로 이용자들의 참여와 공유를 통하여 많은 인기를 유지하고 있다. 콘텐츠 산업에서 중요한 위치를 차지하고 있는 유투브 상의 콘텐츠 확산 요인에 관한 기존의 연구들은 댓글 수 등과 같은 일반적 정보 특성 요인과 조회 수 간에 상관관계 등을 분석하는 것이 대부분이었다. 최근 네트워크 구조를 기반으로 한 연구들도 진행되었으나 대부분 콘텐츠를 이용하는 대상인 구독자나 지인 등을 중심으로 한 인적 관계 네트워크 구조 연구가 대부분이었다. 이에 본 연구에서는 실질적인 콘텐츠를 중심으로 한 네트워크 구조와 일반요인을 통합한 모델을 제시하고 확산요인을 분석하고자 한다. 이를 위해 통합 모델 인과관계 분석과 함께 21,307개의 유튜브 콘텐츠를 콘텐츠 기반 네트워크 구조로 분석하였다. 본 연구를 통해 기존에 알려진 일반적 요인과 네트워크 요인들이 모두 조회수에 영향을 주는 인과관계를 통계적으로 재검증하였으며 통합적으로는 등록자의 구독자 수, 경과시간, 매개 중심성, 댓글 수, 근접 중심성, 클러스터링 계수, 평균 평점 순으로 조회 수에 긍정적인 영향을 미치는 것으로 분석되었다. 하지만 네트워크 요인중 연결정도 중심성과 고유벡터 중심성은 부정적 영향을 주는 것으로 분석되었다. 본 연구를 통하여 유튜브 콘텐츠 확산에 대한 일반영향요인과 구조적인 현상을 함께 규명하였다. 본 연구는 기업들이 유튜브와 같은 콘텐츠 서비스를 통한 온라인 마케팅 활동 시 콘텐츠들의 구조적인 면을 고려할 수 있는 근거를 제공하였으며 음반산업의 수요예측이나 콘텐츠 제작 업체들의 원활한 서비스 제공을 위한 설명력있는 영향요인 및 모델이 될 수 있을 것이다.

문헌정보학과 학생의 직장으로서의 도서관·정보센터 이미지 분석 (Study about Library and Information Center's Image of Library and Information Science Students as Workplace)

  • 조재인;이지원
    • 한국문헌정보학회지
    • /
    • 제50권3호
    • /
    • pp.113-132
    • /
    • 2016
  • 소비자에게 형성된 심상 분석을 통해 마케팅 전략을 수립하는데 주로 활용되고 있는 포지셔닝(Positioning) 기법은 공공시설, 기업, 대학이 공중에게 주는 이미지 분석을 비롯해 다양한 영역에서 활용되고 있다. 본 연구는 문헌정보학과 학생이 직장으로서 도서관 정보센터에 대하여 가지고 있는 이미지를 포지셔닝 기법을 통하여 분석하였다. 분석 결과, 학생들은 공공, 대학, 학교, 국가도서관을 유사한 이미지의 직장으로 인식하는 반면, 포털과 전문도서관은 이들과는 이질적인 진출처로 인식하고 있었으며, 직무에 있어서는 이용자봉사업무와 기술업무, 문화프로그램 업무를 각각 상이한 직무 군집으로 인식하고 있는 것으로 나타났다. 한편, 만족스러운 업무와 고용안정성이라는 이미지는 국가도서관과 공공도서관이 가장 크게 나타났으며, 보수가 가장 높을 것으로 기대되는 곳은 포털 업체, 성장가능성이 가장 높을 것으로 기대되는 곳은 전문도서관으로 포지셔닝되었다. 한편, 학생들이 가장 중요하게 생각하는 직장선택준거는 고용안정성으로 나타났으며, 가장 선호하는 직장으로는 공공도서관이 선택되었는데, 이러한 공공도서관 선호 집중 현상은 수도권대학보다는 지방대학 학생들에게 더욱 강하게 나타났다.

키워드 자동 생성에 대한 새로운 접근법: 역 벡터공간모델을 이용한 키워드 할당 방법 (A New Approach to Automatic Keyword Generation Using Inverse Vector Space Model)

  • 조원진;노상규;윤지영;박진수
    • Asia pacific journal of information systems
    • /
    • 제21권1호
    • /
    • pp.103-122
    • /
    • 2011
  • Recently, numerous documents have been made available electronically. Internet search engines and digital libraries commonly return query results containing hundreds or even thousands of documents. In this situation, it is virtually impossible for users to examine complete documents to determine whether they might be useful for them. For this reason, some on-line documents are accompanied by a list of keywords specified by the authors in an effort to guide the users by facilitating the filtering process. In this way, a set of keywords is often considered a condensed version of the whole document and therefore plays an important role for document retrieval, Web page retrieval, document clustering, summarization, text mining, and so on. Since many academic journals ask the authors to provide a list of five or six keywords on the first page of an article, keywords are most familiar in the context of journal articles. However, many other types of documents could not benefit from the use of keywords, including Web pages, email messages, news reports, magazine articles, and business papers. Although the potential benefit is large, the implementation itself is the obstacle; manually assigning keywords to all documents is a daunting task, or even impractical in that it is extremely tedious and time-consuming requiring a certain level of domain knowledge. Therefore, it is highly desirable to automate the keyword generation process. There are mainly two approaches to achieving this aim: keyword assignment approach and keyword extraction approach. Both approaches use machine learning methods and require, for training purposes, a set of documents with keywords already attached. In the former approach, there is a given set of vocabulary, and the aim is to match them to the texts. In other words, the keywords assignment approach seeks to select the words from a controlled vocabulary that best describes a document. Although this approach is domain dependent and is not easy to transfer and expand, it can generate implicit keywords that do not appear in a document. On the other hand, in the latter approach, the aim is to extract keywords with respect to their relevance in the text without prior vocabulary. In this approach, automatic keyword generation is treated as a classification task, and keywords are commonly extracted based on supervised learning techniques. Thus, keyword extraction algorithms classify candidate keywords in a document into positive or negative examples. Several systems such as Extractor and Kea were developed using keyword extraction approach. Most indicative words in a document are selected as keywords for that document and as a result, keywords extraction is limited to terms that appear in the document. Therefore, keywords extraction cannot generate implicit keywords that are not included in a document. According to the experiment results of Turney, about 64% to 90% of keywords assigned by the authors can be found in the full text of an article. Inversely, it also means that 10% to 36% of the keywords assigned by the authors do not appear in the article, which cannot be generated through keyword extraction algorithms. Our preliminary experiment result also shows that 37% of keywords assigned by the authors are not included in the full text. This is the reason why we have decided to adopt the keyword assignment approach. In this paper, we propose a new approach for automatic keyword assignment namely IVSM(Inverse Vector Space Model). The model is based on a vector space model. which is a conventional information retrieval model that represents documents and queries by vectors in a multidimensional space. IVSM generates an appropriate keyword set for a specific document by measuring the distance between the document and the keyword sets. The keyword assignment process of IVSM is as follows: (1) calculating the vector length of each keyword set based on each keyword weight; (2) preprocessing and parsing a target document that does not have keywords; (3) calculating the vector length of the target document based on the term frequency; (4) measuring the cosine similarity between each keyword set and the target document; and (5) generating keywords that have high similarity scores. Two keyword generation systems were implemented applying IVSM: IVSM system for Web-based community service and stand-alone IVSM system. Firstly, the IVSM system is implemented in a community service for sharing knowledge and opinions on current trends such as fashion, movies, social problems, and health information. The stand-alone IVSM system is dedicated to generating keywords for academic papers, and, indeed, it has been tested through a number of academic papers including those published by the Korean Association of Shipping and Logistics, the Korea Research Academy of Distribution Information, the Korea Logistics Society, the Korea Logistics Research Association, and the Korea Port Economic Association. We measured the performance of IVSM by the number of matches between the IVSM-generated keywords and the author-assigned keywords. According to our experiment, the precisions of IVSM applied to Web-based community service and academic journals were 0.75 and 0.71, respectively. The performance of both systems is much better than that of baseline systems that generate keywords based on simple probability. Also, IVSM shows comparable performance to Extractor that is a representative system of keyword extraction approach developed by Turney. As electronic documents increase, we expect that IVSM proposed in this paper can be applied to many electronic documents in Web-based community and digital library.