• Title/Summary/Keyword: 그래프 데이터

Search Result 934, Processing Time 0.037 seconds

Dual SMS SPAM Filtering: A Graph-based Feature Weighting Method (듀얼 SMS 스팸 필터링: 그래프 기반 자질 가중치 기법)

  • Hwang, Jae-Won;Ko, Young-Joong
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.95-99
    • /
    • 2014
  • 본 논문에서는 최근 급속히 증가하여 사회적 이슈가 되고 있는 SMS 스팸 필터링을 위한 듀얼 SMS 스팸필터링 기법을 제안한다. 지속적으로 증가하고 새롭게 변형되는 SMS 문자 필터링을 위해서는 패턴 및 스팸 단어 사전을 통한 필터링은 많은 수작업을 요구하여 부적합하다. 그리하여 기계 학습을 이용한 자동화 시스템 구축이 요구되고 있으며, 효과적인 기계 학습을 위해서는 자질 선택과 자질의 가중치 책정 방법이 중요하다. 하지만 SMS 문자 특성상 문장들이 짧기 때문에 출현하는 자질의 수가 적어 분류의 어려움을 겪게 된다. 이 같은 문제를 개선하기 위하여 본 논문에서는 슬라이딩 윈도우 기반 N-gram 확장을 통해 자질을 확장하고, 확장된 자질로 그래프를 구축하여 얕은 구조적 특징을 표현한다. 학습 데이터에 출현한 N-gram 자질을 정점(Vertex)으로, 자질의 출현 빈도를 그래프의 간선(Edge)의 가중치로 설정하여 햄(HAM)과 스팸(SPAM) 그래프를 각각 구성한다. 이렇게 구성된 그래프를 바탕으로 노드의 중요도와 간선의 가중치를 활용하여 최종적인 자질의 가중치를 결정한다. 입력 문자가 도착하면 스팸과 햄의 그래프를 각각 이용하여 입력 문자의 2개의 자질 벡터(Vector)를 생성한다. 생성된 자질 벡터를 지지 벡터 기계(Support Vector Machine)를 이용하여 각 SVM 확률 값(Probability Score)을 얻어 스팸 여부를 결정한다. 3가지의 실험환경에서 바이그램 자질과 이진 가중치를 사용한 기본 시스템보다 F1-Score의 약 최대 2.7%, 최소 0.5%까지 향상되었으며, 결과적으로 평균 약 1.35%의 성능 향상을 얻을 수 있었다.

  • PDF

Algorithm for Maximum Cycle Detection of Directed and Undirected General Graphs (방향과 무 방향 일반 그래프의 최대 사이클 검출 알고리즘)

  • Lee, Sang-Un
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.22 no.6
    • /
    • pp.91-97
    • /
    • 2022
  • There is hare and tortoise racing algorithm(HTA) for single-source(SS) singly linked list(SLL) with O(n) time complexity. But the fast method is unknown for general graph with multi-source, multi-destination, and multi-branch(MSMDMB). This paper suggests linear time cycle detection algorithm for given undirected and digraph with MSMDMB. The proposed method reduced the given graph G contained with unnecessary vertices(or nodes) to cycle into reduced graph G' with only necessary vertices(or nodes) to cycle based on the condition of cycle formation. For the reduced graph G', we can be find the cycle set C and cycle length λ using linear search within linear time. As a result of experiment data, the proposed algorithm can be obtained the cycle for whole data.

A Knowledge Graph on Japanese "Comfort Women": Interlinking Fragmented Digital Archival Resources (일본군 '위안부' 지식그래프: 파편화된 디지털 기록의 연결)

  • Park, Haram;Kim, Haklae
    • Journal of Korean Society of Archives and Records Management
    • /
    • v.21 no.3
    • /
    • pp.61-78
    • /
    • 2021
  • Records on Japanese "Comfort Women" have been individually managed by private sectors or institutions, and some are provided as digital archives on the Internet. However, records of digital archives differ in the composition and representation of metadata by individual institutions. Meanwhile, there is a lack of a consistent structure to describe the relationships between and among these records, leading to their fragmentation and disconnectedness. This paper proposes a knowledge model for interlinking the digital archival resources and builds a knowledge graph by integrating the records from distributed digital archives. It derives common elements by analyzing metadata from the diverse digital archives and expresses them in standard vocabularies to semantically describe multiple entities and relationships of the digital archival resources. In particular, the study includes the refinement of collected data to search and thread dispersed records and the enrichment of external data to provide significant contextual information of records. An evaluation of the knowledge graph is performed via a query measuring the (dis)connectivity between the distributed records. As a result, the knowledge graph is capable of interlinking and retrieving fragmented records, providing substantial contextual information on the records with external data enrichment, and searching accurately to match the user's intentions through semantic-based queries.

Cohesion Measure by the Decreasing Factors for an Object-Oriented Paradigm (객체지향 패러다임에서 저해요인에 기반한 응집도 척도)

  • Kim, Sung-Ae;Choi, Wan-Kyoo;Lee, Sung-Joo
    • The Transactions of the Korea Information Processing Society
    • /
    • v.7 no.11
    • /
    • pp.3372-3383
    • /
    • 2000
  • 객체지향 패러다임에서 응집도가 높은 클래스들은 단 하나의 데이터 요소만이 정의되고 모든 메소드(또는 연산)들이 그 데이터 요소 상에서 수행되거나, 메소드와 데이터 요소간에 최대연결이 이루어진 클래스이다. 따라서 데이터 요소의 증가와 최대연결을 저해하는 연산들은 클래스의 응집을 저해하는 주 요인들이다. 본 연구에서는 이러한 저해요인들에 근거하여, 응집도에 관한 우리의 직관과 더욱 일치하는 측정을 할 수 있는 새로운 클래스 응집도 척도인 CM(Cohesion Metric)을 제안하였다. 본 연구에서는 응집도를 저해하는 요인의 식별을 위해 참조 그래프(reference graph)를 이용하고, 참조 그래프의 분석을 기초로 하여 클래스의 응집도를 측정하였다. 또한 제한된 CM 측정값이 응집도 척도가 만족해하는 특성들을 만족함을 보였고, 기존 응집도 척도들과의 비교평가를 통해서 CM이 기존의 척도들보다 향상된 측정을 제시함을 보였다.

  • PDF

Proteinca : A System for Analysis/Visualization of Protein-Protein Interaction Networks (Proteinca : 단백질-단백질 상호작용 네트워크의 분석 및 가시화 시스템)

  • Yoon, Ji-Hyun;Jin, Hee-Jeong;Cho, Hwan-Gue
    • Proceedings of the Korean Society for Bioinformatics Conference
    • /
    • 2004.11a
    • /
    • pp.234-243
    • /
    • 2004
  • 단백질-단백질 상호작용(PPI :Protein-Protein Interaction) 데이터는 생물체가 어떠한 메커니즘으로 생명을 유지하는지에 대한 정보를 담고 있다. 최근에는 생물학자들의 실험에 의해 많은 데이터가 축적되어 있으며, 데이터베이스로 구축되어 인터넷에 공개되어 있다. PPI 데이터는 단백질를 노드(node)로, 상호작용은 에지(edge)로 갖는 그래프(Graph) 구조로 표현 가능하다. 본 논문에서는 사용자가 PPI 데이터를 쉽게 가공하고 분석할 수 있도록 그래프 이론 기반에 기반하여 구현한 Proteinca(PROTEin INteraction CAbaret) 시스템에 대해 소개한다. Proteinca에 대한 자세한 정보는 http://jade.cs.pusan.ac.kr/${\sim}$proten에서 볼 수 있다.

  • PDF

Role Administration Security Model based on MAC and Role Gragh (강제적 접근방식과 역할 그래프를 기반으로 한 역할관리 보안모델)

  • Park, Ki-Hong;Kim, Ung-Mo
    • Annual Conference of KIPS
    • /
    • 2001.10a
    • /
    • pp.73-76
    • /
    • 2001
  • 다중등급을 갖고 있는 대용량 데이터베이스 환경에서 각 보안등급을 갖고 있는 사용자가 데이터베이스에 접근할 때 확장된 강제적 접근제어(MAC:Mandatory Access Control) 방식과 역한 그래프(Role Graph)를 이용해 하위등급의 사용자가 상위등급의 데이터를 추론하거나 인지하는 데이터 유출을 방지하여 데이터의 무결성(integrity)과 데이터베이스 관리시스템(DBMS:Database Management System) 전체의 보안을 유지하며 각 보안등급의 데이터와 사용자를 효율적으로 관리하고 제어한 수 있는 역할관리 보안모델을 제안한다.

  • PDF

Implementation of I/O Trace Visualization Tool for Flash Memory based Storage Systems (플래시메모리 기반 저장시스템의 성능 분석을 위한 I/O 트레이스 가시화 도구 개발)

  • Yoon, Kyeong-Hoon;Jung, Ho-Young;Park, Sung-Min;Cha, Jae-Hyuk;Kang, Soo-Yong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10a
    • /
    • pp.351-355
    • /
    • 2006
  • 최근 플래시 메모리는 여러 장점들 때문에 다양한 휴대기기에서 많이 사용되고 있다. 반면 내구성에 약점을 갖고 있는 플래시 메모리의 특성 때문에 최대한 소거 동작을 적게 하여 오랫동안 사용하는 FTL 알고리즘을 개발하는 연구가 필요하다. 이러한 FTL 알고리즘을 실험하고 평가하기 위해서 트레이스 데이터를 연구에 활용하는 일이 많아지면서, 쉽게 트레이스 데이터에 대한 분석도구를 개발하였다. 우리는 트레이스 데이터를 다양한 그래프로 그려주고 통계치를 산출해주는 도구를 개발하였고, 이를 바탕으로 트레이스 분석 작업을 쉽게 할 수 있도록 하였다. 마찬가지로 이러한 도구는 버퍼 교체정책을 실험하고 평가하는 일에도 사용 될수 있다. 그리고 각 그래프를 설명하면서 트레이스에 데이터 대한 설명과 함께 분석을 통하여 버퍼교체 알고리즘 및 FTL 알고리즘에 어떻게 활용 할 수 있는지 설명하였다.

  • PDF

A Development of Personalized Recommendation System using Spark GraphX (Spark GraphX를 활용한 개인 추천 시스템 개발)

  • Kim, Sungsook;Park, Kiejin;Lu, Sun
    • Annual Conference of KIPS
    • /
    • 2018.05a
    • /
    • pp.41-43
    • /
    • 2018
  • 소설 데이터는 인터넷 상의 수 많은 개인과 개인의 상호 작용에 의하여 연결되어 있으며, 이러한 데이터를 분석하여, 분석 대상에 내재하고 있는 구조와 특성을 파악하는 일은 중요하다. 특히, 개인 추천을 위해서는 개별 데이터들의 관계 그래프를 활용하여 빠르고 정확하게 추천 값을 도출하는 것이 효율적이다. 하지만, 기존 추천 기법으로는 신규 사용자와 아이템이 끊임없이 등장하는 상황을 즉각적으로 반영하기가 어렵고, 또한 많은 결측값을 포함하는 sparse 한 데이터일 경우에는 추천 시스템의 연산 공간과 시간에 많은 제약이 있다. 이에 본 논문에서는 Spark GraphX 를 활용한 개인 추천 시스템을 설계 및 개발하였으며, 이를 통하여 사용자와 아이템간에 내재하는 복합 요인이 반영된 그래프 기반 추천을 실행하여, 개인 추천 결과의 우수성을 확인하였다.

Security Model Design based on MAC and RBAC Graph (강제적 접근방식과 역할기반 접근제어 그래프를 기반으로 한 보안모델 설계)

  • Park, Ki-Hong;Kim, Ung-Mo
    • Annual Conference of KIPS
    • /
    • 2001.04a
    • /
    • pp.27-30
    • /
    • 2001
  • 일반적인 운영체제의 보안과 마찬가지로 데이터베이스에서도 보안의 중요성은 강조되고 있다. 다중등급을 가지고 있는 데이터베이스에서 상위등급의 사용자가 사용하는 상위등급 데이터가 하위등급의 사용자가 사용하는 하위등급 데이터로 유입된다면 데이터의 무결성(integrity)이 깨지게 되어 데이터베이스뿐만 아니라 시스템 전체의 보안도 위협받게 된다. 본 연구에서는 대량의 데이터베이스 환경에서 다양한 보안등급을 가지고 있는 사용자가 다양한 등급을 가지고 있는 데이터베이스에 접근할 때 이를 강제적 접근제어(MAC:Mandatory Access Control)와 역할기반 접근제어(RBAC:Role-Based Access Control) 그래프를 이용해 사용자 보안등급에 따른 접근과 상위등급의 데이터가 하위등급으로 유출되지 않도록 이를 효율적으로 관리하고 제어할 수 있는 보안 모델을 제시하는데 중점을 두었다.

  • PDF

Informatics Network Representation Using Probabilistic Graphical Models of Network Genetics (유전자 네트워크에서 확률적 그래프 모델을 이용한 정보 네트워크 추론)

  • Ra Sang-Dong;Park Dong-Suk;Youn Young-Ji
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.10 no.8
    • /
    • pp.1386-1392
    • /
    • 2006
  • This study is a numerical representative modelling analysis for applying the process that unravels networks between cells in genetics to WWW of informatics. Using the probabilistic graphical model, the insight from the data describing biological networks is used for making a probabilistic function. Rather than a complex network of cells, we reconstruct a simple lower-stage model and show a genetic representation level from the genetic based network logic. We made probabilistic graphical models from genetic data and extends them to genetic representation data in the method of network modelling in informatics.