• Title/Summary/Keyword: 식별데이터

Search Result 1,602, Processing Time 0.032 seconds

개인정보 비식별화 현황 및 비식별 조치 가이드라인 보완 연구

  • Jimin Son;Minho Shin
    • Review of KIISC
    • /
    • v.33 no.6
    • /
    • pp.89-109
    • /
    • 2023
  • 최근 AI와 로봇기술 등으로 개인정보를 포함한 데이터의 처리가 일상화됨에 따라 한국정부는 개인정보 비식별 조치 가이드라인 및 데이터 3법을 발표함으로써 개인정보 비식별화를 돕고자 하였다. 하지만 복잡한 비식별화 절차와 이의 효과에 대한 불명확함으로 기업들이 개인정보를 포함한 빅데이터의 활용에 어려움을 겪고, 동시에 시민단체나 소비자단체에서는 현 가이드라인에 따른 비식별화 절차가 개인정보를 보호하기에 충분하지 않다고 지적하고 있다. 본고에서는 비식별화 현황과 기술을 검토하고 현 가이드라인의 한계점을 보완 함으로써 데이터 활용 업체와 기관들의 정확한 비식별화를 돕고 빅데이터 활용의 활성화에 기여하고자 한다.

Raising Risk and Suggesting Solution about Personal Information De-identification in Big-Data Environment (빅데이터 환경에서 개인정보 비식별화에 대한 위험성 제기 및 대응 방안 제시)

  • Lee, Su-Rim;Jang, Woong-Tae;Bae, Jae-Young;Lee, Chan-Ho;Hyun, Beom-Su
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.297-300
    • /
    • 2016
  • 최근 빅데이터 산업이 발전하고 있는 상황에서 빅데이터 산업에 활용되는 개인정보의 보호에 관한 문제가 대두하고 있다. 빅데이터 산업에서 개인정보를 활용하기 위해서는 비식별화 조치를 해야 한다. 하지만 비식별화는 비식별화 평가 모델 자체의 취약성과 더불어 비식별화된 개인정보를 재식별화 하는 위험성도 존재한다. 본 논문은 적정성 평가 모델, 비식별화 조치 기술, 재식별에 관한 위험성을 연구하고 각 위험성에 대한 대응 방안을 통해 재식별화의 문제를 해결하여 빅데이터 산업에서 비식별화된 개인정보가 안전히 쓰일 수 있도록 해야 한다.

A Study on the Preservation of Similarity of privated Data (비식별 데이터의 유사성 보존에 관한 연구)

  • Kang, Dong-Hyun;Oh, Hyun-Seok;Yong, Woo-Seok;Lee, Won-Seok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.11a
    • /
    • pp.285-288
    • /
    • 2017
  • 비식별화 모델은 데이터 공유를 위한 모델로 원본데이터를 비식별화 변환 처리하여 개인정보를 보호함과 동시에 분석에 필요한 데이터를 외부에 제공하는 모델로 연구되어 왔다. 변환 방법으로는 삭제, 일반화, 범주화 기술 등이 주로 사용되며 변환 과정 중에는 재식별 가능성을 최소화하기 위해 k-익명성, l-다양성, t-근접성 혹은 differential privacy 등의 프라이버시 모델이 적용되고 있다. 하지만 변환된 비식별 데이터 세트는 필연적으로 원본 데이터 세트와 다른 값을 가지며 이는 결과적으로 최종 분석 결과에 영향을 주게 된다. 이를 위해 두 데이터 세트 간의 차이를 상이도(dissimilarity) 혹은 정보 손실율(information loss)이라는 지표로 측정 하고 있으며 본 지표는 비식별 데이터의 활용성을 평가 하는 데에 매우 중요한 역할을 한다. 본 연구에서는 비식별 데이터와 원본 데이터와 간의 차이를 도메인 기반의 절대적인 기준대비로 표현한 상이도 측정 방법을 제안하며, 그 유효성을 실데이터 기반의 실험을 통해 검증하였다.

owl:sameAs Synchronization Server for Same Objects (동일 개체를 위한 owl:sameAs 관리 서버)

  • Kim, Pyung;Lee, Seung-Woo;Seo, Dong-Min;Jung, Han-Min
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.90-93
    • /
    • 2010
  • 시맨틱 웹은 웹 환경에서 데이터의 의미를 표준화된 방법으로 표현함으로써 데이터의 상호 운용성을 보장하고 기계가 활용 가능한 데이터의 웹을 가능하게 해준다. 온톨로지에서 데이터는 식별자(URI)를 사용해서 의미가 명확화되고, 표준 기술 방법(RDF)를 통해서 어플리케이션 간 데이터의 통합 및 재사용을 가능하게 해준다. 최근 미국과 유럽을 중심으로 링크드 데이터 프로젝트를 통해서 시맨틱 데이터들의 상호연계가 활발하게 추진하고 있다. 그러나 다양한 출처들의 데이터를 연계하는 과정에서, 동일한 객체에 서로 다른 식별자가 할당된 경우 식별자를 통한 시맨틱 정보 연계에 문제가 발생할 수 있다. OWL에서는 동일 객체에 대한 2개 이상의 식별자가 부여된 경우 owl:sameAs를 이용해서 식별자들이 동일 객체를 가리키고 있음을 명시한다. 본 연구에서는 서로 다른 식별자를 가진 객체들이 owl:sameAs를 사용해서 동일 객체로 표현되었을 경우, 동일 객체에 부여된 식별자 정보를 효과적으로 관리하고, 이를 서비스에 활용하기 위한 관리 서버를 설계하였다. 관리 서버를 통해 동일 객체에 대한 식별자들의 체계적인 관리는 물론, 동일 객체를 찾기 위한 질의 횟수를 감소시켜서 서비스 소요시간을 줄일 수 있다.

  • PDF

Analysis of k Value from k-anonymity Model Based on Re-identification Time (재식별 시간에 기반한 k-익명성 프라이버시 모델에서의 k값에 대한 연구)

  • Kim, Chaewoon;Oh, Junhyoung;Lee, Kyungho
    • The Journal of Bigdata
    • /
    • v.5 no.2
    • /
    • pp.43-52
    • /
    • 2020
  • With the development of data technology, storing and sharing of data has increased, resulting in privacy invasion. Although de-identification technology has been introduced to solve this problem, it has been proved many times that identifying individuals using de-identified data is possible. Even if it cannot be completely safe, sufficient de-identification is necessary. But current laws and regulations do not quantitatively specify the degree of how much de-identification should be performed. In this paper, we propose an appropriate de-identification criterion considering the time required for re-identification. We focused on the case of using the k-anonymity model among various privacy models. We analyzed the time taken to re-identify data according to the change in the k value. We used a re-identification method based on linkability. As a result of the analysis, we determined which k value is appropriate. If the generalized model can be developed by results of this paper, the model can be used to define the appropriate level of de-identification in various laws and regulations.

Data Quality Measurement on a De-identified Data Set Based on Statistical Modeling (통계모형의 정확도에 기반한 비식별화 데이터의 품질 측정)

  • Chun, Heuiju;Yi, Hyun Jee;Yeon, Kyupil;Kim, Dongrae
    • The Journal of the Korea Contents Association
    • /
    • v.19 no.5
    • /
    • pp.553-561
    • /
    • 2019
  • In this study, the method of quality measurement for the statistical usefulness of de-identified data was examined in terms of prediction accuracy by statistical modeling. In the era of the 4th industrial revolution, effective use of big data is essential to innovation through information and communication technology, but personal information issues are constrained to actively utilize big data. In order to solve this problem, de-identification guidelines have been established and the possibility of actual re-identification of personal information has become very low due to the utilization of various de-identification methods. On the other hand, strong de-identification can have side effects that degrade the usefulness of the data. We have studied the quality of statistical usefulness of the de-identified data by KLT model which is a representative de-identification method, A case study was conducted to see how statistical accuracy of prediction is degraded by de-identification. We also proposed a new measure of data usefulness of the de-identified data by quantifying how much data is added to the de-identified data to restore the accuracy of the predictive model.

Author Entity Identification using Representative Properties in Linked Data (대표 속성을 이용한 저자 개체 식별)

  • Kim, Tae-Hong;Jung, Han-Min;Sung, Won-Kyung;Kim, Pyung
    • The Journal of the Korea Contents Association
    • /
    • v.12 no.1
    • /
    • pp.17-29
    • /
    • 2012
  • In recent years, Linked Data that is published under an open license shows increased growth rate and comes into the spotlight due to its interoperability and openness especially in government of developed countries. However there are relatively few out-links compared with its entire number of links and most of links refer a few hub dataset. These occur because of absence of technology that identifies entities in Linked data. In this paper, we present an improved author entity resolution method that using representative properties. To solve problems of previous methods that utilizes relation with other entities(owl:sameAs, owl:differentFrom and so on) or depends on Curation, we design and evaluate an automated realtime resolution process based on multi-ontologies that respects entity's type and its logical characteristics so as to verify entities consistency. The evaluation of author entity resolution shows positive results (The average of K measuring result is 0.8533.) with 29 author information that has obtained confirmation.

A Study on the Management of Name Identifier System for ISNI-based Data Integration (ISNI 기반 데이터 융합을 위한 저자식별체계 운용에 관한 연구)

  • Lee, Seungmin;Kwak, Seung-Jin;Oh, Sanghee;Park, Jin Ho
    • Journal of the Korean BIBLIA Society for library and Information Science
    • /
    • v.30 no.1
    • /
    • pp.29-51
    • /
    • 2019
  • Most fields of society have constructed and utilized various name identifier systems such and International Standard Name Identifier(ISNI), Open Researcher and Contributor ID(ORCID), and Interested Parties Information System(IPI) in order to uniquely identify individual authors and institutions and to associate them to data related to creative works. Although it might be inevitable to apply name identifier systems in the current data environment with rapid association and integration of data across fields, there are many problems to be addressed when utilizing those systems. In order to overcome these problems and construct better information ecological system by associating and linking data from various fields, this research analyzed advanced cases for data integration based on ISNI. Through the analysis, it suggested managemental refinements for efficiently utilizing ISNI in data integration and association.

Recognition of Targets Using the Measured Data of KOMSAR (KOMSAR의 실측데이터를 이용한 표적 식별)

  • Choi, In-O;Park, Sang-Hong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.1010-1011
    • /
    • 2013
  • 본 논문에서는 국방과학연구소에서 운용하는 KOMSAR(Korea Miniature Synthetic Aperture Radar)장비로 측정한 실제 항공기의 데이터를 이용하여 효율적인 표적식별을 수행하였다. 표적식별과정은 수신된 모든 데이터에 대하여 거리측면도를 구한 다음 4개의 표적으로 분리한 후, 효과적인 특성벡터를 구성하여 nearest neighbor(NN) 구분기로 표적식별 성능을 수행하였다. 표적식별수행 결과, 높은 구분성능으로 구분이 가능하였다.

Design and Implementation of Deep Learning based System for Object Identification of Multimedia Data (멀티미디어 데이터에서 객체 식별을 위한 딥러닝 기반의 시스템 설계 및 구현)

  • Ko, Sang-Gyun;Kim, Bongjae;Kim, Jeong-Dong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.606-608
    • /
    • 2018
  • 최근 CCTV나 블랙박스 등 멀티미디어 데이터를 생성해내는 장치의 사용이 늘어나고 있다. 이러한 대용량 멀티미디어 데이터가 증가함에 따라 사용자가 동영상과 같은 멀티미디어 데이터 내의 객체를 식별하기 위해서는 많은 시간을 할애하여 매뉴얼하게 일일이 찾아야 하는 한계점이 있다. 본 논문에서는 사용자가 동영상 및 이미지에서와 같은 멀티미디어 데이터에서 객체를 자동으로 식별할 수 있 수 있는 딥러닝 기반의 객체 식별 및 검색 모델을 제안한다. 제안하는 객체 식별 검색은 이미지 검색과 동영상 검색을 지원한다. 이미지 검색에서는 이미지에 존재하는 동일한 객체를 검색 대상 이미지들에서 객체를 식별하고, 이미지에 존재하는 객체를 검색하여 결과로 반환한다. 또한 동영상 검색에서는 동영상에서 검색하고자 하는 객체를 식별하고 객체가 출현하는 시간을 전처리과정을 통해 기록하며, 검색하고자 하는 동영상 내에 존재하는 객체의 검색이 가능하다. 따라서 사용자가 동영상에서 객체의 검색 시 키워드 검색이 가능하여 동영상을 모두 재생하서 객체를 식별해야 하는 번거로움을 해결할 수 있다.