• 제목/요약/키워드: Data de-identification

검색결과 116건 처리시간 0.023초

호텔 이용 고객의 개인정보 비식별화 방안에 관한 연구 (A Study on the de-identification of Personal Information of Hotel Users)

  • 김태경
    • 디지털산업정보학회논문지
    • /
    • 제12권4호
    • /
    • pp.51-58
    • /
    • 2016
  • In the area of hotel and tourism sector, various research are analyzed using big data. Big data is being generated by any digital devices around us all the times. All the digital process and social media exchange produces the big data. In this paper, we analyzed the de-identification method of big data to use the personal information of hotel guests. Through the analysis of these big data, hotel can provide differentiated and diverse services to hotel guests and can improve the service and support the marketing of hotels. If the hotel wants to use the information of the guest, the private data should be de-identified. There are several de-identification methods of personal information such as pseudonymisation, aggregation, data reduction, data suppression and data masking. Using the comparison of these methods, the pseudonymisation is discriminated to the suitable methods for the analysis of information for the hotel guest. Also, among the pseudonymisation methods, the t-closeness was analyzed to the secure and efficient method for the de-identification of personal information in hotel.

A Study on De-Identification of Metering Data for Smart Grid Personal Security in Cloud Environment

  • Lee, Donghyeok;Park, Namje
    • Journal of Multimedia Information System
    • /
    • 제4권4호
    • /
    • pp.263-270
    • /
    • 2017
  • Various security threats exist in the smart grid environment due to the fact that information and communication technology are grafted onto an existing power grid. In particular, smart metering data exposes a variety of information such as users' life patterns and devices in use, and thereby serious infringement on personal information may occur. Therefore, we are in a situation where a de-identification algorithm suitable for metering data is required. Hence, this paper proposes a new de-identification method for metering data. The proposed method processes time information and numerical information as de-identification data, respectively, so that pattern information cannot be analyzed by the data. In addition, such a method has an advantage that a query such as a direct range search and aggregation processing in a database can be performed even in a de-identified state for statistical processing and availability.

빅데이타 비식별화 기술과 이슈 (De-identification Techniques for Big Data and Issues)

  • 우성희
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.750-753
    • /
    • 2017
  • 최근 스마트폰, SNS, 사물인터넷이 확산되면서 생겨나는 빅데이타의 처리와 활용이 ICT 분야의 새로운 성장 동력으로 부상하고 있다. 하지만 이러한 빅데이터의 활용을 위해서는 개인정보 비식별화가 이루어져야한다. 비식별화는 개인의 데이터가 특정인과 연결되지 않도록 데이터 셋으로부터 식별정보를 제거하는 것으로 정보를 수집, 처리, 보관 혹은 배포하는데 있어 발생할 수 있는 개인정보노출의 위험을 줄이며 그 정보를 활용하고 공유하는데 그 목적을 두고 있다. 비식별화된 정보는 또한 재식별화되어 개인정보보호의 논란이 되고 있지만 빅데이터등의 개인정보가 비식별 처리되어 활용되는 사례는 점차 증가하고 있다. 또한 많은 비식별화 가이드라인의 등장과 함께 개인정보 비식별화 방법이 제시되고 있다. 따라서 본 연구에서는 빅데이타 비식별화 과정과 사후관리를 서술, 비식별화 방법을 비교분석하고 비식별화와 개인정보보호 관련 이슈와 해결과제를 제시한다.

  • PDF

인공지능 학습용 데이터의 개인정보 비식별화 자동화 도구 개발 연구 - 영상데이터기반 - (Research on the development of automated tools to de-identify personal information of data for AI learning - Based on video data -)

  • 이현주;이승엽;전병훈
    • Journal of Platform Technology
    • /
    • 제11권3호
    • /
    • pp.56-67
    • /
    • 2023
  • 최근 데이터 기반 산업계의 오랜 숙원이었던 개인정보 비식별화가 2020년 8월 데이터3법[1]이 개정되어 명시화 되었다. 4차 산업시대의 원유[2]라 불리는 데이터를 산업 분야에서 활성화할 수 있는 기틀이 되었다. 하지만, 일각에서는 비식별개인정보(personally non-identifiable information)가 정보주체의 기본권 침해를 우려하고 있는 실정이다[3]. 이에 개인정보 비식별화 자동화 도구인 Batch De-Identification Tool을 개발 연구를 수행하였다. 본 연구에서는 첫 번째로, 학습용 데이터 구축을 위해 사람 얼굴(눈, 코, 입) 및 다양한 해상도의 자동차 번호판 등을 라벨링하는 이미지 라벨링 도구를 개발하였다. 두 번째로, 객체 인식 모델을 학습하여 객체 인식 모듈을 실행함으로써 개인정보 비식별화를 수행할 수 있도록 하였다. 본 연구의 결과로 개발된 개인정보 비식별화 자동화 도구는 온라인 서비스를 통해 개인정보 침해 요소를 사전에 제거할 수 있는 가능성을 보여주었다. 이러한 결과는 데이터 기반 산업계에서 개인정보 보호와 활용의 균형을 유지하면서도 데이터의 가치를 극대화할 수 있는 가능성을 제시하고 있다

  • PDF

재식별 시간에 기반한 k-익명성 프라이버시 모델에서의 k값에 대한 연구 (Analysis of k Value from k-anonymity Model Based on Re-identification Time)

  • 김채운;오준형;이경호
    • 한국빅데이터학회지
    • /
    • 제5권2호
    • /
    • pp.43-52
    • /
    • 2020
  • 빅데이터 활용 기술의 발전으로 데이터의 저장 및 공유가 늘어나면서 그에 따른 프라이버시 침해가 일어나게 되었다. 이 문제를 해결하기 위해 비식별 기술이 도입되었지만 비식별된 데이터에 대해서도 재식별이 가능하다는 것이 여러 차례 증명되었다. 재식별 가능성이 존재하기 때문에 완전히 안전할 수 없지만 그럼에도 불구하고 충분한 비식별처리가 이루어져야 하는데, 현재 법령이나 규제는 어느 정도로 비식별 처리를 해야 하는지 정량적으로 규정하고 있지 않다. 본 논문에서는 재식별 작업을 할 때 소요되는 시간을 고려하여 적절한 비식별 기준을 제시하려고 한다. 다양한 비식별 평가 모델 중에서 k-익명성 모델에 대해 집중적으로 연구하였으며 어느 정도의 k값이 적절한 지 판단하였다. 본 연구의 결과를 일반화시킬 수 있다면 각종 법률 및 규제에서 적절한 비식별 강도를 규정하는 데 사용할 수 있을 것이다.

개인정보 비식별화를 위한 개체명 유형 재정의와 학습데이터 생성 방법 (Re-defining Named Entity Type for Personal Information De-identification and A Generation method of Training Data)

  • 최재훈;조상현;김민호;권혁철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.206-208
    • /
    • 2022
  • 최근 빅데이터 산업이 큰 폭으로 발전하는 만큼 개인정보 유출로 인한 사생활 침해 문제의 관심도 높아졌다. 자연어 처리 분야에서는 이를 개체명 인식을 통해 자동화하려는 시도들이 있었다. 본 논문에서는 한국어 위키피디아 문서의 본문에서 비식별화 정보를 지닌 문장을 식별해 반자동으로 개체명 인식 데이터를 구축한다. 이는 범용적인 개체명 인식 데이터에 반해 비식별화 대상이 아닌 정보에 대해 학습되는 비용을 줄일 수 있다. 또한, 비식별화 정보를 분류하기 위해 규칙 및 통계 기반의 추가적인 시스템을 최소화할 수 있는 장점을 가진다. 본 논문에서 제안하는 개체명 인식 데이터는 총 12개의 범주로 분류하며 의료 기록, 가족 관계와 같은 비식별화 대상이 되는 정보를 포함한다. 생성된 데이터셋을 이용한 실험에서 KoELECTRA는 0.87796, RoBERTa는 0.88575의 성능을 보였다.

  • PDF

통계모형의 정확도에 기반한 비식별화 데이터의 품질 측정 (Data Quality Measurement on a De-identified Data Set Based on Statistical Modeling)

  • 전희주;이현지;연규필;김동례
    • 한국콘텐츠학회논문지
    • /
    • 제19권5호
    • /
    • pp.553-561
    • /
    • 2019
  • 본 연구에서는 개인정보 비식별화 데이터의 통계적 유용성에 대한 품질 측정 방안에 대하여 통계 모형화에 따른 예측 정확도 측면에서 고찰하였다. 4차 산업혁명 시대에서 정보통신기술을 통한 혁신에는 반드시 빅데이터의 효과적인 활용이 필수적이지만, 개인정보 이슈는 적극적인 빅데이터 활용에 제약이 되고 있다. 이를 해결하기 위해 비식별화 가이드라인이 제정되었으며 다양한 개인정보 비식별화 방법이 활용되면서 개인정보의 실질적인 재식별 가능성은 매우 낮아졌다. 반면에 강력한 비식별화는 데이터의 유용성을 떨어뜨리는 부작용이 나타날 수 있다. 그 동안은 재식별 불가능한 비식별화 방법이 연구의 주를 이루어 왔다면 본 연구에서는 대표적인 비식별 방법인 KLT 모형에 의한 비식별화 데이터에 대한 통계적 유용성 측면의 품질 측정에 대하여 연구하였다. 비식별화 데이터에 대한 통계적 예측모형의 정확도에 기반하여 비식별화 된 데이터의 통계적 유용성이 어느 정도 훼손되는지에 대하여 사례분석을 수행하였다. 또한, 비식별 자료에 어느 정도의 비식별화 되지 않은 자료가 추가되어야 예측모형의 정확도를 회복하는 지를 살펴봄으로써 비식별화된 자료의 데이터 유용성 정도에 대한 새로운 측정지표를 제안하였다.

항공안전 보고 데이터 텍스트 분석 기반 조성을 위한 비식별 처리 기술 적용 연구 (A Study on De-Identification Methods to Create a Basis for Safety Report Text Mining Analysis)

  • 황도빈;김영곤;심영민
    • 한국항공운항학회지
    • /
    • 제29권4호
    • /
    • pp.160-165
    • /
    • 2021
  • In order to identify and analyze potential aviation safety hazards, analysis of aviation safety report data must be preceded. Therefore, in consideration of the provisions of the Aviation Safety Act and the recommendations of ICAO Doc 9859 SMM Edition 4th, personal information in the reporting data and sensitive information of the reporter, etc. It identifies the scope of de-identification targets and suggests a method for applying de-identification processing technology to personal and sensitive information including unstructured text data.

비식별화 정책 비교 및 빅데이터 산업 활성화 방안 (De-identification Policy Comparison and Activation Plan for Big Data Industry)

  • 이소진;진채은;전민지;이조은;김수정;이상현
    • 문화기술의 융합
    • /
    • 제2권4호
    • /
    • pp.71-76
    • /
    • 2016
  • 본 논문에서는 미국, 영국, 일본, 중국, 한국의 비식별화 정책비교를 통하여 향후 비식별화 규제의 방향과 빅데이터 산업 활성화 방안을 제시한다. 비식별화 기술과 적정성 평가기준을 효율적으로 활용할 경우, 개인의 사생활을 침해하지 않고 개인정보보호법 제약을 피하면서 개인정보를 산업적으로 활용하여 서비스와 기술을 발전시킬 수 있다. 역작용으로는 비식별화 된 데이터들의 집합체로서 개인을 재식별 할 수 있는 재식별화 문제가 발생할 수 있다. 비즈니스 관점에서는 빅데이터 산업이 활성화되기 위해서 규제의 해소와 빅데이터 활용 등을 위한 제도완화가 필요하며 정보보호 측면에서의 보안강화 조치와 제도정비도 필요하다.

의료 비정형 텍스트 비식별화 및 속성기반 유용도 측정 기법 (De-identifying Unstructured Medical Text and Attribute-based Utility Measurement)

  • 노건;전종훈
    • 한국전자거래학회지
    • /
    • 제24권1호
    • /
    • pp.121-137
    • /
    • 2019
  • 비식별화는 데이터셋으로부터 개인정보를 제거함으로써 개인을 식별할 수 없도록 하는 방법으로, 정보를 수집, 가공, 저장, 배포하는 과정에서 발생할 수 있는 개인정보 노출 위험도를 낮추기 위해 사용한다. 그간 비식별화와 관련된 알고리즘, 모델 등의 관점에서 많은 연구가 이루어졌지만, 대부분은 정형 데이터를 대상으로 하는 제한적인 연구로, 비정형 데이터에 대한 고려는 상대적으로 많지 않은 실정이다. 특히 비정형 텍스트가 빈번히 사용되는 의료 분야의 경우에서는 개인 식별 정보들을 단순 제거함으로써 개인정보 노출 위험도는 낮추지만, 그에 따른 데이터 활용성이 떨어지는 점을 감수하는 실정이다. 본 연구는 개인정보 보호 이슈가 가장 중요하고 따라서 비식별화가 활발하게 연구되고 있는 의료분야 데이터 중 비정형 텍스트를 대상으로 k-익명성 보호모델을 적용한 비식별화 수행 방안을 제시하고, 비식별화 결과에 대한 새로운 유용도 측정 기법을 제안하여 이를 통해 직관적으로 데이터 활용성을 판단할 수 있도록 하는 것을 목표로 한다. 따라서 본 연구의 결과물이 의료 분야뿐만 아니라 비정형 텍스트가 활용되는 모든 산업 분야에서 활용될 경우, 개인 식별 정보가 포함된 비정형 텍스트의 활용도를 향상시킬 수 있을 것으로 기대한다.