DOI QR코드

DOI QR Code

Effecient Techniques to Block Copyright Infringement Illegal Streaming Sites

저작권 침해 불법 스트리밍 사이트 차단을 위한 효율적인 기법

  • Received : 2022.07.04
  • Accepted : 2022.08.18
  • Published : 2022.10.31

Abstract

In proportion to the rapid development of information and communication technology, the damage to copyright infringement is also increasing. In particular, as the OTT platform market has grown significantly in recent years, the speed and distribution of pirated copies that infringe copyright are increasing rapidly compared to the past. Accordingly, the country is trying to prevent copyright infringement by detecting and blocking illegal streaming sites, but it is difficult to expect great results due to the fast production of illegal streaming sites. Therefore, in this paper, we analyze the causes of rapid production of blocked illegal streaming sites, track and analyze 58 illegal streaming sites, and propose ways to effectively block illegal streaming sites based on the analysis results.

정보통신 기술의 비약적인 발전과 비례하여 저작권 침해에 대한 피해도 증가하고 있다. 특히, 최근 몇 년 사이 OTT 플랫폼 시장이 크게 성장하면서 저작권을 침해하는 불법 복제물의 복제 속도와 유통량이 과거와 비교하여 빠르게 증가하고 있다. 그에 따라 국가에서는 불법 스트리밍 사이트를 탐지 및 차단 함으로써 저작권 침해를 방지하기 위해 노력하고 있지만, 불법 스트리밍 사이트의 생산 속도가 빨라 큰 성과를 기대하기 어려운 상황이다. 따라서, 본 논문에서는 차단된 불법 스트리밍 사이트가 빠르게 생산될 수 있는 원인에 대해 분석하였으며, 불법 스트리밍 사이트 58곳을 추적 및 분석하여 분석 결과를 바탕으로 불법 스트리밍 사이트를 효과적으로 차단할 수 있는 방안에 대해 제안한다.

Keywords

I. 서론

최근 클라우드 서비스 및 5G 네트워크 기술이 발전하면서 영상 콘텐츠를 저장하지 않고 실시간으로 시청할 수 있는 스트리밍 서비스를 활용한 시장이 점차 성장하고 있다. 특히, 한국저작권보호원 ‘2022 저작권 보호 연차보고서’[1]에 따르면 세계적인 코로나19 펜데믹으로 극장 시장이 크게 위축되면서 손익분기점을 넘기기 어렵다는 판단에 스트리밍 서비스를 제공하는 넷플릭스(netflix), 티빙(tving), 웨이브(wavve) 등과 같은 OTT(Over The Top) 플랫폼에서 영화를 동시 개봉 및 OTT 단독 개봉을 단행한 영화가 늘었다. 이에 따라 코로나19 펜데믹을 기점으로 OTT 이용자 수가 크게 증가하면서 OTT 플랫폼 시장은 빠른 속도로 성장하고 있다.

OTT 플랫폼 시장의 성장 및 코로나19의 영향으로 저작물을 불법으로 복제하여 스트리밍 서비스를 제공하는 불법 스트리밍 사이트의 이용률은 감소하였지만[2], 2021년 12월 OTT 플랫폼 등과 같은 온라인에서 개봉한 일반영화의 93%가 불법 유통되는[1] 등 신작 영화의 불법 복제 속도는 과거 극장에서만 개봉했던 신작 영화의 불법 복제 속도와 비교하여 빨라지고 유통량 또한 크게 증가하였다.

정부와 관련 업계에서는 영상 콘텐츠의 저작권을 침해하는 불법 복제물에 대응하기 위해 불법 스트리밍 사이트를 탐지 및 차단하고 있으며, 불법 복제물 신고 사이트 COPY112(www.copy112.or.kr)를 통해 일반 국민도 불법 스트리밍 사이트를 모니터링하여 신고할 수 있도록 운영하고 있다. 이러한 노력에도 불구하고 불법 스트리밍 사이트를 탐지 및 차단하는 속도보다 재생성되는 속도가 빨라 큰 효과를 기대하기 어려운 상황이다. 이러한 문제를 해결하기 위한 국내 연구들이 다수 존재하지만, 불법 복제물 탐지 및 불법 스트리밍 사이트 탐지와 관련된 연구만 진행되어 불법 스트리밍 사이트의 재생성 속도를 억제하기 위한 연구가 필요하다.

따라서, 본 논문에서는 불법 스트리밍 사이트가 빠른 속도로 재생성되는 이유를 분석하고 재생성 속도를 억제하기 위한 새로운 방안을 제안하고자 한다. 논문의 구성은 다음과 같다. 1장의 서론에 이어 2장에서는 불법 스트리밍 사이트 탐지 및 차단에 관한 관련 연구에 대해 살펴보며, 3장에서는 다수의 불법 스트리밍 사이트를 추적하고 분석한다. 4장에서는 3장에서 분석한 결과를 바탕으로 불법 스트리밍 사이트를 효과적으로 차단하는 방안을 제안한다. 마지막으로 5장에서 결론으로 본 논문을 마무리한다.

II. 관련 연구

불법 사이트로 인해 다양한 저작권 침해 문제가 발생하였고, 이에 대응하기 위한 관련 연구들은 이전에도 진행되었으며, 불법 사이트를 효율적으로 탐지 할 수 있는 기법을 제안하여 사이트를 이전보다 빠르게 차단할 수 있도록 하였다.

2.1 HTML 태그를 이용한 불법 사이트 탐지 자동화

이기룡 등[4]은 불법 토렌트 사이트가 차단된 후 재생성되더라도 자동으로 탐지할 수 있는 기술을 제안하였다. 그들은 한국 상위 50개 불법 토렌트 사이트를 한 달 동안 추적하였고, 불법 토렌트 사이트가 차단된 후 재생성될 때 기존에 사용하던 웹페이지 소스를 그대로 재사용한다는 것을 확인하였다. 이러한 특징을 이용하여 불법 토렌트 사이트의 메인 HTML 코드를 획득하고 최장공통부분수열(Longest Common Subsequence, LCS) 알고리즘을 이용하여 기존 웹페이지 HTML 태그와 검색된 HTML 태그의 유사도를 측정하였다. LCS를 통해 측정된 유사도를 바탕으로 불법 토렌트 사이트를 추적한 결과, 상위 50개 중 29개의 사이트가 차단 후 지속해서 재생성되는 것을 확인하였고, 재생산되는 불법 사이트를 자동화된 시스템으로 빠르게 탐지할 수 있음을 확인하였다. 하지만, 해당 연구에서 언급되었듯이 불법 토렌트 사이트는 차단되더라도 지속해서 재생성 된다는 한계점이 존재하여 근본적인 해결 방안은 되지 못하였다.

2.2 이미지 블랙리스트 기반 불법 사이트 탐지

김의진 등[5]은 불법 사이트 재생성 속도와 비교하여 침해 여부 판단 속도가 상대적으로 느리다는 문제를 해결하기 위해 이미지 블랙리스트 기반 불법 사이트 탐지 기법을 제안하였다. 그들은 저작권을 침해하는 불법 사이트가 메인 페이지에 사이트를 대표하는 이미지를 게시하여 이용자에게 제공하는 특징을 확인하였다. 이에 따라 불법 사이트의 대표 이미지를 활용하여 이미지 블랙리스트를 생성하였고, 블랙리스트를 기반으로 기존보다 효율적으로 불법 사이트를 탐지할 수 있음을 확인하였다. 하지만, 이기룡 등[4]의 연구와 같이 불법 사이트는 지속해서 재생성되기 때문에 근본적인 해결 방안은 되지 못하였다.

III. 불법 스트리밍 사이트 추적 및 분석

본 논문에서는 불법 스트리밍 사이트가 비정상적으로 빠르게 재생성되는 원인과 특징을 분석을 위해 국내 불법 스트리밍 사이트 58곳을 2022년 5월 15일부터 2022년 6월 15일까지 추적하였다. 그 결과 불법 스트리밍 사이트의 도메인 주소는 다르지만, 사이트의 내용은 완전히 같은 미러(Mirror) 사이트가 다수 존재하는 것을 확인하였으며, 차단된 후 재생성되는 사이트 또한 미러 사이트와 같이 도메인 주소만 수정하여 기존 사이트의 웹페이지 코드를 그대로 사용하는 것을 확인하였다. 따라서, 불법 스트리밍 사이트 자체를 차단하는 것은 큰 효과가 없다고 판단하였고, 불법 스트리밍 사이트의 특징을 분석하여 효율적으로 사이트를 차단할 방안에 대해 연구하였다.

3.1 불법 스트리밍 미러 사이트 분석

미러 사이트는 Fig. 1.과 같이 특정 웹사이트 코드를 그대로 복사하고 도메인 주소만 수정하여 특정 웹사이트와 똑같은 서비스를 제공한다.

JBBHCB_2022_v32n5_837_f0001.png 이미지

Fig. 1. Mirror sites on actual illegal streaming sites

웹사이트 코드를 비교하여 58곳의 불법 스트리밍 사이트 중 4종류의 미러 사이트 20곳을 확인하였으며, 메인 페이지뿐만 아니라 공지사항, 게시물 수 등 사이트 내부 내용까지 같은 것을 확인하였다. 따라서, 전체 불법 스트리밍 사이트의 약 34.48%가 미러 사이트임을 확인하였으며, 사이트 관리자는 사이트 도메인 주소만 수정하여 쉽고 빠르게 새로운 불법 스트리밍 사이트를 생성할 수 있음을 확인하였다.

3.2 불법 스트리밍 사이트 재생성 분석

앞선 분석 결과를 바탕으로 차단된 불법 스트리밍 사이트 또한 미러 사이트 생성과 같은 방법으로 빠르게 재생성할 수 있을 것으로 생각하였다. 따라서, 사이트가 재생성되는 과정을 추적하여 미러 사이트와 같은 방법으로 차단된 불법 스트리밍 사이트가 재생성 되는지 분석하였다.

국내 불법 스트리밍 사이트 58곳을 추적한 결과 Table 1.와 같이 58곳 중 차단되어 폐쇄된 사이트는 6곳이었으며, 28곳은 기존에 수집한 도메인 주소로 접근할 수 있는 상태였다. 나머지 24곳은 기존에 수집한 도메인 주소가 차단되어 접근할 수 없었지만, Fig. 2.와 같이 도메인 주소의 숫자만 수정하는 등의 방법을 통하여 정상적으로 운영되고 있었으며, 웹페이지 코드 또한 같았다. Fig. 2.는 Internet Archive(www.archive.org)를 이용하여 불법 스트리밍 사이트의 과거 페이지(위)와 현재 정상적으로 운영되는 도메인 주소로 접속했을 때의 페이지(아래)를 비교한 화면이다.

Table 1. Site Tracking Results

JBBHCB_2022_v32n5_837_t0001.png 이미지

JBBHCB_2022_v32n5_837_f0002.png 이미지

Fig. 2. A page screen that uses Internet Archive to access past pages (top) and current domain addresses(bottom)

본 논문에서 불법 스트리밍을 추적하여 분석한 결과 차단되지 않은 불법 스트리밍 사이트를 제외한 30곳 중 24곳인 80%의 불법 스트리밍 사이트는 차단되더라도 미러 사이트를 생성하는 것과 같이 도메인 주소만 수정하는 방법으로 빠르게 재생성되는 것을 확인하였다. 따라서, 도메인 주소를 차단하여 불법 스트리밍 사이트 자체를 차단하는 방법은 저작권 침해에 대응하기 위한 근본적인 해결 방안이 되지 못하는 것으로 판단된다.

3.3 불법 스트리밍 사이트 특징 분석

불법 스트리밍 사이트에는 공통된 특징이 몇 가지 존재한다. 가장 대표적인 특징은 도박 사이트 광고 이미지가 존재한다는 것이다. 하지만, 도박 사이트 광고 이미지를 이용하여 효과적으로 사이트를 탐지할 수 있을 뿐 효과적인 차단에 활용하기는 어렵다. 불법 스트리밍 사이트의 또 다른 특징은 영상 원본을 직접 제공하지 않는다는 것이다. 불법 스트리밍 사이트는 Fig. 3.과 같이 다수의 사이트를 경유(①)한 뒤 스트리밍 서비스를 제공하며, 스트리밍 영상을 재생할 때 영상 URL에 접속하도록 유도(②)한다는 특징을 갖는다.

JBBHCB_2022_v32n5_837_f0003.png 이미지

Fig. 3. Access path to illegal site video URL

또한, Fig. 4.와 같이 미러 사이트가 아니며, 서로 다른 사이트임에도 불구하고 스트리밍 서비스를 제공하기 위해 사용하는 영상 URL이 같은 경우가 존재하였다.

JBBHCB_2022_v32n5_837_f0004.png 이미지

Fig. 4. Compare illegal streaming site video URL

IV. 제안하는 불법 스트리밍 사이트 차단 방안

앞선 불법 스트리밍 사이트 추적 및 분석 결과 사이트에서 스트리밍 서비스를 제공하기 위해 경유지를 거쳐 영상 URL에 접근하도록 유도한다는 특징을 확인하였으며, 서로 다른 사이트임에도 불구하고 같은 영상 URL을 사용하는 사실도 확인하였다. 본 논문에서는 경유지와 영상 URL을 자동으로 수집하는 추적 기법을 크롤링 방식으로 구현하였고, 수집된 데이터를 분석하여 효율적으로 불법 스트리밍 사이트를 차단 방안에 대해 연구하였다.

4.1 불법 스트리밍 사이트 경유지 및 영상 URL 수집 알고리즘

불법 스트리밍 사이트에서 경유지 및 영상 URL을 수집하고 추적하는 기법의 알고리즘은 Fig. 5.와 같이 사이트 차단 및 우회확인 단계, 스트리밍 영상 URL 수집 단계, 전파 경로 추적 단계로 구성된다.

JBBHCB_2022_v32n5_837_f0005.png 이미지

Fig. 5. Illegal streaming video URL tracking algorithm

4.1.1 사이트 차단 및 우회확인 단계

사이트 차단 및 우회확인 단계는 기존에 수집한 불법 스트리밍 사이트 도메인 주소가 현재 접근 가능한지 판단하는 단계이다. 접근하려는 불법 스트리밍 사이트가 차단된 경우 구글 검색엔진을 통해 기존 도메인 주소의 일부를 검색하여 새로운 도메인 주소로 사이트가 운영되는지 확인한다. 불법 스트리밍 사이트에 접근이 가능한 경우 스트리밍 영상 URL 수집 단계로 넘어간다.

4.1.2 스트리밍 영상 URL 수집 단계

스트리밍 영상 URL 수집 단계에서는 접근 가능한 불법 스트리밍 사이트의 영상 href와 class Tag를 수집한다. 또한, Redirect URL의 존재 여부를 확인하여 존재하는 Redirect URL을 경유지 분석을 위해 수집하고, 만약 존재하지 않는 경우 스트리밍 URL을 수집 및 실행하고 스트리밍 영상을 실행한다. 스트리밍 URL은 불법 스트리밍 사이트 이용자가 영상의 재생 버튼을 누르기 전 상태의 URL을 말하며, 정상적으로 영상이 실행되는 경우 최종적으로 URL을 수집한다.

4.1.3 전파 경로 추적 단계

마지막 단계인 전파 경로 추적단계에서는 수집한 영상 URL을 비교하고 각 불법 스트리밍 사이트의 전파 경로를 분석하기 쉽도록 CSV 형태로 저장된 URL 목록을 정리한다. 먼저 수집한 URL에서 중복된 값을 제거하고, 파일을 합친 뒤 영상 이름과 URL 기준으로 정렬한다.

4.2 불법 스트리밍 사이트 경유지 및 영상 URL 분석

불법 스트리밍 사이트 경유지 및 영상 URL 추적 기법 알고리즘을 Python의 Selenium 라이브러리를 이용하여 구현하였다. 본 논문에서는 구현한 경유지 및 영상 URL 추적 기법을 사용하여 기존에 수집한 58곳의 불법 스트리밍 사이트 중 차단된 6곳과 사이트 구조상 영상 URL을 수집하기 어려운 10곳을 제외한 32곳의 사이트에서 25편의 영상에 대한 경유지 및 영상 URL을 수집하였다. 32곳의 사이트에서 25편의 영상 URL을 수집하면 본래 800개(32 * 25)의 영상 URL이 수집되어야 하지만, 사이트마다 서비스하지 않는 영상이 존재하여 627개의 영상 URL만 수집할 수 있었다.

4.2.1 불법 스트리밍 사이트 경유지 분석

불법 스트리밍 사이트 경유지 URL은 총 1,058개 수집되었다. 영상 URL이 627개 수집되는 동안 경유지는 1,058개 수집되었기 때문에, 영상 URL에 접근하기 위한 평균 경유 횟수는 약 1.68번으로 분석되었다. 경유지 URL을 분석한 결과 사이트마다 경유지 URL의 주소가 달랐으며, 같은 사이트의 각 영상도 경유지 URL이 다른 것을 확인하였다.

결과적으로 영상 URL에 접근하기 위한 경로를 분석한 결과 경유지의 개수와 주소가 달라 불법 스트리밍 사이트를 효과적으로 차단하기 위한 특징으로는 사용하지 못하였다.

4.2.2 불법 스트리밍 사이트 영상 URL 분석

앞서 언급했듯이 불법 스트리밍 사이트 32곳에서 25편의 영상 URL 627개를 수집하였다. 수집한 영상 URL은 Table 2.와 같이 불법 스트리밍 사이트 32곳에서 각 편당 수집한 전체 영상 URL 개수, 중복되는 영상 URL 개수, 중복되지 않는 영상 URL 개수, 중복되는 영상 URL의 종류로 분류하였다.

Table 2. Analysis results of collected video URL

JBBHCB_2022_v32n5_837_t0002.png 이미지

영상 URL 분류 및 분석 결과 총 627개의 영상 URL 중 한 쌍이라도 중복되는 URL은 589개, 중복되지 않는 URL은 38개로 수집된 영상 URL 전체의 약 93.93%가 중복된 URL을 사용하여 스트리밍 서비스를 제공하고 있었다. 또한, 589개의 영상 URL은 49개의 종류에 모두 포함되어 있다.

4.3 제안하는 불법 스트리밍 사이트 차단 기법

앞선 영상 URL 분석을 통해 수집된 32곳의 서로 다른 불법 스트리밍 사이트에서 제공하는 스트리밍 서비스의 약 93.93%가 같은 영상 URL을 사용하는 것을 확인하였다. 따라서, 본 논문에서는 불법 스트리밍 사이트의 효율적인 차단을 위해 영상 URL을 수집 및 분석하고 차단하는 방안을 제안한다.

제안하는 불법 스트리밍 사이트 차단 기법 적용 시나리오 예시는 Fig. 6.과 같다. 사용자가 특정 영상을 검색하여 불법 스트리밍 사이트에 접속하는 경우 불법 스트리밍 사이트에서는 외부의 영상 URL을 통해 스트리밍 서비스를 제공한다. 이때, 영상 URL 자체가 차단되어 있으면, 스트리밍 서비스를 사용자에게 제공할 수 없고 사용자가 다른 불법 스트리밍 사이트를 이용하더라도 분석 결과와 같이 불법 사이트에서 제공하는 영상의 약 93.93%가 같은 영상 URL을 공유하고 있어 사용자가 불법 스트리밍 사이트를 통해 특정 영상을 시청할 수 없도록 한다.

JBBHCB_2022_v32n5_837_f0006.png 이미지

Fig. 6. Example of blocking video URL

제안하는 기법의 장점을 정리하면 다음과 같다. 첫째, 불법 스트리밍 사이트 이용자가 사이트를 통해 원활한 영상 시청을 하지 못하도록 할 수 있다. 즉, 하나의 영상 URL을 차단함으로써 다수의 서로 다른 불법 스트리밍 사이트에서 해당 영상의 스트리밍 서비스를 제공하지 못하게 하여 불법 스트리밍 사이트의 가용성을 떨어뜨려 불법 스트리밍 사이트의 이용률을 감소시킬 수 있다.

둘째, 불법 스트리밍 사이트 관리자 관점에서 차단된 사이트의 도메인 주소 하나만 바꿔 재생성하는 것보다 차단된 다수의 영상 URL을 복구 및 재 업로드하는 것이 시간과 노력을 더 필요로 한다. 즉, 관리자가 불법 스트리밍 사이트를 복구하는데 필요한 기회비용을 증가시켜 불법 스트리밍 사이트의 재생성 속도를 억제할 수 있다.

V. 결론

본 논문에서는 불법 스트리밍 사이트의 차단 속도보다 생성되는 속도가 빠르다는 문제를 해결하고자 하였다. 한 달 동안 58곳의 불법 스트리밍 사이트를 추적한 결과 도메인 주소를 수정하는 것으로 미러 사이트 생성과 차단 후 재생성 되는 것을 확인하여 불법 스트리밍 사이트 도메인 주소를 차단하는 것은 근본적인 해결 방안 되지 못하는 것으로 판단하였다.

근본적인 해결 방안을 찾기 위해 수집한 불법 스트리밍 사이트를 분석하여 서로 다른 사이트가 같은 영상 URL을 통해 스트리밍 서비스를 제공하는 사실을 확인하였다. 이에 따라, 영상 URL 수집이 가능한 사이트 32곳을 대상으로 총 627개의 영상 URL을 수집하고 영상 URL 중 약 93.93%에 해당하는 589개의 영상 URL이 중복되는 것을 확인하였으며, 하나의 영상 URL을 차단함으로써 서로 다른 불법 스트리밍 사이트의 스트리밍 서비스 제공을 차단할 수 있음을 확인하였다.

앞선 불법 스트리밍 사이트 추적 및 분석을 통해 본 논문에서는 궁극적으로 영상 URL을 차단하는 방안을 제안하였다. 제안하는 방안을 통해 불법 스트리밍 사이트의 이용률이 줄어들 것으로 기대되며, 차단된 사이트의 재생성 속도 또한 억제할 수 있을 것으로 기대된다. 하지만, 영상 URL을 수집할 수 없는 사이트가 존재한다는 점, 영상 URL을 수집하기 위한 프로그램을 사이트 구성에 따라 다르게 만들어야 한다는 점, 영상 URL의 수가 매우 많다는 점 등의 문제점이 존재하여 향후 연구에서는 개선방안에 대해 연구하고자 한다.

References

  1. Korea Copyright Protection Agency, "2022 Copyright Protection Annual Report (Movie)", pp. 3-4, Apr. 2022
  2. Korea Copyright Protection Agency, "2021 Copyright Protection Annual Report (Movie)," pp. 85-88, May. 2021
  3. Lee Ki-ryong and Lee Hee-jo, "Automation of illegal site detection using HTML tag order," Journal of the Society of Information Sciences,vol.43, no.10, pp. 1173-1178
  4. Kim Eui-jin, Jung In-soo, SongYu-rae, and Kwak Jin, "Tmageblacklist based on suspected copyright infringement site detection techniques," Journal of the Korean Information Processing Society, 28(1),pp. 148-150, 2021
  5. Don-yeon Lee, Ji-sub Lee, Soo-jin Leeand Cheol-ho Choi, "Streaminglinksite and online service provider'sinfringement of copyright - focusedonlegal principle of aidingandlegislative improvement -," (95), pp.305-349, Dec. 2019
  6. Seong Wook Jung, "Growth of the OTT Platform and changes in the filmindustry," Master's Thesis, PusanNational University, Aug. 2020.
  7. E. Sundaravel and N. Elangovan,"Emergence and future of over-the-top(OTT) video services in India: ananalytical research," International Journal of Business, vol. Managementand Social Research, vol. 08, no. 2,pp. 489-499, May 2020.
  8. Yong-kuk Chung and Wei Zhang,"Effects of service characteristics of asubscription-based OTT onusersatisfaction and continuanceintention: evaluation by netflixusers," Journal of Korea Contents Association, 20(12), pp. 123-135, Dec.2020. https://doi.org/10.5392/JKCA.2020.20.12.123
  9. You-jin Song and Seung-in Kim, "Therational regulation of illegal &harmful information in cyberspace," Journal of the Korea Convergence Society, 8(9), pp. 231-236, Sep. 2017. https://doi.org/10.15207/JKCS.2017.8.9.231
  10. Chang-hoon Lee, "Protection of copyright infringement and broadcastcontent on illegal link sites," Korean Broadcasters Association, (409), pp. 167-188, Jun. 2017.