Ⅰ. 서론
SNS(Social Networking Service)는 사용자 간 정보를 상호 교류하는 매체로 활용되고 있다[1][2]. SNS의 발전으로 인하여 소셜 상호작용 플랫폼으로서의 기존 정의의 역할을 넘어 브랜드 마케팅 및 크라우드 소싱 등 다양한 목적으로 활용되며 사용자와 기업에 많은 이점을 제공하고 있다. 특히, SNS에서 많은 영향력을 행사하는 인플루언서(Influencer)를 활용한 브랜드 마케팅 규모가 지속적으로 증가하고 있다[3]. 이에 따라 많은 기업들이 마케팅 목적에 적합한 인플루언서를 찾아 제품 및 브랜드를 홍보하여 정보 전파 및 광고의 효율성을 극대화하려고 한다[4].
소셜 네트워크에서 사용자 영향력을 판별하기 위해상호 작용이나 인적 관계를 고려한 비그래프 기반 기법이 제안되었다[5II6]. 영향력은 정보 확산(Information Diffusion)과 직결되며 정보 확산은 네트워크 토폴로지와 연관성이 매우 높기 때문에 네트워크 정보는 영향력 도출에 있어 매우 중요하다[7]. 그러나 비그래프 기반 기법들은 영향력 판별 과정에서 네트워크 토폴로지를 고려하지 않는다.
비그래프 기반 영향력 판별 기법의 문제점을 해결하기 위해 네트워크 구조와 연관된 요인들을 활용하여 영향력을 판별하는 그래프 기반 기법들이 제안되었다 [8-11]. 소셜 네트워크에서 활동하지 않는 사용자가 증가하거나 다른 사용자들과의 관계들을 갱신하거나 삭제하지 않을 경우 그래프 기반 기법들은 부정확한 영향력을 판별할 수 있다. 그래프 기반 영향력 판별 기법은 소셜 네트워크의 일부 토폴로지만 수집하여 검증을 수행하기 때문에 불완전하고 노이즈가 많은 임의의 네트워크에 대한 기법의 성능이 불안정하다. 랜덤 워크 (Random Walk)에 기반할 경우 실세계의 정보 확산패턴과 달라서 측정된 영향력이 실제 영향력과 큰 차이가 있을 수 있다. 이에 따라 임의의 네트워크에 무관하게 유연한 성능을 보장하는 기법이 필요하다.
본 논문에서는 사용자의 영향력을 시간에 따라 구별하기 위해 소셜 네트워크 상 사용자의 이웃 노화에 따른 시간적 k-쉘 분해를 이용한 사용자 영향력 판별 기법을 제안한다. 제안하는 기법은 빠르게 변화하는 사용자의 영향력을 더욱 정확히 판별하기 위해 휴리스틱 (heuristic) 기법으로 사용자의 시간적 속성인 생성 일자를 활용하여 영향력을 계산한다. 이웃 사용자의 생성일자 별로 차수 중심성을 도출하며 연령별 차수 중심성에 각기 다른 가중치를 적용한다. 각 생성일의 차수중심성의 가중치는 감쇠와 희귀성으로 계산한다. 이때, 감쇠는 각 생성일의 차수 중심성 중 가장 높은 사용자의 중심성이고 희귀성은 네트워크 내 해당 생성일을 가진 사용자 수를 나타낸다.
본 논문의 구성은 다음과 같다. II장에서는 기존 영향력 탐색 기법에 대해 기술하며 III장에서는 제안하는 영향력 판별 기법을 기술한다. IV장에서는 다양한 기법들에 대한 성능 평가를 통해 제안하는 기법의 분석 및 우수성을 입증하고 V장에서 본 논문의 결론을 기술한다.
Ⅱ. 관련 연구
그래프 기반 기법 영향력 판별 기법 중 전염병의 확산 과정에서 모티브를 얻어 개발된 정보 흐름 모델이 존재한다. 정보 흐름 모델은 사용자 간 정보의 확산 과정을 간선 상에 확률로 표현하며 대표적인 Independent Cascade(IC)[8] 모델이 제안되었다. IC 모델은 노드를 활성(active)과 비활성(inactive) 상태로 나눈다. 활성상태는 노드가 정보 확산에 의해 노드가 영향을 받은 상태이고 비활성 상태는 노드가 정보를 인지하지 못하거나 영향을 받지 않은 상태를 나타낸다. IC 모델은 이 산적인(discrete) 단계들로 구성된다. 첫 단계에서 몇개의 노드들을 시드 노드로 선정하고 활성 상태로 만든다. 이후 각 단계에서 활성 노드는 비활성 이웃 노드들을 활성 상태로 만들려고 시도한다. 이때, 활성화 시도의 성공 여부와 무관하게 활성 노드가 각 이웃 노드를 활성화 시킬 기회는 한번씩 밖에 주어지지 않는다. 비활성 노드를 활성화 시킬 확률은 간선에 부여된 확률에 따라 결정된다. 전파 과정은 더 이상 활성화 되는 노드가 없을 때까지 반복된다.
그래프 기반 영향력 판별 기법 중 구조적 중심성을활용한 K-쉘 분해가 제안되었다[12][13]. K-쉘 분해는그래프에 차수가 n+1 이상인 노드들만 남을 때까지 차수가 n인 노드들을 제거하며 이때 노드를 제거한 후에도 차수가 n인 노드들을 추가적으로 제거해나간다. 각노드는 제거되는 차수를 기준으로 n이라는 쉘 값이 부여되며 쉘 값이 높을수록 네트워크의 중심에 가까움을 의미한다. K-쉘 분해 기법은 불완전한 네트워크에 대해서도 유연하며 네트워크 상 간선의 50%를 제거해도원래 네트워크의 결과와 거의 동일한 결과를 도출한다. 그러나 K-쉘 분해는 지나치게 많은 노드들에 동일한 K-쉘 값을 할당하며 때로는 K-쉘 값이 더 낮은 노드가높은 노드보다 전파 능력이 높은 경우가 존재한다. K- 쉘값은k 단계 시점에서 k-1 단계까지 제거되지 않고남은 노드들에 대해 계속 증분하며 할당된다.
그래프 구조 뿐만 아니라 정점 또는 간선마다 노드의 프로필과 관련된 정보를 반영한 특성 값을 부여하는 정점 특성을 활용한 TwitterRank 기법이 제안되었다 [10]. TwitterRank는 PageRank와 유사하며 사용자의 트윗 내 토픽 정보와 사용자 간 토픽의 유사도를 고려한다. TwitterRank는 토픽 별 네트워크를 구축하고 네트워크 내 사용자 간 토픽 유사도 값을 간선에 할당하여 토픽 유사도에 따른 전이 행렬(Transition Matrix)을 구축한다.
PageRank의 감쇠 계수를 트위터 상 사용자의 특성에 따라 개인화하는 Personalized PageRank(PPR) 기법이 제안되었다[7]. PPR은 사용자의 특성으로 집중도(Focus Rate), 원본성(Originality), 활동성(Activeness) 및 반응 속도(Speed of getting reaction)를 고려한 다. 집중도는 사용자가 전체 트윗 중 특정 토픽에 관해다룬 콘텐츠의 비율, 원본성은 전체 트윗 중 리트윗(Retweet)이 아닌 트윗 수의 비율, 활동성은 특정 토픽에 관해 트윗을 작성한 일 수와 일별 특정 토픽에 관해 작성한 평균 트윗 수를 고려한다. 반응 속도는 트윗을 게시한 뒤 첫 리트윗이 발생하기까지 소요되는 시간이다. 사용자 특성별 값을 PageRank의 감쇠 계수로 반영한다. 이때, 전체 그래프를 토픽 별 네트워크로 분할하기 위해 사용자 별 집중도가 특정 임계치를 넘을 경우 해당 사용자들을 적합한 토픽 네트워크에 할당한다.
기존 기법들은 오랜 기간 활동한 사용자가 신규 사용자 보다 높게 측정되도록 설계되어 있어서 실제로 새로운 사용자가 더 많은 영향력을 행사하더라도 오래된 사용자가 과거 영향력과 네트워크 토폴로지에 근거해 영향력을 높게 측정한다. 이는 대다수 사용자들이 다른 사용자들과의 기존 관계들을 갱신하거나 삭제하지 않기 때문이다. 소셜 네트워크는 대규모 크기이기 때문에 그래프 알고리즘의 시간 복잡도가 중요하다. 대다수 연구들은 소셜 네트워크의 전체 토폴로지가 아닌 일부 토폴로지만 수집하기 때문에 불완전하고 노이즈가 많은 임의의 네트워크에서 안정적인 성능을 제공하지 못한다.
Ⅲ. 제안하는 사용자 영향력 판별 기법
1. 전체 처리 과정
본 논문에서는 소셜 네트워크 사용자의 생성 일자를 기반으로 한 시간적 k-쉘 분해를 이용한 사용자 영향력을 판별하고 영향력이 높은 Top-k 사용자를 선별하는 기법을 제안한다. 현 시점의 영향력을 사용자의 주변 이웃들의 연령을 통해 파악한다. 영향력이 높은 Top-k 사용자는 사용자가 새로운 사용자들을 얼마나 끌어들이느냐를 기준으로 사용자가 현재 네트워크에서 영향력을 얼마나 지니는지 파악할 수 있다. 과거에 영향력이 높았던 사용자는 낮은 연령의 사용자들 보다 특정연령 또는 연령대의 사용자들만 많이 따를 것이며 즉, 주변에 네트워크 잔해가 많음을 유추할 수 있다. 반면, 현 시점에 영향력이 높은 사용자는 자신의 연령과 무관하게 최근에 생성된 사용자들뿐만 아니라 다양한 연령의 사용자로부터 관심을 많이 받으며 이것이 주변 이웃들의 연령 정보에 반영될 것이라는 점이 제안하는 기법의 특성이다. 제안하는 기법에서는 기존 K-쉘 분해의 변형인 연령-감쇠 K-쉘 분해를 통해 사용자의 네트워크 상 위치를 파악하여 전역적 영향력을 도출하고 다양한 연령 별 중심성을 고려하며 이들에 대해 각기 다른 가중치를 적용하여 지역적 영향력을 파악한다. 네트워크 내 사용자마다 생성 시점 이후로 지난 년 수를 기준으로 연령을 계산하여 노드 레이블로 부여한다.
[그림 1]은 제안하는 사용자 영향력 판별 기법의 전체적인 과정을 나타낸다. 제안하는 기법은 네트워크 내모든 사용자에 대해 사용자 생성일자 또는 사용자가 네트워크에 유입된 시점을 기준으로 계산된 연령을 레이블로 할당하고 토픽 별 영향력을 판별하기 위해 전체 네트워크를 토픽별 네트워크로 분할한다. 네트워크 분할 후 정점 또는 사용자 별 그래프 중심성을 도출하기 위해 연령 별 차수 중심성과 연령-감쇠 K-쉘 분해를 적용한다. K-쉘 분해 과정에서 그래프 상 정점과 간선이 제거되기 때문에 차수 중심성을 계산하고 동일 그래프에 대해 K-쉘 분해를 순서적으로 수행한다. 사용자의 영향력을 판별하기 위해 사용자의 1-hop 이웃들에 대해서 네트워크 내 존재하는 각 연령 별 차수 중심성을 계산한다. 그리고 동일 그래프에 대해 연령-감쇠 K- 쉘분해를 수행한다. 각 노드는 연령 별 차수 중심성 값들로 구성된 벡터와 연령-감쇠 K-쉘 값이 할당된다. 제안하는 기법은 연령 별 차수 중심성 값들에 대해 각기다른 가중치를 적용하여 값들을 조정한 뒤 합한다. 즉, 소셜 네트워크에 사용자 연령이 k부터 n+k까지 존재하는 경우 사용자의 주변 이웃들을 각 연령 별로 n 개의 차수 중심성을 계산하고 각각에 대해 개별적인 가중치를 적용한다. 현 시점의 영향력을 도출하기 위해 주변이웃들을 연령 별로 나누어 주변 이웃들의 노화의 정도를 반영한 차수 중심성을 계산한다.
그림 1. 제안하는 기법의 전체 처리 과정
2. 토픽별 네트워크
전체 네트워크를 토픽 별 네트워크, 즉 서브 네트워크로 분할하기 위해 네트워크 내 사용자들의 콘텐츠에 대한 토픽 모델링을 수행한다. 토픽 모델링을 위해 Latent Dirichlet Allocation(LDA)를 사용한다. 사용자 별로 만든 텍스트 기반 콘텐츠에 대해 어간 추출 (Stemming), 불용어 및 구두점 제거와 표제어 추출(Lemmati.zation)을 수행하여 텍스트 내 불필요한 노이즈를 제거한다. 사용자 별로 콘텐츠들을 풀링 (pooling), 즉 콘텐츠들을 월 별 또는 전체를 하나의 텍스트로 합치는 기법을 따로 수행하지 않고 각 콘텐츠에 대해 토픽을 할당한다.
[그림 2]는 전체 네트워크를 토픽 별로 구축하는 과정을 나타낸다. 사용자의 콘텐츠 별로 토픽을 할당한뒤 사용자의 토픽 별 콘텐츠 수의 비율이 특정 임계치를 넘어서는 경우 사용자를 해당 토픽 네트워크에 할당한다. 사용자가 다수의 토픽에 대해서 임계치를 넘는 경우 하나 이상의 토픽 네트워크에 할당될 수 있다. 이후 전체 네트워크를 토픽 별로 분할한 뒤 각 토픽 네트워크 별로 영향력을 판별한다.
그림 2. 토픽 별 네트워크 분할
3. 감쇠 계수
연령-감쇠 K-쉘 분해를 수행하기 전에 먼저 사용자별 감쇠 계수를 계산한다. 제안하는 연령-감쇠 K-쉘 분해는 각 분해 과정마다 쉘을 할당하기 위한 차수 중심성을 계산할 때 감쇠 계수를 적용한다. 감쇠 계수는 주변 이웃의 노화가 심할수록 크다. 사용자 별 감쇠 계수는 식 1과 같이 주변 이웃들의 평균 연령 및 네트워크내 사용자들의 평균 연령으로 계산한다. 이때, wj(i)는 사용자의 감쇠 계수, 는 사용자 i의 이웃들의 평균 연령, 는 네트워크 내 모든 사용자들 NEV 의 평균 연령을 나타낸다. 제안하는 기법은 사용자의 자체적인 노화는 영향력과 무관한 것으로 간주하며 주변 이웃들의 노화 정도를 기준으로 감쇠 계수를 할당한다. 이때, α는 감쇠 계수의 세기를 조절하기 위한 값이다.
(1)
사용자 주변 이웃의 노화를 계산하기 위해 사용자의 주변 이웃의 평균 연령을 계산한다. 이를 전체 네트워크의 평균 연령으로 나누어 상대적인 노화를 계산한다. 이후 지수 함수의 거듭제곱에 음수를 취한 뒤 이에 1을 더한 값이 사용자 감쇠 계수이다. 주변 이웃의 노화가 심할수록 현 시점 영향력 도출에 방해되는 네트워크 정보가 많은 것으로 간주하여 각K-쉘 분해 과정마다 쉘에 포함되기 위해 필요한 사용자의 차수 중심성을 높인다. 즉, 사용자마다 쉘에 포함되기 위해 필요한 차수중심성이 모두 다르며 이때 감쇠 계수는 주변 이웃의 노화가 심할수록 크다. 감쇠 계수는 약 1에서 2 사이의값을 가진다.
4. 연령-감쇠 K-쉘분해
연령-감쇠 K-쉘 분해는 네트워크에 오랜 기간 동안 존재한 사용자들은 신규 사용자들 보다 서로 복잡한 네트워크 구조를 이루고 있을 것이라는 가정을 내포한다. 따라서 신규 사용자 보다 기존 사용자가 유리하다. 제안하는 기법은 K-쉘 값을 계산하기 위해 각 분해 과정에서 차수를 확인할 때 사용자마다 개별적인 감쇠 계수를 적용하여 차수를 조정한다. 네트워크 내 평균 연령을 통해 사용자의 상대적인 노화를 고려하기 위해 분해과정을 한번 마칠 때마다 분해 과정에서 제거되지 않은 사용자들의 평균 연령을 계산한다. 계산된 감쇠 계수를 확인중인 사용자의 차수 중심성에 적용한다. 이에 따라 주변 이웃의 평균 연령이 낮은 사용자는 낮은 감쇠 계수가 적용되고 높은 사용자는 그보다 큰 값이 적용된다.
연령-감쇠 K-쉘 분해 기법은 정점과 간선이 제거되며 바뀌는 네트워크에 맞춰 동적으로 변화하는 감쇠 계수를 각 노드마다 개별적으로 적용한다. 사용자의 주변이웃들의 노화가 심할수록 영향력 도출에 불필요한 네트워크 정보가 많은 것으로 간주하여 계산 중 인 쉘에 포함되기 위해 필요한 차수 중심성 조건을 높이는 것이다. 각 분해 과정마다 감쇠 계수를 갱신하기 위해 평균연령을 계산할 때 계산 과정을 최소화하기 위해 제안하는 변형 K-쉘 분해 기법은 각 연령 별 사용자 수를 열에 저장하고 사용자를 제거할 때마다 각 연령 별사용자 수가 저장된 배열을 갱신한다.
5. 이웃 연령 별 차수 중심성에 대한 가중치
제안하는 기법은 사용자의 차수 중심성을 연령 별로 나누어 각기 다른 가중치를 적용한 뒤 결합한다. 연령별 가중치를 계산하는 방식을 가지치기, 희귀성 기반, 감쇠 기반 그리고 인터벌 기반을 제안한다. 기존 차수중심성은 지역적 영향력을 나타낸다고 볼 수 있는 1-hop 이웃 수에만 근거하기 때문에 영향력 판별의 정확도가 저하된다. 제안하는 기법은 차수 중심성을 강화하기 위해 연결된 이웃들을 연령 별로 분류하여 차수중심성을 구하며 본래 모든 링크를 동일하게 고려하며 개수만 세던 기존의 차수 중심성과 차별화한다.
가지치기 방식은 특정 연령 임계치를 기준으로 해당 연령 이하의 차수 중심성만 고려하는 것을 의미한다. 즉, 사용자의 이웃 중 임계치 이내의 연령을 가진 이웃들은 가중치가 1이 할당되고 임계치 이상의 연령을 가진 이웃들은 가중치가 0이 할당되어 전혀 고려되지 않는다. 이는 사용자의 이웃 중 임계치 연령을 초과하는 사용자들의 간선을 가지치기(pruning)한 것과 동일하다. 여기서 임계치 연령은 임의로 설정한다. 임계치를 네트워크 내 최대 연령으로 설정하는 경우 기존의 차수중심성과 동일하다. 임계치를 지나치게 높게 설정하는 경우 현 시점 영향력 도출에 방해될 수 있는 노화된 네트워크 정보가 반영되므로 적절한 설정이 필요하다. 본 논문에서는 실험을 통해 적절한 임계치를 도출한다.
희귀성 기반 가중치 방식은 이웃 연령 별 가중치로 네트워크 내에서 해당 연령을 가진 사용자가 얼마나 많고 적은지에 따라 할당된다. 즉, 네트워크 내 흔하게 존재하는 연령의 링크보다 소수 존재하는 연령의 링크에 더 높은 가중치를 두는 것이다. 희귀성 기반 가중치 방식은 가지치기 가중치 방식을 거친 이후에 적용된다. 즉, 특정 연령의 이웃들을 제거한 뒤 적용되는 것이다. 이를 통해 특정 연령의 차수 중심성이 나머지 연령들의 차수 중심성 값을 지배해버리는 경우를 방지한다. 즉, 얼마나 다양한 연령의 사용자들을 끌어 모으는지에 중점을 둔다. 특히 노화된 사용자들이 노화된 이웃들을기반으로 영향력이 지나치게 높게 측정되는 점을 방지할 수 있다. 또한, 전체 네트워크 수집이 불가능하여 일부 네트워크 정보만 수집한 경우 연령 별 사용자의 수에 따라 상대적인 가중치를 제공하여 제한된 네트워크에 대해 유연함을 추구하여 설계됐다.
감쇠 기반 가중치 방식은 이웃 연령 별 차수 중심성에 대해 노화에 따른 가중치를 할당한다. 앞서 언급된 가지치기 방식과 다른 점은 특정 임계치 이하의 이웃들을 제거하는 것이 아니라 모든 연령의 이웃들을 고려하되 노화의 세기에 따라 가중치를 조절하는 것이다. 즉, 최신 이웃들은 높은 가중치를 할당하며 오래된 이웃들은 낮은 가중치를 주는 것이다. 이때 가중치는 노화에 따라 지수적으로 감쇠되도록 식 2를 사용한다. 이때, a는 노화의 세기를 조정하기 위한 값으로 클수록 노화된 이웃들에 대한 가중치가 줄어든다. a가 클수록 높은 연령의 이웃들에 대한 감쇠 세기가 강해져 낮은 가중치가 할당되고 반대로 낮은 연령의 이웃들에 대한 감쇠세기는 약해져 높은 가중치가 할당된다.
인터벌(Interval) 기반 가중치 방식은 사용자의 연령과 주변 이웃들의 연령 차이를 기반으로 각 연령 별차수 중심성에 가중치를 적용하는 방식이다. 사용자의 주변 이웃 중 비슷한 연령대의 사용자들 보다 연령 차이가 큰 사용자가 많을수록 유리하도록 설계된 가중치 방식이다. 이는 오래된 계정이 주변 이웃으로 노화된 노드는 많지만 영향력이 줄어들며 최신 계정들의 관심을 덜받게 되어 현 시점 영향력으로 볼수 없는 경우를 고려한 가중치다. 반대로 최신 계정의 경우, 낮은 연령의 사용자들보다 노화한 사용자들을 얼마나 끌어들이는지에 중점을 둔다. 인터벌 기반 가중치에 대한 식 3과 같다.
(2)
(3)
6. 사용자 여향려 파벽
제안하는 기법은 K-쉘 분해 기법, 연령 별 차수 중심성과 감쇠 계수를 통해 사용자의 영향력을 도출한다. 사용자의 최종 영향력을 도출하기 위해 연령-감쇠 K- 쉘값과 가중치가 적용된 연령 별 차수 중심성 값의 합계를 곱함으로써 도출한다. 이를 통해 기존 K-쉘 분해 기법이 지나치게 많은 노드들에 같은 쉘 값을 할당하는 문제를 해결할 수 있다. 사용자 i의 최종 영향력은 식 4와 같다. 이때, TDks(i)는 사용자 i의 연령-감쇠 K-쉘 값, wj는 연령 j에 대한 가중치, degreei(j)는 사용자 i 의 연령 j의 차수 중심성이다.
(4)
IV. 성능 평가
제안하는 영향력 판별 기법의 우수성을 입증하기 위해 자체적 성능 평가와 기존 영향력 판별 기법과 성능평가를 수행한다. 성능평가는 Intel(R) Core i5-8400 CPU, RAM 16.0GB 환경에서 Python 언어를 통해 성능 평가를 수행하였다. 자체적인 성능 평가는 제안하는 기법의 각 구성 단계 별 효율성 입증 및 가중치 최적화등을 위해 수행한다. 본 논문에서는 대표적인 SNS인 트위터(Twitter)에 대해 데이터 수집 및 성능 평가를 수행한다. 매체 전문가들이 선정한 80 명의 인플루언서들을 시드 노드(seed node)로 선정하고 이웃한 사용자를 계속적으로 수집한다[14[[15]. 성능 평가에 사용된데이터 집합은 [표 1]과 같다.
표 1. 데이터 집합
제안하는 기법에서 조정 가능한 가중치 값은 연령별차수 중심성에 대한 가지치기 및 감쇠 기반 가중치이다. 각 가중치 방식 별로 가중치 값의 변경에 따라 탐색되는 인플루언서들의 Spread Score를 비교한다. Spread Score는 사용자가 이웃에 대해 어떻게 영향력을 행사하는지를 판별한 값이다. 이때, 선정된 top-k 인플루언서들은 제안하는 기법의 모든 과정을 거쳐 추출된 사용자들이며 각k-구간별 Spread Score는 연령별 가중치 조정에 따라 추출된 사용자들의 수치이다. [그림 3]은 가지치기 기반 가중치 방식에 대한 자체 평가의 결과를 나타낸다. 각 구간 별 top-k 인플루언서들은 제안하는 기법의 모든 과정을 거쳐 추출된 사용자들이다. 연령 별 가지치기를 할 때 임계치 연령은 2년부터 1년씩 차례대로 본래 차수 중심성과 동일한 최대 연령까지 증가시켰다. k 값이 증가할 경우 γ 값에 따라 Spread Score 낮아지는 현상을 나타낸다. 평균적으로 γ 값이 3에서 5 사이일 때 Spread Score 값이 높은것을 알 수 있다.
그림 3. γ 조정에 따른 top-k Spread Scroe
[그림 4]는 Q에 따른 Spread Score를 나타낸 것이다. [그림 4] (a)는 감쇠 기반 가중치 방식에 대한 자체평가의 결과를 나타낸다. 감쇠 기반 가중치 수식을 나타내는 식 (1)에서 조정 가능한 값은 a로 1에서 15까지 1 간격으로 α 별로 top-25 Spread Score를 나타낸다. α가 1에서 6까지는 Spread Score가 점차 증가하는 반면, 이후 감소하다 11부터 수렴하므로 최적의 α 값은 6이다. [그림 4] (b)는 α가 6일 때 연령 별 가중치를 나타낸 것이다. ab61일 때 연령별 가중치는 1에서 0.005 사이의 값을 갖는다. 제안 기법은 연령이 낮을수록 가중치에 높은 값을 부여하고 그렇지 않을 경우 낮은 값을 부여한다.
그림 4. α 조정에 따른 특성
[그림 5]는 기존 기법과 성능 비교를 통해 전체 네트워크에 대한 각 기법 별 Top-K의 Spread Score를 평가한 결과이다. WK-Shell은 Weighted K-Shell Neighborhood, PR은 PageRank, PPR_FR, PPR_ACT 및 PPR_ORG는 각각 Focus Rate, Activeness, Originality 기반 Personalized PageRank를 나타내며 Pruning, Decay, Rarity와 Interval은 제안하는 가중치 방식별 기법들을 나타낸다. k의 변화에 따라 실제 인플루언서가 아닌 사용자들이 일부 포함될 수 있기 때문에 Spread Score은 일부 성능이 저하되는 경우도 발생한다. 그러나 평균적인 Spread Score을 비교할 경우 제안하는 가지치기, 감쇠와 희귀성 기반 가중치방식은 top-k가 25와 75 사이일 때 더 높은 영향력을 가진 인플루언서들을 탐색한다. 인터벌 기반 가중치 방식에 근거할 때는 Focus Rate에 기반한 Personalized PageRank(PPR)가 더 우수한 성능을 보여준다. 제안하는 기법에서 Rarity와 Pruning 가중치 기반 기법이 top-100 구간에 대해서는 모든 기존 기법들보다 우수한 성능을 보이는 반면, top-125부터는 Interval 기반 가중치 방식과 Focus Rate에 근거한PPR이 우수한 성능을 보인다. 기존 기법들 중 Focus Rate 기반 PPR이 가장 높은 성능을 보였다. Decay 가중치 기반 기법은 나머지 기법들과 비교했을 때 top-25를 제외하고 전반적으로 저조한 성능을 보였다.
그림 5. 기법별 Top-K Spread Scroe
Ⅴ. 결론
본 논문에서는 사용자의 영향력을 시간에 따라 구별하도록 소셜 네트워크에서 사용자의 이웃 노화에 따른 시간적 k-shell degree 이웃 기법을 통한 영향력 판별 기법을 제안하였다. 제안하는 기법은 K-쉘 분해를 변형한 연령-감쇠 K-쉘 분해와 차수 중심성을 활용한다. 주변 이웃의 노화에 따른 감쇠 계수를 K-쉘 분해와 연령별 차수 중심성 각기 다른 방식으로 적용하였다. 성능 평가를 통해 제안하는 기법을 기존 기법들과 비교하였다. 제안 기법은 소셜 네트워크에서 인플루언서를 판별하거나 마케팅을 위한 사용자를 선별하는데 사용될 수 있다. 제안 기법은 다양한 요소들을 고려하여 사용자 영향력을 판별하지만 최적의 요소를 결정을 하기 위한 연구가 미흡하다. 또한, 소셜 네트워크 사용자 그룹의 특성을 고려하지 못하고 있다. 향후 연구로는 감쇠계수 및 가중치 계산을 네트워크 기반 통계적 정보를 통해 도출하기 위한 연구를 진행하고 다양한 소셜 네트워크 사용자 그룹을 대상으로 성능 평가를 수행할 예정이다.
References
- X. Shen, Y. Li, Y. Sun, and F. Wang, "Good for use, but better for choice: A relative model of competing social networking services," Information & Management, Vol.58, No.3, pp.103448, 2021. https://doi.org/10.1016/j.im.2021.103448
- Q. Hou, M. Han, and Z. Cai, "Survey on data analysis in social media: A practical application aspect," Big Data Mining and Analytics, Vol.3, No.4, pp.259-279, 2020. https://doi.org/10.26599/BDMA.2020.9020006
- R. R. Mallipeddi, S. Kumar, C. Sriskandarajah, and Y. Zhu, "A Framework for Analyzing Influencer Marketing in Social Networks: Selection and Scheduling of Influencers," Management Science, Vol.68, No.1, pp.75-104, 2022. https://doi.org/10.1287/mnsc.2020.3899
- N. Hafiene, W. Karoui, and L. B. Romdhane, "Influential nodes detection in dynamic social networks: A survey," Expert Systems with Applications, Vol.159, pp.113642, 2020. https://doi.org/10.1016/j.eswa.2020.113642
- M. Cha, H. Haddadi, F. Benevenuto, and K. P. Gummadi, "Measuring user influence in twitter: The million follower fallacy," Proc. International Conference on Weblogs and Social Media, pp.1-8, 2010.
- A. Arora, S. Bansal, C. Kandpal, R. Aswani, and Y. Dwivedi, "Measuring social media influencer index- insights from facebook, Twitter and Instagram," Journal of Retailing and Consumer Services, Vol.49, pp.86-101, 2019. https://doi.org/10.1016/j.jretconser.2019.03.012
- Z. Z. Alp and S. G. Oguducu, "Identifying topical influencers on Twitter based on user behavior and network topology," Knowledge Based Systems, Vol.141, pp.211-221, 2018. https://doi.org/10.1016/j.knosys.2017.11.021
- J. Goldenberg, B. Libai, and E. Muller, "Talk of the network: A complex systems look at the underlying process of word-of-mouth," Marketing letters, Vol.12, No.3, pp.211-223, 2001. https://doi.org/10.1023/A:1011122126881
- J. Ren, C. Wang, Q. Liu, G. Wang, and J. Dong, "Identify influential spreaders in complex networks based on potential edge weights," International Journal of Innovative Computing, Information and Control, Vol.12, No.2, pp.581-590, 2016.
- J. Weng, E. Lim, J. Jiang, and Q. He, "Twitterrank: Finding topic-sensitive influential twitterers," Proc. International Conference on Web Search and Data Mining, pp.261-270, 2010.
- Y. Yang, J. Tang, C. W. Leung, Y. Sun, Q. Chen, J. Li, and Q. Yang, "RAIN: Social Role-Aware Information Diffusion," Proc. AAAI Conference on Artificial Intelligence, pp.367-373, 2015.
- G. Maji, "Influential spreaders identification in complex networks with potential edge weight based k-shell degree neighborhood method," Journal of Computational Science, Vol.39, pp.101055, 2020. https://doi.org/10.1016/j.jocs.2019.101055
- S. Carmi, S. Havlin, S. Kirkpatrick, Y. Shavitt, and E. Shir, "A model of Internet topology using k-shell decomposition," Proceedings of the National Academy of Sciences, Vol.104, No.27, pp.11150-11154, 2007. https://doi.org/10.1073/pnas.0701175104
- https://time.com/collection/100-most-influential-people-2021/
- https://www.statista.com/statistics/1100266/top-influential-twitter-users/