• 제목/요약/키워드: VEC

검색결과 356건 처리시간 0.028초

Tag2vec 기반의 지능형 불법 도박 사이트 탐지 모형 개발 (Development of an Intelligent Illegal Gambling Site Detection Model Based on Tag2Vec)

  • 송찬우;안현철
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.211-227
    • /
    • 2022
  • 오늘날 온라인 도박 사이트를 통한 불법 도박이 큰 사회문제가 되고 있다. 인터넷 기술의 발전과 스마트폰 보급으로 시공간의 제약이 사라지고 불법 온라인 도박을 누구나 쉽게 접근할 수 있게 되었기 때문이다. 이를 막기 위해 국내에서는 자체 모니터 요원의 탐지, '누리캅스'와 같은 제보 시스템 등을 활용해 불법 사이트를 탐지하고 있지만 이러한 수동적인 프로세스로는 인력부족 같은 한계로 모든 불법 사이트를 탐지하기 어려운 실정이다. 이에 여러 학자들이 인공지능 기반의 자동 불법 도박 사이트 탐지 기술을 연구해왔다. Xu et al. (2019)은 가짜 사이트들의 HTML Tag 구조에는 차별적인 특징이 있다는 점을 발견하였다. 이는 HTML Tag 구조가 불법 사이트를 탐지하는데 주요한 특징정보가 될 수 있음을 시사하지만, 불법 사이트 탐지 모델에 HTML Tag 구조를 반영하여 모형의 성능을 제고하고자 하는 연구는 지금까지 거의 시도되지 않았다. 이러한 배경에서 본 연구는 HTML Tag 구조를 특징화하여 모형의 성능을 향상시키고자 하였고, HTML Tag 구조를 적절하게 벡터화하기 위한 방법론으로 Doc2Vec을 변형한 Tag2Vec을 제안한다. Tag2Vec 기반 모델의 효과를 검증하기 위해 '더 치트'의 유해 사이트 목록과 Google 검색을 통한 정상 사이트 목록을 데이터 세트로 활용하여 실증분석을 수행하였다. 그 결과 비교 모델로 설정된 URL 기반 탐지 모델보다 본 연구에서 제안하는 Tag2Vec 기반 탐지 모델이 분류 정확도, Recall, F1_Score에서 모두 향상된 성능을 보임을 확인할 수 있었다. 이러한 본 연구의 제안모델은 향후 지능형 기술을 통해 우리 사회의 건강도를 제고하는데 효과적으로 활용될 수 있을 것으로 기대된다.

인접성 벡터를 이용한 트리플 지식 그래프의 임베딩 모델 개선 (Improving Embedding Model for Triple Knowledge Graph Using Neighborliness Vector)

  • 조새롬;김한준
    • 한국전자거래학회지
    • /
    • 제26권3호
    • /
    • pp.67-80
    • /
    • 2021
  • 그래프 표현 학습을 위한 노드 임베딩 기법은 그래프 마이닝에서 양질의 결과를 얻는 데 중요한 역할을 한다. 지금까지 대표적인 노드 임베딩 기법은 동종 그래프를 대상으로 연구되었기에, 간선 별로 고유한 의미를 갖는 지식 그래프를 학습하는 데 어려움이 있었다. 이러한 문제를 해결하고자, 기존 Triple2Vec 기법은 지식 그래프의 노드 쌍과 간선을 하나의 노드로 갖는 트리플 그래프를 학습하여 임베딩 모델을 구축한다. 하지만 Triple2Vec 임베딩 모델은 트리플 노드 간 관련성을 단순한 척도로 산정하기 때문에 성능을 높이는데 한계를 가진다. 이에 본 논문은 Triple2Vec 임베딩 모델을 개선하기 위한 그래프 합성곱 신경망 기반의 특징 추출 기법을 제안한다. 제안 기법은 트리플 그래프의 인접성 벡터(Neighborliness Vector)를 추출하여 트리플 그래프에 대해 노드 별로 이웃한 노드 간 관계성을 학습한다. 본 논문은 DBLP, DBpedia, IMDB 데이터셋을 활용한 카테고리 분류 실험을 통해, 제안 기법을 적용한 임베딩 모델이 기존 Triple2Vec 모델보다 우수함을 입증한다.

Word2vec 모델의 단어 임베딩 특성 연구 (On Characteristics of Word Embeddings by the Word2vec Model)

  • 강형석;양장훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.263-266
    • /
    • 2019
  • 단어 임베딩 모델 중 현재 널리 사용되는 word2vec 모델은 언어의 의미론적 유사성을 잘 반영한다고 알려져 있다. 본 논문은 word2vec 모델로 학습된 단어 벡터가 실제로 의미론적 유사성을 얼마나 잘 반영하는지 확인하는 것을 목표로 한다. 즉, 유사한 범주의 단어들이 벡터 공간상에 가까이 임베딩되는지 그리고 서로 구별되는 범주의 단어들이 뚜렷이 구분되어 임베딩되는지를 확인하는 것이다. 간단한 군집화 알고리즘을 통한 검증의 결과, 상식적인 언어 지식과 달리 특정 범주의 단어들은 임베딩된 벡터 공간에서 뚜렷이 구분되지 않음을 확인했다. 결론적으로, 단어 벡터들의 유사도가 항상 해당 단어들의 의미론적 유사도를 의미하지는 않는다. Word2vec 모델의 결과를 응용하는 향후 연구에서는 이런 한계점에 고려가 요청된다.

DroidVecDeep: Android Malware Detection Based on Word2Vec and Deep Belief Network

  • Chen, Tieming;Mao, Qingyu;Lv, Mingqi;Cheng, Hongbing;Li, Yinglong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권4호
    • /
    • pp.2180-2197
    • /
    • 2019
  • With the proliferation of the Android malicious applications, malware becomes more capable of hiding or confusing its malicious intent through the use of code obfuscation, which has significantly weaken the effectiveness of the conventional defense mechanisms. Therefore, in order to effectively detect unknown malicious applications on the Android platform, we propose DroidVecDeep, an Android malware detection method using deep learning technique. First, we extract various features and rank them using Mean Decrease Impurity. Second, we transform the features into compact vectors based on word2vec. Finally, we train the classifier based on deep learning model. A comprehensive experimental study on a real sample collection was performed to compare various malware detection approaches. Experimental results demonstrate that the proposed method outperforms other Android malware detection techniques.

FOURIER TRANSFORM OF ANISOTROPIC MIXED-NORM HARDY SPACES WITH APPLICATIONS TO HARDY-LITTLEWOOD INEQUALITIES

  • Liu, Jun;Lu, Yaqian;Zhang, Mingdong
    • 대한수학회지
    • /
    • 제59권5호
    • /
    • pp.927-944
    • /
    • 2022
  • Let $\vec{p}{\in}(0,\;1]^n$ be an n-dimensional vector and A a dilation. Let $H^{\vec{p}}_A(\mathbb{R}^n)$ denote the anisotropic mixed-norm Hardy space defined via the radial maximal function. Using the known atomic characterization of $H^{\vec{p}}_A(\mathbb{R}^n)$ and establishing a uniform estimate for corresponding atoms, the authors prove that the Fourier transform of $f{\in}H^{\vec{p}}_A(\mathbb{R}^n)$ coincides with a continuous function F on ℝn in the sense of tempered distributions. Moreover, the function F can be controlled pointwisely by the product of the Hardy space norm of f and a step function with respect to the transpose matrix of A. As applications, the authors obtain a higher order of convergence for the function F at the origin, and an analogue of Hardy-Littlewood inequalities in the present setting of $H^{\vec{p}}_A(\mathbb{R}^n)$.

Word2Vec 기반 장르 유사성을 활용한 웹툰 검색 (Webtoon Search utilizing Genre Similarity with Word2Vec)

  • 이창민;안제정;강동연;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.503-505
    • /
    • 2019
  • 본 논문에서는 기존 웹툰 장르 검색 시스템의 단점을 보완하기 위해 키워드 기반 유사 장르 검색 시스템을 제안한다. 기존 웹툰의 장르와 키워드를 분석하여 44개의 장르를 설정하고 해당 장르에 적합한 웹툰을 수집한다. 나무위키와 위키피디아 문서로 학습된 Word2Vec모델에 기반하여 계산한 사용자 입력 키워드와 44개의 장르간 유사도로 사용자 입력에 가장 유사한 장르를 찾는다. 유사 장르에 포함되는 웹툰을 결과로 출력하여 사용자가 선호하는 장르의 웹툰을 제시한다. 실험 결과에서는 나무위키에서 '장르'로 검색하여 얻는 작은 크기의 문서 집합에서 Word2Vec을 학습한 모델에서 가장 높은 검색 성능을 보였다.

  • PDF

Sent2Vec을 이용한 아동 발화의 화제 변경 탐지 (Detection of Topic Changes in Child Speech Using Sent2Vec)

  • 허탁성;이윤경;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.343-346
    • /
    • 2019
  • 언어 병리학에서는 연령별 대화 능력 발달에 관한 연구에 관심이 많다. 하지만 이러한 연구는 많은 시간과 비용이 소모된다. 이를 해결하기 위해, 본 연구에서는 대화 능력 발달의 많은 연구 중 한 가지 방법인 화제 변경을 Sent2Vec을 이용하여 자동적으로 탐지해주는 방법을 제안한다. 아동의 연속된 두 발화를 비교하여 화제의 변경을 Sent2Vec의 코사인 유사도를 통해 찾아냈다. 본 연구에서는 언어 병리학에서의 연구 결과와 비교를 하기 위해 초등학생 1학년, 3학년, 5학년 집단의 데이터를 사용하였다. 본 연구에서 제안한 방법의 결과와 언어 병리학에서 연구한 결과의 상관관계가 99.95%로 매우 높음을 확인할 수 있었다. 이러한 화제 변경 탐지를 자동화함으로써, 언어 연구에 필요한 시간과 비용을 크게 절감할 수 있다.

  • PDF

CNN 기반의 국내 스타트업 해외-바이어간 추천시스템 설계 (Designing a Recommendation System between Korean Start-ups and Foreign Buyers based on Convolutional Neural Network)

  • 최정석;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.795-796
    • /
    • 2021
  • 본 논문은 국내 스타트업의 상품-서비스에 적합한 해외 바이어를 찾아 맟춤형으로 추천해주는 시스템을 설계하고자 한다. 추천 알고리즘은 CNN 기반의 Word2Vec과 Doc2Vec 알고리즘을 활용하며, 정확도를 높이기 위해 시각정보를 활용한다. 추천 시스템에 사용되는 데이터는 비정형 데이타인 회사 소개 및 상품/서비스 소개 문장 데이터이며, 제품 사진을 시각정보로 이용한다. 유사도가 높은 순으로 추천하기 위해 문장데이타를 키워드 리스트로 변환하고, Word2vec 모델에 이식시켜 키워드 좌표를 만들어 벡터화한다. 그리고, 문장의 중심점간 거리를 계산해 기업간 유사성 및 연관성을 도출한다. 이를 바탕으로 국내 스타트업의 문장데이타 및 시각정보와 유사도가 높은 순으로 해외바이어를 추천한다.

Item2vec과 LSTM을 사용한 추천 시스템 설계 (Recommender System Design with Item2vec and LSTM)

  • 차민수;우지영
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제67차 동계학술대회논문집 31권1호
    • /
    • pp.145-146
    • /
    • 2023
  • 본 논문에서는 최대 규모의 게임 플랫폼인 Steam에서 수집한 유저 정보 데이터 셋에 Item2vec과 LSTM을 사용하여 추천 시스템을 구현한다. 수집한 유저 정보 데이터 셋에 Item2vec을 적용하여 각각의 유저들이 보유하고 있는 고유한 Appid들을 200차원의 벡터로 변환한다. 그 후 데이터 셋을 기간에 따라 4단계의 시퀀스로 나눈 후 LSTM을 사용하여 유저별로 최대 5가지의 추천 리스트를 생성한다. 유저 정보 데이터 셋은 액티브한 유저 정보를 얻기 위해 Steam 게임 리뷰 항목에서 리뷰를 남긴 유저들의 데이터를 api를 사용해 수집했으며 LSTM을 사용한 실험의 성능 평가 지표는 RMSE를 사용했고 이때의 성능은 0.1357을 얻을 수 있었다.

  • PDF