• 제목/요약/키워드: vector features

검색결과 993건 처리시간 0.027초

The Use of MSVM and HMM for Sentence Alignment

  • Fattah, Mohamed Abdel
    • Journal of Information Processing Systems
    • /
    • 제8권2호
    • /
    • pp.301-314
    • /
    • 2012
  • In this paper, two new approaches to align English-Arabic sentences in bilingual parallel corpora based on the Multi-Class Support Vector Machine (MSVM) and the Hidden Markov Model (HMM) classifiers are presented. A feature vector is extracted from the text pair that is under consideration. This vector contains text features such as length, punctuation score, and cognate score values. A set of manually prepared training data was assigned to train the Multi-Class Support Vector Machine and Hidden Markov Model. Another set of data was used for testing. The results of the MSVM and HMM outperform the results of the length based approach. Moreover these new approaches are valid for any language pairs and are quite flexible since the feature vector may contain less, more, or different features, such as a lexical matching feature and Hanzi characters in Japanese-Chinese texts, than the ones used in the current research.

Classifying Malicious Web Pages by Using an Adaptive Support Vector Machine

  • Hwang, Young Sup;Kwon, Jin Baek;Moon, Jae Chan;Cho, Seong Je
    • Journal of Information Processing Systems
    • /
    • 제9권3호
    • /
    • pp.395-404
    • /
    • 2013
  • In order to classify a web page as being benign or malicious, we designed 14 basic and 16 extended features. The basic features that we implemented were selected to represent the essential characteristics of a web page. The system heuristically combines two basic features into one extended feature in order to effectively distinguish benign and malicious pages. The support vector machine can be trained to successfully classify pages by using these features. Because more and more malicious web pages are appearing, and they change so rapidly, classifiers that are trained by old data may misclassify some new pages. To overcome this problem, we selected an adaptive support vector machine (aSVM) as a classifier. The aSVM can learn training data and can quickly learn additional training data based on the support vectors it obtained during its previous learning session. Experimental results verified that the aSVM can classify malicious web pages adaptively.

Analyzing Factors Contributing to Research Performance using Backpropagation Neural Network and Support Vector Machine

  • Ermatita, Ermatita;Sanmorino, Ahmad;Samsuryadi, Samsuryadi;Rini, Dian Palupi
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권1호
    • /
    • pp.153-172
    • /
    • 2022
  • In this study, the authors intend to analyze factors contributing to research performance using Backpropagation Neural Network and Support Vector Machine. The analyzing factors contributing to lecturer research performance start from defining the features. The next stage is to collect datasets based on defining features. Then transform the raw dataset into data ready to be processed. After the data is transformed, the next stage is the selection of features. Before the selection of features, the target feature is determined, namely research performance. The selection of features consists of Chi-Square selection (U), and Pearson correlation coefficient (CM). The selection of features produces eight factors contributing to lecturer research performance are Scientific Papers (U: 154.38, CM: 0.79), Number of Citation (U: 95.86, CM: 0.70), Conference (U: 68.67, CM: 0.57), Grade (U: 10.13, CM: 0.29), Grant (U: 35.40, CM: 0.36), IPR (U: 19.81, CM: 0.27), Qualification (U: 2.57, CM: 0.26), and Grant Awardee (U: 2.66, CM: 0.26). To analyze the factors, two data mining classifiers were involved, Backpropagation Neural Networks (BPNN) and Support Vector Machine (SVM). Evaluation of the data mining classifier with an accuracy score for BPNN of 95 percent, and SVM of 92 percent. The essence of this analysis is not to find the highest accuracy score, but rather whether the factors can pass the test phase with the expected results. The findings of this study reveal the factors that have a significant impact on research performance and vice versa.

인터넷을 통한 벡터 공간 데이타의 효율적 전송을 위한 최적화 기법 (An Optimization Strategy for Vector Spatial Data Transmission onover the Internet)

  • Liang Chen;Chung-Ho Lee;Hae-Young Bae
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권3호
    • /
    • pp.273-285
    • /
    • 2003
  • 일반적으로 공간 벡터 데이타는 래스터 데이타에 비해 많은 정보를 포함하고 있으므로, 좀 더 융통적이고 효율적으로 데이타에 대한 처리가 가능하다. 그러나 인터넷을 통한 공간 벡터 데이타의 조작 시 해결해야 할 문제로 좁은 대역폭을 갖는 인터넷에서 크기가 크고 복잡한 벡터 데이타를 어떻게 효율적으로 전송하는가 라는 문제이다. 본 논문은 좁은 대역폭을 갖는 인터넷을 통한 공간 벡터 데이타를 효율적으로 전송하기 위한 새로운 전송 기법인 스케일에 기반한 전송 기법을 제안한다. 제안된 기법의 아이디어는 보여질수 있는 것만을 전송하는 것이다. 특정 스케일에서 일부 피쳐만이 사용자에게 보여지므로, 자연히 스케일은 공간 피쳐와 연관된 요소이다. 제안된 기법은 웨이블릿에 기반한 지도 일반화 알고리즘을 통해 공간 객체 중에서 출력되는 스케일에 따라 보여질 필요가 없는 피쳐들을 필터링하고, 보여지는 피쳐만을 최종적으로 전송한다. 본 논문에서는 실험을 통해 제안된 기법을 사용하는 경우, 개개의 공간 연산들에 대한 응답 시간이 대체적으로 향상됨을 보인다.

모양 정보의 회귀추정에 의한 내용 기반 이미지 검색 기법 (Contents-based Image Retrieval Using Regression of Shape Features)

  • 송준규;최황규
    • 디지털콘텐츠학회 논문지
    • /
    • 제2권2호
    • /
    • pp.157-166
    • /
    • 2001
  • 본 논문은 내용 기반 이미지 검색 시스템에서 이미지의 위치 및 모양 정보에 의한 회귀선을 추정하여 효율적으로 특징 벡터 추출함과 동시에 같은 도메인상의 특징 벡터가 일정 수준보다 많아질 경우 효율적으로 특징 벡터의 차원을 줄이는 기법을 제안한다. 특히, 특징 벡터의 차원을 줄이는 제안된 기법은 특징 벡터의 수에 관계없이 특정한 n개의 특징 벡터로의 변환이 가능하다. 본 논문에서 제안된 기법들은 실제 내용 기반 이미지 검색 시스템의 구현을 통해 기존의 방법보다 효율적인 검색은 물론 다차원 특징 벡터를 특정 n차원의 특징 벡터로 변환함으로써 다차원 색인 기법이 가지고 있는 가장 큰 단점인 '차원의 저주' 문제를 근본적으로 해결할 수 있는 방법임을 보인다.

  • PDF

A METHOD FOR ADJUSTING ADAPTIVELY THE WEIGHT OF FEATURE IN MULTI-DIMENSIONAL FEATURE VECTOR MATCHING

  • Ye, Chul-Soo
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2006년도 Proceedings of ISRS 2006 PORSEC Volume II
    • /
    • pp.772-775
    • /
    • 2006
  • Muilti-dimensional feature vector matching algorithm uses multiple features such as intensity, gradient, variance, first or second derivative of a pixel to find correspondence pixels in stereo images. In this paper, we proposed a new method for adjusting automatically the weight of feature in multi-dimensional feature vector matching considering sharpeness of a pixel in feature vector distance curve. The sharpeness consists of minimum and maximum vector distances of a small window mask. In the experiment we used IKONOS satellite stereo imagery and obtained accurate matching results comparable to the manual weight-adjusting method.

  • PDF

지지벡터기계와 카이제곱 통계량을 이용한 스팸 블로그(Splog) 판별 시스템 (A Splog Detection System Using Support Vector Machines and $x^2$ Statistics)

  • 이성욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 춘계학술대회
    • /
    • pp.905-908
    • /
    • 2010
  • 본 연구의 목적은 웹 환경에서 스팸 블로그(Splog)를 자동으로 판별하는 시스템을 개발하는 것이다. 먼저 블로그의 HTML을 제거한 후 품사를 부착하였다. 어휘/품사 쌍을 자질로 사용하였으며 카이제곱 통계량을 이용하여 유용한 자질을 선택하였다. 선택된 자질의 가중치를 벡터로 표현한 후, 지지벡터 기계(Support Vector Machines)를 학습하여 자동으로 스팸 블로그를 판별하는 시스템을 제안하였으며, SPLOG 데이터 집합으로 실험한 결과 F1척도로 90.5%의 정확률을 얻었다.

  • PDF

카이 제곱 통계량과 지지벡터기계를 이용한 자동 스팸 메일 분류기 (An Automatic Spam e-mail Filter System Using χ2 Statistics and Support Vector Machines)

  • 이성욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 춘계학술대회
    • /
    • pp.592-595
    • /
    • 2009
  • 우리는 지지벡터기계를 이용하여 스팸 이메일을 자동으로 분류하는 시스템을 제안한다. 단어의 어휘 정보와 품사 태그 정보를 지지벡터기계의 자질로 사용한다. 우리는 카이 제곱 통계량을 이용하여 유용한 자질을 선택한 후 각각의 자질을 문서 빈도(TF)와 역문헌빈도(IDF) 값으로 표현하였다. 자질들을 이용하여 SVM을 학습한 후, SVM 분류기는 각각의 이메일의 스팸 유무를 결정한다. 실험 결과, 웹메일 시스템에서 수집한 이메일 데이터에 대해 약 82.7%의 정확률을 얻었다.

  • PDF

한국어 질의응답시스템을 위한 지지 벡터기계 기반의 질의유형분류기 ((A Question Type Classifier based on a Support Vector Machine for a Korean Question-Answering System))

  • 김학수;안영훈;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권5_6호
    • /
    • pp.466-475
    • /
    • 2003
  • 고성능의 질의응답 시스템을 구현하기 위해서는 사용자의 질의 의도를 파악할 수 있는 질의 유형 분류기가 필요하다. 본 논문에서는 지지 벡터 기계(support vector machine, SVM)를 이용한 질의유형 분류기를 제안한다. 본 논문에서 제안하는 질의 유형 분류기의 분류 과정은 다음과 같다. 우선, 사용자 질의에 포함된 어휘, 품사, 의미표지와 같은 다양한 정보를 이용하여 사용자 질의로부터 자질들을 추출한다. 다량의 자질들 중에서 유용한 것들만을 선택하기 위해서 카이 제곱 통계량을 이용한다. 추출된 자질들은 벡터 공간 모델로 표현되고, 문서 범주화 기법 중 하나인 지지 벡터 기계는 이 정보들을 이용하여 질의 유형을 분류한다. 본 논문에서 제안하는 시스템은 질의 유형 분류 문제에 자동 문서 범주화 기법을 도입하여 86.4%의 높은 분류 정확도를 보였다. 또한 질의 유형 분류기를 통계적 방법으로 구축함으로써 lexico-syntactic 패턴과 같은 규칙을 기술하는 수작업을 배제할 수 있으며, 응용 영역의 변화에 대해서도 안정적인 처리와 빠른 이식성을 보장한다.

Word Embedding 자질을 이용한 한국어 개체명 인식 및 분류 (Korean Named Entity Recognition and Classification using Word Embedding Features)

  • 최윤수;차정원
    • 정보과학회 논문지
    • /
    • 제43권6호
    • /
    • pp.678-685
    • /
    • 2016
  • 한국어 개체명 인식에 다양한 연구가 있었지만, 영어 개체명 인식에 비해 자질이 부족한 문제를 가지고 있다. 본 논문에서는 한국어 개체명 인식의 자질 부족 문제를 해결하기 위해 word embedding 자질을 개체명 인식에 사용하는 방법을 제안한다. CBOW(Continuous Bag-of-Words) 모델을 이용하여 word vector를 생성하고, word vector로부터 K-means 알고리즘을 이용하여 군집 정보를 생성한다. word vector와 군집 정보를 word embedding 자질로써 CRFs(Conditional Random Fields)에 사용한다. 실험 결과 TV 도메인과 Sports 도메인, IT 도메인에서 기본 시스템보다 각각 1.17%, 0.61%, 1.19% 성능이 향상되었다. 또한 제안 방법이 다른 개체명 인식 및 분류 시스템보다 성능이 향상되는 것을 보여 그 효용성을 입증했다.