• 제목/요약/키워드: Probability Vector

검색결과 284건 처리시간 0.029초

키워드 자동 생성에 대한 새로운 접근법: 역 벡터공간모델을 이용한 키워드 할당 방법 (A New Approach to Automatic Keyword Generation Using Inverse Vector Space Model)

  • 조원진;노상규;윤지영;박진수
    • Asia pacific journal of information systems
    • /
    • 제21권1호
    • /
    • pp.103-122
    • /
    • 2011
  • Recently, numerous documents have been made available electronically. Internet search engines and digital libraries commonly return query results containing hundreds or even thousands of documents. In this situation, it is virtually impossible for users to examine complete documents to determine whether they might be useful for them. For this reason, some on-line documents are accompanied by a list of keywords specified by the authors in an effort to guide the users by facilitating the filtering process. In this way, a set of keywords is often considered a condensed version of the whole document and therefore plays an important role for document retrieval, Web page retrieval, document clustering, summarization, text mining, and so on. Since many academic journals ask the authors to provide a list of five or six keywords on the first page of an article, keywords are most familiar in the context of journal articles. However, many other types of documents could not benefit from the use of keywords, including Web pages, email messages, news reports, magazine articles, and business papers. Although the potential benefit is large, the implementation itself is the obstacle; manually assigning keywords to all documents is a daunting task, or even impractical in that it is extremely tedious and time-consuming requiring a certain level of domain knowledge. Therefore, it is highly desirable to automate the keyword generation process. There are mainly two approaches to achieving this aim: keyword assignment approach and keyword extraction approach. Both approaches use machine learning methods and require, for training purposes, a set of documents with keywords already attached. In the former approach, there is a given set of vocabulary, and the aim is to match them to the texts. In other words, the keywords assignment approach seeks to select the words from a controlled vocabulary that best describes a document. Although this approach is domain dependent and is not easy to transfer and expand, it can generate implicit keywords that do not appear in a document. On the other hand, in the latter approach, the aim is to extract keywords with respect to their relevance in the text without prior vocabulary. In this approach, automatic keyword generation is treated as a classification task, and keywords are commonly extracted based on supervised learning techniques. Thus, keyword extraction algorithms classify candidate keywords in a document into positive or negative examples. Several systems such as Extractor and Kea were developed using keyword extraction approach. Most indicative words in a document are selected as keywords for that document and as a result, keywords extraction is limited to terms that appear in the document. Therefore, keywords extraction cannot generate implicit keywords that are not included in a document. According to the experiment results of Turney, about 64% to 90% of keywords assigned by the authors can be found in the full text of an article. Inversely, it also means that 10% to 36% of the keywords assigned by the authors do not appear in the article, which cannot be generated through keyword extraction algorithms. Our preliminary experiment result also shows that 37% of keywords assigned by the authors are not included in the full text. This is the reason why we have decided to adopt the keyword assignment approach. In this paper, we propose a new approach for automatic keyword assignment namely IVSM(Inverse Vector Space Model). The model is based on a vector space model. which is a conventional information retrieval model that represents documents and queries by vectors in a multidimensional space. IVSM generates an appropriate keyword set for a specific document by measuring the distance between the document and the keyword sets. The keyword assignment process of IVSM is as follows: (1) calculating the vector length of each keyword set based on each keyword weight; (2) preprocessing and parsing a target document that does not have keywords; (3) calculating the vector length of the target document based on the term frequency; (4) measuring the cosine similarity between each keyword set and the target document; and (5) generating keywords that have high similarity scores. Two keyword generation systems were implemented applying IVSM: IVSM system for Web-based community service and stand-alone IVSM system. Firstly, the IVSM system is implemented in a community service for sharing knowledge and opinions on current trends such as fashion, movies, social problems, and health information. The stand-alone IVSM system is dedicated to generating keywords for academic papers, and, indeed, it has been tested through a number of academic papers including those published by the Korean Association of Shipping and Logistics, the Korea Research Academy of Distribution Information, the Korea Logistics Society, the Korea Logistics Research Association, and the Korea Port Economic Association. We measured the performance of IVSM by the number of matches between the IVSM-generated keywords and the author-assigned keywords. According to our experiment, the precisions of IVSM applied to Web-based community service and academic journals were 0.75 and 0.71, respectively. The performance of both systems is much better than that of baseline systems that generate keywords based on simple probability. Also, IVSM shows comparable performance to Extractor that is a representative system of keyword extraction approach developed by Turney. As electronic documents increase, we expect that IVSM proposed in this paper can be applied to many electronic documents in Web-based community and digital library.

토픽모델링을 활용한 SIAM Journal on Applied Mathematics의 연구 동향 분석 (Analysis of Research Trends in SIAM Journal on Applied Mathematics Using Topic Modeling)

  • 김성연
    • 한국산학기술학회논문지
    • /
    • 제21권7호
    • /
    • pp.607-615
    • /
    • 2020
  • 본 연구는 텍스트 마이닝 기법을 이용하여 산업수학과 관련한 논문들의 연구 현황 및 동향을 파악하는데 목적이 있다. 이를 위해 R로 1970년부터 2019년까지 SIAM Journal on Applied Mathematics 총 4910편 논문의 제목, 초록, 주제어를 수집하였으며, LDA 알고리즘 기반의 토픽모델링 분석을 수행하였다. 수집된 자료에 대한 coherence score 분석 결과, 토픽의 최적 개수는 20개로 결정하였으며, 핵심 연구 주제들은 Gibbs 샘플링 방법을 기반으로 추출하였다. 주요 분석 결과는 다음과 같다. 첫째, 해석학과 대수학을 중심으로 계산수학, 기하학, 수학적 모델링, 위상수학, 이산수학, 확률 및 통계학 등 다양한 수학 분야에서 산업수학 관련 연구가 진행되었다. 둘째, 연대별 연구 주제의 동향을 분석한 결과, 상승하는 연구 주제는 수리생물학, 비선형편미분방정식, 이산수학, 통계학, 위상수학으로, 하강하는 연구 주제는 확률론만 나타났다. 셋째, 2015개정 수학교육과정에서 반영되지 않은 분야 중 고등학교 수학교육과정에서 다루어야 할 내용으로 기수법, 행렬, 공간벡터, 복소수가 도출되었다. 마지막으로 분석 결과를 바탕으로 우리나라의 산업수학 활성화 방안과 본 연구의 제한점 및 후속 연구를 제시하였다.

분절 특징 HMM을 이용한 영어 음소 인식 (English Phoneme Recognition using Segmental-Feature HMM)

  • 윤영선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권3호
    • /
    • pp.167-179
    • /
    • 2002
  • 본 논문에서는 여러 프레임 특징으로 표현되는 분절 특징(segmental feature) 표현 방법을 제안하고, HMM 개념 위에서 음향학적 모델과 그 알고리즘을 개발하여 HMM의 약점으로 지적되는 독립관측 가정을 완화시키고자 한다. 제안된 특징 표현은 단일 프레임 특징이 음성 신호의 시간적 동적 특성 (temporal dynamics)을 제대로 표현하지 못하기 때문에, 여러 프레임을 이용하여 음성 특징을 표현하도록 한다. 분절 특징은 다항식의 회귀 함수(polynomial regression function)에 의하여 관측 벡터의 궤적으로 표현되고, 이 특징을 패턴 분류에 사용하기 위하여 음성 신호의 궤적을 효과적으로 표현하는 분절 HMM(segmental HMM)을 이용한다. SHMM은 상태에서의 관측 확률을 외적 분절 변이와 내적 분절 변이로 세분하며, 외적 분절 변이는 장기적인 변화를, 내적 분절 변이는 단기적인 변화를 나타낸다. 음향학적 모델에서 분절 특성을 고려하기 위하여 외적 분절 변이는 분절의 확률 분포로 표현하고, 내적 분절 변이는 궤적의 추정 오차로 표현하도록 SHMM을 수정한 분절 특징 HMM(SFHMM; segmental-feature HMM)을 제안한다. SFHMM에서는 분절의 관측 확률을 분절 우도와 궤적의 추정 오차의 관계로써 표현하며, 추정오차는 특정 상태에서의 분절의 우도에 대한 가중치로 고려될 수 있다. 제안된 방법의 유효성과 분절 특징의 특성을 살펴보기 위하여 TIMIT 자료를 이용하여 몇 가지 실험을 하였다. 이들 실험 결과에서, 제안된 방법이 기존의 HMM보다 매개 변수가 많더라도, 성능의 향상과 제안된 특징이 유연하고 정보를 많이 가진다는 점에서 의미가 있다고 하겠다.

효율적인 이동물체 분할과 고속 추적 알고리즘에 관한 연구 (A Study on Effective Moving Object Segmentation and Fast Tracking Algorithm)

  • 조영석;이주신
    • 정보처리학회논문지B
    • /
    • 제9B권3호
    • /
    • pp.359-368
    • /
    • 2002
  • 본 논문에서는 매칭 에러 영상과 이동벡터를 이용한 효율적인 이동물체 외곽선 검출 알고리즘과 부분외곽선 정보를 이용한 이동물체 고속 추적 알고리즘을 제안하였다. 이동물체의 외곽선 검출은 watershed 알고리즘을 기반으로 확률분포함수를 적용하여 seed 영역을 생성하고 seed 영역을 확장하여 이동물체의 윤곽선을 검출한 다음 이동벡터를 이용하여 최종 외곽선을 추출한다. 외곽선 중 일부를 특징으로 하여 이동물체를 추적하는 알고리즘을 사용하였다. 이동물체 초기 특징 벡터는 이동물체의 외곽선 영역 중 상하좌우의 외곽선 일부분을 특징벡터로 정한다. 다음은 추적단계로 이전 프레임에서 얻은 특징벡터를 이용하여 현재 프레임에서 이동물체의 추적을 수행하였다. 실제영상에 대하여 제안된 알고리즘으로 이동물체추적 모의 실험을 수행한 결과 기존 능동 윤곽선 추적알고리즘은 물체 외곽선 전체를 추적하기 때문에 물체의 외곽선 길이에 따라 처리시간이 변화하지만 제안된 알고리즘은 이동물체의 외곽선 영역을 특징정보로 하여 추적하기 때문에 추적 연산이 간단하였다. 고속이동벡터를 추출 BMA 연산은 기존 알고리즘 보다 연산량이 약 39% 감소였고, 이동 물체 외곽선 검출 알고리즘은 과분할 문제점이 발생하지 않았으며, 상하 좌우 외곽선 정보를 이용하여 이동물체를 추적한 결과 추적오차는 특징벡터의 크기가 $(15\times{5)}$일 때 검색오차가 4 화소 이하로 양호하게 나타났다.

주행로봇제어를 위한 DWT와 SVM기반의 EEG신호 분류 알고리즘 (EEG Signal Classification Algorithm based on DWT and SVM for Driving Robot Control)

  • 이기배;이종현;배진호;이재일
    • 전자공학회논문지
    • /
    • 제52권8호
    • /
    • pp.117-125
    • /
    • 2015
  • 본 논문은 '좌', '우' 방향 제어를 위해 취득된 EEG(Electroencephalogram) 신호 기반 분류 알고리즘과 EEG 센서, Labview, DAQ, Matlab, 주행로봇으로 구성된 방향 제어 시스템을 제안한다. 제안된 알고리즘은 DWT(Discrete Wavelet Transform)로 추출된 주파수대역 정보를 특징으로 이용하며, Fishers score를 이용하여 변별력이 높은 주파수 대역의 특징을 선별한다. 또한, SVM (Support Vector Machine)을 이용하여 분류 성능이 최고가 되는 특징벡터의 조합을 제안하고, 잘못된 판정에 의한 오동작을 방지하기 위한 MLD(Maximum Likelihood Decision) 기반의 판정보류 알고리즘도 제안한다. 제안된 알고리즘에 의해 선택된 4개의 특징벡터는 국제 표준 전극 배치법에 따른 P8 채널의 d2(16-32Hz), d5(2-4Hz) 주파수 대역의 전압의 절대 값 평균과 표준편차이다. SVM 분류기로 실험한 결과 98.75%의 정확도와 1.25%의 오류율 성능을 보였다. 또한, 오류 확률 70%를 판정 보류로 규정할 경우, 제안된 알고리즘은 인식률 95.63%의 정확도와 오류율 0%을 보였다.

적응형 칼만 필터를 이용한 확장 표적의 상태벡터 추정 기법 (Extended Target State Vector Estimation using AKF)

  • 조두현;최한림;이진익;정기환;고일석
    • 한국항공우주학회지
    • /
    • 제43권6호
    • /
    • pp.507-515
    • /
    • 2015
  • 본 논문에서는 빠르게 기동하는 표적의 상태벡터를 효과적으로 추정하는 필터링 기법을 제안한다. 적 미사일을 높은 확률로 요격하기 위해서는 스윗 스팟이라고 불리는 지점을 타격해야 하며, 이를 위해서는 표적의 길이와 위치를 정확히 추정해야 한다. 논문에서는 FMCW 레이다에 기반하여 고분해능 거리 프로파일(HRRPs)을 생성한 후 제안된 필터링 기법을 통해 표적의 길이와 움직임을 추정하고 있다. 실제에 가까운 레이다 측정치를 모사하기 위해 ISAR 이미지를 통해 각도에 따른 표적의 산란점 특성에 대한 연구가 진행되었다. 또한 측정 잡음 공분산 행렬 R 이 고정되어 있는 기존의 칼만 필터의 경우 SNR 값이 급격히 변화하는 상황에서는 표적의 효과적인 추적이 어려우며, 제안된 기법에서는 공분산 행렬 R 을 측정값을 이용해 지속적으로 개선하며 표적을 추적하게 된다. 기법의 성능 확인을 위해 요격 미사일이 목표물을 추적하는 상황에 대하여 시뮬레이션이 수행되었으며, 시뮬레이션 결과는 제안된 필터링 기법이 실제 데이터에 효과적으로 수렴함을 보인다.

다중경로 페이딩 환경에서 HOS와 WT을 이용한 디지털 변조형태 인식 (Digital Modulation Types Recognition using HOS and WT in Multipath Fading Environments)

  • 박철순
    • 전자공학회논문지CI
    • /
    • 제45권5호
    • /
    • pp.102-109
    • /
    • 2008
  • 본 논문은 다중경로 페이딩 채널 조건에서 사전 정보없이 입사하는 디지털 신호 10종의 변조형태를 고정확도로 인식할 수 있도록 고차 통계량(HOS)과 웨이브릿 변환(WT)에서 선정된 특징(key features)을 이용한 견실한 하이브리드 분류기를 제안하였다. 제안된 분류기는 실제 시나리오를 고려하여 다양한 다중경로 환경(즉, 농촌, 소도시, 도심지역)에서 측정된 채널 데이터를 이용하였다. 실제 측정된 다중경로 페이딩 채널 데이터를 이용하여 Holdout-like 방식으로 총 15개 채널 중 9개 채널은 트레이닝용으로 사용하고, 나머지 6개 채널은 테스트용으로 사용하였다. 제안된 분류기는 다중경로 환경에서 높은 변별력을 유지하는 HOS 특징을 기반으로 구현되었고, AMA(Alphabet Matched Algorithm) 또는 MMA(Multi-modulus Algerian)와 같은 등화기법의 적용없이 분류가 어렵다고 알려진 MQAM신호(M=16, 64, 256)들에 대해서만 WT 특징을 적용하였다. 선정된 특징들을 이용한 변조인식은 입력공간에서 최대 마진을 갖는 하이퍼 공간으로 매핑시킴으로서 분류 능력이 우수하다고 알려진 SVM 메소드를 적용하여 시뮬레이션을 실시하였다. 제안된 분류기의 성능은 트레이닝 채널과 테스트 채널에서 WT 또는 HOS 특징만을 단독으로 사용하는 분류기에 비해 현저한 성능 향상을 보였고, 특히, MQAM 신호의 인식률은 낮은 SNR레벨에서도 거의 완전하게 분류되었다.

다중 요소를 가지는 SVM을 이용한 이블 트윈 탐지 방법 (Evil-Twin Detection Scheme Using SVM with Multi-Factors)

  • 강성배;양대헌;이경희
    • 한국통신학회논문지
    • /
    • 제40권2호
    • /
    • pp.334-348
    • /
    • 2015
  • 최근 스마트기기가 널리 보급되면서 무선망이 가능한 AP(Access Point)의 사용 또한 증가하였다. AP를 사용하여 무선망에 접속할 때, 적절한 보안이 제공되지 않는다면, 로그 AP(Rogue AP)에 의해 다양한 보안 문제가 발생될 수 있다. 이 연구에서는 로그 AP의 유형 중 하나인 이블 트윈(Evil Twin)에 대한 위협에 대해서 살펴본다. 최근 대부분의 이블 트윈을 탐지하기 위한 연구에서는 RTT(Round Trip Time)와 같이 인가된 AP와 이블 트윈 사이에서 측정될 수 있는 시간 차이를 이용하는 방법이 주로 이용되고 있다. 그러나 이와 같이 이블 트윈을 탐지하는 방법은 채널이 혼잡한 상태일 때 탐지율이 떨어지는 단점이 있다. 이러한 이유에서 이 연구에서는 이블 트윈을 탐지하는 기준으로 RTT와 함께 추가로 PIAT(Packet Inter-Arrival Time)을 측정한다. 또한 측정된 값을 SVM(Support Vector Machine)의 학습 요소로 사용함으로써, 이블 트윈 분류를 위한 비선형적 기준을 정한다. 결과적으로 채널이 혼잡한 상황에서도 최대 96.5% 최소 89.75%의 높은 확률로 이블 트윈을 성공적으로 탐지하였다.

비동기식 센서 융합을 이용한 수중 구조물 부착형 수중 위치 인식 시스템 개발 (Development of Underwater Positioning System using Asynchronous Sensors Fusion for Underwater Construction Structures)

  • 오지윤;신창주;백승재;장인성;정상기;서정민;이화준;최재호;원성규
    • 한국산학기술학회논문지
    • /
    • 제22권3호
    • /
    • pp.352-361
    • /
    • 2021
  • 한국해양과학기술원에서는 수중 공사용 구조물에 적용할 수 있는 수중 위치 인식 기술을 개발하고 있다. 정밀한 위치 인식을 위해 관성 항법을 기반으로 한 확장 칼만 필터를 사용하였으며, 비동기화 된 센서들의 데이터를 알고리즘 보정 단계에 적용하기 위하여 내부의 관측 행렬을 데이터에 따라 구분하여 업데이트 하였다. 수중 공사 환경, 설치 위치, 시스템 운용 편의성 등을 종합적으로 고려하여 수중 공사 구조물 하부에 붙여야 신호를 획득할 수 있는 Doppler velocity logger(DVL)는 설치 및 회수가 어렵기 때문에 이를 배제한 수중 공사 구조물 부착용 수중 위치 인식 복합 시험체를 제작하였으며 수조 환경에서 수중 위치 인식 성능 시험을 수행하였다. Ultra short-base line(USBL)로 측정된 수중 위치, 위치 벡터만 보정된 추정 위치, 그리고 위치와 속도 벡터를 보정한 추정 위치 결과를 원형 공산 오차(CEP)를 이용하여 비교 및 평가하였다. 그 결과 USBL 단독 위치 추정 CEP 0.02 m, 위치 벡터만 보정한 추정 위치 CEP 3.76 m., 위치 및 속도 벡터를 보정한 추정 위치 CEP 0.06 m로 평가되었다. 본 연구를 통해 DVL이 미적용된 비동기식 센서들을 이용하여 안정적인 수중 위치를 추정할 수 있음을 확인하였다.

Reliability of mortar filling layer void length in in-service ballastless track-bridge system of HSR

  • Binbin He;Sheng Wen;Yulin Feng;Lizhong Jiang;Wangbao Zhou
    • Steel and Composite Structures
    • /
    • 제47권1호
    • /
    • pp.91-102
    • /
    • 2023
  • To study the evaluation standard and control limit of mortar filling layer void length, in this paper, the train sub-model was developed by MATLAB and the track-bridge sub-model considering the mortar filling layer void was established by ANSYS. The two sub-models were assembled into a train-track-bridge coupling dynamic model through the wheel-rail contact relationship, and the validity was corroborated by the coupling dynamic model with the literature model. Considering the randomness of fastening stiffness, mortar elastic modulus, length of mortar filling layer void, and pier settlement, the test points were designed by the Box-Behnken method based on Design-Expert software. The coupled dynamic model was calculated, and the support vector regression (SVR) nonlinear mapping model of the wheel-rail system was established. The learning, prediction, and verification were carried out. Finally, the reliable probability of the amplification coefficient distribution of the response index of the train and structure in different ranges was obtained based on the SVR nonlinear mapping model and Latin hypercube sampling method. The limit of the length of the mortar filling layer void was, thus, obtained. The results show that the SVR nonlinear mapping model developed in this paper has a high fitting accuracy of 0.993, and the computational efficiency is significantly improved by 99.86%. It can be used to calculate the dynamic response of the wheel-rail system. The length of the mortar filling layer void significantly affects the wheel-rail vertical force, wheel weight load reduction ratio, rail vertical displacement, and track plate vertical displacement. The dynamic response of the track structure has a more significant effect on the limit value of the length of the mortar filling layer void than the dynamic response of the vehicle, and the rail vertical displacement is the most obvious. At 250 km/h - 350 km/h train running speed, the limit values of grade I, II, and III of the lengths of the mortar filling layer void are 3.932 m, 4.337 m, and 4.766 m, respectively. The results can provide some reference for the long-term service performance reliability of the ballastless track-bridge system of HRS.