• Title/Summary/Keyword: 어휘추출

Search Result 438, Processing Time 0.02 seconds

A Query Expansion Technique using Query Patterns in QA systems (QA 시스템에서 질의 패턴을 이용한 질의 확장 기법)

  • Kim, Hea-Jung;Bu, Ki-Dong
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.12 no.1
    • /
    • pp.1-8
    • /
    • 2007
  • When confronted with a query, question answering systems endeavor to extract the most exact answers possible by determining the answer type that fits with the key terms used in the query. However, the efficacy of such systems is limited by the fact that the terms used in a query may be in a syntactic form different to that of the same words in a document. In this paper, we present an efficient semantic query expansion methodology based on query patterns in a question category concept list comprised of terms that are semantically close to terms used in a query. The proposed system first constructs a concept list for each question type and then builds the concept list for each question category using a learning algorithm. The results of the present experiments suggest the promise of the proposed method.

  • PDF

Detection of Porno Sites on the Web using Fuzzy Inference (퍼지추론을 적용한 웹 음란문서 검출)

  • 김병만;최상필;노순억;김종완
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.11 no.5
    • /
    • pp.419-425
    • /
    • 2001
  • A method to detect lots of porno documents on the internet is presented in this parer. The proposed method applies fuzzy inference mechanism to the conventional information retrieval techniques. First, several example sites on porno arc provided by users and then candidate words representing for porno documents are extracted from theme documents. In this process, lexical analysis and stemming are performed. Then, several values such as tole term frequency(TF), the document frequency(DF), and the Heuristic Information(HI) Is computed for each candidate word. Finally, fuzzy inference is performed with the above three values to weight candidate words. The weights of candidate words arc used to determine whether a liven site is sexual or not. From experiments on small test collection, the proposed method was shown useful to detect the sexual sites automatically.

  • PDF

A Semantic Orientation Prediction Method of Sentiment Features Based on the General and Domain-Dependent Characteristics (일반적, 영역 의존적 특성을 반영한 감정 자질의 의미지향성 추정 방법)

  • Hwang, Jaewon;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.155-159
    • /
    • 2009
  • 본 논문은 한국어 문서 감정분류를 위한 중요한 어휘 자원인 감정자질(Sentiment Feature)의 의미지향성(Semantic Orientation) 추정을 위해 일반적인 특성과 영역(Domain) 의존적인 특성을 반영하여 한국어 문서 감정분류(Sentiment Classification)의 성능 향상을 얻을 수 있는 기법을 제안한다. 감정자질의 의미지 향성은 검색 엔진을 통해 추출한 각 감정 자질의 스니핏(Snippet)과 실험 말뭉치를 이용하여 추정할 수 있다. 검색 엔진을 통해 추출된 스니핏은 감정자질의 일반적인 특성을 반영하며, 실험 말뭉치는 분류하고자 하는 영역 의존적인 특성을 반영한다. 이렇게 얻어진 감정자질의 의미지향성 수치는 각 문장의 감정강도를 추정하기 위해 이용되며, 문장의 감정 강도의 값을 TF-IDF 가중치 기법에 접목하여 감정자질의 가중치를 책정한다. 최종적으로 학습 과정에서 긍정 문서에서는 긍정 감정자질, 부정 문서에서는 부정 감정자질을 대상으로 추가 가중치를 부여하여 학습하였다. 본 논문에서는 문서 분류에 뛰어난 성능을 보여주는 지지 벡터 기계(Support Vector Machine)를 사용하여 제안한 방법의 성능을 평가한다. 평가 결과, 일반적인 정보 검색에서 사용하는 내용어(Content Word) 기반의 자질을 사용한 경우보다 3.1%의 성능향상을 보였다.

  • PDF

Semantic Ontology Speech Recognition Performance Improvement using ERB Filter (ERB 필터를 이용한 시맨틱 온톨로지 음성 인식 성능 향상)

  • Lee, Jong-Sub
    • Journal of Digital Convergence
    • /
    • v.12 no.10
    • /
    • pp.265-270
    • /
    • 2014
  • Existing speech recognition algorithm have a problem with not distinguish the order of vocabulary, and the voice detection is not the accurate of noise in accordance with recognized environmental changes, and retrieval system, mismatches to user's request are problems because of the various meanings of keywords. In this article, we proposed to event based semantic ontology inference model, and proposed system have a model to extract the speech recognition feature extract using ERB filter. The proposed model was used to evaluate the performance of the train station, train noise. Noise environment of the SNR-10dB, -5dB in the signal was performed to remove the noise. Distortion measure results confirmed the improved performance of 2.17dB, 1.31dB.

Implementation Tagging System of Korea Homonym (한국어 동형이의어 태깅 시스템 구현)

  • Kim, Jun-Su;Choe, Ho-Seop;Lee, Wang-Woo;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.24-30
    • /
    • 2002
  • 본 논문은 한국어 정보처리에서 발생하는 단어 중의성 문제를 해결하기 위하여, 사전 뜻풀이 말뭉치에서 추출하여 구축한 의미정보 데이터베이스(Semantic Information Database)와 이를 활용한 단어 중의성 해결 모델을 이용한 실용적인 동형이의어 태깅 시스템 개발을 목적으로 한다. 중 소규모의 국어사전 150,000여 개의 표제어 전체의 뜻풀이에 품사 태그를 부착한 117만 어절 규모의 뜻풀이 말뭉치를 구축한 후 사전에 등재된 14,000여 개의 동형이의어 중 뜻풀이에 나타나는 8,164개의 동형이의어에 표제어 어깨번호를 이용한 의미 태그를 부착함으로써, 대량의 동형이의어 분별을 위한 공기(coocurrence)하는 단어와 빈도(frequency)정보를 추출하여 데이터베이스화 할 수 있었다. 본 동형이의어 태깅 시스템의 정확률 측정과 문제점 발견을 위해 (21세기 세종 계획) 프로젝트에서 제공하는 150만 어절 의미 태그 부착 말뭉치를 대상으로 실험한 결과 세종 150만 의미 태그 부착 말뭉치에 고빈도로 출현하는 469개 어휘(총 출현 횟수 249.249개)에 대한 정확률이 91.58%로 나타났다.

  • PDF

A Question Type Classifier Using a Support Vector Machine (지지 벡터 기계를 이용한 질의 유형 분류기)

  • An, Young-Hun;Kim, Hark-Soo;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.129-136
    • /
    • 2002
  • 고성능의 질의응답 시스템을 구현하기 위해서는 사용자의 질의 유형의 난이도에 관계없이 의도를 파악할 수 있는 질의유형 분류기가 필요하다. 본 논문에서는 문서 범주화 기법을 이용한 질의 유형 분류기를 제안한다. 본 논문에서 제안하는 질의 유형 분류기의 분류 과정은 다음과 같다. 우선, 사용자 질의에 포함된 어휘, 품사, 의미표지와 같은 다양한 정보를 이용하여 사용자 질의로부터 자질들을 추출한다. 이 과정에서 질의의 구문 특성을 반영하기 위해서 슬라이딩 윈도 기법을 이용한다. 또한, 다량의 자질들 중에서 유용한 것들만을 선택하기 위해서 카이 제곱 통계량을 이용한다. 추출된 자질들은 벡터 공간 모델로 표현되고, 문서 범주화 기법 중 하나인 지지 벡터 기계(support vector machine, SVM)는 이 정보들을 이용하여 질의 유형을 분류한다. 본 논문에서 제안하는 시스템은 질의 유형 분류 문제에지지 벡터 기계를 이용한 자동문서 범주화 기법을 도입하여 86.4%의 높은 분류 정확도를 보였다. 또한 질의 유형 분류기를 통계적 방법으로 구축함으로써 lexico-syntactic 패턴과 같은 규칙을 기술하는 수작업을 배제할 수 있으며, 응용 영역의 변화에 대해서도 안정적인 처리와 빠른 이식성을 보장한다.

  • PDF

Generation of Ada Executable Code from SRL/ATM (SRL/ATM으로부터 Ada 실행코드 생성)

  • Ko, Hyun;Kim, Kwang-Jong;Lee, Moon-Kun;Lee, Yon-Sik
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.359-362
    • /
    • 2001
  • 본 논문은 순환공학 환경에서의 실시간 시스템 개발 및 검증을 위한 코드 생성기 구현과정에서 실시간 시스템에 대한 ATM(Abstract Timed Machine) 명세로부터 생성된 SRL(Software Representation Language) 중간코드로부터 Ada 실행코드 생성방법을 제시한다. 실시간 시스템을 명세, 분석, 검증하기 위한 정형기법인 ATM은 기존의 정형기법과는 달리 순환공학 환경에서의 실시간 시스템이 갖는 정적 및 동적 속성은 물론 특정 환경에서의 동적행위도 표현이 가능하므로, DoME/ATM 그래픽 명세 표기와 중간코드로부터 실행코드를 자동 생성함으로써 순환공학 환경에서의 실시간 시스템 개발 및 검증을 가능하게 한다. 따라서, 실행코드 자동 생성기를 구현하기 위하여 본 논문에서는 선행연구에 의한 DoME/ATM으로부터 변환된 SRL/ATM 코드로부터 Ada 실행코드를 생성하기 위하여 SRL/ATM과 Ada의 관계를 분석하고 실행코드 생성을 위한 기본 규칙들을 정의하여, Ada 실행코드 생성기를 설계한다. 실행코드 생성기는 SRL 파스트리 생성기를 이용하여 구문분석을 통해 구문노드와 수식노드, 단말노드 둥과 같은 구문적 요소들을 추출하여 어휘분석을 통해 얻어진 정보들과 추출된 구문 정보들을 기반으로 실제 Ada 실행코드를 생성한다.

  • PDF

Development and Evaluation of a Document Summarization System using Features and a Text Component Identification Method (텍스트 구성요소 판별 기법과 자질을 이용한 문서 요약 시스템의 개발 및 평가)

  • Jang, Dong-Hyun;Myaeng, Sung-Hyon
    • Journal of KIISE:Software and Applications
    • /
    • v.27 no.6
    • /
    • pp.678-689
    • /
    • 2000
  • This paper describes an automatic summarization approach that constructs a summary by extracting sentences that are likely to represent the main theme of a document. As a way of selecting summary sentences, the system uses a model that takes into account lexical and statistical information obtained from a document corpus. As such, the system consists of two parts: the training part and the summarization part. The former processes sentences that have been manually tagged for summary sentences and extracts necessary statistical information of various kinds, and the latter uses the information to calculate the likelihood that a given sentence is to be included in the summary. There are at least three unique aspects of this research. First of all, the system uses a text component identification model to categorize sentences into one of the text components. This allows us to eliminate parts of text that are not likely to contain summary sentences. Second, although our statistically-based model stems from an existing one developed for English texts, it applies the framework to individual features separately and computes the final score for each sentence by combining the pieces of evidence using the Dempster-Shafer combination rule. Third, not only were new features introduced but also all the features were tested for their effectiveness in the summarization framework.

  • PDF

Validation Technique for Class Name Postfixes Based on the Machine Learning of Class Properties (클래스 특성 기계학습에 기반한 클래스 이름의 접미사 검증 기법)

  • Lee, Hongseok;Lee, Junha;Lee, Illo;Park, Soojin;Park, Sooyong
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.4 no.6
    • /
    • pp.247-252
    • /
    • 2015
  • As software has gotten bigger in magnitude and the complexity of software has been increased, the maintenance has gained in-creasing attention for its significant impact on the cost. Identifiers have an impact on more than 90 percent of the readability which accounts for a majority portion of the maintenance activities. For this reason, the existing works focus on domain-specific features based on identifiers. However, their approaches have a limitation when either a class name does not reflect the intention of its context or a class naming is incorrect. Therefore, this paper suggests a series of class name validation process by extracting properties of classes, building learning model by applying a decision tree technique of machine learning, and generating a validation report containing the list of recommendable postfixes of classes to be validated. To evaluate this, four open source projects are selected and indicators such as precision, recall, and ROC curve present the value of this work when it comes to five specific postfixes including functional information on class names.

Construction and Application of POI Database with Spatial Relations Using SNS (SNS를 이용한 POI 공간관계 데이터베이스 구축과 활용)

  • Kim, Min Gyu;Park, Soo Hong
    • Spatial Information Research
    • /
    • v.22 no.4
    • /
    • pp.21-38
    • /
    • 2014
  • Since users who search maps conduct their searching using the name they already know or is commonly called rather than formal name of a specific place, they tend to fail to find their destination. In addition, in typical web map service in terms of spatial searching of map. Location information of unintended place can be provided because when spatial searching is conducted with the vocabulary 'nearby' and 'in the vicinity', location exceeding 2 km from the current location is searched altogether as well. In this research, spatial range that human can perceive is calculated by extracting POI date with the usage of twitter data of SNS, constructing spatial relations with existing POI, which is already constructed. As a result, various place names acquired could be utilized as different names of existing POI data and it is expected that new POI data would contribute to select places for constructing POI data by utilizing to recognize places having lots of POI variation. Besides, we also expect efficient spatial searching be conducted using diverse spatial vocabulary which can be used in spatial searching and spatial range that human can perceive.