• 제목/요약/키워드: 대용어

Search Result 149, Processing Time 0.031 seconds

Question Analysis using Lexico Information and Noun Semantic Information (어휘정보와 명사의미정보를 이용한 사용자 질의문장 분석)

  • 정규철;서영훈
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2003.11a
    • /
    • pp.185-189
    • /
    • 2003
  • 고성능의 질의 응답 시스템을 구현하기 위해서는 질의 유형 분류기의 성능이 중요하다. 본 논문에서는 복잡한 분류규칙이나 대용량의 사전 정보를 이용하지 않고 질의문에서 의문사에 해당하는 어휘들을 이용하여 질의 유형을 결정하고, 의문사 주변에 출현하는 명사들의 의미 정보를 이용하여 세부적인 정답유형을 결정할 수 있는 질의 유형분류기를 제안한다. 의문사에 해당하는 어휘가 생략된 경우는 질의문의 마지막 어절의 의미 정보를 이용하여 질의유형을 분류한다. 의문사 주변의 명사들이 마지막 어절에 출현하는 명사들에 대해 동의어 정보와 접미사 정보를 이용하여 질의 유형 분류의 성능을 향상시킨다. 본 논문에서 제안한 시스템은 질의 유형에 대한 분류는 97.4%의 정확도를 보였다.

  • PDF

Web-based Corpus Information Retrieval System (웹기반 말뭉치 정보 검색 시스템)

  • Lee, Jeong-Ho;Lim, Heui-Seok
    • Proceedings of the KAIS Fall Conference
    • /
    • 2008.11a
    • /
    • pp.260-263
    • /
    • 2008
  • 본 논문은 대용량의 한글어 말뭉치를 이용하여 언어학적 통계정보를 자동으로 검색할 수 있는 웹기반 언어정보 검색 시스템을 제안하고 구현하였다. 구현한 시스템을 통해 형태소, 품사, 어절 정보를 자동으로 획득할 수 있었다. 본 시스템은 언어학적 지식이 부족한 비전문가도 말뭉치 검색을 효율적으로 수행할 수 있으며, 웹기반으로 구현되었기 때문에 시스템 접근의 용의성에 의의가 있다.

  • PDF

교류기의 벡터제어방식

  • 정연택
    • 전기의세계
    • /
    • v.29 no.3
    • /
    • pp.161-164
    • /
    • 1980
  • 벡터제어방식에 의하면 유도전동기는 거의 완전한 보상권선을 갖는 직류기라고 볼 수 있다. 파와트랜지스터를 이용할만한 소용량영역에서는 제어용 드라이브 시스템으로서 유도전동기에 확고한 위치를 굳혀 줄 수가 있다. 물론 전동기.검축기.콘트로라가 일체로 되어 성능향상이 뒤 따라야 할 것이다. 또한 대용량영역에서는 형상의 다이리스터 인버어터를 실용적인 수준에서 다상화 또는 다중화하면 거의 이상적인 교류기 가변속시스템을 얻을 수 있음을 위 설명에서 이해할 수 있을 것이다. 본고에서는 유도전동기에 대하여만 설명하였으나 벡터제어는 동기전동기에서도 가능하며 또한 중요함을 부기한다. 이 벡터제어에 관한 연구는 국내외에서 활발하며 멀지 않은 장래에 가변소제어에 직류전동기 대신 벡터제어를 하는 교류기가 많이 이용될 것을 기대한다.

  • PDF

고속 디지털 포렌식 기술

  • Kim, Keon-Woo;Hong, Do-Won
    • Review of KIISC
    • /
    • v.19 no.5
    • /
    • pp.45-51
    • /
    • 2009
  • 개인용 컴퓨터의 디스크 용량 증가와 저장, 분석되어야 하는 방대한 양의 데이터는 포렌식 수집과 분석 시간을 점점 더 요구하고 있다. 이에 ETRI는 대용량 데이터에 대한 고속 수집 및 검색, 분석을 가능하게 하는 고속 포렌식 시스템을 개발하였다. 포렌식 분석은 질의어에 대한 검색의 연속된 과정이라고도 할 수 있어 고속 포렌식 시스템은 하드웨어 가속기를 이용하거나 인덱스를 구축하여 고속으로 데이터를 검색하는 기술을 제공한다. 또한, 안티포렌식 기법중 하나인 파일 암호화는 문서 열람을 불가능하게 해 증거 발견을 어렵게 한다. 이에 고속 포렌식 시스템은 제한된 수사 시간을 고려하여 고속으로 패스워드를 해독하는 기능을 제공한다.

A Study on Word Semantic Categories for Natural Language Question Type Classification and Answer Extraction (자연어 질의 유형판별과 응답 추출을 위한 어휘 의미체계에 관한 연구)

  • Yoon Sung-Hee
    • Proceedings of the KAIS Fall Conference
    • /
    • 2004.11a
    • /
    • pp.141-144
    • /
    • 2004
  • 질의응답 시스템이 정보검색 시스템과 다른 중요한 점은 질의 처리 과정이며, 자연어 질의 문장에서 사용자의 질의 의도를 파악하여 질의 유형을 분류하는 것이다. 본 논문에서는 질의 주-형을 분류하기 위해 복잡한 분류 규칙이나 대용량의 사전 정보를 이용하지 않고 질의 문장에서 의문사에 해당하는 어휘들을 추출하고 주변에 나타나는 명사들의 의미 정보를 이용하여 세부적인 정답 유형을 결정할 수 있는 질의 유형 분류 방법을 제안한다. 의문사가 생략된 경우의 처리 방법과 동의어 정보와 접미사 정보를 이용하여 질의 유형 분류 성능을 향상시킬 수 있는 방법을 제안한다.

  • PDF

Assocate Object Extraction Using personalized user Learning (개인화된 사용자 학습을 위한 연관 객체 추출 설계 및 구현)

  • 유수경;김교정
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2004.05a
    • /
    • pp.636-639
    • /
    • 2004
  • 본 논문은 웹 도큐먼트를 기반으로 사용자에게 의미 있는 정보를 찾아주기 위한 연관 객체 추출 기법인 PMPL(Personalized Multi-Strategey Pattern Loaming) 시스템을 제안하고자 한다. PMPL 모듈은 인터넷의 정보를 여과하여 필터링하고, 사용자 개인화의 키워드를 중심으로 연관된 객체를 추출한다. 이때 연관된 객체 추출 시 대용량 데이터에서 시간적, 공간적면에서 효율적인 연관 탐색 기법인 Fp-Tree와 Fp-Growth 알고리즘을 적용시켰으며, 연관규칙 탐색을 보완하기 위해 가중치 기법인 만유인력 기법을 적용시켰다. PMPL 시스템을 실행한 결과 개인화된 사용자 중심어 기초로 기존의 단일 학습 기법에 비해 더 많은 의미 있는 연관 지식을 추출한 결과가 보였다.

  • PDF

Using the Information of Location the Improvement of KRISTAL2000 DBMS Retrieval System (이웃한 어절간의 위치 정보를 이용하여 KRISTAL2000 DBMS 검색 성능 향상)

  • 김광영;서정현;최성필
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.121-123
    • /
    • 2002
  • 인터넷의 발달과 인터넷 이용자수의 급격한 증가로 정보 검색 시스템의 필요성이 커지고 있다. 또한 대용량의 문서에서 사용자가 원하는 정보를 정확하게 찾기가 점점 어려워지고 있다. 대부분의 사용자들이 입력한 질의어에 대해서 이웃한 단어를 찾아주기를 원하는 사용자가 많이 있다. 본 논문에서는 KRISTAL2000 DBMS을 이용하여 이웃하는 어절한의 위치 정보를 이용하여 다양한 가중치 방법에 대해서 실험하고 그 결과 가장 우수한 가중치 계산 방식을 적용하여 KRISTAL2000 DBMS의 성능을 향상시키도록 하였다.

  • PDF

Improving Korean Word-Spacing System Using Stochastic Information (통계 정보를 이용한 한국어 자동 띄어쓰기 시스템의 성능 개선)

  • 최성자;강미영;권혁철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.883-885
    • /
    • 2004
  • 본 논문은 대용량 말뭉치로부터 어절 unigram과 음절 bigram 통계 정보를 추출하여 구축한 한국어 자동 띄어쓰기 시스템의 성능을 개선하는 방법을 제안한다 어절 통계를 주로 이용하는 기법으로 한국어 문서를 처리할 때, 한국어의 교착어적인 특성으로 인해 자료부족 문제가 발생한다 이물 극복하기 위해서 본 논문은 음절 bigram간 띄어쓸 확률 정보를 이용함으로써 어절로 인식 가능한 추가의 후보 어절을 추정하는 방법을 제안한다. 이와 글이 개선된 시스템의 성능을 다양한 실험 데이터를 사용하여 평가한 결과, 평균 93.76%의 어절 단위 정확도를 얻었다.

  • PDF

Statistical Approach to Sentiment Classification using MapReduce (맵리듀스를 이용한 통계적 접근의 감성 분류)

  • Kang, Mun-Su;Baek, Seung-Hee;Choi, Young-Sik
    • Science of Emotion and Sensibility
    • /
    • v.15 no.4
    • /
    • pp.425-440
    • /
    • 2012
  • As the scale of the internet grows, the amount of subjective data increases. Thus, A need to classify automatically subjective data arises. Sentiment classification is a classification of subjective data by various types of sentiments. The sentiment classification researches have been studied focused on NLP(Natural Language Processing) and sentiment word dictionary. The former sentiment classification researches have two critical problems. First, the performance of morpheme analysis in NLP have fallen short of expectations. Second, it is not easy to choose sentiment words and determine how much a word has a sentiment. To solve these problems, this paper suggests a combination of using web-scale data and a statistical approach to sentiment classification. The proposed method of this paper is using statistics of words from web-scale data, rather than finding a meaning of a word. This approach differs from the former researches depended on NLP algorithms, it focuses on data. Hadoop and MapReduce will be used to handle web-scale data.

  • PDF

On the Development of a Large-Vocabulary Continuous Speech Recognition System for the Korean Language (대용량 한국어 연속음성인식 시스템 개발)

  • Choi, In-Jeong;Kwon, Oh-Wook;Park, Jong-Ryeal;Park, Yong-Kyu;Kim, Do-Yeong;Jeong, Ho-Young;Un, Chong-Kwan
    • The Journal of the Acoustical Society of Korea
    • /
    • v.14 no.5
    • /
    • pp.44-50
    • /
    • 1995
  • This paper describes a large-vocabulary continuous speech recognition system using continuous hidden Markov models for the Korean language. To improve the performance of the system, we study on the selection of speech modeling units, inter-word modeling, search algorithm, and grammars. We used triphones as basic speech modeling units, generalized triphones and function word-dependent phones are used to improve the trainability of speech units and to reduce errors in function words. Silence between words is optionally inserted by using a silence model and a null transition. Word pair grammar and bigram model based oil word classes are used. Also we implement a search algorithm to find N-best candidate sentences. A postprocessor reorders the N-best sentences using word triple grammar, selects the most likely sentence as the final recognition result, and finally corrects trivial errors related with postpositions. In recognition tests using a 3,000-word continuous speech database, the system attained $93.1\%$ word recognition accuracy and $73.8\%$ sentence recognition accuracy using word triple grammar in postprocessing.

  • PDF