• 제목/요약/키워드: Vocabulary System

검색결과 288건 처리시간 0.025초

News Article Identification Methods in Natural Language Processing on Artificial Intelligence & Bigdata

  • Kang, Jangmook;Lee, Sangwon
    • International Journal of Advanced Culture Technology
    • /
    • 제9권3호
    • /
    • pp.345-351
    • /
    • 2021
  • This study is designed to determine how to identify misleading news articles based on natural language processing on Artificial Intelligence & Bigdata. A misleading news discrimination system and method on natural language processing is initiated according to an embodiment of this study. The natural language processing-based misleading news identification system, which monitors the misleading vocabulary database, Internet news articles, collects misleading news articles, extracts them from the titles of the collected misleading news articles, and stores them in the misleading vocabulary database. Therefore, the use of the misleading news article identification system and methods in this study does not take much time to judge because only relatively short news titles are morphed analyzed, and the use of a misleading vocabulary database provides an effect on identifying misleading articles that attract readers with exaggerated or suggestive phrases. For the aim of our study, we propose news article identification methods in natural language processing on Artificial Intelligence & Bigdata.

온라인 열람목록의 주제탐색 강화를 위한 실험적 연구 (An experiment to enhance subject access in korean online public access catalog)

  • 장혜란;홍지윤
    • 한국도서관정보학회지
    • /
    • 제25권
    • /
    • pp.83-107
    • /
    • 1996
  • The purpose of this study is to experiment online public access catalog enhancements to improve its subject access capability. Three catalog databases, enhanced with title keywords, controlled vocabulary, and content words with controlled vocabulary respectively, were implemented. 18 searchers performed 2 subject searshes against 3 different catalog databases. And the transaction logs are analyzed. The results of the study can be summarized as follows : Controlled vocabulary catalog database achieved 41.8% recall ratio in average ; the addition of table of contents words to the controlled vocabulary is an effective technique with increasing recall ration upto 55% without decreasing precision ; and the database enhanced with title keywords shows 31.7% recall ratio in average. Of the three kinds of catalog databases, only the catalog with contents words produced 2 unique relevant documents. The results indicate that both user training and system development is required to have better search performance in online public access catalog.

  • PDF

2022 개정 교육과정에 따른 초등학교 1~2학년 수학 교과서 현장검토본의 어휘 적정성 분석 및 개선 연구 (A study to analyze and improve vocabulary adequacy of field-reviewed textbooks for 1st and 2nd grade elementary school mathematics according to the 2022 revised curriculum)

  • 이대현;권미선;이미진;성창근
    • 한국수학교육학회지시리즈C:초등수학교육
    • /
    • 제27권1호
    • /
    • pp.75-90
    • /
    • 2024
  • 본 연구의 목적은 2022 개정 교육과정에 따른 초등학교 1~2학년 수학 교과서 현장검토본에 제시된 어휘를 9등급 어휘 체계로 분석하고, 그 결과를 토대로 교과서에 사용된 어휘를 개선하는 것이다. 9등급 어휘 체계에 따른 분석 결과, 학생들의 수준에 적합하지 않은 어휘 빈도수의 비율은 1학년 1학기 6.67%, 2학기 12.17%로 나타났으며, 2학년 1학기 11.73%, 2학기 14.19%로 나타났다. 이를 통해 학생들에게 어려울 수 있는 어휘가 전체 어휘 빈도수의 약 6%~15%를 차지하고 있음을 알 수 있다. 분석 결과를 토대로 학생들에게 어려울 수 있는 어휘는 삭제, 수정, 보완하였다. 구체적으로 난도가 높은 어휘 중 수업 내용과 관련없는 어휘는 삭제하였다. 수업 내용과 관련 있는 어휘인 경우 난도가 낮은 유사어로 수정하거나 학생들의 이해를 도울 수 있는 그림을 추가로 제시하였다. 이 연구를 통해 교과서에 사용된 어휘의 양상을 파악하고 어휘를 적절히 수정하여, 효과적인 수학 학습을 위한 수준 높은 교과서 개발에 도움이 될 것으로 기대한다.

초등 영어 어휘 습득을 위한 인지전략 기반의 Speaking Training System 설계 및 구현 (Cognitive strategies-based Speaking Training system for elementary English vocabulary)

  • 서병태;양해술
    • 디지털융복합연구
    • /
    • 제13권4호
    • /
    • pp.191-203
    • /
    • 2015
  • 언어학습에서 어휘는 가장 필수적이고 기본이 되는 단위임에도 불구하고 교육현장에서는 학생들에게 어휘를 지도하고 별도의 학습시간을 제공하는 경우는 매우 드물다. 어휘를 습득한다는 것은 소리 내어 말하고 듣는 과정을 통해 이루어진다. 눈으로 내용을 이해하고 암기하는 전통적인 언어 습득 방식은 분명 한계가 있을 수밖에 없다. 본 논문에서는 학습자 특성을 고려한 인지전략과 음성인식을 기반으로 한 Speaking 중심의 학습 방법을 연구하여 초등 영어 어휘 습득을 위한 인지전략 기반의 Speaking Training system을 설계하고 구현하였으며, 초등학교 5학년 두 개 학급을 선정하여 수준 테스트 후 실험 그룹과 비교 그룹으로 각각 편성하여 분석한 결과 학습자의 동기부여와 성취감을 높임으로써 학습자의 소리 영어 중심의 어휘 습득을 강화할 수 있었고, 학력향상 뿐만 아니라 학습참여도, 과제수행 정도, 흥미도 등의 자기주도적 능력까지도 향상시킬 수 있다는 놀라울만한 성과가 있었다. 본 연구를 통해 학생들의 실용적인 영어 말하기 능력을 향상시킬 것으로 기대한다.

Development of Sensibility Vocabulary Classification System for Sensibility Evaluation of Visitors According to Forest Environment

  • Lee, Jeong-Do;Joung, Dawou;Hong, Sung-Jun;Kim, Da-Young;Park, Bum-Jin
    • 인간식물환경학회지
    • /
    • 제22권2호
    • /
    • pp.209-217
    • /
    • 2019
  • Generally human sensibility is expressed in a certain language. To discover the sensibility of visitors in relation to the forest environment, it is first necessary to determine their exact meanings. Furthermore, it is necessary to sort these terms according to their meanings based on an appropriate classification system. This study attempted to develop a classification system for forest sensibility vocabulary by extracting Korean words used by forest visitors to express their sensibilities in relation to the forest environment, and established the structure of the system to classify the accumulated vocabulary. For this purpose, we extracted forest sensibility words based on literature review of experiences reported in the past as well as interviews of forest visitors, and categorized the words by meanings using the Standard Korean Language Dictionary maintained by the National Institute of the Korean Language. Next, the classification system for these words was established with reference to the classification system for vocabulary in the Korean language examined in previous studies of Korean language and literature. As a result, 137 forest sensibility words were collected using a documentary survey, and we categorized these words into four types: emotion, sense, evaluation, and existence. Categorizing the collected forest sensibility words based on this Korean language classification system resulted in the extraction of 40 representative sensibility words. This experiment enabled us to determine from where our sensibilities that find expressions in the forest are derived, that is, from sight, hearing, smell, taste, or touch, along with various other aspects of how our human sensibilities are expressed such as whether the subject of a word is person-centered or object-centered. We believe that the results of this study can serve as foundational data about forest sensibility.

대용량 음성인식을 위한 하이브리드 빔 탐색 방법과 가변 플로링 기법을 이용한 고속 디코더 알고리듬 연구 (Fast Decoder Algorithm Using Hybrid Beam Search and Variable Flooring for Large Vocabulary Speech Recognition)

  • 김용민;김진영;김동화;권오일
    • 음성과학
    • /
    • 제8권4호
    • /
    • pp.17-33
    • /
    • 2001
  • In this paper, we implement the large variable vocabulary speech recognition system, which is characterized by no additional pre-training process and no limitation of recognized word list. We have designed the system in order to achieve the high recognition rate using the decision tree based state tying algorithm and in order to reduce the processing time using the gaussian selection based variable flooring algorithm, the limitation algorithm of the number of nodes and ENNS algorithm. The gaussian selection based variable flooring algorithm shows that it can reduce the total processing time by more than half of the recognition time, but it brings about the reduction of recognition rate. In other words, there is a trade off between the recognition rate and the processing time. The limitation algorithm of the number of nodes shows the best performance when the number of gaussian mixtures is a three. Both of the off-line and on-line experiments show the same performance. In our experiments, there are some differences of the recognition rate and the average recognition time according to the distinction of genders, speakers, and the number of vocabulary.

  • PDF

미등록어 거절 알고리즘에서 가우시안 모델 최적화를 이용한 신뢰도 정규화 향상 (In Out-of Vocabulary Rejection Algorithm by Measure of Normalized improvement using Optimization of Gaussian Model Confidence)

  • 안찬식;오상엽
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권12호
    • /
    • pp.125-132
    • /
    • 2010
  • 어휘 인식에서는 인식 학습 시 나타나지 않는 미 출현 트라이 폰이 존재하며, 이들 시스템에서는 모델 파라미터들의 초기 추정치를 생성하지 못하고 음소 데이터에 대한 모델을 구성할 수 없는 단점으로 인하여 가우시안 모델의 정확성을 확보하지 못하게 된다. 이를 개선하기 위하여 확률 분포를 이용한 모델 파라미터의 가우시안 모델 최적화 방법을 제안한다. 확률 분포의 가우시안 모델을 최적화하여 가우시안 모델의 정확성을 제공하고, 음소 단위로 데이터의 탐색을 지원하여 신뢰도가 향상되었다. 제안된 방법의 성능 평가를 위하여 실제 다양한 미등록어가 관측될 수 있는 대상으로 실험을 수행하였으며 본 연구에서 제안한 정규화 신뢰도를 이용한 미등록어 거절 알고리즘이 기존의 방법들에 비하여 평균 1.7%의 성능향상을 나타내었다.

북한 영어 교과서 어휘의 통시적 분석 (A Diachronic Lexical Analysis of the North Korean English Textbooks)

  • 김지영;이제영;김정렬
    • 한국콘텐츠학회논문지
    • /
    • 제17권4호
    • /
    • pp.331-341
    • /
    • 2017
  • 본 연구는 북한의 영어 교과서에 나타난 어휘의 시대적인 변화를 파악하기 위해 통시적인 관점에서 코퍼스 기반 어휘 분석을 실시하였다. 이를 위해 통일부의 북한자료센터에 소장되어 있는 북한의 중등학교 영어 교과서 중 1996년 교육과정이 적용된 시기를 기준으로 김정일 시대 이전과 이후의 교과서를 구분지어 코퍼스를 구축한 후, 워드스미스 툴스 7.0을 통해 해당 코퍼스를 분석하여 각 교과서들의 어휘 변화 양상을 살펴보았다. 연구 결과 해당 교과서들의 어휘 규모는 개편 후의 교과서가 개편 전에 비해 증가했지만, 어휘 유형과 어휘 다양성은 감소하였다. 교육과정 개편 이전에 비해 개편 이후의 교과서에서 더 자주 등장하는 핵심어(keyword)를 분석한 결과 김정일 체제를 확고히 하기 위한 관련 이념 어휘와 북한의 경제 및 생활상을 반영하는 어휘들이 나타남을 확인할 수 있었다. 또한 다빈도 어휘 100개 목록과 핵심어를 비교한 결과 북한의 영어 교과서의 어휘가 문법과 문어체 위주의 텍스트에서 조금씩 실질적인 의사소통과 관련된 구어체 내용이 증가하고 있었다.

음소인식 오류에 강인한 N-gram 기반 음성 문서 검색 (N-gram Based Robust Spoken Document Retrievals for Phoneme Recognition Errors)

  • 이수장;박경미;오영환
    • 대한음성학회지:말소리
    • /
    • 제67호
    • /
    • pp.149-166
    • /
    • 2008
  • In spoken document retrievals (SDR), subword (typically phonemes) indexing term is used to avoid the out-of-vocabulary (OOV) problem. It makes the indexing and retrieval process independent from any vocabulary. It also requires a small corpus to train the acoustic model. However, subword indexing term approach has a major drawback. It shows higher word error rates than the large vocabulary continuous speech recognition (LVCSR) system. In this paper, we propose an probabilistic slot detection and n-gram based string matching method for phone based spoken document retrievals to overcome high error rates of phone recognizer. Experimental results have shown 9.25% relative improvement in the mean average precision (mAP) with 1.7 times speed up in comparison with the baseline system.

  • PDF

가변어휘 핵심어 검출을 위한 비핵심어 모델링 및 후처리 성능평가 (Performance Evaluation of Nonkeyword Modeling and Postprocessing for Vocabulary-independent Keyword Spotting)

  • 김형순;김영국;신영욱
    • 음성과학
    • /
    • 제10권3호
    • /
    • pp.225-239
    • /
    • 2003
  • In this paper, we develop a keyword spotting system using vocabulary-independent speech recognition technique, and investigate several non-keyword modeling and post-processing methods to improve its performance. In order to model non-keyword speech segments, monophone clustering and Gaussian Mixture Model (GMM) are considered. We employ likelihood ratio scoring method for the post-processing schemes to verify the recognition results, and filler models, anti-subword models and N-best decoding results are considered as an alternative hypothesis for likelihood ratio scoring. We also examine different methods to construct anti-subword models. We evaluate the performance of our system on the automatic telephone exchange service task. The results show that GMM-based non-keyword modeling yields better performance than that using monophone clustering. According to the post-processing experiment, the method using anti-keyword model based on Kullback-Leibler distance and N-best decoding method show better performance than other methods, and we could reduce more than 50% of keyword recognition errors with keyword rejection rate of 5%.

  • PDF