• Title/Summary/Keyword: part of speech

Search Result 433, Processing Time 0.023 seconds

Improved Character-Based Neural Network for POS Tagging on Morphologically Rich Languages

  • Samat Ali;Alim Murat
    • Journal of Information Processing Systems
    • /
    • v.19 no.3
    • /
    • pp.355-369
    • /
    • 2023
  • Since the widespread adoption of deep-learning and related distributed representation, there have been substantial advancements in part-of-speech (POS) tagging for many languages. When training word representations, morphology and shape are typically ignored, as these representations rely primarily on collecting syntactic and semantic aspects of words. However, for tasks like POS tagging, notably in morphologically rich and resource-limited language environments, the intra-word information is essential. In this study, we introduce a deep neural network (DNN) for POS tagging that learns character-level word representations and combines them with general word representations. Using the proposed approach and omitting hand-crafted features, we achieve 90.47%, 80.16%, and 79.32% accuracy on our own dataset for three morphologically rich languages: Uyghur, Uzbek, and Kyrgyz. The experimental results reveal that the presented character-based strategy greatly improves POS tagging performance for several morphologically rich languages (MRL) where character information is significant. Furthermore, when compared to the previously reported state-of-the-art POS tagging results for Turkish on the METU Turkish Treebank dataset, the proposed approach improved on the prior work slightly. As a result, the experimental results indicate that character-based representations outperform word-level representations for MRL performance. Our technique is also robust towards the-out-of-vocabulary issues and performs better on manually edited text.

A Predictive Morphological Analyzer, A Part-of-Speech Tagger Based on Joint Independence Model, and A Fast Noun Extractor (예측 기반 형태소 분석기와 결합 독립 모형 기반 품사 태거 및 고속 명사 추출기)

  • Lee, Sang-Zoo;Park, Bong-Rae;Kim, Jin-Dong;Ryu, Won-Ho;Lee, Do-Gil;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.145-150
    • /
    • 1999
  • 본 논문에서는 한국어 자연어 정보처리 기술 표준화를 위한 형태소 분석기 및 품사 태거 평가 대회(MATEC99)에 참여한 고려대학교의 형태소 분석기, 품사 태거, 그리고 명사 추출기를 설명하고 평가 결과를 기술한다. 형태소 분석기는 입력된 어절을 우에서 좌로 분석하며 각 상태에 대한 예측 정보를 활용하여 불필요한 분석 후보에 대한 탐색을 수행하지 않도록 한다. 품사 태거로는 띄어쓰기를 고려한 형태소 품사 2-그램 확률과 띄어쓰기를 고려한 형태소 어휘-품사 3-그램 어휘 확률을 이용하는 결합 독립 모형을 사용한다. 고속 명사 추출기는 고속의 FST 사전과 한국어 특성을 반영한 휴리스틱을 이용한다.

  • PDF

Korean Morphological Analyzer and Part-Of-Speech Tagger Based on CYK Algorithm Using Syllable Information (음절단위 CYK 알고리즘에 기반한 형태소 분석기 및 품사태거)

  • Kwon, Oh-Woog;Chung, Yu-Jin;Kim, Mi-Young;Ryu, Dong-Won;Lee, Moon-Ki;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.76-86
    • /
    • 1999
  • 본 논문에서는 포항공과대학교 지식 및 언어공학연구실에서 개발한 한국어 형태소 분석기 및 품사 태거에 대하여 설명한다. 먼저, 음운 축약 현상이 많은 한국어에 적합한 음절단위 CYK 알고리즘을 제안한다. 그리고, 복합명사 및 복합동사에 대한 처리와 실제 문서에서 빈번히 발생하는 띄어쓰기 오류 처리에 대한 방법론을 설명하고 미등록어에 대한 처리 방안을 제시한다. 품사 태거에서 사용된 방법론과 태그 집합간 매핑, 그리고 명사 추출기에 대해 기술한 후 마지막으로 MATEC'99를 위한 준비과정에서 발생한 표준안과 우리 시스템 사이의 차이점을 나열 및 분석하고 간단히 MATEC'99를 통해 얻은 실험 결과와 평가를 하고자 한다.

  • PDF

A Cost Sensitive Part-of-Speech Tagging: Differentiating Serious Errors from Minor Errors (태깅 오류 간 중요도 차별화에 기반한 비용 의존 품사 태깅)

  • Son, Jeong-Woo;Noh, Tae-Gil;Park, Seong-Bae;Go, Jun-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06c
    • /
    • pp.236-239
    • /
    • 2011
  • 품사 태깅에서 오류는 같은 가중치를 가지는 것으로 간주되어 왔다. 하지만 품사 태깅의 결과를 활용하는 다른 자연어 처리 기술에 태깅 오류가 얼마나 영향을 미칠 수 있는가에 따라 품사 태깅 시 발생하는 오류가 가지는 가중치를 다르게 보아야 한다. 심각한 오류는 이를 활용하는 자연어 처리 기술의 성능 저하를 크게 야기하지만, 사소한 오류는 성능의 저하를 야기하지 않거나 그 영향이 미미하다. 본 논문에서는 품사 태깅 시, 전체적인 성능을 유지하면서 심각한 오류를 줄이는 것을 목표로 한다. 이를 위해 두 가지 점진적 손실 함수(gradient loss function)를 제안한다. 제안한 손실 함수는 심각한 오류에 사소한 오류보다 더 큰 가중치를 줌으로써 품사 태깅 모델이 심각한 오류에 더 집중하여 성능을 최적화하도록 한다. 실험에서 제안한 손실 함수를 활용한 태깅 모델은 기존의 방법에 비해 심각한 오류를 효과적으로 줄일 뿐만 아니라 전체적으로 더 높은 정확도를 보였다.

Sound System Analysis for Health Smart Home

  • CASTELLI Eric;ISTRATE Dan;NGUYEN Cong-Phuong
    • Proceedings of the IEEK Conference
    • /
    • summer
    • /
    • pp.237-243
    • /
    • 2004
  • A multichannel smart sound sensor capable to detect and identify sound events in noisy conditions is presented in this paper. Sound information extraction is a complex task and the main difficulty consists is the extraction of high­level information from an one-dimensional signal. The input of smart sound sensor is composed of data collected by 5 microphones and its output data is sent through a network. For a real time working purpose, the sound analysis is divided in three steps: sound event detection for each sound channel, fusion between simultaneously events and sound identification. The event detection module find impulsive signals in the noise and extracts them from the signal flow. Our smart sensor must be capable to identify impulsive signals but also speech presence too, in a noisy environment. The classification module is launched in a parallel task on the channel chosen by data fusion process. It looks to identify the event sound between seven predefined sound classes and uses a Gaussian Mixture Model (GMM) method. Mel Frequency Cepstral Coefficients are used in combination with new ones like zero crossing rate, centroid and roll-off point. This smart sound sensor is a part of a medical telemonitoring project with the aim of detecting serious accidents.

  • PDF

A Korean Part-of-Speech Tagger using Simplified Eojeol-based unit (단순화된 어절을 단위로 하는 한국어 품사 태거)

  • Lee, Eui-Hyeon;Kim, Young-Gil;Shin, Jaehun;Kwon, Hong-Seok;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.268-272
    • /
    • 2016
  • 영어권 언어가 어절 단위로 품사를 부여하는 반면, 한국어는 굴절이 많이 일어나는 교착어로서 데이터부족 문제를 피하기 위해 형태소 단위로 품사를 부여한다. 이러한 구조적 차이 안에서 한국어에 적합한 품사 태깅 단위는 지속적으로 논의되어 왔으며 지금까지 음절, 형태소, 어절, 구가 제안되었다. 본 연구는 어절 단위로 태깅함으로써 야기되는 복잡한 품사 태그와 데이터부족 문제를 해소하기 위해 어절에서 주요 실질 형태소와 주요 형식 형태소만을 뽑아 새로운 어절을 생성하고, 생성된 단순한 어절에 대해 CRF 태깅을 수행하였다. 실험결과 평가 말뭉치에서 미등록 어절 등장 비율은 9.22%에서 5.63%로 38.95% 감소시키고, 어절단위 정확도를 85.04%에서 90.81%로 6.79% 향상시켰다.

  • PDF

An innovative Approach to Teaching-learning Process through Multimedia Presentation (멀티미디어 프레젠테이션을 통한 영어 학습과정 연구)

  • Lee, Il Suk
    • Journal of Digital Contents Society
    • /
    • v.15 no.2
    • /
    • pp.173-179
    • /
    • 2014
  • Useful It is very crucial to establish the learning environment with a creative technology for those who are going to learn English in terms of multimedia presentation. This kind of technologies make it possible for students to practice English suitable with their level and compatible with lesson plan. English grammar plays a leading role to study English as a second language for the language is required to master the structure, part of speech, and tense. The purpose of this study is to explore the a innovative English teaching and learning approach based on the multimedia presentation to teach English grammar with an effect for those students are studying English, when they are learning English grammar with power point or complex multimedia presentation.

The Effect of Helium Gas Intake on the Characteristics Change of the Acoustic Organs for Voice Signal Analysis Parameter Application (음성신호 분석 요소의 적용으로 헬륨가스 흡입이 음성 기관의 특성 변화에 미치는 영향)

  • Kim, Bong-Hyun;Cho, Dong-Uk
    • The KIPS Transactions:PartB
    • /
    • v.18B no.6
    • /
    • pp.397-404
    • /
    • 2011
  • In this paper, we were carried out experiments to apply parameter of voice analysis to measure changing characteristic articulator according to inhale the helium gas. The helium gas was used to overcome air embolism nitrogen gas to deal a fatal blow in body nitrogen gas by diver. However, the helium gas has been much trouble interpretation about abnormal voice of diver to cause squeaky voice of low articulation. Therefor, we was carried out experiments about pitch and spectrogram measurement, analysis based on to influence in acoustic organs before and after of inhaled helium gas.

The Korean Part-of-speech Tagging Workbench for Tagged Corpus Construction (품사태그부착 코퍼스 구축을 위한 한국어 품사태깅 워크벤치)

  • Park, Young-C.;Kim, Nam-Il;Huh, Wook;Nam, Ki-Chun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.94-101
    • /
    • 1997
  • 한국어의 언어분석을 위한 가공코퍼스의 하나인 품사부착 코퍼스는 형태소 언어분석의 기초가 되는 자료로서 각종 언어분석 모델의 학습자료와 관측자료 또는 검증자료로서 중요한 역할을 한다. 품사부착 코퍼스의 구축은 많은 노력과 시간이 요구되는 어려운 작업이다. 기존의 구축방법은 자동 태거의 결과를 일일이 사람이 확인해 가면 오류를 발견하고 수정하는 단순 작업이었다. 이러한 단순 작업은 한번 수정된 자동태거의 반복적 오류, 미등록어에 의한 오류 들을 계속적으로 수정해야하는 비효율성을 내포하고 있었다. 본 논문에서는 HMM기반의 자동 태거를 사용하여 1차적으로 한국어 문서를 자동 태깅한다. 자동 태깅 결과로부터 규칙기반의 오류 수정을 추가적으로 행한다. 이렇게 구축된 결과를 사용자에게 제시하여 최종 오류를 수정하고 이를 앞으로의 태깅작업에 반영하는 품사부착 워크벤치에 대해 기술한다.

  • PDF

A Swearword Filter System for Online Game Chatting (온라인게임 채팅에서의 비속어 차단시스템)

  • Lee, Song-Wook
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.15 no.7
    • /
    • pp.1531-1536
    • /
    • 2011
  • We propose an automatic swearword filter system for online game chatting by using Support Vector Machines(SVM). We collected chatting sentences from online games and tagged them as normal sentences or swearword included sentences. We use n-gram syllables and lexical-part of speech (POS) tags of a word as features and select useful features by chi square statistics. Each selected feature is represented as binary weight and used in training SVM. SVM classifies each chatting sentence as swearword included one or not. In experiment, we acquired overall 90.4% of F1 accuracy.