• 제목/요약/키워드: Korean text classification

검색결과 413건 처리시간 0.027초

Recognition and classification of dimension set for automatic input of mechanical drawings (기계 도면의 자동 입력을 위한 치수 집합의 인식 및 분류)

  • 정윤수;박길흠
    • Journal of the Korean Institute of Telematics and Electronics S
    • /
    • 제34S권11호
    • /
    • pp.114-125
    • /
    • 1997
  • This paper presents a method that automatically recognizes dimension sets from the mechanical drawings, and that classifies 6 types dimension sets according to functional purpose. In the proposed method, the object and closed-loop symbols are separated from the character-free drawings. Then object lines and interpretation lines are vectorized. And, after recognizing dimension sets(consistings of arrowhead, shape line, tail lines, extension lines, text-string, and feature control frame), we classify recognized dimension sets as horizontal, vertical, angular, diametral, radial, and leader dimension sets. Finally the proposed method converts classified dimension sets into AutoCAD data by using AutoLisp language. By using the methods of geometric modeling, the proposed method readily recognized and classifies dimension sets from complex drawings. Experimetnal results are presented, which are obtained by applying the proposed method to drawings drawn in compliance with the KS drafting standard.

  • PDF

Healing of STEP AP214 Automotive CAD Data (STEP AP214 자동차 설계 데이터 정리 시스템)

  • 양정삼;한순흥
    • Korean Journal of Computational Design and Engineering
    • /
    • 제7권3호
    • /
    • pp.170-176
    • /
    • 2002
  • To exchange CAD data between heterogeneous CAD systems, we generally use a neutral format especially STEP, which is the international standard (ISO-10303) for product model data exchange. AP214 (Application Protocol) for the automotive industry not only takes into account geometry and organizational data, but also provides a classification mechanism for product modeling. When reading a STEP file during a design process that is exported from other CAD systems, it is a burden to a designer to go through the tedious process of removing duplicate or non-manifold entities, adjusting parts, and rearranging text. We analyze the structure of AP214 and develop a healing tool to solve the following problem. Without the assembly information in the Master workspace of CATIA, or to read a STEP file from Pro/Engineer, a designer should do a repetitive process of disintegrating an assembly into parts one by one. We have developed a post-processing tool for STEP AP214 that separates out a part from an assembly model and adjusts superfluous or useless entities using the ACIS kernel.

Rich Transcription Generation Using Automatic Insertion of Punctuation Marks (자동 구두점 삽입을 이용한 Rich Transcription 생성)

  • Kim, Ji-Hwan
    • MALSORI
    • /
    • 제61호
    • /
    • pp.87-100
    • /
    • 2007
  • A punctuation generation system which combines prosodic information with acoustic and language model information is presented. Experiments have been conducted first for the reference text transcriptions. In these experiments, prosodic information was shown to be more useful than language model information. When these information sources are combined, an F-measure of up to 0.7830 was obtained for adding punctuation to a reference transcription. This method of punctuation generation can also be applied to the 1-best output of a speech recogniser. The 1-best output is first time aligned. Based on the time alignment information, prosodic features are generated. As in the approach applied in the punctuation generation for reference transcriptions, the best sequence of punctuation marks for this 1-best output is found using the prosodic feature model and an language model trained on texts which contain punctuation marks.

  • PDF

Extracting and Clustering of Story Events from a Story Corpus

  • Yu, Hye-Yeon;Cheong, Yun-Gyung;Bae, Byung-Chull
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권10호
    • /
    • pp.3498-3512
    • /
    • 2021
  • This article describes how events that make up text stories can be represented and extracted. We also address the results from our simple experiment on extracting and clustering events in terms of emotions, under the assumption that different emotional events can be associated with the classified clusters. Each emotion cluster is based on Plutchik's eight basic emotion model, and the attributes of the NLTK-VADER are used for the classification criterion. While comparisons of the results with human raters show less accuracy for certain emotion types, emotion types such as joy and sadness show relatively high accuracy. The evaluation results with NRC Word Emotion Association Lexicon (aka EmoLex) show high accuracy values (more than 90% accuracy in anger, disgust, fear, and surprise), though precision and recall values are relatively low.

Comparative Study of Sentiment Analysis Model based on Korean Linguistic Characteristics (한국어 언어학적 특성 기반 감성분석 모델 비교 분석)

  • Kim, Gyeong-Min;Park, Chanjun;Jo, Jaechoon;Lim, Heui-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.149-152
    • /
    • 2019
  • 감성분석이란 입력된 텍스트의 감성을 분류하는 자연어처리의 한 분야로, 최근 CNN, RNN, Transformer등의 딥러닝 기법을 적용한 다양한 연구가 있다. 한국어 감성분석을 진행하기 위해서는 형태소, 음절 등의 추가 자질을 활용하는 것이 효과적이며 성능 향상을 기대할 수 있는 방법이다. 모델 생성에 있어서 아키텍쳐 구성도 중요하지만 문맥에 따른 언어를 컴퓨터가 표현할 수 있는 지식 표현 체계 구성도 상당히 중요하다. 이러한 맥락에서 BERT모델은 문맥을 완전한 양방향으로 이해할 수있는 Language Representation 기반 모델이다. 본 논문에서는 최근 CNN, RNN이 융합된 모델과 Transformer 기반의 한국어 KoBERT 모델에 대해 감성분석 task에서 다양한 성능비교를 진행했다. 성능분석 결과 어절단위 한국어 KoBERT모델에서 90.50%의 성능을 보여주었다.

  • PDF

KE-T5-Based Text Emotion Classification in Korean Conversations (KE-T5 기반 한국어 대화 문장 감정 분류)

  • Lim, Yeongbeom;Kim, San;Jang, Jin Yea;Shin, Saim;Jung, Minyoung
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.496-497
    • /
    • 2021
  • 감정 분류는 사람의 사고방식이나 행동양식을 구분하기 위한 중요한 열쇠로, 지난 수십 년간 감정 분석과 관련된 다양한 연구가 진행되었다. 감정 분류의 품질과 정확도를 높이기 위한 방법 중 하나로 단일 레이블링 대신 다중 레이블링된 데이터 세트를 감정 분석에 활용하는 연구가 제안되었고, 본 논문에서는 T5 모델을 한국어와 영어 코퍼스로 학습한 KE-T5 모델을 기반으로 한국어 발화 데이터를 단일 레이블링한 경우와 다중 레이블링한 경우의 감정 분류 성능을 비교한 결과 다중 레이블 데이터 세트가 단일 레이블 데이터 세트보다 23.3% 더 높은 정확도를 보임을 확인했다.

  • PDF

Neural Architecture Search for Korean Text Classification (한국어 문서 분류를 위한 신경망 구조 탐색)

  • ByoungKyu Ji
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.125-130
    • /
    • 2023
  • 최근 심층 신경망을 활용한 한국어 자연어 처리에 대한 관심이 높아지고 있지만, 한국어 자연어 처리에 적합한 신경망 구조 탐색에 대한 연구는 이뤄지지 않았다. 본 논문에서는 문서 분류 정확도를 보상으로 하는 강화 학습 알고리즘을 이용하여 장단기 기억 신경망으로 한국어 문서 분류에 적합한 심층 신경망 구조를 탐색하였으며, 탐색을 위해 사전 학습한 한국어 임베딩 성능과 탐색한 신경망 구조를 분석하였다. 탐색을 통해 찾아낸 신경망 구조는 기존 한국어 자연어 처리 모델에 대해 4 가지 한국어 문서 분류 과제로 비교하였을 때 일반적으로 성능이 우수하고 모델의 크기가 작아 효율적이었다.

  • PDF

Development of a Korean Font Classification System for Images Based on Syllable-Level Text Recognition (글자 단위 텍스트 인식 기반의 이미지 내 한글 글꼴 분류 시스템 개발)

  • Sara Yu;Kim Yoon-Ju;Song Ji-Hyo;Ki Yong Lee
    • Annual Conference of KIPS
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.718-721
    • /
    • 2023
  • 이미지 내 글꼴을 파악하는 것은 디자인 자료 제작, 저작권 확인 등 다양한 곳에서 중요한 문제이다. 하지만 이미지 내 한글 글꼴을 자동으로 식별하는 시스템은 아직 존재하지 않으며, 수동으로 한글 글꼴을 파악하는 것은 시간과 정확도 측면에서 매우 비효율적이다. 따라서 본 논문에서는 이미지 내 한글 글꼴을 자동으로 인식하는 시스템을 개발한다. 본 논문에서 개발한 시스템은 크게 두 가지 기법을 사용한다: (1) 한글의 기하학적인 특성을 활용하여 글자 단위로 텍스트를 인식하며, (2) 단어가 아닌 글자 단위로 글꼴을 분류하고 각 글자에 대한 글꼴 분류 결과를 종합하여 최종적인 글꼴 분류 결과를 얻는다. 10가지 한글 글꼴이 나타나는 직접 제작한 이미지를 사용하여 시스템의 성능을 평가한 결과 제안 방법은 비교 방법에 비해 더욱 정확히 한글 글꼴을 분류함을 확인하였다.

Development of an Text Emotion Classification Model for Assisting Depression Screening (우울증 검진 보조를 위한 텍스트 감정 분류 모델 개발)

  • Chang-Hyun Jung;Sung-Joong Seol;Jae-Hyuk Lee;Ji-Hoo Lim;Keun-Chang Kwak
    • Annual Conference of KIPS
    • /
    • 한국정보처리학회 2024년도 추계학술발표대회
    • /
    • pp.569-570
    • /
    • 2024
  • 본 연구는 감정 분류에 중점을 둔 AI 모델을 개발하는 것을 목표로 한다. KoBERT(Korean Bidirectional Encoder Representations from Transformer) 모델을 활용하여 사용자가 입력한 텍스트를 분석하고 감정 상태를 분류한다. 특히 우울증과 같은 특정 감정을 분류하며, 필요 시 관련 정보를 제공하는 데 중점을 두고 있다. 테스트 결과, Test Accuracy는 0.67, F1-Score는 0.69로 기존 연구보다 향상된 성능을 보였다. 이 모델은 내담자의 감정 분석을 통해 정신건강의학과 전문의의 우울증 진단을 보조하는데 기여한다.

The Effect of the Quality of Pre-Assigned Subject Categories on the Text Categorization Performance (학습문헌집합에 기 부여된 범주의 정확성과 문헌 범주화 성능)

  • Shim, Kyung;Chung, Young-Mee
    • Journal of the Korean Society for information Management
    • /
    • 제23권2호
    • /
    • pp.265-285
    • /
    • 2006
  • In text categorization a certain level of correctness of labels assigned to training documents is assumed without solid knowledge on that of real-world collections. Our research attempts to explore the quality of pre-assigned subject categories in a real-world collection, and to identify the relationship between the quality of category assignment in training set and text categorization performance. Particularly, we are interested in to what extent the performance can be improved by enhancing the quality (i.e., correctness) of category assignment in training documents. A collection of 1,150 abstracts in computer science is re-classified by an expert group, and divided into 907 training documents and 227 test documents (15 duplicates are removed). The performances of before and after re-classification groups, called Initial set and Recat-1/Recat-2 sets respectively, are compared using a kNN classifier. The average correctness of subject categories in the Initial set is 16%, and the categorization performance with the Initial set shows 17% in $F_1$ value. On the other hand, the Recat-1 set scores $F_1$ value of 61%, which is 3.6 times higher than that of the Initial set.