• Title/Summary/Keyword: 용어추출

Search Result 365, Processing Time 0.539 seconds

FastText and BERT for Automatic Term Extraction (FastText 와 BERT 를 이용한 자동 용어 추출)

  • Choi, Kyu-Hyun;Na, Seung-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.612-616
    • /
    • 2021
  • 자연어 처리의 다양한 task 들을 잘 수행하기 위해서 텍스트 내에서 적절한 용어를 골라내는 것은 중요하다. 텍스트에서 적절한 용어들을 자동으로 추출하기 위해 다양한 모델들을 학습시켜 용어의 특성을 잘 반영하는 n 그램을 추출할 수 있다. 본 연구에서는 기존에 존재하는 신경망 모델들을 조합하여 자동 용어 추출 성능을 개선할 수 있는 방법들을 제시하고 각각의 결과들을 비교한다.

  • PDF

Recognizing Biomedical Terminologies through Integration of Heterogeneous Information (정보통합을 통한 생물/의학 분야 전문용어의 자동 추출)

  • 오종훈;최기선
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.775-777
    • /
    • 2004
  • 전문용어란 전문분야의 개념이 언어적으로 표현된 형태이다. 전문분야마다 분야 특성적인 개념이 사용되므로, 전문용어는 전문분야를 특성화하는 단위로 사용된다. 따라서 전문분야문서에 대한 자연언어처리에서 전문용어를 효과적으로 처리하는 것은 매우 중요하다. 전문용어 추출은 분야 특성적인 전문용어를 해당 분야 문서에서 파악하는 작업을 말한다. 본 논문에서는 기계학습방법을 이용한 전문용어 자동 추출 기법을 제안한다. 본 논문의 기법은 전문분야 사전과 전문분야 문서를 이용하여 문서에서 나타나는 전문용어의 특성을 파악하고 이를 이용하여 전문용어를 추출한다. 본 논문의 기법은 GENIA 2.01 문서에 대하여 86%의 정확률과 90%의 재현율을 나타내었다. 또한 기존연구보다 최고 21%의 성능향상을 나타내었다.

  • PDF

Comparison of Significant Term Extraction Based on the Number of Selected Principal Components (주성분 보유수에 따른 중요 용어 추출의 비교)

  • Lee Chang-Beom;Ock Cheol-Young;Park Hyuk-Ro
    • The KIPS Transactions:PartB
    • /
    • v.13B no.3 s.106
    • /
    • pp.329-336
    • /
    • 2006
  • In this paper, we propose a method of significant term extraction within a document. The technique used is Principal Component Analysis(PCA) which is one of the multivariate analysis methods. PCA can sufficiently use term-term relationships within a document by term-term correlations. We use a correlation matrix instead of a covariance matrix between terms for performing PCA. We also try to find out thresholds of both the number of components to be selected and correlation coefficients between selected components and terms. The experimental results on 283 Korean newspaper articles show that the condition of the first six components with correlation coefficients of |0.4| is the best for extracting sentence based on the significant selected terms.

Automatic Extraction and Usage of Terminology Dictionary Based on Definitional Sentences Patterns in Technical Documents (기술문서 정의문 패턴을 이용한 전문용어사전 자동추출 및 활용방안)

  • Han, Hui-Jeong;Kim, Tae-Young;Doo, Hyo-Chul;Oh, Hyo-Jung
    • Journal of the Korean Society for information Management
    • /
    • v.34 no.4
    • /
    • pp.81-99
    • /
    • 2017
  • Technical documents are important research outputs generated by knowledge and information society. In order to properly use the technical documents properly, it is necessary to utilize advanced information processing techniques, such as summarization and information extraction. In this paper, to extract core information, we automatically extracted the terminologies and their definition based on definitional sentences patterns and the structure of technical documents. Based on this, we proposed the system to build a specialized terminology dictionary. And further we suggested the personalized services so that users can utilize the terminology dictionary in various ways as an knowledge memory. The results of this study will allow users to find up-to-date information faster and easier. In addition, providing a personalized terminology dictionary to users can maximize the value, usability, and retrieval efficiency of the dictionary.

Implementation of the Game Terminology Electronics Dictionary (게임전문용어전자사전 구현에 관한 연구)

  • Im, Choong-Jae;Yun, Tae-Soo
    • Annual Conference of KIPS
    • /
    • 2002.11a
    • /
    • pp.355-358
    • /
    • 2002
  • 세계는 지식정보의 창출 및 활용정도가 국가경쟁력을 좌우하는 지식기반사회로 급격히 전환하고 있다. 이러한 상황에서 주요 지식정보의 집중적인 디지털화를 통해서 국가 지식정보 공유체계를 구축하는 것이 무엇보다 시급한 상황이다. 특히 급격하게 성장하고 있는 디지털 콘텐츠 분야의 체계적인 정보화 사업은 관련 분야의 선진국과 경쟁하기 위해서 절실하게 요구된다. 본 논문은 게임산업에 대한 체계적인 정보화를 추진하기 위해서 의미를 기반으로 한 게임전문용어전자사전 구축을 위한 연구 결과를 소개한다. 의미를 기반으로 한 게임전문용어전자사전 구축하기 위해서 다양한 형태의 게임 관련 자료를 통해서 망뭉치를 추출하였다. 추출한 망뭉치로부터 빈도수 등을 이용해서 중요한 의미를 갖는 표제어를 추출하였으며, 추출한 표제어를 이용해서 게임전문용어 시소러스를 구축하였다. 또한 웹 기반으로 게임전문용어전자사전을 구축하기 위해서 SDML 을 이용하여 전문용어를 표기했으며 다양한 검색 기능을 추가해서 게임전문용어전자사전의 프로토타입 시스템을 구축하였다.

  • PDF

Automatic Terminology Recognition using the Dictionary Hierarchy (사전간 계층관계를 이용한 전문용어 자동 추출 기법)

  • 오종훈;이경순;최기선
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.05a
    • /
    • pp.131-136
    • /
    • 2000
  • 기존의 통계에 기반한 용어 자동 추출 기법(Automatic Term Recognition)은 비교적 좋은 성능의 결과를 보여왔다. 하지만 전문용어 사전 등의 정보를 이용하여 성능의 향상을 이룰 수 있는 여지는 여전히 남아있다. 본 논문에서는 이러한 근거에 기반하여 전문용어간의 계층 정보를 전문용어 사전을 통하여 구축하고 이를 이용하여 전문용어를 추출하는 방법을 제안하고자 한다. 본 논문이 제안하는 기법은 기존의 방법에 비해 좋은 성능을 나타내었다.

  • PDF

Text Categorization Based on Terminology and Information Extraction (전문용어 및 정보추출에 기반한 문서분류시스템)

  • Lee, Kyung-Soon;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.79-84
    • /
    • 1999
  • 본 연구에서는 문서분류시스템에서 자질의 표현으로 전문분야사전을 이용한 분야정보와 개체정보추출을 통한 개체정보를 이용한다. 또한 지식정보를 보완하기 위해 통계적인 방법으로 범주 전문용어를 인식하여 자질로 표현하는 방법을 제안한다. 문서에 나타난 용어들이 어떤 특정 전문분야에 속하는 용어들이 많이 나타나는 경우 그 문서는 용어들이 속한 분야의 문서일 가능성이 높다. 또한, 정보추출을 통해 용어가 어떠한 개체를 나타내는지를 인식하여 문서를 표현함으로써 문서가 내포하는 의미를 보다 잘 반영할 수 있게 된다. 분야정보나 개체정보를 알 수 없는 용어에 대해서는 학습문서로부터 전문분야를 자동 인식함으로써 문서표현의 지식정보를 보완한다. 전문분야, 개체정보 및 범주전문용어에 기반해서 표현된 문서의 자질에 대해서 지지벡터기계 학습에 기반한 문서분류기틀 이용하여 각 범주에 대해 이진분류를 하였다. 제안된 문서자질표현은 용어기반의 자질표현에 비해 좋은 성능을 보이고 있다.

  • PDF

Adjusting Weights of Single-word and Multi-word Terms for Keyphrase Extraction from Article Text

  • Kang, In-Su
    • Journal of the Korea Society of Computer and Information
    • /
    • v.26 no.8
    • /
    • pp.47-54
    • /
    • 2021
  • Given a document, keyphrase extraction is to automatically extract words or phrases which topically represent the content of the document. In unsupervised keyphrase extraction approaches, candidate words or phrases are first extracted from the input document, and scores are calculated for keyphrase candidates, and final keyphrases are selected based on the scores. Regarding the computation of the scores of candidates in unsupervised keyphrase extraction, this study proposes a method of adjusting the scores of keyphrase candidates according to the types of keyphrase candidates: word-type or phrase-type. For this, type-token ratios of word-type and phrase-type candidates as well as information content of high-frequency word-type and phrase-type candidates are collected from the input document, and those values are employed in adjusting the scores of keyphrase candidates. In experiments using four keyphrase extraction evaluation datasets which were constructed for full-text articles in English, the proposed method performed better than a baseline method and comparison methods in three datasets.

A Study on the North Koreans' Dietary Life by Analysis of the Dietary Life Terms (북한 식생활 영역의 용어 연구를 통한 북한 식생활의 이해)

  • An, Soon-Hee;Kim, Yookyung
    • Journal of Korean Home Economics Education Association
    • /
    • v.29 no.1
    • /
    • pp.1-13
    • /
    • 2017
  • The objective of this study was to understand the dietary life of North Koreans through the examination of dietary life terms assembled and classified from the North Korean sources. In order to ascertain any contrasting aspects and also to improve the degree of understanding, the comparable terms from the South Korean sources were also assembled and classified accordingly. The North Korean sources were the two dictionaries and the two Web sites related with the dietary life in North Korea and those of the South Korean sources were the middle school Home Economics textbooks in South Korea. The major findings of this study on the dietary life terms of North Korea were as follows: 1) The majority of the classified dietary life terms was from the food sector; 2) There were terms which were indicative of the food supply situation in North Korea; 3) The terms related to the corn as the primary crop for the North's food production policy occupied relatively a large proportion of the assembled terms; 4) Chinese-and foreign-origin terms seemingly modified through the North's word purification project were found in the various different categories; 5) Some terms were difficult to understand without special interpretation; 6) There were terms related to the agriculture which were obsolete in the South; and 7) In the South's Home Economics textbooks there were a number of the dietary life policy terms of South Korea and foreign-origin terms. It is hopeful that this study may contribute to the mutual understanding in the field of the dietary life for the South and North Korean youths in spite of the language bifurcation due to the South-North separation.

Biomedical Terminology Extraction using Syllable Bigram and CRFs (음절 바이그램과 CRFs를 이용한 의학 전문 용어 추출)

  • Song, Soo-Min;Shin, Junsoo;Kim, Harksoo
    • Annual Conference of KIPS
    • /
    • 2010.04a
    • /
    • pp.505-507
    • /
    • 2010
  • 웹(Web)상에 전문용어를 포함한 문서가 증가함에 따라 전문용어를 자동으로 추출하는 연구가 계속해서 이루어지고 있다. 기존 연구에서는 전문용어를 추출하는 단계에서 대부분 형태소 분석기를 이용한다. 그러나 전문용어의 특성으로 인해 형태소 분석 단계에서 오분석 되는 경우가 발생한다. 이러한 문제를 해결하기 위해서 본 논문에서는 음절 바이그램과 CRFs(Conditional Random Fields)를 이용하여 의학 전문 용어를 추출하는 방법을 제안한다. 네이버 지식인의 의사 답변 문서 2000개로부터 5-fold cross validation을 이용하여 실험하였다. 실험 결과 정확률은 평균 68.91%, 재현율은 평균 71.25%로 나타났으며 F-measure는 70.06%로 나타났다.