• Title/Summary/Keyword: 기술용어 추출

Search Result 113, Processing Time 0.034 seconds

A Study on the Integration of Recognition Technology for Scientific Core Entities (과학기술 핵심개체 인식기술 통합에 관한 연구)

  • Choi, Yun-Soo;Jeong, Chang-Hoo;Cho, Hyun-Yang
    • Journal of the Korean Society for information Management
    • /
    • v.28 no.1
    • /
    • pp.89-104
    • /
    • 2011
  • Large-scaled information extraction plays an important role in advanced information retrieval as well as question answering and summarization. Information extraction can be defined as a process of converting unstructured documents into formalized, tabular information, which consists of named-entity recognition, terminology extraction, coreference resolution and relation extraction. Since all the elementary technologies have been studied independently so far, it is not trivial to integrate all the necessary processes of information extraction due to the diversity of their input/output formation approaches and operating environments. As a result, it is difficult to handle scientific documents to extract both named-entities and technical terms at once. In order to extract these entities automatically from scientific documents at once, we developed a framework for scientific core entity extraction which embraces all the pivotal language processors, named-entity recognizer and terminology extractor.

Development of a Framework for Semi-automatic Building Test Collection Specialized in Evaluating Relation Extraction between Technical Terminologies (기술용어 간 관계추출의 성능평가를 위한 반자동 테스트 컬렉션 구축 프레임워크 개발)

  • Jeong, Chang-Hoo;Choi, Sung-Pil;Lee, Min-Ho;Choi, Yun-Soo
    • The Journal of the Korea Contents Association
    • /
    • v.10 no.2
    • /
    • pp.481-489
    • /
    • 2010
  • Due to the increase of the attention on relation extraction systems, the construction of test collections for assessing their performance has emerged as an important task. In this paper, we propose semi-automatic framework capable of constructing test collections for relation extraction on a large scale. Based on this framework, we develop a test collection which can assess the performance of various approaches to extracting relations between technical terminologies in scientific literatures. This framework can minimize the cost of constructing this kind of collections and reduce the intrinsic fluctuations which may come from the diversity in characteristics of collection developers. Furthermore, we can construct balanced and objective collections by means of controlling the selection process of seed documents and terminologies using the proposed framework.

Construction of Test Collection for Extraction of Biomedical PLOT & Relations (생의학분야 PLOT 및 관계추출을 위한 테스트컬렉션 구축)

  • Choi, Yun-Soo;Choi, Sung-Phl;Jeong, Chang-Hoo
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2010.05a
    • /
    • pp.425-427
    • /
    • 2010
  • Large-scaled information extraction consists of named-entity recognition, terminology extraction and relation extraction. Since all the elementary technologies have been studied independently so far, test collections for related machine learning models also have been constructed independently. As a result, it is difficult to handle scientific documents to extract both named-entities and technical terms at once. In this study, we integrate named-entities and terminologies with PLOT(Person, Location, Organization, Terminology) in a biomedical domain and construct a test collection of PLOT and relations between PLOTs.

  • PDF

An Analyses of the Terms used in the Information Boards of Geosites at Jeonbuk West Coast National Geopark (전북 서해안권 국가지질공원 지질명소 안내 표지판에 사용된 용어 분석)

  • Shin, Young-Jun;Cho, Kyu-Seong
    • Journal of the Korean earth science society
    • /
    • v.41 no.1
    • /
    • pp.40-47
    • /
    • 2020
  • The purpose of this study was to analyze the terms used in the Information Boards of Geosites at Jeonbuk West Coast National Geopark. Among the terms used in the Information Boards, nouns were extracted and listed based on the Standard Korean Language Dictionary, a glossary of earth and the data for the development of textbooks according to the 2015 revision of curriculum, by which eight types were classified. Seventy-one nouns (10.8%) of the extracted terms were not listed in any glossary. Most of these terms were compound words derived by combining [noun]+[noun] or [noun]+[affix] so that they were not easy to comprehend. In addition, two hundred fifty-six nouns (46%) of the terms were identified as jargons used in specific disciplines. Therefore, it is strongly suggested that when creating the National Geopark Information Boards, the academic jargon embedded terminologies be explained with annotation for general public visitors and students to understand without difficulty.

Toward IT Domain Thesaurus: An Engineering Approach (정보산업 분야 시소러스의 공학적 구축 방안)

  • Ryu, Pum-Mo;Kim, Jae-Ho;Choi, Key-Sun;Sung, Brian W.K.
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.13-20
    • /
    • 2005
  • 이 논문은 공학적인 접근 방법에 기반한 단계적인 전문분야 시소러스 구축 방법을 제안한다. 시소러스 구축 과정은 용어 추출 단계, 용어 분류 단계, 계층 구조 구축 의 3단계로 구성되고, 모든 단계에서 자동 처리와 전문가 검증 작업을 거친다. 추출된 용어를 미리 정해진 분류 체계에 따라 분리한 후 여러 개의 작은 시소러스를 구축하고, 마지막으로 전체 시소러스로 결합한다. 이 방법은 1) 시소러스를 구축하는 복잡도가 줄어들고, 2) 클래스 단위의 작은 시소러스가 다른 전문분야 시소러스에 쉽게 재사용 될 수 있으며, 3) 각 클래스에 포함된 용어들의 분포를 쉽게 판단할 수 있는 장점이 있다. 제안한 방법을 이용하여 한국어 정보기술 분야 시소러스를 구축하였다. 시소러스 구축에 사용된 용어들은 정보기술 분야의 최근의 한국어 신문과 특허 문서에서 추출하였기 때문에 한국에서 만들어진 신조어를 포함한다. 구축된 시소러스는 81 개의 상위 레벨클래스와 1,000개 이상의 용어로 구성된다.

  • PDF

Comparison of Term-Weighting Schemes for Environmental Big Data Analysis (환경 빅데이터 이슈 분석을 위한 용어 가중치 기법 비교)

  • Kim, JungJin;Jeong, Hanseok
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.236-236
    • /
    • 2021
  • 최근 텍스트와 같은 비정형 데이터의 생성 속도가 급격하게 증가함에 따라, 이를 분석하기 위한 기술들의 필요성이 커지고 있다. 텍스트 마이닝은 자연어 처리기술을 사용하여 비정형 텍스트를 정형화하고, 문서에서 가치있는 정보를 획득할 수 있는 기법 중 하나이다. 텍스트 마이닝 기법은 일반적으로 각각의 분서별로 특정 용어의 사용 빈도를 나타내는 문서-용어 빈도행렬을 사용하여 용어의 중요도를 나타내고, 다양한 연구 분야에서 이를 활용하고 있다. 하지만, 문서-용어 빈도 행렬에서 나타내는 용어들의 빈도들은 문서들의 차별성과 그에 따른 용어들의 중요도를 나타내기 어렵기때문에, 용어 가중치를 적용하여 문서가 가지고 있는 특징을 분류하는 방법이 필수적이다. 다양한 용어 가중치를 적용하는 방법들이 개발되어 적용되고 있지만, 환경 분야에서는 용어 가중치 기법 적용에 따른 효율성 평가 연구가 미비한 상황이다. 또한, 환경 이슈 분석의 경우 단순히 문서들에 특징을 파악하고 주어진 문서들을 분류하기보다, 시간적 분포도에 따른 각 문서의 특징을 반영하는 것도 상대적으로 중요하다. 따라서, 본 연구에서는 텍스트 마이닝을 이용하여 2015-2020년의 서울지역 환경뉴스 데이터를 사용하여 환경 이슈 분석에 적합한 용어 가중치 기법들을 비교분석하였다. 용어 가중치 기법으로는 TF-IDF (Term frequency-inverse document frquency), BM25, TF-IGM (TF-inverse gravity moment), TF-IDF-ICSDF (TF-IDF-inverse classs space density frequency)를 적용하였다. 본 연구를 통해 환경문서 및 개체 분류에 대한 최적화된 용어 가중치 기법을 제시하고, 서울지역의 환경 이슈와 관련된 핵심어 추출정보를 제공하고자 한다.

  • PDF

A study on the Algorithm for automated extraction for chemical term in Korean patents (국내 특허 문헌 내 화학 용어 자동 추출을 위한 알고리즘 연구)

  • Lee, Hayoung;Kim, Hongki;Park, Jinwoo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.07a
    • /
    • pp.273-276
    • /
    • 2019
  • 본 논문에서는 열 및 전기특성 플라스틱 복합수지와 한글에 특화된 인공지능 기술을 개발하기 위한 조성/물성 정보 복합수지 지식베이스를 구축하고자 국내 특허 문헌에서 화학 용어를 추출하고자 한다. 이를 위해 전문용어가 많이 쓰인 특허 문헌의 특수성을 고려하여 UIMA(Unstructured Information Management Architecture) 규칙 기반의 라이브러리를 사용해 한국어 화학 용어 코퍼스를 구축하고 이를 기반으로 딥러닝 알고리즘 중 하나인 Bidirectional LSTM-CRF를 기반으로 특허 문헌에서 화학 용어를 자동으로 추출하는 알고리즘을 연구하고자 한다.

  • PDF

Development of the Corpus Refinement Workbench for Science & Technology Terminology (과학기술 전문용어를 위한 정제 말뭉치 워크벤치 개발)

  • Lee, Byeong-Hee;Jeong, Hwi-Woong;Jung, Han-Min;Sung, Won-Kyung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.11a
    • /
    • pp.623-626
    • /
    • 2005
  • 본 논문에서는 효과적으로 문서를 정제할 수 있는 작업환경인 웹 기반의 정제 말뭉치 워크벤치 개발에 관하여 기술한다. 또한 정보검색의 효율성 향상, 전문용어의 자동추출, 전문용어가 쓰인 문맥의 파악 등을 위하여 정제된 문서에 포함된 과학기술 전문용어를 표시할 수 있게 하는 작업 환경도 구축하였다. 이렇게 개발된 정제 말뭉치 워크벤치와 전문용어 태깅 툴을 이용하여 과학기술과 관련된 신문 기사에서 한국어 전문용어를 태깅하고, 논문의 제목과 초록에서 한영 전문용어 쌍을 태깅하는 작업을 진행하였다.

  • PDF

Trend Analysis of Technical Terms Using Term Life Cycle Modeling (용어 활용주기 모델링을 이용한 기술용어 트렌드 분석)

  • Hwang, Mi-Nyeong;Cho, Min-Hee;Hwang, Myung-Gwon;Jeong, Do-Heon
    • The KIPS Transactions:PartD
    • /
    • v.18D no.6
    • /
    • pp.493-500
    • /
    • 2011
  • The trends of technical terms express the changes of particular subjects in a specific research field over time. However, the amount of academic literature and patent data is too large to be analyzed by human resources. In this paper, we propose a method that can detect and analyze the trends of terms by modeling the life cycle of the terms. The proposed method is composed of the following steps. First, the technical terms are extracted from academic literature data, and the TDVs(Term Dominance Values) of terms are computed on a periodic basis. Based on the TDVs, the life cycles of terms are modeled, and technical terms with similar temporal patterns of the life cycles are classified into the same trends class. The experiments shown in this paper is performed by exploiting the NDSL academic literature data maintained by KISTI.

A Study on the Integration of Information Extraction Technology for Detecting Scientific Core Entities based on Large Resources (대용량 자원 기반 과학기술 핵심개체 탐지를 위한 정보추출기술 통합에 관한 연구)

  • Choi, Yun-Soo;Cheong, Chang-Hoo;Choi, Sung-Pil;You, Beom-Jong;Kim, Jae-Hoon
    • Journal of Information Management
    • /
    • v.40 no.4
    • /
    • pp.1-22
    • /
    • 2009
  • Large-scaled information extraction plays an important role in advanced information retrieval as well as question answering and summarization. Information extraction can be defined as a process of converting unstructured documents into formalized, tabular information, which consists of named-entity recognition, terminology extraction, coreference resolution and relation extraction. Since all the elementary technologies have been studied independently so far, it is not trivial to integrate all the necessary processes of information extraction due to the diversity of their input/output formation approaches and operating environments. As a result, it is difficult to handle scientific documents to extract both named-entities and technical terms at once. In this study, we define scientific as a set of 10 types of named entities and technical terminologies in a biomedical domain. in order to automatically extract these entities from scientific documents at once, we develop a framework for scientific core entity extraction which embraces all the pivotal language processors, named-entity recognizer, co-reference resolver and terminology extractor. Each module of the integrated system has been evaluated with various corpus as well as KEEC 2009. The system will be utilized for various information service areas such as information retrieval, question-answering(Q&A), document indexing, dictionary construction, and so on.