• Title/Summary/Keyword: 용어추출

Search Result 365, Processing Time 0.027 seconds

An Experimental Study on the Technical Term Based Analysis of University Library Collection: With a Focus on Computer Field (대학도서관 장서와 학술논문에 나타난 전문용어의 관계 분석을 위한 실험적 연구 - 컴퓨터 분야를 중심으로 -)

  • Kwak, Seung-Jin;Kwon, Yung-Keun;Lee, Seok-Hyoung
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.45 no.2
    • /
    • pp.393-413
    • /
    • 2011
  • The collections of university libraries such as books in academic disciplines and dissertations are much used to support education of students and research activities of faculty members. Most of such materials naturally contain unique terms frequently and exclusively used in specific academic disciplines. Therefore, it is possible to infer the latest research trend in or correlations among various disciplines by analyzing those terms. In this study, the trend was analyzed by extracting technical terms from the metatadata for collections in the field of computer science of two university libraries in Korea. By comparing these terms with the trend of terms which appeared in dissertations and domestic scholarly articles, the relation between collections of university libraries and research trend in this particular academic field was analyzed.

A Study on Thesaurus Development Based on Women's Oral History Records in Modern Korea (한국 근대 여성 구술 기록물을 통한 시소러스 개발에 관한 연구)

  • Choi, Yoon Kyung;Chung, Yeon Kyoung
    • Journal of Korean Society of Archives and Records Management
    • /
    • v.14 no.1
    • /
    • pp.7-24
    • /
    • 2014
  • The purpose of this study is to develop a thesaurus for women's oral history in modern Korea. Literature review and case studies for four thesauri were performed for this study with which a thesaurus was built based upon the index terms in oral history records. The process of developing the thesaurus consisted of five steps. First, there are 1,784 index terms from the oral history records by 53 modern Korean women were extracted and analyzed. Second, possible terms for the thesaurus were selected through regular meetings with experts in the fields of information organization and women's oral history. Third, relationships between terms were defined by focusing on equivalence, hierarchy, and association. Fourth, after developing a Web-based thesaurus management system, terms and relationships were input to the system. Fifth, terms and relationships were again reviewed by experts from the relevant fields. As a result, the thesaurus comprise of 1,076 terms and those terms were classified to 39 broad subject areas, including proper nouns, such as geographic names, places, person's names, corporate names, and others, and it will be expanded with more oral history records from other people during the same period.

A Study on the Enhancement of Korean Diaspora-related Subject Headings: Focusing on Korean-related Terminology in the National Library of Korea Subject Headings (한인디아스포라 관련 주제명표목 개선 방안 연구 - 국립중앙도서관 주제명표목표의 한인 관련 용어를 중심으로 -)

  • Yeo, Ji-Suk;Yang, Kiduk;ITO, HIROKO;Lee, HyeKyung
    • Journal of Korean Library and Information Science Society
    • /
    • v.53 no.1
    • /
    • pp.103-124
    • /
    • 2022
  • This paper suggests a way to improve Korean diaspora-related subject headings based on the analysis of terminology about Koreans in Korean diaspora-related manuscripts and investigation of related terms in the National Library of Korea subject headings. After selecting three KCI journals with high ratios of diaspora-related papers, the study extracted Korean-related terminology from the journal papers and examined their term frequencies. Additional Korean-related terms were investigated by manually reviewing the articles in which extracted terms appear. Based on these analyses, the study proposes several supplemental enhancements to Korean-related topic names in the National Library of Korea's subject headings, such as changing the English notation, adding non-preferred words, and changing the hierarchical relationship of the existing topic names.

Identifying Missing Concepts in SNOMED CT by Utilizing Attribute Relationships of Sibling Concepts

  • Wooseok Ryu
    • Journal of the Korea Society of Computer and Information
    • /
    • v.29 no.9
    • /
    • pp.197-205
    • /
    • 2024
  • SNOMED CT is the most widely used comprehensive clinical terminology system worldwide. However, due to the vastness of the terminology and the continuous growth of medical knowledge, the system involve quality issues such as structural inaccuracies and inconsistencies, including missing concepts or relationships and hierarchical errors. In this paper, we propose a method to enhance the consistency of the system by detecting potentially missing concepts by utilizing attributes linked to concepts. The proposed method analyzes the characteristics of the attribute relationships of concepts, extracts sibling concepts that share the same characteristics, and then evaluates whether the parent concepts reflect these characteristics to detect potentially missing concepts. By applying this method to the March 2023 SNOMED CT international release, we identified 564 instances where parent concepts did not reflect the common attributes of their sibling concepts, and a total of 384 potentially missing concepts were detected, including cases involving multiple parent concepts.

Relation Extraction of Drug-Drug Interaction using Multi-Channel PCNN Model (Multi-Channel PCNN 모델을 활용한 약물-약물 상호작용 관계 추출)

  • Park, Chanhee;Cho, Minsoo;Park, Jangwon;Park, Sanghyun
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.01a
    • /
    • pp.33-36
    • /
    • 2019
  • DDI 추출은 생물 의학 문헌으로부터 약물-약물 상호작용(Drug-Drug Interaction) 관계를 추출하는 작업으로, 기존에 알려지지 않은 인체 내 약물 간의 효과 또는 부작용 정보를 제공하는데 중요한 역할을 한다. 본 연구에서는 PCNN 모델을 활용하여 특징 추출 과정을 자동화하고 약물 개체 간의 구조 정보를 포착해 개체 간 관계를 효율적으로 추출하였으며, 생물 의학 문헌에서 쓰이는 생소한 용어를 보다 풍부하게 표현하기 위해 5가지 버전의 단어 임베딩을 PCNN의 채널로 사용하였다. 본 연구에서 제안하는 MC-PCNN 모델의 성능 평가를 위해 DDI'13 Corpus 데이터를 사용하여 비교 실험을 진행하였으며, 그 결과 기존 연구보다 $F_1$ 점수 기준 최대 2.05%p 향상된 성능을 보이며 DDI 관계 추출에서 효과적인 방법론임을 확인하였다.

  • PDF

Summarization of News Articles Based on Centroid Vector (중심 벡터에 기반한 신문 기사 요약)

  • Kim, Gwon-Yang
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2007.11a
    • /
    • pp.382-385
    • /
    • 2007
  • 본 논문은 "X라는 인물은 누구인가?"와 같은 질의어가 주어질 때, X라는 인물에 대한 나이, 직업, 학력 또는 특정 사건에서 X라는 인물의 역할에 대한 정보를 기술하는 문장을 인식하고 추출함으로써 해당 인물에 대한 신문 기사 내용을 요약하는 방법을 제시한다. 질의어 용어에 대해 가능한 많은 관련 문장을 추출하기 위하여 중심 벡터에 기반한 통계적 방법을 적용하였으며, 정확도와 재현율 성능을 개선하기 위해 위키피디어 같은 외부 지식을 사용한 중심 단어의 개선된 가중치 측도를 적용하였다. 실험 대상인 전자신문 말뭉치 상에서 출현 빈도수가 큰 20 인의 IT 인물에 대해 제안한 방법이 개선된 성능을 보임을 알 수 있었다.

  • PDF

Query Optimization for retrieval of reusable components using Simulated Annealing (시뮬레이티드 어닐링을 이용한 재사용 부품 추출의 질의 최적화)

  • 이은주;이병정;이숙희;우치수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.523-525
    • /
    • 1998
  • 소프트웨어 개발의 생산성과 신뢰성을 향상시키기 위해 소프트웨어 재사용이 필요하며, 소프트웨어 재사용에서는 원하는 부품을 정확하고 신속하게 검색하는 것이 매우 중요하다. 본 논문에서는 재사용 라이브러리에서 재사용 부품 추출을 위하여 정보추출 기법의 질의어 최적화 과정에 시뮬레이티드 어닐링을 적용하였다. 최적화 과정은 적합성 피이드백(relevance feedback)과 벡터 공간 모델을 적용하여 선형추출(linear retrieval)을 할 때 질의어 용어 가중치를 최적화 하는 것으로써, 실험을 통하여 최적화한 질의어의 추출효과도(retrieval effectiveness)척도가 최적화 하지 않은 경우의 척도보다 결과가 매우 좋다는 것을 보인다. 그리고 언덕 오르기(Hill-climbing)알고리즘을 사용한 방법과 비교, 분석한다.

Text Assocation Pattern Extraction using NFP-tree Algorithm (NFP-Algorithm 알고리즘을 기반한 텍스트 연관 패턴 추출)

  • Yu, Soo-Kung;Kim, Kio-chung
    • Annual Conference of KIPS
    • /
    • 2004.05a
    • /
    • pp.97-100
    • /
    • 2004
  • 인터넷상에서 존재하는 많은 데이터베이스들 중 현실적으로 유용한 정보를 가지고 있는 것은 텍스트 데이타베이스이다. 텍스트 마이닝 기법에서 비구조적인 특징을 가진 텍스트 데이타로부터 유용한 정보를 분석하고 추출하여 연관된 패턴을 탐색하는 과정은 중요한 연구과제이다. 이에 본 논문은 인터넷에서 저장된 텍스트 데이터를 가지고 기존 텍스트 마이닝 기법 중 연관탐색 기법을 적용하여 사용자 중심의 연관된 패턴을 찾아서 의미있는 정보를 얻고자 한다. 탐색하기 위해 먼저 전처리 작업으로 용어의 객체를 추출하고. 추출된 각 객체들은 대용량 데이터에서 시간적, 공간적면에서 효율적인 연관탐색 기법인 NFP-Algorithm(N-most interesting k-itemsets Using FP-tree and FP-Growth)을 적용시켜서 의미있는 정보를 추출했다. 또한 Apriori계 Algorithm, FP-Algorithm, NFP-Algorithm을 비교하여 NFP-Algorithm이 시간적면에서 효율적임을 보여주었다.

  • PDF

A Study on Thesaurus Construction Using Facet Classification (패싯분류체계를 이용한 시소러스작성에 관한 연구)

  • 손대형;김태수
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1998.08a
    • /
    • pp.235-238
    • /
    • 1998
  • 본 연구에서는 기존의 분석합성형 분류체계(BC2)로부터 개념과 관계를 추출하여 작성한 자모순 시소러스에 패싯도구를 삽입하여 용어의 개념과 관계를 정확하게 이해할 수 있도록 제시하는데 그 목적이 있다. 그리고, 이러한 과정을 통해 기존의 분류체계나 시소러스가 지니고 있는 한계를 개선하고자 한다.

  • PDF

An Analytic Study on the Categorization of Query through Automatic Term Classification (용어 자동분류를 사용한 검색어 범주화의 분석적 고찰)

  • Lee, Tae-Seok;Jeong, Do-Heon;Moon, Young-Su;Park, Min-Soo;Hyun, Mi-Hwan
    • The KIPS Transactions:PartD
    • /
    • v.19D no.2
    • /
    • pp.133-138
    • /
    • 2012
  • Queries entered in a search box are the results of users' activities to actively seek information. Therefore, search logs are important data which represent users' information needs. The purpose of this study is to examine if there is a relationship between the results of queries automatically classified and the categories of documents accessed. Search sessions were identified in 2009 NDSL(National Discovery for Science Leaders) log dataset of KISTI (Korea Institute of Science and Technology Information). Queries and items used were extracted by session. The queries were processed using an automatic classifier. The identified queries were then compared with the subject categories of items used. As a result, it was found that the average similarity was 58.8% for the automatic classification of the top 100 queries. Interestingly, this result is a numerical value lower than 76.8%, the result of search evaluated by experts. The reason for this difference explains that the terms used as queries are newly emerging as those of concern in other fields of research.