• Title/Summary/Keyword: 통계용어사전

Search Result 15, Processing Time 0.02 seconds

Automatic Term Recognition using Domain Similarity and Statistical Methods (분야간 유사도와 통계기법을 이용한 전문용어의 자동 추출)

  • Oh, Jong-Hoon;Lee, Kyung-Soon;Choi, Key-Sun
    • Journal of KIISE:Software and Applications
    • /
    • v.29 no.4
    • /
    • pp.258-269
    • /
    • 2002
  • There have been many studies of automatic term recognition (ATR) and they have achieved good results. However, there are scopes to improve the performance of extracting terms still further by using the additional technical dictionaries. This paper focuses on the method for extracting terms using the hierarchy among technical dictionaries. Moreover, a statistical method based on frequencies, foreign words, and nested relations assists extracting terms which do not appear in dictionaries. Our method produces relatively good results for this task.

통계용어대조표의 소프트웨어화와 활용

  • Sin, Bong-Seop
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2002.11a
    • /
    • pp.97-102
    • /
    • 2002
  • 본 연구는 현재 통계학회의 홈페이지(http://www.kss.or.kr)를 통해 서비스중인 ${\ulcorner}$통계학용어 온라인 대조표${\lrcorner}$를 개인의 PC에 설치하여 보다 손쉽게 통계용어의 검색에 활용할 수 있도록 소프트웨어로 재구성한 것이다. 따라서 사용자는 웹에 접속이 불가능한 경우에도 알파벳이나 가나다순의 검색 및 키워드를 입력한 검색이 가능하며, 검색된 결과의 레이아웃이나 글꼴을 조정하여 출력도 가능하다. 구현된 소프트웨어는 앞으로 추가되는 자료가 있더라도 사용된 데이터베이스만을 업데이트하면 소프트웨어에 대한 추가수정 없이 재사용이 가능하도록 구성되었다.

  • PDF

Automatic Terminology Recognition using the Dictionary Hierarchy (사전간 계층관계를 이용한 전문용어 자동 추출 기법)

  • 오종훈;이경순;최기선
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.05a
    • /
    • pp.131-136
    • /
    • 2000
  • 기존의 통계에 기반한 용어 자동 추출 기법(Automatic Term Recognition)은 비교적 좋은 성능의 결과를 보여왔다. 하지만 전문용어 사전 등의 정보를 이용하여 성능의 향상을 이룰 수 있는 여지는 여전히 남아있다. 본 논문에서는 이러한 근거에 기반하여 전문용어간의 계층 정보를 전문용어 사전을 통하여 구축하고 이를 이용하여 전문용어를 추출하는 방법을 제안하고자 한다. 본 논문이 제안하는 기법은 기존의 방법에 비해 좋은 성능을 나타내었다.

  • PDF

Extracting Domain Related Multi-word Terms using Seeds (시드를 이용한 도메인 관련 복합어 추출 기법)

  • 조성원;최종필;김민구
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.166-168
    • /
    • 2004
  • 복합어 추출 기법은 최근 활발한 연구가 진행되고 있는 온톨로지 구축과 정보 검색에 중요한 기법으로 연구되어 왔다. 초기의 연구는 주로 언어학적인 필터 기법이나 통계적 기법을 사용하였지만, 최근 문맥정보와 의미 사전 등을 이용하여 용어를 추출하는 방법으로 발전해 오고 있다. 또한 정보검색 분야와 온톨로지 분야에서도 모든 용어를 추출하는 방법보다 문서 집합의 도메인에 적합하다고 판단되는 용어들을 추출하는 방법이 그 성능을 향상시킬 수 있다. 본 논문에서는 통계학적 방법을 이용하여 도메인에 적합한 시드 용어의 추출을 하고, 그 시드 용어를 이용해 가중치를 정제하는 방법과 시드 용어로부터 관련된 용어를 추출해 나가는 방법을 적용하여 문서 집합의 도메인에 맞는 용어들을 추출하고자 한다.

  • PDF

Hangul-Hanja Transfer for Terminology (전문용어 한글-한자 자동 변환)

  • 황금하;배선미;최기선
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.886-888
    • /
    • 2004
  • 기존의 한글-안자 변환에서는 문맥정보와 통계정보를 고려하지 않는 사전기반의 단어단위 변환 방법을 사용한 반면, 본 논문에서는 언어모델 밀 변환모델을 이용한 문장단위의 한자 자동변환 방법을 제안하고. 사전 미등록어와 복합어의 한글-한자 변환을 위하여 단어분할을 변환의 숨김 과정으로 처리하는 통합모델을 사용하였다. 실험 결과, 전문용어의 한글-한자 변환에서 제한된 한자 데이터를 이용하여 기존의 사전기반 변환보다 나은 결과를 얻을 수 있었다.

  • PDF

Analysis of patterns in meteorological research and development using a text-mining algorithm (텍스트 마이닝 알고리즘을 이용한 기상청 연구개발분야 과제의 추세 분석)

  • Park, Hongju;Kim, Habin;Park, Taeyoung;Lee, Yung-Seop
    • The Korean Journal of Applied Statistics
    • /
    • v.29 no.5
    • /
    • pp.935-947
    • /
    • 2016
  • This paper considers the analysis of patterns in meteorological research and development using a text-mining algorithm as the method of analyzing unstructured data. To analyze text data, we define a list of terms related to meteorological research and development, construct times series of a term-document matrix through data preprocessing, and identify terms that have upward or downward patterns over time. The proposed methodology is applied to multi-year plans funded by Korea Meteorological Administration research and development programs from 2011 to 2015.

Terminology Recognition System based on Machine Learning for Scientific Document Analysis (과학 기술 문헌 분석을 위한 기계학습 기반 범용 전문용어 인식 시스템)

  • Choi, Yun-Soo;Song, Sa-Kwang;Chun, Hong-Woo;Jeong, Chang-Hoo;Choi, Sung-Pil
    • The KIPS Transactions:PartD
    • /
    • v.18D no.5
    • /
    • pp.329-338
    • /
    • 2011
  • Terminology recognition system which is a preceding research for text mining, information extraction, information retrieval, semantic web, and question-answering has been intensively studied in limited range of domains, especially in bio-medical domain. We propose a domain independent terminology recognition system based on machine learning method using dictionary, syntactic features, and Web search results, since the previous works revealed limitation on applying their approaches to general domain because their resources were domain specific. We achieved F-score 80.8 and 6.5% improvement after comparing the proposed approach with the related approach, C-value, which has been widely used and is based on local domain frequencies. In the second experiment with various combinations of unithood features, the method combined with NGD(Normalized Google Distance) showed the best performance of 81.8 on F-score. We applied three machine learning methods such as Logistic regression, C4.5, and SVMs, and got the best score from the decision tree method, C4.5.

A Study on the Correlation between the Appearance Frequency of Author Keyword and the Number of Citation in the Humanities and Social Science Journal Articles of the Korea Citation Index (KCI) (인문학 및 사회과학 분야 국내 학술논문의 저자키워드 출현빈도와 피인용횟수의 상관관계 연구)

  • Ko, Young Man;Song, Min-Sun;Kim, Bee-Yeon;Min, Hye-Ryoung
    • Journal of the Korean Society for information Management
    • /
    • v.30 no.2
    • /
    • pp.227-243
    • /
    • 2013
  • The purpose of this study is to verify the correlation between the appearance frequency of author keyword and the number of citation in journal articles. In this study, we were trying to develop a methodology that can select the term having semantic relation with other terms and higher utilization to build a structured scientific glossary. In order to achieve this purpose, we analyzed the number of citation and the author keyword of the humanities and social science journal articles of the Korea Citation Index (KCI) from 2007 to 2011. This study found a correlation between appearance frequency of author keyword and the number of citation of the journal articles, with higher appearance frequency of author keyword of the journal articles being more cited.

Development of Detection of Adverse Drug Reactions based on Named Entity Recognition and Keyword Network Analysis (개체명 인식과 키워드 네트워크 분석을 활용한 약물 이상 반응 탐지 시스템 개발)

  • Chae-Yeon Lee;Hyon Hee Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.670-672
    • /
    • 2023
  • 본 논문에서는 소셜 미디어 약물 리뷰 데이터로부터 약물 이상 반응을 탐지하는 모델인 FC-BERT 를 기반으로 소셜 네트워크 분석을 활용하여 웹 애플리케이션을 구현하였다. FC-BERT 모델을 거쳐 나온 개체명 인식 결과 중에 같은 의미를 가진 서로 다른 약물 이상 반응 표현들을 MedDRA 부작용 사전을 참고하여 하나의 MedDRA 용어로 표준화하여 매핑했다. 해당 결과에 소셜 네트워크 분석 기법을 적용하여 생성한 상위 15 개의 ADR 동시 출현 그래프를 상위 30 개의 워드 클라우드와 함께 시각화하여 보여주는 웹 애플리케이션을 개발했다. 동시 출현 그래프는 가장 많은 리뷰에서 동시에 나타나는 ADR 쌍을 보여준다. 본 논문에서 제안한 웹 애플리케이션은 사람마다 다르게 나타나는 다양한 약물 이상 반응을 사용자에게 좀 더 접근성이 좋게 제공할 수 있을 것으로 보인다.

A Study on Construction and Management Tools for Biological Named Entity Dictionary (생물학적 개체명 사전을 위한 구축 및 관리 도구에 관한 연구)

  • Jang, Hyun-Chul;Kim, Tae-Hyun;Lee, Hyun-Sook;Park, Soo-Jun;Park, Seon-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11b
    • /
    • pp.853-856
    • /
    • 2003
  • 바이오 텍스트 마이닝을 위한 정보 추출의 첫 단계는 생물학적 문헌으로부터의 유전자, 단백질, 세포조직 등과 같은 생물학적 개체명의 인식이다. 생물학적 개체명의 명명법상 특징이 매우 다양하고 저자의 개성에 의해 쉽게 좌우되어 단순히 규칙이나 학습 방법 만으로는 쉽게 개체명들을 인식할 수 없다. 또한, 생물학 관련 문헌에 나오는 가능한 모든 개체명과 이들의 모든 변형을 수록하는 것은 현실적으로 불가능하므로 이를 해결하기 위해 이미 알려진 개체명에 대해서 기본적으로 사전을 탐색하고 알려지지 않은 용어들을 규칙과 통계 기반 방법을 통하여 인식하는 것이 효과적이다. 그러나 만족할 만한 수준의 양질의 사전을 구축하는 것은 쉽지 않을 뿐만 아니라 많은 비용이 소요되며, 어느 순간 만족할 만한 성능을 낼 수 있는 사전을 구축했다. 할지라도 유지 관리 하는 것이 결코 쉬운 일이 아니며 마찬가지로 많은 비용을 필요로 하게 된다. 따라서, 잘 구축된 자원으로부터 필요한 정보를 추출하여 적절한 사전을 자동으로 구축하여 활용하는 방법을 사용할 경우, 사전 구축 및 관리에 드는 많은 비용을 줄이면서도 상당히 효과적인 성능을 얻을 수 있을 것이다. 본 연구에서는 바이오 텍스트 마이닝 엔진을 위한 생물학적 개체명 사전을 자동으로 구축하고 이를 쉽게 관리하도록 하는 도구를 개발하였다.

  • PDF