• 제목/요약/키워드: 통계용어사전

검색결과 15건 처리시간 0.023초

분야간 유사도와 통계기법을 이용한 전문용어의 자동 추출 (Automatic Term Recognition using Domain Similarity and Statistical Methods)

  • 오종훈;이경순;최기선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권4호
    • /
    • pp.258-269
    • /
    • 2002
  • 지금까지 전문용어를 자동으로 추출 (Automatic Term Recognition: ATR)하기 위한 많은 연구들이 있어 왔다. 이들 연구들은 주로 문서 내의 용어의 빈도수와 같은 단순한 통계정보를 이용하여 전문용어를 추출하였다. 하지만 전문분야의 기계가독형 사전의 구축으로 인하여 전문용어를 추출하는 데 있어 전문분야 사전의 사용이 가능하게 되었다. 본 논문에서는 이러한 기계가독형 전문분야 사전들을 이용하여 사전 간의 계층관계를 구축하고 이를 이용하여 전문용어를 추출하는 방법을 제시한다. 또한 전문용어 사전에서 나타나지 않는 전문용어를 추출하기 위하여 용어의 빈도수, 외래어 및 외국어, 내포관계 등을 포함한 통계기법을 이용한다. 본 논문에서 제안하는 기법은 기존의 방법에 비해 좋은 성능을 나타내었다.

통계용어대조표의 소프트웨어화와 활용

  • 신봉섭
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2002년도 추계 학술발표회 논문집
    • /
    • pp.97-102
    • /
    • 2002
  • 본 연구는 현재 통계학회의 홈페이지(http://www.kss.or.kr)를 통해 서비스중인 ${\ulcorner}$통계학용어 온라인 대조표${\lrcorner}$를 개인의 PC에 설치하여 보다 손쉽게 통계용어의 검색에 활용할 수 있도록 소프트웨어로 재구성한 것이다. 따라서 사용자는 웹에 접속이 불가능한 경우에도 알파벳이나 가나다순의 검색 및 키워드를 입력한 검색이 가능하며, 검색된 결과의 레이아웃이나 글꼴을 조정하여 출력도 가능하다. 구현된 소프트웨어는 앞으로 추가되는 자료가 있더라도 사용된 데이터베이스만을 업데이트하면 소프트웨어에 대한 추가수정 없이 재사용이 가능하도록 구성되었다.

  • PDF

사전간 계층관계를 이용한 전문용어 자동 추출 기법 (Automatic Terminology Recognition using the Dictionary Hierarchy)

  • 오종훈;이경순;최기선
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 춘계 학술대회
    • /
    • pp.131-136
    • /
    • 2000
  • 기존의 통계에 기반한 용어 자동 추출 기법(Automatic Term Recognition)은 비교적 좋은 성능의 결과를 보여왔다. 하지만 전문용어 사전 등의 정보를 이용하여 성능의 향상을 이룰 수 있는 여지는 여전히 남아있다. 본 논문에서는 이러한 근거에 기반하여 전문용어간의 계층 정보를 전문용어 사전을 통하여 구축하고 이를 이용하여 전문용어를 추출하는 방법을 제안하고자 한다. 본 논문이 제안하는 기법은 기존의 방법에 비해 좋은 성능을 나타내었다.

  • PDF

시드를 이용한 도메인 관련 복합어 추출 기법 (Extracting Domain Related Multi-word Terms using Seeds)

  • 조성원;최종필;김민구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.166-168
    • /
    • 2004
  • 복합어 추출 기법은 최근 활발한 연구가 진행되고 있는 온톨로지 구축과 정보 검색에 중요한 기법으로 연구되어 왔다. 초기의 연구는 주로 언어학적인 필터 기법이나 통계적 기법을 사용하였지만, 최근 문맥정보와 의미 사전 등을 이용하여 용어를 추출하는 방법으로 발전해 오고 있다. 또한 정보검색 분야와 온톨로지 분야에서도 모든 용어를 추출하는 방법보다 문서 집합의 도메인에 적합하다고 판단되는 용어들을 추출하는 방법이 그 성능을 향상시킬 수 있다. 본 논문에서는 통계학적 방법을 이용하여 도메인에 적합한 시드 용어의 추출을 하고, 그 시드 용어를 이용해 가중치를 정제하는 방법과 시드 용어로부터 관련된 용어를 추출해 나가는 방법을 적용하여 문서 집합의 도메인에 맞는 용어들을 추출하고자 한다.

  • PDF

전문용어 한글-한자 자동 변환 (Hangul-Hanja Transfer for Terminology)

  • 황금하;배선미;최기선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.886-888
    • /
    • 2004
  • 기존의 한글-안자 변환에서는 문맥정보와 통계정보를 고려하지 않는 사전기반의 단어단위 변환 방법을 사용한 반면, 본 논문에서는 언어모델 밀 변환모델을 이용한 문장단위의 한자 자동변환 방법을 제안하고. 사전 미등록어와 복합어의 한글-한자 변환을 위하여 단어분할을 변환의 숨김 과정으로 처리하는 통합모델을 사용하였다. 실험 결과, 전문용어의 한글-한자 변환에서 제한된 한자 데이터를 이용하여 기존의 사전기반 변환보다 나은 결과를 얻을 수 있었다.

  • PDF

텍스트 마이닝 알고리즘을 이용한 기상청 연구개발분야 과제의 추세 분석 (Analysis of patterns in meteorological research and development using a text-mining algorithm)

  • 박홍주;김하빈;박태영;이영섭
    • 응용통계연구
    • /
    • 제29권5호
    • /
    • pp.935-947
    • /
    • 2016
  • 이 연구에서는 비정형 자료 분석 기법 중 하나인 텍스트 마이닝 기법으로 기상청 연구개발분야 과제의 동향에 대하여 분석하였다. 이를 위하여 용어사전을 구축하고, 전처리를 하여 용어-문서 행렬을 만들었다. 이것을 이용해 연도별 용어 빈도수를 측정하고, 자주 나타나는 단어들에 대해서는 상대도수의 변화에 대해서 관찰하였다. 그리고 회귀 분석을 사용하여 증가추세와 감소추세를 가지는 용어들을 파악하였다. 이러한 분석으로 기상청 최근 연구개발 분야의 트렌드를 파악하였다. 이와 같은 연구는 향후 기상청 연구개발에 관한 기초 자료로 사용될 수 있으며, 연구개발의 방향성과 청사진을 제시하는데 이용될 수 있을 것이다.

과학 기술 문헌 분석을 위한 기계학습 기반 범용 전문용어 인식 시스템 (Terminology Recognition System based on Machine Learning for Scientific Document Analysis)

  • 최윤수;송사광;전홍우;정창후;최성필
    • 정보처리학회논문지D
    • /
    • 제18D권5호
    • /
    • pp.329-338
    • /
    • 2011
  • 문헌에서의 전문용어 인식 연구는 정보검색, 정보추출, 시맨틱 웹, 질의응답 분야 등의 연구를 위한 선행 연구로서, 지금까지 대부분 특정 분야, 특히 생의학 분야에서 집중되어 연구되어 왔다. 그러나 기존 연구들이 특정 도메인 또는 문헌 내부 통계 정보를 활용함으로써 범용적인 전문용어 인식에 한계점을 보여 왔기 때문에, 본 연구에서는 웹 검색 결과와 사전, 후보용어의 문형 특징 등을 활용하는 기계 학습 기반 범용 전문용어 인식 방법을 제안하였다. 제안한 방법을 문헌의 지역 통계 정보를 사용하는 방법(C-value)과 비교 실험하여 80.8%의 F-값으로 6.5%의 성능향상을 보였다. 다양한 응집도 자질들을 접목한 두 번째 실험에서는 Normalized Google Distance 방법과 접목한 방식이 F-값 81.8%의 성능으로 최고의 성능을 나타냈다. 기계 학습 방법으로는 로지스틱 회귀분석, C4.5, SVMs 등을 적용하였는데, 일반적으로 이진 분류에 좋은 성능을 보이는 SVMs과 로지스틱 회귀분석 방법보다 결정 트리 방식의 C4.5가 전반적으로 좋은 성능을 보였다.

인문학 및 사회과학 분야 국내 학술논문의 저자키워드 출현빈도와 피인용횟수의 상관관계 연구 (A Study on the Correlation between the Appearance Frequency of Author Keyword and the Number of Citation in the Humanities and Social Science Journal Articles of the Korea Citation Index (KCI))

  • 고영만;송민선;김비연;민혜령
    • 정보관리학회지
    • /
    • 제30권2호
    • /
    • pp.227-243
    • /
    • 2013
  • 본 연구의 목적은 저자키워드의 출현빈도와 해당 키워드가 속한 논문들의 총피인용횟수 간 상관관계 여부를 확인하고자 하는 것이다. 연구의 배경은 인문사회과학 분야 학술용어사전을 구축하는데 있어서 실제 연구에서의 활용도가 높고 다른 키워드와의 의미적 연관관계가 많은 학술용어를 추출하기 위한 방법론을 개발해 보고자 하는 것이다. 본 연구의 목적을 이루기 위해 한국연구재단 한국학술지인용색인(KCI)에 수록된 2007년에서 2011년까지의 인문학 및 사회과학 분야 학술지 논문의 저자키워드와 피인용횟수를 분석하였다. 분석 결과 저자키워드의 출현빈도와 해당 키워드가 속한 논문들의 총피인용횟수는 통계적으로 상관관계가 있으며, 저자키워드의 출현빈도가 늘어날수록 논문의 총피인용횟수도 많아지는 것으로 나타났다.

개체명 인식과 키워드 네트워크 분석을 활용한 약물 이상 반응 탐지 시스템 개발 (Development of Detection of Adverse Drug Reactions based on Named Entity Recognition and Keyword Network Analysis)

  • 이채연;김현희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.670-672
    • /
    • 2023
  • 본 논문에서는 소셜 미디어 약물 리뷰 데이터로부터 약물 이상 반응을 탐지하는 모델인 FC-BERT 를 기반으로 소셜 네트워크 분석을 활용하여 웹 애플리케이션을 구현하였다. FC-BERT 모델을 거쳐 나온 개체명 인식 결과 중에 같은 의미를 가진 서로 다른 약물 이상 반응 표현들을 MedDRA 부작용 사전을 참고하여 하나의 MedDRA 용어로 표준화하여 매핑했다. 해당 결과에 소셜 네트워크 분석 기법을 적용하여 생성한 상위 15 개의 ADR 동시 출현 그래프를 상위 30 개의 워드 클라우드와 함께 시각화하여 보여주는 웹 애플리케이션을 개발했다. 동시 출현 그래프는 가장 많은 리뷰에서 동시에 나타나는 ADR 쌍을 보여준다. 본 논문에서 제안한 웹 애플리케이션은 사람마다 다르게 나타나는 다양한 약물 이상 반응을 사용자에게 좀 더 접근성이 좋게 제공할 수 있을 것으로 보인다.

생물학적 개체명 사전을 위한 구축 및 관리 도구에 관한 연구 (A Study on Construction and Management Tools for Biological Named Entity Dictionary)

  • 장현철;김태현;이현숙;박수준;박선희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (중)
    • /
    • pp.853-856
    • /
    • 2003
  • 바이오 텍스트 마이닝을 위한 정보 추출의 첫 단계는 생물학적 문헌으로부터의 유전자, 단백질, 세포조직 등과 같은 생물학적 개체명의 인식이다. 생물학적 개체명의 명명법상 특징이 매우 다양하고 저자의 개성에 의해 쉽게 좌우되어 단순히 규칙이나 학습 방법 만으로는 쉽게 개체명들을 인식할 수 없다. 또한, 생물학 관련 문헌에 나오는 가능한 모든 개체명과 이들의 모든 변형을 수록하는 것은 현실적으로 불가능하므로 이를 해결하기 위해 이미 알려진 개체명에 대해서 기본적으로 사전을 탐색하고 알려지지 않은 용어들을 규칙과 통계 기반 방법을 통하여 인식하는 것이 효과적이다. 그러나 만족할 만한 수준의 양질의 사전을 구축하는 것은 쉽지 않을 뿐만 아니라 많은 비용이 소요되며, 어느 순간 만족할 만한 성능을 낼 수 있는 사전을 구축했다. 할지라도 유지 관리 하는 것이 결코 쉬운 일이 아니며 마찬가지로 많은 비용을 필요로 하게 된다. 따라서, 잘 구축된 자원으로부터 필요한 정보를 추출하여 적절한 사전을 자동으로 구축하여 활용하는 방법을 사용할 경우, 사전 구축 및 관리에 드는 많은 비용을 줄이면서도 상당히 효과적인 성능을 얻을 수 있을 것이다. 본 연구에서는 바이오 텍스트 마이닝 엔진을 위한 생물학적 개체명 사전을 자동으로 구축하고 이를 쉽게 관리하도록 하는 도구를 개발하였다.

  • PDF