• 제목/요약/키워드: 기술용어 추출

검색결과 113건 처리시간 0.028초

기술문서 정의문 패턴을 이용한 전문용어사전 자동추출 및 활용방안 (Automatic Extraction and Usage of Terminology Dictionary Based on Definitional Sentences Patterns in Technical Documents)

  • 한희정;김태영;두효철;오효정
    • 정보관리학회지
    • /
    • 제34권4호
    • /
    • pp.81-99
    • /
    • 2017
  • 기술문서는 지식정보사회에서 생성되는 중요 연구 성과물로, 이를 제대로 활용하기 위해서는 정보 요약 및 정보추출과 같은 개선된 정보 처리 방법을 토대로 기술문서 활용의 편의성을 높여줄 필요가 있다. 이에 본 연구는 기술문서의 핵심 정보를 추출하기 위한 방안으로, 기술문서의 구조와 정의문 패턴을 기반으로 전문용어 및 정의문을 자동 추출하고, 이를 기반으로 전문용어사전을 구축할 수 있는 시스템을 제안하였다. 나아가 전문용어사전을 지식메모리로서 보다 다양하게 활용할 수 있도록 전문용어사전에 기반한 개인화서비스 제공방안을 제안하였다. 이처럼 전문용어 및 정의문 자동추출을 기반으로 전문용어사전을 구축하게 되면 새롭게 등장하는 전문용어를 빠르게 수용할 수 있어 이용자들이 최신정보를 보다 손쉽게 찾을 수 있다. 더불어 개인화된 전문용어사전을 이용자에게 제공한다면 전문용어사전의 가치와 활용성, 검색의 효율성을 극대화할 수 있다.

랭킹 결합에 의한 기술용어 패러프레이즈 추출 (Terminological Paraphrase Extraction with Ranking Combination)

  • 최성필;조민희;정한민;맹성현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.175-180
    • /
    • 2012
  • 기술용어 패러프레이즈 (Terminological Paraphrase, TP)는 학술 문헌 내에서 기술 용어의 개념 및 정의를 다른 형태로 풀어서 알기 쉽게 서술적 문구 (descriptive expression) 를 의미한다. 이러한 TP들에 대한 효율적인 식별과 추출은 학술 정보에 대한 개념적 접근이나 학술 정보 검색의 재현율 향상에 매우 중요하다. 본 논문은 생명 공학 분야의 논문에 나타나는 다양한 형태의 TP들을 효율적으로 추출하기 위한 정보 검색 기반의 추출 방법론을 제시하고 총 여섯 가지의 추출 랭킹 모델을 기반으로 이를 결합함으로써 TP추출의 확장 가능성에 대한 실험적 연구를 수행한다. 실험 결과, 활용된 랭킹 모델이 서로 상호 보완적인 관계에 있음을 알 수 있었으며, 랭킹 결합에 의한 성능 개선 효과를 얻을 수 있었다.

  • PDF

전문용어 추출시스템 (A terminology extraction system)

  • 박정오;황도삼
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.381-383
    • /
    • 2000
  • 현재, 과학기술, 정치, 사회, 문화의 급격한 변화와 발전에 따라, 전문분야마다 새로운 전문용어가 빈번히 생성되거나 소멸되고 있다. 이러한 전문용어를 포함한 문서를 정확히 해석하기 위해서는 전문용어 전자사전이 필요하다. 전문용어 전자사전을 개발하는데는 수시로 생성되는 전문용어 표제어를 정확히 추출하는 것이 무엇보다 중요하다. 본 논문에서는 이러한 전문용어 표제어를 컴퓨터를 이용하여 추출하는 시스템을 개발하였다. 기본적으로 기존의 전문용어가 사용된 특정어구를 이용하여 전문용어를 추출한다. 또한, 전문용어의 어절 패턴을 이용하여 후보 전문 용어를 추출한 후, 전문용어를 구성할 수 있는 단어의 위치정보를 이용하여 전문용어를 추출하는 방법을 제안한다. 기존 전문용어 사전에 없는 단어에 대해서는 시소러스를 이용하여 유사 단어의 위치정보를 이용하는 방법을 이용하였다.

  • PDF

NDSL 검색 질의어와 기술용어간의 관계에 대한 분석적 연구 (A Relation Analysis between NDSL User Queries and Technical Terms)

  • 강남규;조민희;권오석
    • 정보관리연구
    • /
    • 제39권3호
    • /
    • pp.163-177
    • /
    • 2008
  • 본 논문에서는 NDSL을 검색하기 위해 이용자가 입력하는 검색 질의어를 대상으로 질의어에 사용되는 키워드와 학술지에서 추출한 기술용어와의 관계를 분석하고자 한다. 관계 분석을 위해 사용된 키워드는 17개월 동안의 NDSL 검색 질의어에서 추출한 약 83만3,000개, 기술용어는 NDSL, INSPEC, FSTA 3개 영문 학술지 데이터베이스 약 4,100만건에서 추출한 약 97만5,000개이다. 그리고 분석에 사용된 키워드와 기술용어는 2어절 이상의 영어 단어이며, 이들 간의 관계 분석은 키워드와 기술용어간의 일치성, 연관성, 기술용어에 대한 빈도 분석 등이다.

텍스트로부터 용어 정의문의 자동 추출 방법 (A Method for Automatic Extract ion of Term Definition from Text)

  • 신효식;김재호;이해윤;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.292-299
    • /
    • 2002
  • 본 연구는 텍스트 코퍼스로부터 용어의 정의를 자동으로 추출하여 용어의 자동 추출기술과 통합하여 다목적의 용어뱅크를 구축하기 위한 목적으로부터 출발하였다. 지식정보의 확산에 따라 기존 전문분야 용어집에 수록되지 알은 용어의 수는 폭발적으로 증가하고 있다. 기존의 용어집 혹은 용어사전의 디지털화만으로는 새로운 전문용어의 포괄성에서 한계가 있는 것이다. 정보의 획득이라는 면에서 보면 이러한 한계를 극복하고 모든 용어에 대해서 즉시적으로 용어의 정의를 제공받는 것이 바람직하다. 자동으로 구축된 용어집의 응용은 여러 가지로 기대된다. 새로운 용어에 대한 의미 파악을 위해서는 물론, 확장된 전문용어집의 작성이나 전문분야 온톨로지의 구축 등에도 이용될 수 있다.

  • PDF

국방과학기술 전문용어 사전 구축을 위한 프로세스 및 워크벤치 개발 (Science and Technology Terminology Dictionary Building Process and Workbench Development in Defense Area)

  • 최중환;박정호;김경선;김평
    • 한국콘텐츠학회논문지
    • /
    • 제12권8호
    • /
    • pp.420-428
    • /
    • 2012
  • 용어 의미 표준화를 통한 업무의 효율성을 높이기 위해서 다양한 분야에서 전문용어가 구축 활용되고 있으며, 국방분야에서도 국방용어 사전 발간을 통해 각 군의 효율적인 업무 연계 및 표준화된 국방 용어 유통체계를 정립하는데 노력하고 있다. 국방기술품질원에서도 3년을 주기로 국방과학기술분야의 전문용어 사전을 발간함으로써 전문용어 구축 표준화 연구는 물론, 전문용어의 활용성 제고에 힘쓰고 있다. 본 연구에서는 국방기술품질원에서 전문용어 사전을 실제로 구축하는데 필요한 구축 프로세스와 조직, 이를 지원하기 위한 워크벤치에 대해서 기술하고 있다. 즉, 국방과학기술 전문용어 사전을 구축하기 위한 전문용어 사전구축 프로세스 및 조직의 구성, 표제어 정의, 전문용어 후보 추출을 위한 대상 문서의 선정, 전문용어 후보추출, 전문용어 후보군 생성, 워크벤치 등록, 사전 구축, 사전 검증 과정에 대해서 설명하고 있다, 또한 전문 용어 사전의 활용성 제고를 위해서 시소러스를 구축 활용하는 내용은 물론, 전문용어 사전 구축을 위해서 개발된 워크벤치의 기능을 중심으로 효율적인 전문용어 사전 구축 지원 방법에 대해서도 기술한다.

북한 식생활 영역의 용어 연구를 통한 북한 식생활의 이해 (A Study on the North Koreans' Dietary Life by Analysis of the Dietary Life Terms)

  • 안순희;김유경
    • 한국가정과교육학회지
    • /
    • 제29권1호
    • /
    • pp.1-13
    • /
    • 2017
  • 본 연구는 북한 식생활 용어들을 모아 정리하여 추출된 용어들을 통해 북한 식생활을 이해하고, 동시에 남한의 중학교 기술 가정교과의 식생활 용어들과 서로 비교하여, 북한 식생활이해도를 높이고자 시도하였다. 본 연구의 자료는 북한용어 사전 2종과 웹사이트 2종을 검색하여 북한식생활과 관련된 용어를 추출하였으며, 남한의 중학교 1학년 기술 가정교과의 식생활영역 단원에서 남한식생활 관련 용어를 추출하였다. 분석결과는 1) 분류된 북한의 식생활용어는 식품분야의 용어가 과반 수 이상을 차지하였으며; 2) 또한 북한의 식량사정을 엿볼 수 있는 용어가 추출되었으며; 3) 북한의 식생활정책과 관련하여 식량증산을 위한 작물로 옥수수에 관한 용어가 비교적 많은 비중을 차지하였고; 4) 북한의 말다듬기 사업을 통해 다듬어진 한자어나 외래어가 여러 분류에서 다양하게 추출되었으며; 5) 북한용어 중 일부는 해석이 없이는 이해하기 어려운 용어들이 있었으며; 6) 농업과 관련된 용어 중 남한에서 사용되지 않는 용어들이 발견 되었으며; 7) 중학교 기술 가정교과에서는 남한식생활정책용어들과 다수의 외국어가 추출되었다. 본 연구 결과가 식생활영역의 남북언어이질화를 이해하고 남북한 청소년들이 서로의 용어를 이해할 수 있는 기초 자료로 활용될 수 있을 것으로 기대된다.

과학기술 용어에 대한 용어 생명주기 고찰 -전자신문 말뭉치를 중심으로- (A Study on Term Life Cycle for Science & Technology Terms -Focused on 'ETNEWS' Corpus-)

  • 정한민;성원경
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 추계 종합학술대회 논문집
    • /
    • pp.84-89
    • /
    • 2006
  • 과학기술 분야에서의 기술 발전 속도에 맞추어 해당 분야의 용어 역시 생성과 소멸을 끊임없이 반복한다. 본 연구에서는 아직까지 체계적으로 다루어지고 있지 않은 용어 생명주기를 정의하고 다양한 관점으로 대용량 말뭉치에서 추출된 용어들을 분석함으로써 그 필요성을 주장하고자 한다. 용어 추출을 위한 대상으로서 12년 분량의 1,700여만 어절을 포함하는 전자신문 말뭉치를 선정하였는데, 그 이유는 여러 기간에 걸친 말뭉치이므로 용어 생명주기 추이를 파악하기 용이하며, 기술 발전이 빠른 대표적인 분야인 컴퓨터/IT/전기 전자를 포함하고 있기 때문이다. 본 연구를 통해 기간에 따른 용어 생명주기 변화, 용어 수명과 전문성과의 관계 등 여러 분석 결과를 얻었으며, 앞으로 일반 사전에의 등재 여부를 결정이나 유사 기술 간의 경쟁 구도를 분석 등 다양한 응용 분야에 활용될 것으로 기대 한다.

  • PDF

상위어 자동추출 알고리즘 개발 (Development of the Algorithm for the Automatic Extraction of Broad Term)

  • 최유미;사공철
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1998년도 제5회 학술대회 논문집
    • /
    • pp.227-230
    • /
    • 1998
  • 문헌정보학분야의 용어사전을 이용한 자동시소러스 구축을 위한 첫단계로$\ulcorner$문헌정보학 용어사전$\lrcorner$ MRD를 구성하고 이를 이용하여 상위어 자동 추출알고리즘을 개발하였다. MRD구성시 전처리과정을 통하여 상위어 추출에 불필요한 정보가 수록되는 것을 방지하였다. 상위어 추출을 위한 알고리즘 개발은 무작위 표본추출을 통하여 $\ulcorner$문헌정보학 용어사전$\lrcorner$에 기술된 문장의 구문적 특성을 분석한 후, 이 구문정보를 이용하여 수행하였다. 본 연구에서 제시된 알고리즘의 효율성 평가결과 89.4%의 정확도를 보였다.

  • PDF

은닉마르코프 모델(HMM)을 이용한 과학기술문서에서의 외래어 추출 모델 (Automatic Extraction of Technical Terminologies from Scientific Text based on Hidden Markov Model)

  • 오종훈;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.137-141
    • /
    • 1999
  • 기술의 발달로 인해 수많은 용어들이 생성되고 있다. 이들은 대부분 전문용어이며 이는 비영어권 국가인 우리나라에 도입될 때, 외래어나 원어형태로 도입된다. 그런데 외래어나 원어형태의 전문용어는 형태소 분석기, 색인기 등의 시스템에서 오류의 원인이 되어, 이를 전처리기로 사용하는 자연언어처리 시스템의 성능을 저하 시킨다. 따라서 본 논문에서는 외래어나 원어로 된 전문용어를 처리하기 위한 전단계로서 문서에서 자동적으로 외래어를 인식하고 추출하는 방법을 제시한다. 본 논문에서 제시하는 방법은 외래어 추출 문제를 태깅문제로 변환하여, 태깅 문제를 해결하는 기법 중의 하나인 은닉마르코프 모델 (Hidden Markov Model)을 이용하여 외래어 추출을 하였다. 그 결과 94.90%의 재현률과 95.41%의 정확도를 나타내었다.

  • PDF