• Title/Summary/Keyword: 기술용어 추출

Search Result 113, Processing Time 0.029 seconds

Feature Selection and Extraction for Document Classifier for If documents based on SVM (SVM기반 정보기술 문서분류를 위한 특성 선택 및 추출 기법)

  • 강윤희
    • Proceedings of the KAIS Fall Conference
    • /
    • 2001.11a
    • /
    • pp.75-78
    • /
    • 2001
  • 본 논문에서는 웹 문서의 자동 분류를 위한 특성 선택 및 추출기법을 기술한다. 최근 인터넷의 급속한 성장과 보급으로 전자우편과 웹을 통해 제공되어지는 정보의 양이 기하급수적으로 증가함에 따라 효율적인 문서 분류의 필요성이 증가하고 있다. 본 논문에서는 웹 디렉토리 내의 문서로부터 추출된 용어 집합을 기반으로 SVM을 사용하여 학습한 후 문서 분류를 수행한다. 본 실험의 문서는 정보통신 분야 디렉토리 서비스 시스템인 itfind로부터 수집된 문서를 대상으로 하였으며 3가지 시나리오에 따라 실험을 수행하여 각 시나리오 별로 재현율/정확율 및 오분류율을 성능 요소로 계산하였다. 본 실험은 학습 벡터 구성과정에서 잡음에 의해 다른 클래스의 문서 분류에 미치는 영향을 평가하여 SVM을 기반으로 한 문서 분류 기법이 강건함을 보였다.

Query Expansion Using User Search Pattern in Information Retrieval (정보검색에서 사용자 검색 패턴을 이용한 질의 확장)

  • Chun, Woo-Kwan;Kim, Young-Do;Chung, In-Jeong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.04b
    • /
    • pp.771-774
    • /
    • 2001
  • 정보검색에서 가장 많이 사용되는 불리언(Boolean)검색에서는 키워드 일치에 의해서만 검색하는 단점을 가지고 있다. 이를 보완하기 위해 다양한 정보원에서 추출한 관련 용어들을 원질의어에 첨가하여 검색의 효율을 높이기 위한 질의 확장 방법들이 모색되어 왔다. 본 논문에서는 질의 확장을 위하여 사용자가 검색에 사용하였던 질의어들의 연속성을 찾아내어 첨가할 용어를 선택하고 질의 확장을 하는 방법을 제시한다. 사용자가 입력한 질의어의 연속성을 찾아내는 방법으로는 데이터 마이닝 기법중 연관 규칙 탐사 방법을 이용한다. 실험은 현재 구축된 정보통신 기술기준 정도시스템에서 사용자들이 검색한 키워드 정보를 이용하였으며 사용자 검색 패턴(USP) 정보를 이용함으로써 사용자가 검색하고자 하는 질의어와 좀더 연관성 있는 용어로 확장하여 사용자 중심적 결과를 얻을 수 있다.

  • PDF

Summarization of News Articles Based on Centroid Vector (중심 벡터에 기반한 신문 기사 요약)

  • Kim, Gwon-Yang
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2007.11a
    • /
    • pp.382-385
    • /
    • 2007
  • 본 논문은 "X라는 인물은 누구인가?"와 같은 질의어가 주어질 때, X라는 인물에 대한 나이, 직업, 학력 또는 특정 사건에서 X라는 인물의 역할에 대한 정보를 기술하는 문장을 인식하고 추출함으로써 해당 인물에 대한 신문 기사 내용을 요약하는 방법을 제시한다. 질의어 용어에 대해 가능한 많은 관련 문장을 추출하기 위하여 중심 벡터에 기반한 통계적 방법을 적용하였으며, 정확도와 재현율 성능을 개선하기 위해 위키피디어 같은 외부 지식을 사용한 중심 단어의 개선된 가중치 측도를 적용하였다. 실험 대상인 전자신문 말뭉치 상에서 출현 빈도수가 큰 20 인의 IT 인물에 대해 제안한 방법이 개선된 성능을 보임을 알 수 있었다.

  • PDF

An Analytic Study on the Categorization of Query through Automatic Term Classification (용어 자동분류를 사용한 검색어 범주화의 분석적 고찰)

  • Lee, Tae-Seok;Jeong, Do-Heon;Moon, Young-Su;Park, Min-Soo;Hyun, Mi-Hwan
    • The KIPS Transactions:PartD
    • /
    • v.19D no.2
    • /
    • pp.133-138
    • /
    • 2012
  • Queries entered in a search box are the results of users' activities to actively seek information. Therefore, search logs are important data which represent users' information needs. The purpose of this study is to examine if there is a relationship between the results of queries automatically classified and the categories of documents accessed. Search sessions were identified in 2009 NDSL(National Discovery for Science Leaders) log dataset of KISTI (Korea Institute of Science and Technology Information). Queries and items used were extracted by session. The queries were processed using an automatic classifier. The identified queries were then compared with the subject categories of items used. As a result, it was found that the average similarity was 58.8% for the automatic classification of the top 100 queries. Interestingly, this result is a numerical value lower than 76.8%, the result of search evaluated by experts. The reason for this difference explains that the terms used as queries are newly emerging as those of concern in other fields of research.

Extraction of Relationships between Scientific Terms based on Composite Kernels (혼합 커널을 활용한 과학기술분야 용어간 관계 추출)

  • Choi, Sung-Pil;Choi, Yun-Soo;Jeong, Chang-Hoo;Myaeng, Sung-Hyon
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.15 no.12
    • /
    • pp.988-992
    • /
    • 2009
  • In this paper, we attempted to extract binary relations between terminologies using composite kernels consisting of convolution parse tree kernels and WordNet verb synset vector kernels which explain the semantic relationships between two entities in a sentence. In order to evaluate the performance of our system, we used three domain specific test collections. The experimental results demonstrate the superiority of our system in all the targeted collection. Especially, the increase in the effectiveness on KREC 2008, 8% in F1, shows that the core contexts around the entities play an important role in boosting the entire performance of relation extraction.

Design of a Multiagent-based Comparative Shopping System (멀티 에이전트 기반 비교 쇼핑 시스템 설계)

  • 신주리;한상훈;이건명
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.122-124
    • /
    • 2000
  • 이 논문에서는 보다 효과적이고 편리한 서비스를 제공할 수 잇는 전자상거래를 위한 다중 에이전트 기반의 확장된 비교 쇼핑 시스템을 제안한다. 이 시스템은 웹 크로울링(web crawling)을 통해 비교 쇼핑 시스템의 대상이 되는 웹사이트들의 페이지 추출 정보를 입수한다. 각 쇼핑 사이트에서는 정보 추출을 위한 중심이 되는 랩퍼(wraper) 기술은 먼저 정보가 있는 페이지를 가려내고, 정보가 있다고 판명되는 페이지들에서 상품 정보의 위치 즉, 반복되는 패턴(pattern)을 추출하여 필요한 상품 기술 단위 정보를 뽑아내는 학습 알고리즘이며, 각 사이트에 맞게 만들어진 랩퍼 에이전트(wrapper agent)에 대해 유효성을 검사하는 방법론을 제시한다. 또한, 학습 시 필요한 지식(knowledge)으로서의 디렉토리(directory) 구성은 미리 만들어진 표준 카테고리(category)와 용어(terminology) 존재하에 제한적이나마 새로운 디렉토리 요소에 대해 자동으로 확장할 수 있는 방법론을 제안한다.

  • PDF

An XML Keyword Indexing Method Using on Lexical Similarity (단락을 분류에 따른 XML 키워드 가중치 결정 기법)

  • Jeong, Hye-Jin;Kim, Hyoung-Jin
    • Proceedings of the KAIS Fall Conference
    • /
    • 2008.05a
    • /
    • pp.205-208
    • /
    • 2008
  • 보다 효과적인 키워드 추출 및 키워드 가중치 결정을 위하여 문서의 내용뿐 아니라 구조를 이용하여 색인을 추출하는 연구가 이루어지고 있는데, 대부분의 연구들이 XML 단락별 중요도가 아닌, 문맥상의 단락에 대한 중요도를 계산하는게 일반적이다. 이러한 기존 연구들은 대부분이 객관적인 실험을 통해서 중요도를 입증하기보다는 일반적인 관점에서 단순한 수치로 중요도를 결정하고 있다. 본 논문에서는 웹 문서 관리를 위한 표준으로 자리잡아가고 있는 XML 문서의 자동색인을 위하여, 논문을 구성하는 주요 단락을 세분하고, 단락에서 추출된 용어의 가중치를 갱신해 가면서 최종 색인어 가중치를 계산하는 방법을 제안한다.

  • PDF

Developing a Test-Bed Toolkit for Scientific Document Analysis (기술 문헌 분석 테스트베드 툴킷 개발)

  • Choi, Sung-Pil;Song, Sa-Kwang;Jung, Han-Min
    • The Journal of the Korea Contents Association
    • /
    • v.12 no.8
    • /
    • pp.13-19
    • /
    • 2012
  • This paper introduces a test-bed toolkit for evaluating and enhancing text analysis engines which extract technological knowledge from articles, patents, reports and so forth. The toolkit consists of two test-beds for technical entity recognition and relation extraction engines, which are capable of identifying technical entities and predicting semantic relation types between the entities. With using the introduced toolkits, users and developers can efficiently perform the execution monitoring and error analysis of the technical text analysis engines.

Bioinformatics Technology (바이오 정보 기술)

  • Jung, H.Y.;Park, S.J.;Park, S.H.
    • Electronics and Telecommunications Trends
    • /
    • v.20 no.5 s.95
    • /
    • pp.93-104
    • /
    • 2005
  • 현재 우리나라에서 가장 주목받고 있는 분야가 IT와 BT일 것이다. IT는 워낙 언론매체에 많이 노출되어 어떤 것을 말하고 어떤 분야가 있다는 것을 많은 사람들이 잘 알고 있는 실정이나, BT 관련해서는 단순히 시험관을 연상하는 사람이나 줄기세포 연구 정도로 알고 있는 사람들이 많을 것이다. 현재의 BT 분야는 예전의 소규모 실험을 벗어나 대규모의 실험 수행이 가능한 시스템이 구축되었는데, 이러한 대규모 실험 결과를 분석하기 위한 정보학적인 방법의 도입이 필수적인 시대가 되었다. 그래서, 이런 접근방법을 통상 IT와 BT의 융합기술이다라고 이야기한다. 바이오 정보 기술이란 이런 대규모의 생물학적 데이터를 시스템적으로 분석하여 정보를 추출하는 제반 기술이라고 이야기 할 수 있다. 일반적으로 많이 알려진 용어로는 생물정보학(바이오인포매틱스)혹은 계산생물학이 있다. 더 넓은 의미에서 이야기 할 때는 이러한 정보 추출을 위한 분석 과정뿐만 아니라, 생물학 관련 데이터베이스 구축 및 서비스 부분도 포함해서 이야기하고 있다.

Standardization and Management of Interface Terminology regarding Chief Complaints, Diagnoses and Procedures for Electronic Medical Records: Experiences of a Four-hospital Consortium (전자의무기록 표준화 용어 관리 프로세스 정립)

  • Kang, Jae-Eun;Kim, Kidong;Lee, Young-Ae;Yoo, Sooyoung;Lee, Ho Young;Hong, Kyung Lan;Hwang, Woo Yeon
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.22 no.3
    • /
    • pp.679-687
    • /
    • 2021
  • The purpose of the present study was to document the standardization and management process of interface terminology regarding the chief complaints, diagnoses, and procedures, including surgery in a four-hospital consortium. The process was proposed, discussed, modified, and finalized in 2016 by the Terminology Standardization Committee (TSC), consisting of personnel from four hospitals. A request regarding interface terminology was classified into one of four categories: 1) registration of a new term, 2) revision, 3) deleting an old term and registering a new term, and 4) deletion. A request was processed in the following order: 1) collecting testimonies from related departments and 2) voting by the TSC. At least five out of the seven possible members of the voting pool need to approve of it. Mapping to the reference terminology was performed by three independent medical information managers. All processes were performed online, and the voting and mapping results were collected automatically. This process made the decision-making process clear and fast. In addition, this made users receptive to the decision of the TSC. In the 16 months after the process was adopted, there were 126 new terms registered, 131 revisions, 40 deletions of an old term and the registration of a new term, and 1235 deletions.