• Title/Summary/Keyword: 용어추출

Search Result 365, Processing Time 0.032 seconds

The Method of Searching Metathesaurus, Using Automatic Modified a Query (질의어 자동수정을 이용한 메타시소러스 검색 방법)

  • 김종광;하원식;김태용;류중경;이정현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.454-456
    • /
    • 2003
  • UMLS(2003AA edition 기준)의 메타시소러스는 다국어를 지원하며 875.233개의 개 (concept)과 2,146,897개의 개념명(concept name)을 포함한다. 현재 UMLS 메타시소러스 검색을 제공하는 PubMed나 NLM에서는 UMLS에서는 개념명에 존재하지 않는 잘못된 질의나, 잘못된 구문 또는 개념명의 일부를 이용한 검색이 불가능하다. 이는 사용자가 UMLS에서 정보를 얻기 위해서는 정확한 의학용어를 숙지해야 되며. UMLS 메타시소러스의 데이터가 잘못 되었을 경우 정보를 얻을 수 없다. 본 연구에서는 이러한 문제점을 보완하기 위해서 자연어처리에서 연구되고 있는 문자열 간의 유사도 측정방식을 적용하여 잘못된 질의어에 대한 자동수정 기능을 이용한 메타시소러스 검색방법을 제안한다. 제안한 방법에서는 질의어를 자동수정하기 위하여 철자사전을 자동으로 추출하고 문자열 비교알고리즘을 도입하여 질의어와 철자사전간의 용어의 유사도를 측정한다. 유사도에 의하여 얻어진 용어를 메타시소러스의 형식에 맞게 변환하여 질의에 대한 최적의 결과를 얻을 수 있도록 한다. 제안된 방법의 성능을 평가하기 위해서 최근(2003년 8월) bi-gram 방식을 도입한 NLM에서의 시스템과 비교 평가한다.

  • PDF

Query Expansion Using User Search Pattern in Information Retrieval (정보검색에서 사용자 검색 패턴을 이용한 질의 확장)

  • Chun, Woo-Kwan;Kim, Young-Do;Chung, In-Jeong
    • Annual Conference of KIPS
    • /
    • 2001.04b
    • /
    • pp.771-774
    • /
    • 2001
  • 정보검색에서 가장 많이 사용되는 불리언(Boolean)검색에서는 키워드 일치에 의해서만 검색하는 단점을 가지고 있다. 이를 보완하기 위해 다양한 정보원에서 추출한 관련 용어들을 원질의어에 첨가하여 검색의 효율을 높이기 위한 질의 확장 방법들이 모색되어 왔다. 본 논문에서는 질의 확장을 위하여 사용자가 검색에 사용하였던 질의어들의 연속성을 찾아내어 첨가할 용어를 선택하고 질의 확장을 하는 방법을 제시한다. 사용자가 입력한 질의어의 연속성을 찾아내는 방법으로는 데이터 마이닝 기법중 연관 규칙 탐사 방법을 이용한다. 실험은 현재 구축된 정보통신 기술기준 정도시스템에서 사용자들이 검색한 키워드 정보를 이용하였으며 사용자 검색 패턴(USP) 정보를 이용함으로써 사용자가 검색하고자 하는 질의어와 좀더 연관성 있는 용어로 확장하여 사용자 중심적 결과를 얻을 수 있다.

  • PDF

Analysis of Students' Understanding of the Terms Presented on the Information Board of Jinan-Muju National Geopark (진안-무주 국가지질공원의 안내 표지판에 제시된 용어에 대한 학생들의 이해도 분석)

  • Cho, Kyu Seong;Park, Kyeong-Jin
    • Journal of the Korean earth science society
    • /
    • v.41 no.5
    • /
    • pp.520-530
    • /
    • 2020
  • The purpose of this study was to investigate students' understanding of the terms presented on the information board in the Jinan-Muju National Geopark. To this end, a survey was conducted with 219 students (147 elementary, 41 middle, and 31 high school students) to determine the level of their perceptions of the geopark, and of the usefulness of the information board, and their understanding of the terms presented on the information boards of the National Geopark. To determine the students' understanding of terms, 10 representative information boards were selected and the entire content was converted into text. Afterwards, 256 key terms were extracted from the text through discussions with three experts, and these terms were presented to students to grasp their level of understanding. The results were as follows: First, the level of students' perceptions about the geopark was very low, so publicity and educational approaches are needed. Second, students were not interested in the information board and had a low level of understanding owing to the large amount of information and reading difficulties. Third, among the 256 terms, the number of terms that students found difficult to understand tended to decrease with increasing school grade: 80 for elementary school students, 53 for middle school students, and 31 for high school students. The reason the students had difficulty in understanding terms was that elementary school students had not yet learned the terms in the curriculum, whereas middle and high school students have difficulty understanding technical terms and Chinese characters. Therefore, the information board in the geopark will need to be easily translated into Chinese characters or additional explanations of technical terms need to be provided so that visitors can understand the concepts more easily.

Construction of the Aging Related Gene Database using Text-mining (서지분석을 통한 노화 관련 유전자 정보 데이터베이스 구축)

  • Yu, Seok Jong;Park, Junho;Yoo, Jaesoo
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2013.05a
    • /
    • pp.41-42
    • /
    • 2013
  • 최근 노령화가 급속히 진행되면서 노화에 대한 연구가 활발히 진행되고 있다. 하지만 노화현상은 광범위한 표현형을 지니고 있는 생명현상으로 이에 대한 체계적인 연구를 지원하기 위한 웹포털 사이트가 필요한 실정이다. 특히 노화에 따른 질병과의 연관성 및 관련 유전자에 대한 정보를 수집하고 이를 체계적으로 분석할 수 있는 통합정보시스템은 향후 노화연구를 지원하기 위한 가장 핵심적인 요소라고 할 수 있다. 본 연구에서는 기존 노화와 관련된 461개의 유전자를 기반으로 관련된 질병과의 연관성을 OMIM 데이터베이스를 활용하여 분석하였다. 또한 관련 단백질의 기능을 GO데이터베이스 분석을 통해 유전자의 기능을 분석하였다. Pubmed에서 제공하는 노화관련 논문들의 MeSH 정보 분석을 통해서 노화와 관련된 용어를 분석하였다. 노화와 관련된 64개의 유전자를 키워드로 NCBI의 pubmed 데이터베이스로부터 관련논문을 다운로드 받아 생물학적 상호작용 정보를 추출했다. 생물학적 상호작용은 NCBI에서 제공하는 Metamap 데이터베이스를 기반으로 각각의 생물학적 용어를 정의했다. 현재 노화 유전자 64개에 대해 128,729개의 생물학적 상호작용 정보를 추출했고, 8대 노인성만성질환에 대해 301,176개의 생물학적 상호작용 정보를 추출하였다.

  • PDF

Development of Sensible Brassiere for Middle Aged Women -Investigation of consumer's needs and evaluation of commercial brassiere for the development of subjective measurement scale and screening of design parameters- (중년 여성의 감성 Brassiere 개발(I) -소비자 요구 분석을 기초로 한 제품 디자인 요소 추출-)

  • 김정화;이선영;홍경희
    • Proceedings of the Korean Society for Emotion and Sensibility Conference
    • /
    • 1999.11a
    • /
    • pp.162-166
    • /
    • 1999
  • 30-40대 중년 여성 100명을 대상으로 Brassiere착용 상황, 요구사항을 조사, 분석하고 시판 Brassiere의 착용실험을 통해 착용감을 평가함으로써 Brassiere에 대한 소비자 요구와 착용감 평가차원을 추출하였다. 주관적 착용감 평가실험은 25명이 참여 하였으며, 실험은 온도 28$^{\circ}C$, 습도 65%RH의 인공기후실에서 실시하였다. Brassiere 착용감의 구성차원을 추출하기 위해 평가용어를 이용하여 평정한 값들을 요인분석한 결과, fit성 및 체형보정성, 심미성, 압박감, 동작에 의한 브라의 착용위치 변화의 4가지 요인으로 이루어졌음을 확인하였다. Brassiere 착용감을 예측하기 위해 평가용어를 회귀변수로 하여 회귀분석한 결과, Y=3.262+0.723X$_1$-0.646X$_2$ (Y: 착용감, X$_1$: 가슴과 컵모양이 잘 맞는다, X$_2$: 와이어 부분이 불편하다)로 나타났다. Brassiere 착용감에 대한 소비자의 정성적인 요구사항을 정량적으로 측정하기 위한 제품 디자인 요소중, 와이어와 주소재의 신축성이 착용감에 중요하게 작용하는 것으로 나타났다.

  • PDF

Query Expansion based on Knowledge Extraction and Latent Dirichlet Allocation for Clinical Decision Support (의학 문서 검색을 위한 지식 추출 및 LDA 기반 질의 확장)

  • Jo, Seung-Hyeon;Lee, Kyung-Soon
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.31-34
    • /
    • 2015
  • 본 논문에서는 임상 의사 결정 지원을 위한 UMLS와 위키피디아를 이용하여 지식 정보를 추출하고 질의 유형 정보를 이용한 LDA 기반 질의 확장 방법을 제안한다. 질의로는 해당 환자가 겪고 있는 증상들이 주어진다. UMLS와 위키피디아를 사용하여 병명과 병과 관련된 증상, 검사 방법, 치료 방법 정보를 추출한다. UMLS와 위키피디아를 사용하여 추출한 의학 정보를 이용하여 질의와 관련된 병명을 추출한다. 질의와 관련된 병명을 이용하여 추가 증상, 검사 방법, 치료 방법 정보를 확장 질의로 선택한다. 또한, LDA를 실행한 후, Word-Topic 클러스터에서 질의와 관련된 클러스터를 추출하고 Document-Topic 클러스터에서 초기 검색 결과와 관련이 높은 클러스터를 추출한다. 추출한 Word-Topic 클러스터와 Document-Topic 클러스터 중 같은 번호를 가지고 있는 클러스터를 찾는다. 그 후, Word-Topic 클러스터에서 의학 용어를 추출하여 확장 질의로 선택한다. 제안 방법의 유효성을 검증하기 위해 TREC Clinical Decision Support(CDS) 2014 테스트 컬렉션에 대해 비교 평가한다.

  • PDF

[앙케이트] 디젤, 디젤 택시.. 이제 어색하지 않아요

  • Lee, Gyeong-Ok
    • Korea Petroleum Association Journal
    • /
    • s.292
    • /
    • pp.32-35
    • /
    • 2014
  • 한국로버트보쉬 디젤사업부가 지난 2008년부터 실시해 온 승용차 이용 실태 및 디젤 소비자 인식 조사는 2014년에 4회째 조사되었다. 디젤 엔진의 '친환경성'에 대한 인식 변화는 크지 않으나, '연비 효율성'에 대한 인식이 강화되면서 디젤에 대한 긍정적 인식 및 태도의 변화가 크게 나타난 것으로 판단된다. 이전 조사 결과의 특징 중의 하나는 '디젤' 자체에 대한 소비자의 긍정적 태도 개선 정도가 크게 나타났으며, 특히 '구입 의향이 증가'하는 등 실질적 소비 태도로 연결될 수 있는 index의 개선은 의미 있는 변화로 보여 고무적인 현상이다. 아울러, 재미 있는 결과는 '클린디젤 용어에 대한 인지도, 클린디젤 자동차 호감도, 클린 디젤 자동차 구입의향'에 대한 결과다. 이 항목들에 대해 '08년 11월부터 '12년 1월까지 증가하는 경향을 보였으나, '14년 2월 조사에서 다시 감소하는 경향이 나타난 것인데 이는 '디젤'이란 용어에 대한 긍정적인 인식이 크게 증가하여, 클린디젤이란 용어 자체의 의미가 무색해진 것으로 클린디젤이란 용어보다는 디젤 그 자체로 깨끗하고 친환경적인 연료로 인식된다고 할 수 있겠다. 2014년 조사는 2008년 이래 4회 차 조사로 한국갤럽조사연구소를 통해 진행 되었으며, 지난 2월 14일부터 3월 15일까지 전국 6대 도시(서울, 인천, 부산, 대구, 대전, 광주)에 거주하고 있는 만 20세 이상, 59세 이하의 남녀 자가 운전자 1,007명을 대상으로 지역별/성별/연령별 할당 추출법(Purposive Quota Sampling)과 개별면접 조사 방법(Face-to-Face Interview)으로 진행되었고, 95% 의 신뢰수준에 +/- 3% 오차범위를 가지고 있다.

  • PDF

A Study on the Semiautomatic Construction of Domain-Specific Relation Extraction Datasets from Biomedical Abstracts - Mainly Focusing on a Genic Interaction Dataset in Alzheimer's Disease Domain - (바이오 분야 학술 문헌에서의 분야별 관계 추출 데이터셋 반자동 구축에 관한 연구 - 알츠하이머병 유관 유전자 간 상호 작용 중심으로 -)

  • Choi, Sung-Pil;Yoo, Suk-Jong;Cho, Hyun-Yang
    • Journal of Korean Library and Information Science Society
    • /
    • v.47 no.4
    • /
    • pp.289-307
    • /
    • 2016
  • This paper introduces a software system and process model for constructing domain-specific relation extraction datasets semi-automatically. The system uses a set of terms such as genes, proteins diseases and so forth as inputs and then by exploiting massive biological interaction database, generates a set of term pairs which are utilized as queries for retrieving sentences containing the pairs from scientific databases. To assess the usefulness of the proposed system, this paper applies it into constructing a genic interaction dataset related to Alzheimer's disease domain, which extracts 3,510 interaction-related sentences by using 140 gene names in the area. In conclusion, the resulting outputs of the case study performed in this paper indicate the fact that the system and process could highly boost the efficiency of the dataset construction in various subfields of biomedical research.

Analysis of the Science Words Used by Science Teachers in Teaching the Unit of 'Force and Motion' (중학교 과학 교사가 '힘과 운동' 단원 수업 중에 사용하는 과학용어 분석)

  • Yun, Eunjeong;Park, Yunebae
    • Journal of The Korean Association For Science Education
    • /
    • v.35 no.2
    • /
    • pp.209-216
    • /
    • 2015
  • In science classrooms, using science terminology is a very important aspect of communications between science teachers and students, as well as in the science learning of students. This study was conducted to investigate the usage of the science terminology in the lectures of science teachers, and identify the problem in the aspect of both communication and teaching. To do this, we have recorded 13 hours of class teaching 'Motion' part in unit of 'Force and Motion' from three science teachers, and extracted science terminologies from the science teachers' lectures by using an analysis program. We performed qualitative analysis, such as kind of science terminology used, and linkage between curriculum and textbook, and quantitative analysis, such as number of science terminology, and frequency of use. With respect to communication, there appears some problems in its proportion in the teacher's lecture in class. It is deemed that science terminology in teachers' lectures were too many, that the frequency of usage of important conceptual terminology was low, and that teachers use higher level terminologies to explain key concepts. And in respect to science learning, there were problems where terminologies including important concepts were used separately by the teachers and textbooks, terminologies of higher level concept were used, and there might be differences between teachers in majority of teachers.

Standardization and Management of Interface Terminology regarding Chief Complaints, Diagnoses and Procedures for Electronic Medical Records: Experiences of a Four-hospital Consortium (전자의무기록 표준화 용어 관리 프로세스 정립)

  • Kang, Jae-Eun;Kim, Kidong;Lee, Young-Ae;Yoo, Sooyoung;Lee, Ho Young;Hong, Kyung Lan;Hwang, Woo Yeon
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.22 no.3
    • /
    • pp.679-687
    • /
    • 2021
  • The purpose of the present study was to document the standardization and management process of interface terminology regarding the chief complaints, diagnoses, and procedures, including surgery in a four-hospital consortium. The process was proposed, discussed, modified, and finalized in 2016 by the Terminology Standardization Committee (TSC), consisting of personnel from four hospitals. A request regarding interface terminology was classified into one of four categories: 1) registration of a new term, 2) revision, 3) deleting an old term and registering a new term, and 4) deletion. A request was processed in the following order: 1) collecting testimonies from related departments and 2) voting by the TSC. At least five out of the seven possible members of the voting pool need to approve of it. Mapping to the reference terminology was performed by three independent medical information managers. All processes were performed online, and the voting and mapping results were collected automatically. This process made the decision-making process clear and fast. In addition, this made users receptive to the decision of the TSC. In the 16 months after the process was adopted, there were 126 new terms registered, 131 revisions, 40 deletions of an old term and the registration of a new term, and 1235 deletions.