• 제목/요약/키워드: Co-Word Analysis

검색결과 192건 처리시간 0.038초

검색용 MeSH 필터와 단어인접탐색 기법을 활용한 KoreaMed 검색 효율성 향상 연구 (A Study on the Retrieval Effectiveness of KoreaMed using MeSH Search Filter and Word-Proximity Search)

  • 정소나;정지나
    • 한국산학기술학회논문지
    • /
    • 제18권5호
    • /
    • pp.596-607
    • /
    • 2017
  • 의학학술문헌에는 해부학적 조직이나 기관명이 종양, 질환 또는 감염 용어들과 서로 조합하여 사용되는 언어적 특성을 가지고 있다. 의학학술문헌을 검색할 때 데이터베이스가 제공하는 통제어휘도구인 Medical Subject Headings (MeSH)를 활용하면 합성어, 동의어, 그리고 관련어를 추가로 검색할 수 있어 검색효율이 높다. 본 연구에서는 위암(Stomach Neoplasms) 어휘군을 검색용 필터로 추가하는 방법과 동시출현용어의 거리를 측정하여 단어인접탐색 기법으로 검색효율성을 향상시키는 연구를 수행하였다. 검색용 MeSH에 추가할 어휘군을 결정하기 위해 실험데이터로 PubMed에서 중심주제어가 "Stomach Neoplasms"인 2007년~2016년 논문 8,625편을 내려 받아 논문제목으로부터 Stomach와 Neoplasms 관련 용어의 동시출현여부를 분석하였다. 검색효율성은 KoreaMed에서 검색되는 MEDLINE 학술지를 대상으로 "Stomach Neoplasms"가 MeSH로 색인되어 있는 277편으로 검증하였는데 MEDLINE MeSH, MeSH on Demand, 그리고 KoreaMed MeSH Indexer의 "Stomach Neoplasms" 색인어 추출여부와 검색용 필터로 어휘군을 적용했을 때, 그리고 동시출현 용어의 단어인접검색 기법을 적용했을 때 "Stomach Neoplasms"의 매칭여부를 비교하였다. 가장 출현빈도가 높은 용어는 "Gastric Cancer"로 2,780회 출현하였다. "Gastric Adenocarcinoma", "Gastric MALT Lymphoma" 등과 같이 "Stomach" 용어와 "Neoplasms" 관련 조직학적 용어가 조합된 경우는 7,376개(88.51%)였다. 동시출현 거리가 2단어인 용어는 "Stomach"와 "Neoplasms"의 합성어로 5,234개(70.95%)였다. 연구 결과 MeSH용어를 제외하고 973개의 용어를 후보어휘군으로 선정하였다. MEDLINE MeSH와 KoreaMed MeSH Indexer의 MeSH 매칭률은 209편(75.5%)이었는데 검색필터를 적용한 결과 263편(94.9%)으로, 동시출현 용어의 13단어 단어인접탐색 기법을 적용한 경우 268편(96.7%)으로 매칭률이 향상되었다. 본 연구를 통해 자연어 검색에 있어서 검색효율을 향상시키는 수단으로 검색용 시소러스를 사용하면 색인비용에 대한 부담이 적고, 통제어의 망라적 장점과 자연어가 가지는 용어의 특정성을 유지할 수 있음을 증명하였다. 또한 불리안 검색보다는 단어인접탐색 기법을 활용하면 정확률을 높일 수 있어 검색 효율성이 향상됨을 알 수 있었다.

A Bibliometric Approach for Department-Level Disciplinary Analysis and Science Mapping of Research Output Using Multiple Classification Schemes

  • Gautam, Pitambar
    • Journal of Contemporary Eastern Asia
    • /
    • 제18권1호
    • /
    • pp.7-29
    • /
    • 2019
  • This study describes an approach for comparative bibliometric analysis of scientific publications related to (i) individual or several departments comprising a university, and (ii) broader integrated subject areas using multiple disciplinary schemes. It uses a custom dataset of scientific publications (ca. 15,000 articles and reviews, published during 2009-2013, and recorded in the Web of Science Core Collections) with author affiliations to the research departments, dedicated to science, technology, engineering, mathematics, and medicine (STEMM), of a comprehensive university. The dataset was subjected, at first, to the department level and discipline level analyses using the newly available KAKEN-L3 classification (based on MEXT/JSPS Grants-in-Aid system), hierarchical clustering, correspondence analysis to decipher the major departmental and disciplinary clusters, and visualization of the department-discipline relationships using two-dimensional stacked bar diagrams. The next step involved the creation of subsets covering integrated subject areas and a comparative analysis of departmental contributions to a specific area (medical, health and life science) using several disciplinary schemes: Essential Science Indicators (ESI) 22 research fields, SCOPUS 27 subject areas, OECD Frascati 38 subordinate research fields, and KAKEN-L3 66 subject categories. To illustrate the effective use of the science mapping techniques, the same subset for medical, health and life science area was subjected to network analyses for co-occurrences of keywords, bibliographic coupling of the publication sources, and co-citation of sources in the reference lists. The science mapping approach demonstrates the ways to extract information on the prolific research themes, the most frequently used journals for publishing research findings, and the knowledge base underlying the research activities covered by the publications concerned.

비정형화된 문서간 추적성 분석 및 그 가시화 방안 제시 (A Study on the Methodology of Traceability Analysis and Visualization between Non-standardized documents)

  • 김은희;송덕용;황진상;정재천
    • 시스템엔지니어링학술지
    • /
    • 제10권1호
    • /
    • pp.57-64
    • /
    • 2014
  • We propose a methodology to automatically extract the requirements from the documents and check the traceability between them. The documents include not only the text file but also PDF or image files. We also suggest a method to visualize the result with maps, numbers, and graphs. By comparing the results with those of expert reviews, we show that it is necessary to use knowledge-based method in future instead of the word-based method for improving the reliability. The results give more values when they are applied in already existing documents than those of newly developed product.

텍스트 마이닝을 이용한 매체별 에볼라 주제 분석 - 바이오 분야 연구논문과 뉴스 텍스트 데이터를 이용하여 - (Text Mining Driven Content Analysis of Ebola on News Media and Scientific Publications)

  • 안주영;안규빈;송민
    • 한국문헌정보학회지
    • /
    • 제50권2호
    • /
    • pp.289-307
    • /
    • 2016
  • 에볼라 바이러스(Ebola virus disease)와 같은 전염병들은 사회적으로 큰 이슈가 되어 언론의 관심을 받으며 동시에 많은 연구의 대상이 되기도 한다. 이에 따라 국내외로 전염병과 관련된 텍스트 마이닝 연구가 활발하게 진행되고 있으나, 텍스트 마이닝 기법을 사용하여 상이한 특성을 가진 매체 간 주제를 분석한 연구는 아직까지 진행되지 않고 있다. 따라서 본 연구에서는 전염병 중 하나인 에볼라를 키워드로 하여 사회적 특성을 지닌 뉴스 기사와 바이오 분야의 전문적 특성을 지닌 연구 논문 간의 주제 분석을 진행하였다. 텍스트 분석에는 매체별 문헌 데이터로부터 다양한 토픽들을 추출하기 위해 토픽모델링 기법을 적용하였고, 매체 간의 구체적인 내용 분석을 위해 중요 개체를 선정하고 이를 중심으로 동시출현 단어 네트워크 분석을 수행하였다. 또한 각 매체별로 등장하는 주제를 시각적으로 표현하기 위해 토픽맵을 구축하였다. 분석 결과, 두 매체에서 다루는 주제의 차이점과 공통점을 발견할 수 있었으며 동시 출현 주제의 시계열 분석을 통해 매체 간 특성의 차이를 찾을 수 있었다. 본 연구를 통해 상이한 특성을 지닌 매체들의 주제와 개체들을 함께 제시하고, 매체 간의 공통점과 차이점을 보여줌으로써 매체별 정보 생산자들이 연구 및 현상 분석을 진행하는 데 있어 관점의 다양성을 제공할 수 있을 것이다.

저자명 모호성 해결을 위한 개념망 기반 카테고리 유틸리티 (WordNet-Based Category Utility Approach for Author Name Disambiguation)

  • 김제민;박영택
    • 정보처리학회논문지B
    • /
    • 제16B권3호
    • /
    • pp.225-232
    • /
    • 2009
  • 동명이인의 저자를 구분하는 것은 웹에서 문서 색인과 검색의 성능을 향상시킨다. 동명이인의 저자 구분은 웹사이트 상에서 같은 이름을 갖는 여러 명의 사람이 존재했을 때 야기되는 여러 가지 문제점을 해결한다. 본 논문은 동명이인의 저자 구분을 위해 개념망 기반의 카테고리 유틸리티를 제안한다. 따라서 본 논문에서는 학술회의 웹 사이트를 대상으로 제안하고자 하는 방법을 설명한다. 제안된 방법은 저자가 가지고 있는 다양한 속성(제목, 요약, 공동저자, 소속)을 반영한 저자 온톨로지와 개념망을 활용한다. 저자 온톨로지는 OWL API와 휴리스틱한 방법을 사용하여 반자동으로 구축 되었다. 저자명 모호성 해결은 개념망 기반 카테고리 유틸리티를 사용하여 저자 온톨로지 내에 존재하는 동명이인 저자(Candidate Authors)들로부터 해당 논문에 관련된 정확한 저자를 결정한다. 카테고리 유틸리티는 각각의 저자간의 intra-class 유사성 와 inter-class 비유사성을 기본적인 개념으로 하는 평가 함수다. 이에 비해 개념망 기반 카테고리 유틸리티는 모호성 해결을 위해 개념망이 갖는 개념 정보를 추가로 활용한다. 실험 결과를 분석한 결과 개념망 기반 카테고리 유틸리티가 일반적인 카테고리 유틸리티에 비교해서, 저자명 모호성 해결에 있어서 10% 정도 우수한 성능을 보였으며, 전체적으로 98%의 정확도를 보였다.

Maximum Likelihood-based Automatic Lexicon Generation for AI Assistant-based Interaction with Mobile Devices

  • Lee, Donghyun;Park, Jae-Hyun;Kim, Kwang-Ho;Park, Jeong-Sik;Kim, Ji-Hwan;Jang, Gil-Jin;Park, Unsang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권9호
    • /
    • pp.4264-4279
    • /
    • 2017
  • In this paper, maximum likelihood-based automatic lexicon generation using mixed-syllables is proposed for unlimited vocabulary voice interface for East Asian languages (e.g. Korean, Chinese and Japanese) in AI-assistant based interaction with mobile devices. The conventional lexicon has two inevitable problems: 1) a tedious repetition of out-of-lexicon unit additions to the lexicon, and 2) the propagation of errors during a morpheme analysis and space segmentation. The proposed method provides an automatic framework to solve the above problems. The proposed method produces a level of overall accuracy similar to one of previous methods in the presence of one out-of-lexicon word in a sentence, but the proposed method provides superior results with the absolute improvements of 1.62%, 5.58%, and 10.09% in terms of word accuracy when the number of out-of-lexicon words in a sentence was two, three and four, respectively.

우수 아파트단지 취재기사에서의 관리상의 논점 - 탐방기사를 이용한 언어통계학적 내용분석 - (Issues on Articles Covering Outstanding Management of Apartment Complexes - Content Analysis of Newspaper Reports with Lexical Statistics -)

  • 최정민;강순주
    • 한국주거학회논문집
    • /
    • 제17권4호
    • /
    • pp.131-143
    • /
    • 2006
  • Nowadays, diverse mass media discovers and introduces outstanding management cases of apartment complexes to induce vital competitions of constructors and active participation of residents to apartment management. This study statistically analyzed the management issues of outstanding apartment complexes that have been introduced by mass media with lexical criteria to examine the characteristics of their exemplary management. The key issues of outstanding apartment management are summarized as: efficient management of convenient facilities for residents, community activities based on residents' participation, and maintenance of pleasant living environments through transparent management. Also, the result of the relation arrangement of co-occurrence word from a Social Network Analysis included three key concepts of multi-family housing management - Maintenance Management, Operating Management, and Community Life Management - with emphasis on 'residents' and 'apartment complexes.' However, Operating Management was relatively deemphasized.

창업 온톨로지 구축을 위한 벤처창업 연구의 지식구조 분석 (An Analysis of the Intellectual Structure of Venture-Creation Studies to build an Entrepreneurship Ontology)

  • 심재후;최명길
    • 지식경영연구
    • /
    • 제14권4호
    • /
    • pp.75-86
    • /
    • 2013
  • The deeping interests and research toward Entrepreneurship, which is considered as an potential alternative for solving the continuing economic recession in the $21^{st}$ century, have grown. The process and methodology of the research could not be systematically arranged and the results of the research lack in efforts on the application of increasing suceess ratio in starting new business. This study adopted corpus methodology, through which we try to analyzes the knowledge structure in entrepreneurship research, derive essential concepts and the consisting domains in venture research. Based on the results of analysis, this study constructs the knowledge structure of venture research in a form of knowledge ontology. The results of the study could be a ground for entrepreneurship research and utilized as implication for a creation of construction for the entrepreneurship knowledge ontology.

  • PDF

소셜 빅 데이터분석을 통한 해양스포츠 현황 분석 : 소셜매트릭스TM 기법의 활용 (An Analysis of the Current State of Marine Sports through the Analysis of Social Big Data: Use of the Social MaxtixTM Method)

  • 박태승
    • 수산해양교육연구
    • /
    • 제29권2호
    • /
    • pp.593-606
    • /
    • 2017
  • This study aims to provide preliminary data capable of suggesting directivity of an initiating start by understanding consumer awareness through analysis of SNS social big data on marine sports. This study selected windsurfing, yacht, jet ski, scuba diving and sea fishing as research subjects, and produced following results by setting period of total 1 month from January 22 through February 22, 2017 on the SNS (twitter, blog) through the Social MatrixTM service of Daumsoft Co., Ltd., and analyzing frequency of mention, associated words etc. First, sports that was mentioned the most out of marine sports was yacht, which was 3,273 cases on twitter and 2,199 on blog respectively. Second, the word which was shown the most associated with marine sports was the attribute showing unique characteristic of marine sports, which was 6,261 cases in total.

웹 환경에서 100 논문에 대한 텍스트 마이닝, 데이터 분석과 시각화 (100 Article Paper Text Minning Data Analysis and Visualization in Web Environment)

  • 이효맹;이가베;이현창;신성윤
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 추계학술대회
    • /
    • pp.157-158
    • /
    • 2017
  • There is a method to analyze the big data of the article and text mining by using Python language. And Python is a kind of programming language and it is easy to operating. Reaserch and use Python to creat a Web environment that the research result of the analysis can show directly on the browser. In this thesis, there are 100 article paper frrom Altmetric, Altmetric tracks a range of sources to capture. It is necessary to collect and analyze the big data use an effictive method, After the result coming out, Use Python wordcloud to make a directive image that can show the highest frequency of words.

  • PDF