• 제목/요약/키워드: Document Frequency

검색결과 303건 처리시간 0.023초

질의응답 시스템에서 처음 보는 단어의 역문헌빈도 기반 단어 임베딩 기법 (Inverse Document Frequency-Based Word Embedding of Unseen Words for Question Answering Systems)

  • 이우인;송광호;심규석
    • 정보과학회 논문지
    • /
    • 제43권8호
    • /
    • pp.902-909
    • /
    • 2016
  • 질의응답 시스템은 사용자의 질문에 대한 답을 찾아주는 시스템으로, 기존의 검색엔진이 사용자의 질의에 대해 관련된 문서의 링크만을 찾아주는 반면 질문에 대한 최종적인 답을 찾아준다는 차이점이 있다. 특정 분야에 국한되지 않고 다양한 질문을 처리해주는 오픈 도메인 질의응답 시스템에 필요한 연구들이 최근 자연어 처리, 인공지능, 데이터 마이닝 등 학계의 다양한 분야들에서 뜨거운 관심을 받고 있다. 하지만 관련 연구에서는 학습 데이터에는 없었던 단어들이 질문에 대한 정확한 답과 유사한 오답을 구별해내는데 결정적인 역할을 할 수 있음에도, 이러한 처음 보는 단어들을 모두 단일 토큰으로 치환해버리는 문제가 있다. 본 논문에서는 문맥 정보를 통해 이러한 모르는 단어에 대한 벡터를 계산하는 방법을 제안한다. 그리고 역문헌빈도 가중치를 활용하여 문맥정보를 더 효율적으로 처리하는 모델을 제안한다. 또한 풍부한 실험을 통해 질의응답 시스템의 모델 학습 속도 및 정확성이 기존 연구에 비해 향상됨을 확인하였다.

인용 네트워크 분석에 근거한 문헌 인용 지수 연구 (A Study on Document Citation Indicators Based on Citation Network Analysis)

  • 이재윤
    • 한국문헌정보학회지
    • /
    • 제45권2호
    • /
    • pp.119-143
    • /
    • 2011
  • 이 연구는 최근 발표된 단일 문헌에 대한 인용 영향력을 측정하는 여러 인용 지수에 대해서 각 지수의 특성과 지수 간 관계를 살펴보는 것을 목적으로 한다. 분석 대상 인용 지수로는 페이지랭크, SCEAS Rank, CCI, f-값, 단일 논문 h-지수의 다섯 가지와 h-지수를 변형한 세 가지 지수를 더하여 8가지를 포함하였다. 우선 단일 문헌에 대한 인용 영향력을 측정하는 다섯 가지 인용지수에 대해서 살펴보고 단일문헌 h-지수를 변형한 단일문헌 $h_S$-지수, h1-지수, $h_S$1-지수의 세 가지를 추가로 제안하였다. 각 인용 지수의 특성을 파악하기 위해서 국내 인용 데이터베이스인 KSCI 데이터베이스를 대상으로 실제 네트워크 인용 지수를 측정해보았다. 상관관계 분석과 군집분석을 수행하여 8가지 인용 지수 사이의 관계를 분석한 결과, 유사한 측정 행태를 보이는 인용 지수 군을 파악할 수 있었다. 또한 인용빈도 요인과 각 인용 지수 간의 상관관계 분석을 통해서 각 지수의 특성을 설명하였다. 마지막으로 인용 지수의 적용을 위한 고려사항과 후속 연구 방향을 제안하였다.

지식 문서에서 도메인 온톨로지를 이용한 개념 추출 기법 (Concept Extraction Technique from Documents Using Domain Ontology)

  • 문현정;우용태
    • 정보처리학회논문지D
    • /
    • 제13D권3호
    • /
    • pp.309-316
    • /
    • 2006
  • 본 논문에서는 도메인 온톨로지를 이용하여 XML 형식의 지식 문서를 분류하고 대표 개념을 효과적으로 추출하기 위한 기법을 제시하였다. 먼저, 도메인 온톨로지는 텍스트마이닝 기법과 통계적 기법을 이용하여 생성하였다. 이를 위해 XML 문서의 구조적인 특징을 이용하여 도메인 대표용어 집합을 구성하였다. 그리고 XML 문서를 효과적으로 분류하기 위한 DScore 기법과 지식 문서로부터 개념을 추출하기 위한 TScore 기법을 제시하였다. 본 논문에서 제안한 기법의 효율성을 검증하기 위하여 295편의 컴퓨터 관련 논문을 대상으로 실험하였다. 실험 결과, 본 연구에서 제안한 도메인 대표 용어 집합을 이용한 분류 결과가 기존의 방법보다 우수한 성능을 보였다. 특히 TScore기법에서는 문서에서 출현한 용어의 빈도수는 낮더라도 문서의 개념을 대표할 수 있는 용어를 효과적으로 추출할 수 있음을 보였다. 본 연구는 개념 기반의 검색 기법을 통하여 대량의 지식 문서를 효과적으로 관리하기 위한 지식 관리 모델에 적용할 수 있다.

향상된 TextRank 알고리즘을 이용한 자동 회의록 생성 시스템 (Automatic Meeting Summary System using Enhanced TextRank Algorithm)

  • 배영준;장호택;홍태원;이해연
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권5호
    • /
    • pp.467-474
    • /
    • 2018
  • 다양한 업무 수행에 있어서 회의나 토론 등의 내용을 정리하여 문서화하는 것의 중요성은 매우 높다. 그러나 기존에는 사람이 직접 내용에 대한 정리를 수작업으로 수행하였다. 본 논문에서는 TextRank 알고리즘을 이용하여 자동으로 회의록을 생성하는 시스템의 개발에 대하여 설명한다. 제안한 시스템은 발언자의 모든 발언 내용을 실시간으로 기록하고, 문장들을 출현 빈도수에 기초하여 유사도를 계산한 후, 문서 데이터 안에서 문장들 간의 관계를 찾아내는 비지도 학습 알고리즘을 통해 중요 단어 혹은 문장을 추출함으로서 자동으로 회의록을 생성하도록 하였다. 특히, PageRank 알고리즘을 단어와 문장에 적합하도록 재구성한 TextRank 알고리즘에 대하여 핵심어의 가중치 조정 기법을 도입함으로서 성능 향상을 모색하였다.

선박예지정비모델 개발을 위한 LNG 선박 도크 수리 항목의 텍스트 분석 연구 (Study on Text Analysis of the Liquefied Natural Gas Carriers Dock Specification for Development of the Ship Predictive Maintenance Model)

  • 황태민;윤익현;오정모
    • 해양환경안전학회지
    • /
    • 제27권1호
    • /
    • pp.60-66
    • /
    • 2021
  • 다양한 산업에서 강조되고 있는 정비의 중요성은 각 분야에 다양한 정비전략을 적용하도록 만들었다. 해양산업 역시 그에 따른 정비전략의 변화가 있었으나 타 산업 대비 그 속도가 느려 실제 적용이 되지 않은 채 과거 시행되고 있던 방식을 유지하는 경우가 많다. 특히 선박은 기존에 행해왔던 방식의 정비전략을 사용하고 있는 편이며 해상의 조건에서 선박은 새로운 정비전략의 개발을 필요로 하고있다. 이에 선박예지정비모델은 기기의 정비가 필요한 시점을 예지하여 조치 할 수 있는 정비전략으로서 선박이 항해 중에 처할 수 있는 정비 관련 위험요소들을 줄여 주는 모델이다. 본 연구는 선박예지정비모델의 개발을 위한 연구 중의 하나로서, LNG선박 입거사양서의 텍스트 데이터 분석을 통한 결과를 원문의 내용을 바탕으로 해석해보았다. 공통된 정비항목 조합을 도출하여 선박 내 다른 기기들 사이에 작용하고 있는 상호연관성을 발견하고 이를 앞으로 개발될 선박예지정비모델에 적용하고자 한다.

How Well Do U.S. Primary Care and Obstetrics and Gynecology Clinicians Screen for Pregnancy Complications at Well Woman Visits? A Retrospective Cohort Study

  • Eli D. Medvescek;Sorana Raiciulescu;Andrew S. Thagard;Katerina Shvartsman
    • Journal of Preventive Medicine and Public Health
    • /
    • 제56권2호
    • /
    • pp.190-195
    • /
    • 2023
  • Objectives: Pregnancy complications, including pre-eclampsia, gestational diabetes (GDM), and perinatal mood and anxiety disorders (PMADs), impact long-term health. We compared the frequency of screening documentation for pregnancy complications versus a general medical history at well woman visits between providers in primary care and obstetrics and gynecology. Methods: We conducted a retrospective cohort study of subjects with at least 1 prior birth who presented for a well woman visit in 2019-2020. Charts were reviewed for documentation of a general medical history (hypertension, diabetes, and mood disorders) versus screening for comparable obstetric complications (pre-eclampsia, GDM, and PMADs). The results were compared using the McNemar and chi-square tests as appropriate. Results: In total, 472 encounters were identified, and 137 met the inclusion criteria. Across specialties, clinicians were significantly more likely to document general medical conditions than pregnancy complications, including hypertensive disorders (odds ratio [OR], 2.45; 95% confidence interval [CI], 1.18 to 5.48), diabetes (OR, 7.67; 95% CI, 3.27 to 22.0), and mood disorders (OR, 10.5; 95% CI, 3.81 to 40.3). Obstetrics and gynecology providers were more likely to document any pregnancy history (OR, 4.50; 95% CI, 1.24 to 16.27); however, they were not significantly more likely to screen for relevant obstetric complications (OR, 2.49; 95% CI, 0.90 to 6.89). Overall, the rate of pregnancy complication documentation was low in primary care and obstetrics and gynecology clinics (8.8 and 19.0%, respectively). Conclusions: Obstetrics and gynecology providers more frequently documented a pregnancy history than those in primary care; however, the rate was low across specialties, and providers reported screening for clinically relevant complications less frequently than for general medical conditions.

계층적 군집분석(hierarchical clustering)을 통한 침구자생경(鍼灸資生經) 경혈 선택 요인 분석 (Deduction of Acupoints Selecting Elements on Zhenjiuzishengjing using hierarchical clustering)

  • 오준호
    • 혜화의학회지
    • /
    • 제23권1호
    • /
    • pp.115-124
    • /
    • 2014
  • Objectives : There are plenty of medical record of acupuncture & moxibustion in Traditional East Asian medicine(TEAM). We performed this study to find out the hidden criteria lies on this record to choose proper acupoints. Methods : "Zhenjiuzishengjing", ancient TEAM book was analysed using document clustering techniques. Corpus was made from this book. It contained 196 texts driven from each symptoms. Each texts converted to vector representing frequency of 349 acupoints. Distance of vectors calculated by weighted Euclidean distance method. According to this distances, hierarchical clustering of symptoms was builded. Results : The cluster consisted of five large groups. they had high corelation with body part; head and face, chest, abdomen, upper extremity, lower extremity, back. Conclusions : It assumes that body part of symptom is the most importance criteria of acupoints selecting. some high similar symptom vectors consolidated this result. the other criteria is cause and pathway of illness. some symptoms bound together which had common cause and pathway.

Definition Sentences Recognition Based on Definition Centroid

  • 김권양
    • 한국지능시스템학회논문지
    • /
    • 제17권6호
    • /
    • pp.813-818
    • /
    • 2007
  • This paper is concerned with the problem of recognizing definition sentences. Given a definition question like "Who is the person X?", we are to retrieve the definition sentences which capture descriptive information correspond variously to a person's age, occupation, of some role a person played in an event from the collection of news articles. In order to retrieve as many relevant sentences for the definition question as possible, we adopt a centroid based statistical approach which has been applied in summarization of multiple documents. To improve the precision and recall performance, the weight measure of centroid words is supplemented by using external knowledge resource such as Wikipedia and redundant candidate sentences are removed from candidate definitions. We see some improvements obtained by our approach over the baseline for 20 IT persons who have high document frequency.

소규모 사업장에 대한 안전 T-점수를 이용한 업종별 상해발생률의 분석에 관한 연구 (A Study of Analysis on Variation of the Rate of Injury according to the Job Type Using Safe-T-Score on the Small Sized Companies)

  • 임영문;최요한
    • 한국안전학회지
    • /
    • 제14권4호
    • /
    • pp.176-181
    • /
    • 1999
  • The objective of this study is to compare and analyze the industrial injury-values of all the industries through yearly accident rate and frequency rate based on the governmental documentation of industrial injuries. The samples for this study are chosen from the companies with less than 200 employees under charge of the Kangnung Ministry of Labor during the period of 1995-97. Safe-T-Score is used for statistic control on the qualitative comparison of the present and the past industrial injury-rates. In the comparison of the past and the present industrial injury-rate by means of Safe-T-Score, this study shows that there does not exist any remarkable improvement, whereas the document of the Ministry of labor reports that the rate is decreasing greatly. Therefore, this study proposes some solutions to reduce industrial disasters and points out the necessity of more practical and effective methods to analyze the industrial disaster.

  • PDF

A Study on Comparative Analysis of Maritime Security Programs - Focussed on TWIC

  • Yoon, Dae-Gwun
    • 한국항해항만학회지
    • /
    • 제33권4호
    • /
    • pp.283-288
    • /
    • 2009
  • To improve maritime security and enhance international shipping commerce within US ports in addition to ISPS (International Ship and Port Facility Security Code), the TWIC (Transportation Worker Identification Credential) program is working on the maritime field from the October 15, 2008 in the United States. In this paper, the program is reviewed and investigated in terms of goal, benefit, solution, and related legislation so forth In addition, other maritime security programs including MMD (Merchant Mariner Document), FAST (Free and Secure Trade), SIDA (Security Identification Display Areas). and Air Cargo security program was analyzed and compared in order to obtain relationship and difference with the program in terms of enrollment frequency, list and method of security check, and profile of each program As a result of this paper, the program is mostly to improve maritime security, protect individual privacy, and enhance commerce rather than other programs.