• Title/Summary/Keyword: 단어 관련성 추정

Search Result 12, Processing Time 0.021 seconds

Summarization Based Multi-news Title Extraction Using Term Relevance Estimation and Byte Pair Encoding (단어 관련성 추정과 바이트 페어 인코딩(Byte Pair Encoding)을 이용한 요약 기반 다중 뉴스 기사 제목 추출)

  • Yu, Hongyeon;Lee, Seungwoo;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.115-119
    • /
    • 2018
  • 다중 문서 제목 추출은 하나의 주제를 가지는 다중 문서에 대한 제목을 추출하는 것을 말한다. 일반적으로 다중 문서 제목 추출에서는 다중 문서 집합을 단일 문서로 본 다음 키워드를 제목 후보군으로 추출하고, 추출된 후보를 나열하는 형식의 연구가 많이 진행되어져 왔다. 하지만 이러한 방법은 크게 두 가지의 한계점을 가지고 있다. 먼저, 다중 문서를 단순히 하나의 문서로 보는 방법은 전체적인 주제를 반영한 제목을 추출하기 어렵다는 문제점이 있다. 다음으로, 키워드를 조합하는 형식의 방법은 키워드의 단위를 찾는 방법에 따라 추출된 제목이 자연스럽지 못하다는 한계점이 있다. 따라서 본 논문에서는 이 한계점들을 보완하기 위하여 단어 관련성 추정과 Byte Pair Encoding을 이용한 요약 기반의 다중 뉴스 기사 제목 추출 방법을 제안한다. 평가를 위해서는 자동으로 군집된 총 12개의 주제에 대한 다중 뉴스 기사 집합을 사용하였으며 전문 교육을 받은 연구원들이 정성평가를 진행하여 5점 만점 기준 평균 3.68점을 얻었다.

  • PDF

Method of Document Retrieval Using Word Embeddings and Disease-Centered Document Clusters (단어 의미 표현과 질병 중심 의학 문서 클러스터 기반 의학 문서 검색 기법)

  • Jo, Seung-Hyeon;Lee, Kyung-Soon
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.51-55
    • /
    • 2016
  • 본 논문에서는 임상 의사 결정 지원을 위한 UMLS와 위키피디아를 이용하여 지식 정보를 추출하고 질병중심 문서 클러스터와 단어 의미 표현을 이용하여 질의 확장 및 문서를 재순위화하는 방법을 제안한다. 질의로는 해당 환자가 겪고 있는 증상들이 주어진다. UMLS와 위키피디아를 사용하여 병명과 병과 관련된 증상, 검사 방법, 치료 방법 정보를 추출하고 의학 인과 관계를 구축한다. 또한, 위키피디아에 나타나는 의학 용어들에 대하여 단어의 효율적인 의미 추정 기법을 이용하여 질병 어휘의 의미 표현 벡터를 구축하고 임상 인과 관계를 이용하여 질병 중심 문서 클러스터를 구축한다. 추출한 의학 정보를 이용하여 질의와 관련된 병명을 추출한다. 이후 질의와 관련된 병명과 단어 의미 표현을 이용하여 확장 질의를 선택한다. 또한, 질병 중심 문서 클러스터를 이용하여 문서 재순위화를 진행한다. 제안 방법의 유효성을 검증하기 위해 TREC Clinical Decision Support(CDS) 2014, 2015 테스트 컬렉션에 대해 비교 평가한다.

  • PDF

A probabilistic information retrieval model by document ranking using term dependencies (용어간 종속성을 이용한 문서 순위 매기기에 의한 확률적 정보 검색)

  • You, Hyun-Jo;Lee, Jung-Jin
    • The Korean Journal of Applied Statistics
    • /
    • v.32 no.5
    • /
    • pp.763-782
    • /
    • 2019
  • This paper proposes a probabilistic document ranking model incorporating term dependencies. Document ranking is a fundamental information retrieval task. The task is to sort documents in a collection according to the relevance to the user query (Qin et al., Information Retrieval Journal, 13, 346-374, 2010). A probabilistic model is a model for computing the conditional probability of the relevance of each document given query. Most of the widely used models assume the term independence because it is challenging to compute the joint probabilities of multiple terms. Words in natural language texts are obviously highly correlated. In this paper, we assume a multinomial distribution model to calculate the relevance probability of a document by considering the dependency structure of words, and propose an information retrieval model to rank a document by estimating the probability with the maximum entropy method. The results of the ranking simulation experiment in various multinomial situations show better retrieval results than a model that assumes the independence of words. The results of document ranking experiments using real-world datasets LETOR OHSUMED also show better retrieval results.

Method of Document Retrieval Using Word Embeddings and Disease-Centered Document Clusters (단어 의미 표현과 질병 중심 의학 문서 클러스터 기반 의학 문서 검색 기법)

  • Jo, Seung-Hyeon;Lee, Kyung-Soon
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.51-55
    • /
    • 2016
  • 본 논문에서는 임상 의사 결정 지원을 위한 UMLS와 위키피디아를 이용하여 지식 정보를 추출하고 질병 중심 문서 클러스터와 단어 의미 표현을 이용하여 질의 확장 및 문서를 재순위화하는 방법을 제안한다. 질의로는 해당 환자가 겪고 있는 증상들이 주어진다. UMLS와 위키피디아를 사용하여 병명과 병과 관련된 증상, 검사 방법, 치료 방법 정보를 추출하고 의학 인과 관계를 구축한다. 또한, 위키피디아에 나타나는 의학 용어들에 대하여 단어의 효율적인 의미 추정 기법을 이용하여 질병 어휘의 의미 표현 벡터를 구축하고 임상 인과 관계를 이용하여 질병 중심 문서 클러스터를 구축한다. 추출한 의학 정보를 이용하여 질의와 관련된 병명을 추출한다. 이후 질의와 관련된 병명과 단어 의미 표현을 이용하여 확장 질의를 선택한다. 또한, 질병 중심 문서 클러스터를 이용하여 문서 재순위화를 진행한다. 제안 방법의 유효성을 검증하기 위해 TREC Clinical Decision Support(CDS) 2014, 2015 테스트 컬렉션에 대해 비교 평가한다.

  • PDF

Improving Multinomial Naive Bayes Text Classifier (다항시행접근 단순 베이지안 문서분류기의 개선)

  • 김상범;임해창
    • Journal of KIISE:Software and Applications
    • /
    • v.30 no.3_4
    • /
    • pp.259-267
    • /
    • 2003
  • Though naive Bayes text classifiers are widely used because of its simplicity, the techniques for improving performances of these classifiers have been rarely studied. In this paper, we propose and evaluate some general and effective techniques for improving performance of the naive Bayes text classifier. We suggest document model based parameter estimation and document length normalization to alleviate the Problems in the traditional multinomial approach for text classification. In addition, Mutual-Information-weighted naive Bayes text classifier is proposed to increase the effect of highly informative words. Our techniques are evaluated on the Reuters21578 and 20 Newsgroups collections, and significant improvements are obtained over the existing multinomial naive Bayes approach.

The Conceptions of Astronomical Distance of Elementary School Teachers (초등학교 교사들의 천문학적 거리에 대한 개념 연구)

  • Jeong, Jin-Woo;Han, Shin
    • Journal of the Korean earth science society
    • /
    • v.31 no.7
    • /
    • pp.827-838
    • /
    • 2010
  • The purpose of this study is to identify the conceptions of elementary school teachers regarding the variation scale about astronomical distance and its accuracy with distance increased. The astronomical distance questionnaire was administered to 69 elementary school teachers, then; three teachers were selected to interview about their conceptions. Results showed that many elementary school teachers overestimated the distance from the Earth to the Moon and to the Sun, and dramatically underestimated the distances to the nearest star and to the nearest galaxy. They inferred astronomical distance with the use of both intuitive (psychological) measure and theoretical (calculative) measure. They well recited the terminology such as AU and a light-year, yet they did not show a good understanding of what the terms exactly means. Some teachers thought that the distance to Neptune is farther than the distance from Earth to the nearest star. There was a considerable variability in the participants' estimates of astronomical distances. Elementary school teachers showed a tendency to overestimate the distance as it gradually increases to the outer solar system.

Investigating the Impact of Corporate Social Responsibility on Firm's Short- and Long-Term Performance with Online Text Analytics (온라인 텍스트 분석을 통해 추정한 기업의 사회적책임 성과가 기업의 단기적 장기적 성과에 미치는 영향 분석)

  • Lee, Heesung;Jin, Yunseon;Kwon, Ohbyung
    • Journal of Intelligence and Information Systems
    • /
    • v.22 no.2
    • /
    • pp.13-31
    • /
    • 2016
  • Despite expectations of short- or long-term positive effects of corporate social responsibility (CSR) on firm performance, the results of existing research into this relationship are inconsistent partly due to lack of clarity about subordinate CSR concepts. In this study, keywords related to CSR concepts are extracted from atypical sources, such as newspapers, using text mining techniques to examine the relationship between CSR and firm performance. The analysis is based on data from the New York Times, a major news publication, and Google Scholar. We used text analytics to process unstructured data collected from open online documents to explore the effects of CSR on short- and long-term firm performance. The results suggest that the CSR index computed using the proposed text - online media - analytics predicts long-term performance very well compared to short-term performance in the absence of any internal firm reports or CSR institute reports. Our study demonstrates the text analytics are useful for evaluating CSR performance with respect to convenience and cost effectiveness.

Study on the Compared between u-Learning and e-Learning based SCORM (SCORM 기반 u-Learning과 e-Learning 비교연구)

  • Choi, Sung;Ryu, Gab-Sang
    • Proceedings of the Korea Society of Information Technology Applications Conference
    • /
    • 2006.06a
    • /
    • pp.495-505
    • /
    • 2006
  • IT기술기반 교육시스템은 인터넷 등장 이전에도 가능성을 인정받아 지속적으로 개발되어 온 분야이며, 교육공학과의 연계로 지식 전날의 이론체계로 각광을 받고 있다. 사이버교유도 인터넷이전부터 다양한 통신방법을 응용하여 개발되었고, 최근 인터넷을 통하여 사이버 교육시스템은 완벽한 기술기반을 갖추게 되였다. 그러나 IT기술의 급격한 변화로 사이버교육시스템은 계속하여 신기술 변화에 적용해야만 한다. 현재 정보통신기술의 변화는 방송 통신망의 융합, 브로드 밴드 네트워킹, 스마트 디바이스의 다양화, 멀티미디어 기술의 고도화로 요약된다. 이 기술의 종합한 작용으로 유비쿼터스 사회의 기반으로 진화되고 있다. 그래서 e-Learning 분야도 기존 인터넷기반 시스템과는 달리 차세대 온라인교육시스템으로 친화되고 있다. IT융합가술 기반의 온라인 교육시스템은 각종 국제표준단체에서 표준안이 제시되고 있다. e-Learning 시스템이란 선기술 기반을 반영한 표준기술을 사용하는 온라인교육시스템을 포괄하는 개념이다. 본 연구에서는 e-Learning 시스템과 유비쿼터스 기술을 반영한 e-Learning을 비교하였다. 그리고 u-Learning 시스템의 기술정립과 EOD(Education On Demand) 시스템에 대하여 연구하였다. 1. u-Learning 정의 정보산업분야를 비롯한 문화, 교육 등 모든 분야에서 유비퀴터스라는 수식어가 붙어 다니고 있다. e- Learning 교육 업계에 따르면 10년 후에는 유비쿼터스는 대중화가 될 것이며, 부가가치 규모는 100조 원에 이를 것으로 추정된다. 그래서 교육산업도 주변 환경이 아날로그 방식에서 IT 기반에 의한 디지털 환경으로 변화되고 있다. 또한 e러닝, T러닝, m러닝, u러닝 등의 용어가 생성되고 있다.키지에어컨에서 사용되고 있는 밀폐형 압축기에 대해서 그림 2에서 나타내고 있는 냉방능력 10tons(120,000Btu/h) 이하를 중심으로 상기의 최근 기술 동향을 간략하게 소개하고자 한다.질표준의 지표성분으로 간주되는 진세노사이드의 절대함량과 그 성분조성 차이에 따른 임상효과의 차별성이 있는지에 대한 검토와, 특히 최근 실험적으로 밝혀지고 있는 사포닌 성분의 장내 세균에 의한 생물전환체의 인체 실험을 통한 효과 검정이 필요하다. 나아가서는 적정 복용량의 설정과 이와 관련되는 생체내 동태 및 생체이용율(bioavilability)에 관한 정보가 거의 없으므로 이것도 금후 검토해야 할 과제로 사료된다. 인삼은 전통약물로서 오랜 역사성과 그동안의 연구결과에 의한 과학성을 가지고 있으므로 건강유지와 병의 예방 및 회복촉진을 위한 보조요법제 또는 기능성 식품으로써의 유용성이 있는 것으로 판단된다. 앞으로 인삼의 활용성 증대를 위해서는 보다 과학적인 임상평가에 의한 안전성 및 유효성 입증과 제품의 엄격한 품질관리의 필요성이 더욱 강조되어야 할 것이다.xyl radical 생성 억제 효과를 보여 주었다. 본 실험을 통하여 BHT 를 제외하고 전반적으로 세포 수준에서의 oxidative stress 에 대한 억제 효과를 확인해 볼 수 있었으며 특히 수용성 항산화제들에서 두드러진 효과를 보여 주었다. 제공하여 내수기반 확충에도 노력해야 할 것 이다.있었다., 인삼이 성장될 때 부분적인 영양상태의 불충분이나 기후 등에 따른 영향을 받을 수 있기 때문에 앞으로 이에 대한 많은 연구가 이루어져야할 것으로 판단된다.태에도 불구하고 [-wh]의미의 겹의문사는 병렬적 관계의 합성어가 아니라 내부구조를 지니지 않은 단순한 단어(minimal $X^{0}$<

  • PDF

Information types and characteristics within the Wireless Emergency Alert in COVID-19: Focusing on Wireless Emergency Alerts in Seoul (코로나 19 하에서 재난문자 내의 정보유형 및 특성: 서울특별시 재난문자를 중심으로)

  • Yoon, Sungwook;Nam, Kihwan
    • Journal of Intelligence and Information Systems
    • /
    • v.28 no.1
    • /
    • pp.45-68
    • /
    • 2022
  • The central and local governments of the Republic of Korea provided information necessary for disaster response through wireless emergency alerts (WEAs) in order to overcome the pandemic situation in which COVID-19 rapidly spreads. Among all channels for delivering disaster information, wireless emergency alert is the most efficient, and since it adopts the CBS(Cell Broadcast Service) method that broadcasts directly to the mobile phone, it has the advantage of being able to easily access disaster information through the mobile phone without the effort of searching. In this study, the characteristics of wireless emergency alerts sent to Seoul during the past year and one month (January 2020 to January 2021) were derived through various text mining methodologies, and various types of information contained in wireless emergency alerts were analyzed. In addition, it was confirmed through the population mobility by age in the districts of Seoul that what kind of influence it had on the movement behavior of people. After going through the process of classifying key words and information included in each character, text analysis was performed so that individual sent characters can be used as an analysis unit by applying a document cluster analysis technique based on the included words. The number of WEAs sent to the Seoul has grown dramatically since the spread of Covid-19. In January 2020, only 10 WEAs were sent to the Seoul, but the number of the WEAs increased 5 times in March, and 7.7 times over the previous months. Since the basic, regional local government were authorized to send wireless emergency alerts independently, the sending behavior of related to wireless emergency alerts are different for each local government. Although most of the basic local governments increased the transmission of WEAs as the number of confirmed cases of Covid-19 increases, the trend of the increase in WEAs according to the increase in the number of confirmed cases of Covid-19 was different by region. By using structured econometric model, the effect of disaster information included in wireless emergency alerts on population mobility was measured by dividing it into baseline effect and accumulating effect. Six types of disaster information, including date, order, online URL, symptom, location, normative guidance, were identified in WEAs and analyzed through econometric modelling. It was confirmed that the types of information that significantly change population mobility by age are different. Population mobility of people in their 60s and 70s decreased when wireless emergency alerts included information related to date and order. As date and order information is appeared in WEAs when they intend to give information about Covid-19 confirmed cases, these results show that the population mobility of higher ages decreased as they reacted to the messages reporting of confirmed cases of Covid-19. Online information (URL) decreased the population mobility of in their 20s, and information related to symptoms reduced the population mobility of people in their 30s. On the other hand, it was confirmed that normative words that including the meaning of encouraging compliance with quarantine policies did not cause significant changes in the population mobility of all ages. This means that only meaningful information which is useful for disaster response should be included in the wireless emergency alerts. Repeated sending of wireless emergency alerts reduces the magnitude of the impact of disaster information on population mobility. It proves indirectly that under the prolonged pandemic, people started to feel tired of getting repetitive WEAs with similar content and started to react less. In order to effectively use WEAs for quarantine and overcoming disaster situations, it is necessary to reduce the fatigue of the people who receive WEA by sending them only in necessary situations, and to raise awareness of WEAs.

International Research Trend on Mountainous Sediment-related Disasters Induced by Earthquakes (지진 유발 산지토사재해 관련 국외 연구동향 분석)

  • Lee, Sang-In;Seo, Jung-Il;Kim, Jin-Hak;Ryu, Dong-Seop;Seo, Jun-Pyo;Kim, Dong-Yeob;Lee, Chang-Woo
    • Journal of Korean Society of Forest Science
    • /
    • v.106 no.4
    • /
    • pp.431-440
    • /
    • 2017
  • The 2016 Gyeongju Earthquake ($M_L$ 5.8) (occurred on September 12, 2016) and the 2017 Pohang Earthquake ($M_L$ 5.4) (occurred on November 15, 2017) caused unprecedented damages in South Korea. It is necessary to establish basic data related to earthquake-induced mountainous sediment-related disasters over worldwide. In this study, we analyzed previous international studies on the earthquake-induced mountainous sediment-related disasters, then classified research areas according to research themes using text-mining and co-word analysis in VOSviewer program, and finally examined spatio-temporal research trends by research area. The result showed that the related-researches have been rapidly increased since 2005, which seems to be affected by recent large-scale earthquakes occurred in China, Taiwan and Japan. In addition, the research area related to mountainous sediment-related disasters induced by earthquakes was classified into four subjects: (i) mechanisms of disaster occurrence; (ii) rainfall parameters controlling disaster occurrence; (iii) prediction of potential disaster area using aerial and satellite photographs; and (iv) disaster risk mapping through the modeling of disaster occurrence. These research areas are considered to have a strong correlation with each other. On the threshold year (i.e., 2012-2013), when cumulative number of research papers was reached 50% of total research papers published since 1987, proportions per unit year of all research areas should increase. Especially, the proportion of the research areas related to prediction of potential disaster area using aerial and satellite photographs is highly increased compared to other three research areas. These trends are responsible for the rapidly increasing research papers with study sites in China, and the research papers examined in Taiwan, Japan, and the United States have also contributed to increases in all research areas. The results are could be used as basic data to present future research direction related to mountainous sediment-related disasters induced by earthquakes in South Korea.