• 제목/요약/키워드: Main Topic

검색결과 586건 처리시간 0.028초

Topic Level Disambiguation for Weak Queries

  • Zhang, Hui;Yang, Kiduk;Jacob, Elin
    • Journal of Information Science Theory and Practice
    • /
    • 제1권3호
    • /
    • pp.33-46
    • /
    • 2013
  • Despite limited success, today's information retrieval (IR) systems are not intelligent or reliable. IR systems return poor search results when users formulate their information needs into incomplete or ambiguous queries (i.e., weak queries). Therefore, one of the main challenges in modern IR research is to provide consistent results across all queries by improving the performance on weak queries. However, existing IR approaches such as query expansion are not overly effective because they make little effort to analyze and exploit the meanings of the queries. Furthermore, word sense disambiguation approaches, which rely on textual context, are ineffective against weak queries that are typically short. Motivated by the demand for a robust IR system that can consistently provide highly accurate results, the proposed study implemented a novel topic detection that leveraged both the language model and structural knowledge of Wikipedia and systematically evaluated the effect of query disambiguation and topic-based retrieval approaches on TREC collections. The results not only confirm the effectiveness of the proposed topic detection and topic-based retrieval approaches but also demonstrate that query disambiguation does not improve IR as expected.

LDA 토픽모델링을 통한 ICT분야 국가연구개발사업의 주요 연구토픽 및 동향 탐색 (Investigation of Research Topic and Trends of National ICT Research-Development Using the LDA Model)

  • 우창우;이종연
    • 한국융합학회논문지
    • /
    • 제11권7호
    • /
    • pp.9-18
    • /
    • 2020
  • 본 논문의 연구목표는 LDA(Latent Dirichlet Allocation) 모델을 적용하여 국가연구개발사업을 통해 수행되고 있는 ICT(Information and Communication Technology) 분야의 연구과제에 대한 주요 연구 토픽과 동향을 탐색하는데 있다. 연구방법에는 NTIS(National Science and Technology Information Service)로부터 최근 5년간 국가연구개발사업의 전체 연구과제 정보를 다운로드받고 이를 정보통신기획평가원(IITP)의 EZone 시스템과 매칭하여 ICT 분야 연구과제 5,200건을 확보하고, 토픽모델링 기법중 하나인 LDA 모델을 적용하여 연구토픽과 연구동향을 조사하였다. 실험결과로, ICT분야 연구과제에 대한 연구토픽은 인공지능, 빅데이터, 사물인터넷(Internet of Things)과 같은 지능정보기술로 확인되었고 연구동향에는 초실감미디어에 관한 연구가 활발히 진행되고 있음을 확인하였다. 끝으로 본 논문에서 진행된 국가연구개발사업에 대한 토픽모델링 결과는 향후 ICT분야 연구개발 계획 및 전략수립, 정책, 과제기획 등 중요한 정보로 활용될 수 있을 것이다.

국민청원 주제 분석 및 딥러닝 기반 답변 가능 청원 예측 (Topic Analysis of the National Petition Site and Prediction of Answerable Petitions Based on Deep Learning)

  • 우윤희;김현희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권2호
    • /
    • pp.45-52
    • /
    • 2020
  • 청와대 국민 청원 사이트가 개설된 이래로 많은 관심을 받고 있다. 본 논문에서는 국민 청원의 주제를 분석하고 딥러닝을 활용하여 답변 가능한 청원을 예측하는 모델을 제안하였다. 먼저, 추천순으로 1,500개의 청원글을 수집하였고, K-means 클러스터링을 적용하여 청원글을 군집하여 대주제를 정의하고, 보다 구체적인 세부 주제를 정의하기 위히여 토픽 모델링을 실시하였다. 다음으로는 LSTM을 활용한 답변 가능한 청원 예측 모델을 생성하여, 20만의 청원동의를 얻는 청원을 예측하기 위한 모델을 개발하였다. 이를 위해 글의 주제와 본문뿐만 아니라 글의 길이, 카테고리, 특정 품사의 비율이 영향을 미칠 수 있는지를 살펴보았다. 그 결과, 본문과 함께 글의 길이, 카테고리, 체언, 용언, 독립언, 수식언의 품사의 비율을 변수로 추가한 모델의 f1-score가 0.9 이상으로 글의 제목과 본문을 변수로 하는 모델보다 예측력이 높음을 알 수 있었다.

교통행동 연구의 경향성 분석을 위한 문헌고찰 - 2004년 이후 한국교통심리학의 연구경향분석 (Psychological Literature on Driving Behavior to Review the Studies of Traffic Psychology since 2004 in Korea)

  • 이순철;박선진
    • 한국심리학회지 : 문화 및 사회문제
    • /
    • 제22권2호
    • /
    • pp.285-311
    • /
    • 2016
  • 본 논문은 2004년부터 2013년까지 10년 동안 한국 교통행동 연구의 내용과 경향성을 살펴보기 위하여 학술지에 발표된 157편의 논문을 대상으로 분석하였다. 교통행동 연구의 연도별 발표논문 수는 2004년과 2005년에는 각각 6편, 7편이었으나 2006년 이후에는 꾸준히 10편 이상으로 증가하여 교통행동 연구가 활발하게 이루어지고 있었다. 논문주제별로 살펴보면 운전자 관련 연구가 73.2%, 보행자와 교통환경 연구가 각각 12.1%, 12.7%를 차지하였다. 운전자 관련 연구의 하부주제별로 보면, 음주운전, 피로와 스트레스, 인지 및 지각에 대한 연구가 많이 발표되었다. 그리고 고령자 연구가 단독으로 10.4%를 차지하는 것으로 나타나 고령화 현상과 더불어 교통환경에서의 고령운전자에 대한 관심 및 이에 대한 연구가 활발하게 진행되고 있음을 알 수 있었다. 한편, 교통안전연구논집, 한국심리학회지, 자료분석학회지, 대한교통학회지를 통해 2004년 이후 10년 동안 60% 이상의 논문이 발표되었다. 이를 통해 도로교통공단과 한국심리학회 및 자료분석학회 학술지를 통해 교통행동 연구가 주로 발표되고 있음을 알 수 있었다.

  • PDF

토픽모델링을 활용한 농촌연구 동향분석 (An Analysis on the Rural Research Trends using Topic Modeling)

  • 김가은;정유경;임영훈
    • 농촌계획
    • /
    • 제29권4호
    • /
    • pp.81-92
    • /
    • 2023
  • The purpose of this study is to identify rural research topics, differences in research topics over time, and key mediators through the analysis of academic research trends using topic modeling. This study analyzed a total of 1,183 articles published in the Journal of Rural Planning and Rural Society over a 23-year period (2000-2022). We categorized rural research topics into 30, examined the proportion of research in each topic, and identified major changes in research topics over time. We also identified key words that mediate between research topics. The study found that, first, rural research trends can be categorized into five types (resources and utilization, area/space, people, ecosystem/environment, and tourism), with area/space being the most studied. Subtopics include rural amenities, rural disappearance/village miniaturization, and rural landscape management. Second, the research topics for each period were different. In the first period(2003-2007), the main research topics were rural amenities and Agricultural production- based climate vulnerability assessment. In the second period(2008-2012), the main research topics were Rural extinction and village depopulation, and rural landscape management, and in the third period(2013-2017), the main research topics were rural sixth industrialization and rural ecotourism. In the fourth period(2018-2022), rural development planning and rural life services(life SOC) were the main research topics. The significance of this study is that it extends the existing method of analyzing research trends and provides basic data to enhance comprehensive insights and understanding of rural research.

교통행동 연구의 경향성 분석을 위한 문헌고찰: 1990년 이후 한국 교통심리학의 연구경향분석 (Psychological literature on driving behavior to review the studies of traffic psychology since 1990 in Korea)

  • 이순철
    • 한국심리학회지 : 문화 및 사회문제
    • /
    • 제10권3호
    • /
    • pp.1-18
    • /
    • 2004
  • 본 논문은 1990년 이후 한국 교통행동 연구의 내용과 경향성을 살펴보기 위하여, 학술지에 발표된 125편의 논문을 분석대상으로 하였다. 교통행동 연구의 연도별 발표논문 수는 1996년까지는 10편 이하였다가, 1997년 이후는 10편 이상으로 증가하고 있으며, 이것은 교통행동 연구의 저변이 확대되고 있음을 의미한다. 논문주제별로는 운전자 관련 연구가 60.8%, 교통환경관련 연구가 26.4%를 차지하고 있다. 운전자 관련 연구의 하부주제별로 보면, 성격 및 태도, 인지 및 지각, 그리고 음주운전에 관한 연구가 많이 발표되고 있다. 교통사고의 원인 중 약 90%가 인간적 오류에서 발생한다는 사실을 감안하면 운전자 관련 연구가 많다는 것은 당연한 현상이다. 그리고 교통안전연구논집, 대한교통학회와 한국심리학회지:사회문제와 같은 학술지를 통하여 60% 이상의 논문이 발표되고 있으며 이것은 교통관련 연구소인 도로교통안전관리공단, 교통공학자 중심의 대한 교통학회와 교통개발연구원, 그리고 한국심리학회 학술지를 통해 교통행동 연구가 주로 발표되고 있다.

  • PDF

Latent Dirichlet Allocation 토픽모델링을 이용한 한방 의료 서비스 분석에 관한 연구 : 의료 소비자의 온라인 리뷰를 중심으로 (A Study on the Analysis of Korean Medical Services using Latent Dirichlet Allocation Topic Modeling : Focusing on online reviews by medical consumers)

  • 손채연;송연우;이승호
    • 대한예방한의학회지
    • /
    • 제26권1호
    • /
    • pp.43-57
    • /
    • 2022
  • Objective : This study aims to understand the consumer's needs for Korean medicine medical service using online review analysis of medical consumers. Methods : We analyzed the purpose and satisfaction factors of medical service use using LDA (Latent Dirichlet Allocation) topic modeling. The data used in the study was 120,727 screened reviews written by medical consumers registered on Naver. The analyzed results were compared with the "2020 Korean Medicine Utilization Survey". Results : From 2018 to 2021, the five most frequently used terms were "kindness", "treatment", "doctor", "Korean medicine", and "acupuncture". The main purpose of visiting Korean medicine medical clinic and hospital was to treat "traffic accidents" in 2018, "waist(back) pain" in 2019, "musculoskeletal pain" in 2020 & 2021. Based on the rating, reviewers were satisfied with "explanation of treatment" and "treatment attitude", and dissatisfied with "accessibility to the institution". Conclusion : We concluded that the main purpose of use of Korean medicine institution was to treat musculoskeletal disorders. Based on the results of this study, it is expected that it will be used to improve Korean medicine medical service in the future.

비정형 텍스트 기반의 토픽 모델링을 이용한 건설 안전사고 동향 분석 (A Study on the Trends of Construction Safety Accident in Unstructured Text Using Topic Modeling)

  • 이상규
    • 한국산학기술학회논문지
    • /
    • 제19권10호
    • /
    • pp.176-182
    • /
    • 2018
  • 본 연구는 건설 안전사고에 대한 트랜드 분석을 위해 LDA(Latent Dirichlet Allocation) 기반의 토픽모델링(Topic Modeling)을 제시하여 분석하고자 한다. 특히, 건설산업의 안전사고를 예방하기 위해 제시되고 있는 기존의 다양한 정형데이터 분석에서 벗어난 비정형 데이터 분석 기반의 토픽 모델링을 통해 건설 안전사고 주요 핵심 키워드의 흐름에 대해 파악이 가능하다. 본 방법론을 적용하기 위해 540개의 건설 안전사고 관련 뉴스데이터를 수집하였다. 이를 기반으로, 10가지 토픽과 각 토픽 내의 10가지 키워드를 통해 주요 이슈를 도출하였고 각 토픽에 대한 2017년 1월부터 2018년 2월까지의 뉴스 데이터를 월별 시계열 분석을 통해 향후 토픽에 관한 이슈를 예측한다. 본 연구를 바탕으로 향후 건설 안전사고의 다양한 이슈를 선제적으로 예측하고 이를 기반으로 건설 안전사고 정책과 연구에 좋은 방향을 제시할 것으로 판단한다.

임신성 당뇨와 모유수유에 대한 연구 동향 분석: 텍스트네트워크 분석과 토픽모델링 중심 (A study on research trends for gestational diabetes mellitus and breastfeeding: Focusing on text network analysis and topic modeling)

  • 이정림;김영지;곽은주;박승미
    • 한국간호교육학회지
    • /
    • 제27권2호
    • /
    • pp.175-185
    • /
    • 2021
  • Purpose: The aim of this study was to identify core keywords and topic groups in the 'Gestational diabetes mellitus (GDM) and Breastfeeding' field of research for better understanding research trends in the past 20 years. Methods: This was a text-mining and topic modeling study composed of four steps: 1) collecting abstracts, 2) extracting and cleaning semantic morphemes, 3) building a co-occurrence matrix, and 4) analyzing network features and clustering topic groups. Results: A total of 635 papers published between 2001 and 2020 were found in databases (Web of Science, CINAHL, RISS, DBPIA, RISS, KISS). Among them, 3,639 words extracted from 366 articles selected according to the conditions were analyzed by text network analysis and topic modeling. The most important keywords were 'exposure', 'fetus', 'hypoglycemia', 'prevention' and 'program'. Six topic groups were identified through topic modeling. The main topics of the study were 'cardiovascular disease' and 'obesity'. Through the topic modeling analysis, six themes were derived: 'cardiovascular disease', 'obesity', 'complication prevention strategy', 'support of breastfeeding', 'educational program' and 'management of GDM'. Conclusion: This study showed that over the past 20 years many studies have been conducted on complications such as cardiovascular diseases and obesity related to gestational diabetes and breastfeeding. In order to prevent complications of gestational diabetes and promote breastfeeding, various nursing interventions, including gestational diabetes management and educational programs for GDM pregnancies, should be developed in nursing fields.

CiteSeer 말뭉치를 이용한 과학기술 문헌의 주제 분석 (Topic Analysis of Science and Technology Articles using CiteSeer Corpus)

  • 정한민;강인수;성원경
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권5호
    • /
    • pp.507-511
    • /
    • 2008
  • 과학기술 분야는 매우 빠른 발전 속도를 보이며 세부 분야 간 융 복합 현상이 빈번하게 일어나는 특징을 가지고 있다. 과학기술정보 말뭉치로부터 상기 특성을 분석해 내는 작업은 연구 주제 추이를 분석하고 주제 간 연관 관계를 파악하기 위해 필요하다. 본 연구는 과학기술 분야 - 특히 정보기술(Information Technology) 분야 - 에서 광범위하게 활용되고 있는 Citeseer 말뭉치로부터 추출된 주제를 이용하여 다양한 주제 분석을 수행하는 방안을 보이는 것을 목표로 한다. 특히, 연구개발 전주기 지원 시스템인 OntoFrame에서 주제가 어떠한 역할을 할 수 있는지 사례를 통해 실증하고자 한다.