• 제목/요약/키워드: Keyword Selection

검색결과 55건 처리시간 0.021초

Suffix Tree를 이용한 웹 문서 클러스터의 제목 생성 방법 성능 비교 (Performance Comparison of Keyword Extraction Methods for Web Document Cluster using Suffix Tree Clustering)

  • 염기종;권영식
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2002년도 추계정기학술대회
    • /
    • pp.328-335
    • /
    • 2002
  • 최근 들어 인터넷 기술의 발달로 웹 상에 많은 자료들이 산재해 있습니다. 사용자가 원하는 정보를 검색하기 위해서 키워드 검색을 이용하고 있는데 이러한 키워드 검색은 사용자들이 입력한 단편적인 정보에 바탕하여 검색하고 검색된 결과들을 자체적인 기준으로 순위를 매겨 나열식으로 제시하고 있다. 이러한 경우 사용자들의 생각과는 다르게 결과가 제시될 수 있다. 따라서 사용자들의 검색 시간을 줄이고 편리하게 검색하기 위한 환경의 필요성이 높아지고 있다. 본 논문에서는 Suffix Tree 알고리즘을 사용하여 관련있는 문서들을 분류하고 각각의 분류된 클러스터에 제목을 생성하기 위하여 문서 빈도수, 단어 빈도수와 역문서 빈도수, 카이 검정, 공통 정보, 엔트로피 방법을 비교 평가하여 제목을 생성하는데 어떠한 방법이 가장 효과적인지 알아보기 위해 비교 평가해본 결과 문서빈도수가 TF-IDF보다 약 10%정도 성능이 좋은 결과를 보여주었다.

  • PDF

어린이 독자의 도서선택에 관한 연구 (A Study on Children's Book Selection Behavior)

  • 정진수
    • 한국문헌정보학회지
    • /
    • 제45권1호
    • /
    • pp.417-437
    • /
    • 2011
  • 본 연구의 목적은 어린이들의 독서를 위한 공간으로서 도서관과 독서에 대한 인식과 그들의 도서선택행위를 살펴봄으로써 어린이들의 일상적인 독서를 이해하고자함에 있다. 질적 연구방법을 사용하여 2010년 여름방학기간 중 10세부터 13세까지의 초등학생 32명을 대상으로 두 곳의 도서관에서 인터뷰를 실시하고 QSR NVivo 9를 이용하여 분석한 결과는 다음과 같다. 첫째, 어린이들은 독서하는 공간으로서 도서관을 인식하고 있었다. 둘째, 독서를 유익한 활동으로 인정하고 있었다. 셋째, 어린이들은 읽을 책을 스스로 선택하였다. 넷째, 도서 선택을 위한 접근 방식으로 브라우즈와 목록이용이 있었다. 다섯째, 어린이들은 도서 선택 시 '재미있는' 책과 자신들에게 '맞는' 책을 특히 강조하였다. 여섯째, 선택을 하도록 하는 요인으로 서명, 책표지 디자인과 삽화, 도서의 접근성, 선택되는 도서의 장르/주제 분야, 표현 방식, 좋아하는 작가와 작품, 출판사가 가장 많이 언급되었다.

유사과제파악을 위한 검색 알고리즘의 개발에 관한 연구 (A Study on the Development of Search Algorithm for Identifying the Similar and Redundant Research)

  • 박동진;최기석;이명선;이상태
    • 한국콘텐츠학회논문지
    • /
    • 제9권11호
    • /
    • pp.54-62
    • /
    • 2009
  • 국가적으로 그리고 각 연구기관에서는 투자의 효율성을 기하기 위하여 연구사업 선정과정에서 데이터베이스로부터 중복과제 혹은 유사과제를 검색하는 과정을 거친다. 최근 부얼리언 기반의 키워드 매칭 검색알고리즘의 발전 및 이를 채택한 검색엔진의 개발로 인하여 검색의 정확도가 많이 향상되었지만, 사용자가 입력하는 제한된 수의 키워드들에 의한 검색은 유사과제 파악과 우선순위의 결정에 어려움이 있다. 본 연구에서는 제안된 과제의 문서를 분석하여 다수의 색인어들을 추출하고, 이들에게 가중치를 부여한 후, 기존의 문서들과 비교하여 유사과제를 찾아내는 문서단위의 검색 알고리즘을 제안한다. 구체적으로 벡터공간검색(Vector-Space Retrieval)모델의 한 종류인 TFIDF(Term Frequency Inverse document Frequency)를 기본 구조로 채택한다. 또한 개발되는 알고리즘에는 연구과제 제안문서의 구조에 적합한 속성별 가중치(feature weighting)를 반영하고 검색속도의 향상을 위하여 K-최근접 문서(KNN: K-Nearest Neighbors) 기법도 반영한 알고리즘을 제시한다. 실험을 위하여 실제 연구제안 문서와 구조가 동일한 기존의 보고서를 사용하였는데, KISTI에서 운영하는 과학기술정보포털서비스인 NDSL에서 이미 분류해 놓은 4분야의 1,000 개 연구 보고서 문서를 발췌하여 실험을 하였다.

시각화 기반 모바일 라이프 로그 시맨틱 네트워크 연관 검색 시스템 (An Associative Search System for Mobile Life-log Semantic Networks based on Visualization)

  • 오근현;김용준;조성배
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권6호
    • /
    • pp.727-731
    • /
    • 2010
  • 최근 모바일 기기의 다양한 센서들을 통하여 데이타를 수집하여 개인의 삶을 기록하는 연구들이 진행 중이다. 효율적인 모바일 라이프로그의 저장과 탐색을 위해 연관 검색이 가능한 모바일 라이프로그 시맨틱 네트워크가 제안되었다. 기존의 시맨틱 네트워크 상의 검색은 텍스트 기반으로 관계를 바탕으로 하는 사용자의 능동적인 연관 검색에 한계가 있었다. 본 논문에서는 모바일 라이프로그의 연관 검색을 위해 검색 과정과 결과를 시각화된 네트워크로 데이타간의 관계를 보여주는 선택 연관 검색과 키워드 연관 검색을 제안한다. 복잡한 시맨틱 네트워크에 대해서 사용자의 이해도를 높이기 위해 의미 추상화를 적용하였다. 실제 모바일 라이프로그 시맨틱 네트워크 데이타를 바탕으로 질의를 해결하는 과정을 기존 연구에서 보였던 텍스트 기반 연관 검색 방법과 비교하고 사용성 평가를 시행함으로 유용성을 입증하였다.

퍼지추론을 이용한 소수 문서의 대표 키워드 추출 (Representative Keyword Extraction from Few Documents through Fuzzy Inference)

  • 노순억;김병만;허남철
    • 한국지능시스템학회논문지
    • /
    • 제11권9호
    • /
    • pp.837-843
    • /
    • 2001
  • 본 논문은 사용자의 관심 내용을 포함하는 소수 문서들로부터 대표 용어들을 추출하고 가중치를 부여하는 새로운 방법을 제시한다. 대표 용어들의 추출 방법에서는 우선 예제 문서들로부터 후보 용어들을 추출하고 퍼지 추론을 적용하여 초기 대표 용어들을 선택한 수 예제 문서 내에서의 이들 용어들과 후보 용어들의 발생 빈도의 유사성을 이용하여 가중치를 재산정하고 대표 용어들을 자동 확장하였다. 제안 방법의 성능은 초기 대표 용어들을 선책하는 방법에 의해 영향을 크게 받는다. 따라서 문서집합에서 대표 용어를 추출하는 문제는 불확실성을 내포하고 있으므로 이러한 문제 해결에 효과적인 퍼지 추론을 초기 대표 용어의 선택 방법에 적용하였다. 본 논문에서 다루는 문제는 문서 집합의 중심 벡터를 계산하는 것으로 볼 수가 있다. 성능 평가를 위해 기존의 대표적인 Rocchio 알고리즘과 Widrow-Hoff 알고리즘과의 문서 분류 실험을 하였다. 실험 결과 우수한 성능을 보여줌으로서 제안 방법의 유용성을 확인 할 수 있었다.

  • PDF

LDA 알고리즘을 이용한 프랜차이즈 연구 동향에 대한 토픽모델링 분석 (Topic Modeling Analysis of Franchise Research Trends Using LDA Algorithm)

  • 양회창
    • 한국프랜차이즈경영연구
    • /
    • 제12권4호
    • /
    • pp.13-23
    • /
    • 2021
  • Purpose: This study aimed to derive clues for the franchise industry to overcome difficulties such as various legal regulations and social responsibility demands and to continuously develop by analyzing the research trends related to franchises published in Korea. Research design, data and methodology: As a result of searching for 'franchise' in ScienceON, abstracts were collected from papers published in domestic academic journals from 1994 to June 2021. Keywords were extracted from the abstracts of 1,110 valid papers, and after preprocessing, keyword analysis, TF-IDF analysis, and topic modeling using LDA algorithm, along with trend analysis of the top 20 words in TF-IDF by year group was carried out using the R-package. Results: As a result of keyword analysis, it was found that businesses and brands were the subjects of research related to franchises, and interest in service and satisfaction was considerable, and food and coffee were prominently studied as industries. As a result of TF-IDF calculation, it was found that brand, satisfaction, franchisor, and coffee were ranked at the top. As a result of LDA-based topic modeling, a total of 12 topics including "growth strategy" were derived and visualized with LDAvis. On the other hand, the areas of Topic 1 (growth strategy) and Topic 9 (organizational culture), Topic 4 (consumption experience) and Topic 6 (contribution and loyalty), Topic 7 (brand image) and Topic 10 (commercial area) overlap significantly. Finally, the trend analysis results for the top 20 keywords with high TF-IDF showed that 10 keywords such as quality, brand, food, and trust would be more utilized overall. Conclusions: Through the results of this study, the direction of interest in the franchise industry was confirmed, and it was found that it was necessary to find a clue for continuous growth through research in more diverse fields. And it was also considered an important finding to suggest a technique that can supplement the problems of topic trend analysis. Therefore, the results of this study show that researchers will gain significant insights from the perspectives related to the selection of research topics, and practitioners from the perspectives related to future franchise changes.

Does Rain Really Cause Toothache? Statistical Analysis Based on Google Trends

  • Jeon, Se-Jeong
    • 치위생과학회지
    • /
    • 제21권2호
    • /
    • pp.104-110
    • /
    • 2021
  • Background: Regardless of countries, the myth that rain makes the body ache has been worded in various forms, and a number of studies have been reported to investigate this. However, these studies, which depended on the patient's experience or memory, had obvious limitations. Google Trends is a big data analysis service based on search terms and viewing videos provided by Google LLC, and attempts to use it in various fields are continuing. In this study, we endeavored to introduce the 'value as a research tool' of the Google Trends, that has emerged along with technological advancements, through research on 'whether toothaches really occur frequently on rainy days'. Methods: Keywords were selected as objectively as possible by applying web crawling and text mining techniques, and the keyword "bi" meaning rain in Korean was added to verify the reliability of Google Trends data. The correlation was statistically analyzed using precipitation and temperature data provided by the Korea Meteorological Agency and daily search volume data provided by Google Trends. Results: Keywords "chi-gwa", "chi-tong", and "chung-chi" were selected, which in Korean mean 'dental clinic', 'toothache', and 'tooth decay' respectively. A significant correlation was found between the amount of precipitation and the search volume of tooth decay. No correlation was found between precipitation and other keywords or other combinations. It was natural that a very significant correlation was found between the amount of precipitation, temperature, and the search volume of "bi". Conclusion: Rain seems to actually be a cause of toothache, and if objective keyword selection is premised, Google Trends is considered to be very useful as a research tool in the future.

SNA를 활용한 부산항 연구동향 분석에 관한 연구 (A Study on Research Trend in Field of Busan Port by Social Network Analysis)

  • 김미진;박성훈;김유나;이해찬;여기태
    • 디지털융복합연구
    • /
    • 제19권2호
    • /
    • pp.117-133
    • /
    • 2021
  • 본 연구는 SNA(Social Network Analysis) 분석을 사용하여 부산항 연구동향을 파악하는 것을 목표로 했다. 연구분석 결과, Degree 중심성 측면에서는 Busan port(0.223)가 가장 높은 중심성을 가지고 있는 키워드로 나타났으며, DEA(0.060), AHP(0.056), Container terminal 그리고 Port competitiveness(0.049)순으로 나타났다. Betweenness 중심성 분석결과에서도 Busan port(0.245)가 가장 높은 키워드로 나타났으며, DEA(0.048), Container terminal(0.044), AHP(0.039), Busan new port(0.032)순으로 나타났다. 동향분석에서는 부산항이 세계 항만과 경쟁에서 우위를 점하기 위한 효율성 분석(DEA), 전략선택 및 경쟁분석(AHP) 등이 상위 중심성을 가진다는 시사점을 도출하였다. 하지만 현재 중요한 이슈로 부각중인 4차 산업과 관련된 연구는 부족한 실정이다. 향후 연구에서는 매스컴, SNS 등의 사회데이터를 병행 활용한 연구가 필요하다.

새로운 우리나라 불확실성 지수의 작성 (New economic policy uncertainty indexes for South Korea)

  • 이긍희;조주희;조진경
    • 응용통계연구
    • /
    • 제33권5호
    • /
    • pp.639-653
    • /
    • 2020
  • COVID-19 대유행, 미·중 무역분쟁, 글로벌 금융위기 등 대내외 환경변화에 따른 경제불확실성이 증가하고 있다. 경제불확실성은 경제 전반의 성장을 지연·제약하고 있어 정책 수행과 경제분석에서 경제불확실성을 측정하는 것이 중요하다. Baker 등 (2016) 등은 주요 언론사의 기사의 키워드를 분석하여 우리나라를 포함한 주요국의 경제불확실성(economic policy uncertainty) 지수를 산출하여 공개하고 있다. 그런데 Baker 등의 우리나라 경제불확실성 지수는 키워드 선정, 기사 수집 방법, 대상 언론사의 선정 등에 있어 우리나라 상황을 충분히 반영하지 못하고 있다. 이 논문에서는 우리나라 상황에 맞게 우리나라 경제불확실성 지수를 수정·보완하여 작성하고, 그 유용성을 거시경제 통계와의 관련성, 예측력과 경제분석 측면에서 비교·검증하였다.

도서 정보 및 본문 텍스트 통합 마이닝 기반 사용자 맞춤형 도서 큐레이션 시스템 (Personalized Book Curation System based on Integrated Mining of Book Details and Body Texts)

  • 안희정;김기원;김승훈
    • Journal of Information Technology Applications and Management
    • /
    • 제24권1호
    • /
    • pp.33-43
    • /
    • 2017
  • The content curation service through big data analysis is receiving great attention in various content fields, such as film, game, music, and book. This service recommends personalized contents to the corresponding user based on user's preferences. The existing book curation systems recommended books to users by using bibliographic citation, user profile or user log data. However, these systems are difficult to recommend books related to character names or spatio-temporal information in text contents. Therefore, in this paper, we suggest a personalized book curation system based on integrated mining of a book. The proposed system consists of mining system, recommendation system, and visualization system. The mining system analyzes book text, user information or profile, and SNS data. The recommendation system recommends personalized books for users based on the analysed data in the mining system. This system can recommend related books using based on book keywords even if there is no user information like new customer. The visualization system visualizes book bibliographic information, mining data such as keyword, characters, character relations, and book recommendation results. In addition, this paper also includes the design and implementation of the proposed mining and recommendation module in the system. The proposed system is expected to broaden users' selection of books and encourage balanced consumption of book contents.