• 제목/요약/키워드: Keyword Extract

검색결과 115건 처리시간 0.029초

SNS를 이용한 잠재적 광고 키워드 추출 시스템 설계 및 구현 (Design and Implementation of Potential Advertisement Keyword Extraction System Using SNS)

  • 서현곤;박희완
    • 한국융합학회논문지
    • /
    • 제9권7호
    • /
    • pp.17-24
    • /
    • 2018
  • 빅데이터 처리 분야에서 중요한 이슈 중 하나는 인터넷의 주요 키워드를 추출하고 이것을 이용하여 필요한 정보를 가공하는 것이다. 현재까지 제안된 대부분의 키워드 추출 방법들은 대형 포털 사이트의 검색기능을 기반으로 이미 게시된 글이나 작성된 문서 또는 고정된 내용에 기반하고 있다. 본 논문에서는 SNS에 게시되는 다양한 이슈, 대화, 관심 분야, 의견 등 동적인 메시지를 기반으로 이슈 키워드 및 연관 키워드를 추출하여 잠재적 쇼핑 연관 키워드 광고 마케팅에 도움을 주는 시스템(KAES: Keyword Advertisement Extraction System based on SNS)을 개발한다. KAES 시스템은 특정 계정 리스트를 작성하여 SNS에서 빈도수가 가장 많은 핵심 키워드 및 연관 키워드를 추출한다.

Design and Implementation of Web Crawler with Real-Time Keyword Extraction based on the RAKE Algorithm

  • Zhang, Fei;Jang, Sunggyun;Joe, Inwhee
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.395-398
    • /
    • 2017
  • We propose a web crawler system with keyword extraction function in this paper. Researches on the keyword extraction in existing text mining are mostly based on databases which have already been grabbed by documents or corpora, but the purpose of this paper is to establish a real-time keyword extraction system which can extract the keywords of the corresponding text and store them into the database together while grasping the text of the web page. In this paper, we design and implement a crawler combining RAKE keyword extraction algorithm. It can extract keywords from the corresponding content while grasping the content of web page. As a result, the performance of the RAKE algorithm is improved by increasing the weight of the important features (such as the noun appearing in the title). The experimental results show that this method is superior to the existing method and it can extract keywords satisfactorily.

Keyword Analysis Based Document Compression System

  • Cao, Kerang;Lee, Jongwon;Jung, Hoekyung
    • Journal of information and communication convergence engineering
    • /
    • 제16권1호
    • /
    • pp.48-51
    • /
    • 2018
  • The traditional documents analysis was centered on words based system was implemented using a morpheme analyzer. These traditional systems can classify used words in the document but, cannot help to user's document understanding or analysis. In this problem solved, System needs extract for most valuable paragraphs what can help to user understanding documents. In this paper, we propose system extracts paragraphs of normalized XML document. User insert to system what filename when wants for analyze XML document. Then, system is search for keyword of the document. And system shows results searched keyword. When user choice and inserts keyword for user wants then, extracting for paragraph including keyword. After extracting paragraph, system operating maintenance paragraph sequence and check duplication. If exist duplication then, system deletes paragraph of duplication. And system informs result to user what counting each keyword frequency and weight to user, sorted paragraphs.

효율적인 키워드 검색을 지원하는 학습자료의 구조화 방법 연구 (A Study on Structuring Method of Study Data Supporting Efficient Keyword Search)

  • 김은경;최진오
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 춘계종합학술대회
    • /
    • pp.1063-1066
    • /
    • 2005
  • 다양한 학습 자료를 저장해두고 검색하는 시스템들은 주로 키워드 검색을 지원하고 있다. 여기서, 키워드 매칭 방식은 같은 분야의 자료라 하더라도 사용자가 입력한 키워드와 정확한 매칭이 되지 않을 경우 검색되지 못하는 문제점을 안고 있다. 또한 학습 테스트를 위한 학습 문제 자료는 키워드로 검색하기에는 포함한 정보의 양이 너무 적어 적용되기 어렵다. 본 논문에서는 이러한 문제점을 해결하기 위하여 학습문서를 입력할 때 문서에 포함되어 있는 각 단어들을 형태소 분석에 의하여 중요 명사들을 추출하고 데이터베이스화하는 기법을 도입하고 미리 마련한 유사한 용어 지식 데이터베이스를 활용하여 지능적이고 효율적인 학습자료 검색 기법을 제안한다.

  • PDF

Efficient Keyword Extraction from Social Big Data Based on Cohesion Scoring

  • Kim, Hyeon Gyu
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권10호
    • /
    • pp.87-94
    • /
    • 2020
  • 블로그나 SNS 피드 등의 소셜 리뷰는 고객 관점의 의견이나 불만 사항을 반영한 키워드를 추출하기 위한 목적으로 광범위하게 활용되고 있으며, 최근 트렌드를 반영한 신조어나 고유명사를 포함하는 경우가 많다. 이들 단어는 사전에 포함되어 있지 않아 기존 형태소 분석기가 잘 인지하지 못하는 경우가 많으며, 동시에 상당한 처리 시간이 소요되어 키워드 분석 결과를 실시간으로 제공하는데 어려움이 있다. 본 논문에서는 응집도 점수 개념을 기반으로 소셜 리뷰로부터 키워드를 효율적으로 추출하기 위한 방법을 제안한다. 응집도 점수는 단어의 빈도수를 기반으로 계산되어 별도의 사전이 필요없다는 장점이 있으나, 띄어쓰기가 되지 않은 입력 데이터에 대해서는 정확도가 떨어질 수 있다. 이와 관련하여 본 논문에서는 단어 트리 구조를 이용하여 기존의 응집도 점수 계산 방법을 개선한 알고리즘을 제시한다. 또한 실험을 통해 제안하는 방법이 15.5%의 오류율을 보이는 동시에, 1,000개의 리뷰를 처리하는데 0.008초 정도 소요됨을 확인하였다.

키워드 가중치 기반 문단 추출 알고리즘 (Keyword Weight based Paragraph Extraction Algorithm)

  • 이종원;주상웅;이현주;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 추계학술대회
    • /
    • pp.504-505
    • /
    • 2017
  • 기존의 형태소 분석기는 문서 내에 사용된 단어들을 분류한다. 이를 기반으로 문장과 문단을 추출하는 시스템이 개발되고 있으나 해당 문서를 압축하여 주요 문단을 추출하는 시스템은 매우 미흡한 실정이다. 본 논문에서 제안하는 알고리즘은 문서 내에 사용된 키워드들의 가중치를 계산하고 키워드를 포함한 문단들을 추출한다. 이는 해당 문서를 모두 읽지 않고 키워드가 포함된 문단들을 읽음으로써 문서를 이해하는 시간을 줄일 수 있다. 또한 검색에 사용된 키워드의 개수에 따라 추출되는 문단의 수가 다름으로 사용자는 기존 시스템에 비해 다양한 패턴의 검색이 가능하다.

  • PDF

한글 형태소 및 키워드 분석에 기반한 웹 문서 분류 (Web Document Classification Based on Hangeul Morpheme and Keyword Analyses)

  • 박단호;최원식;김홍조;이석룡
    • 정보처리학회논문지D
    • /
    • 제19D권4호
    • /
    • pp.263-270
    • /
    • 2012
  • 최근 초고속 인터넷과 대용량 데이터베이스 기술의 발전으로 웹 문서의 양이 크게 증가하였으며, 이를 효과적으로 관리하기 위하여 문서의 주제별 자동 분류가 중요한 문제로 대두되고 있다. 본 연구에서는 한글 형태소 및 키워드 분석에 기초한 문서 특성 추출 방법을 제안하고, 이를 이용하여 웹 문서와 같은 비구조적 문서의 주제를 예측하여 문서를 자동으로 분류하는 방법을 제시한다. 먼저, 문서 특성 추출을 위하여 한글 형태소 분석기를 사용하여 용어를 선별하고, 각 용어의 빈도와 주제 분별력을 기초로 주제 분별 용어인 키워드 집합을 생성한 후, 각 키워드에 대하여 주제 분별력에 따라 점수화한다. 다음으로, 추출된 문서 특성을 기초로 상용 소프트웨어를 사용하여 의사 결정 트리, 신경망 및 SVM의 세 가지 분류 모델을 생성하였다. 실험 결과, 제안한 특성 추출 방법을 이용한 문서 분류는 의사 결정 트리 모델의 경우 평균 Precision 0.90 및 Recall 0.84 로 상당한 정도의 분류 성능을 보여 주었다.

키워드 기반 주제중심 분석을 이용한 비정형데이터 처리 (Unstructured Data Processing Using Keyword-Based Topic-Oriented Analysis)

  • 고명숙
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권11호
    • /
    • pp.521-526
    • /
    • 2017
  • 데이터는 데이터 형식이 다양하고 방대할 뿐만 아니라 그 생성 속도가 매우 빨라 기존의 데이터 처리 방식이 아닌 새로운 관리 및 분석 방법이 요구된다. 소셜 네트워크 상의 온라인 문서에서 인간의 언어로 쓰여진 비정형 텍스트에서 Text Mining기법을 사용하여 유용한 정보를 추출할 수 있다. 소셜미디어에 남긴 정치, 경제, 문화에 대한 메시지에 대한 경향을 파악하는 것이 어떤 주제에 관심을 가지고 있는지를 파악할 수 있는 요소가 된다. 본 연구에서는 주제 중심 분석 기법을 이용하여 주어진 키워드에 관한 온라인 뉴스를 대상으로 텍스트 마이닝을 수행하였다. LDA(Latent Dirichiet Allocation)를 이용하여 웹문서로부터 정보를 추출하고 이로부터 사람들이 실제로 주어진 키워드에 대하여 어떤 주제에 관심이 있고 관련된 핵심 가치 중 어떤 주제를 중심으로 전파되고 있는지를 분석하였다.

생의학 분야 키워드 추출 모델에 대한 비교 연구 (Comparative Study of Keyword Extraction Models in Biomedical Domain)

  • 이동희;권순찬;장백철
    • 인터넷정보학회논문지
    • /
    • 제24권4호
    • /
    • pp.77-84
    • /
    • 2023
  • 생명 공학 및 의학 분야의 논문 수 증가에 따라 문헌 속에서 중요한 정보를 빠르게 찾아 대응하기 위한 키워드 추출의 필요성이 대두되고 있다. 본 논문에서는 생의학 분야에서의 키워드 추출에 대한 다양한 비지도 학습 기반 모델 및 BERT 기반 모델의 성능을 종합적으로 비교하였다. 실험 결과 생의학 분야에 특화된 데이터로 학습된 BioBERT 모델이 가장 높은 성능을 보였다. 이를 통해 생의학 분야의 키워드 추출 연구에서 적절한 실험 환경을 구성하고 다양한 모델을 비교 분석하여, 향후 연구에 필요한 정확하고 신뢰할 수 있는 정보를 제공하였다. 이뿐만 아니라, 다른 분야에서도 키워드 추출에 대한 비교적인 기준과 유용한 지침을 제공할 수 있을 것이라 기대한다.

인터넷 검색기록 분석을 통한 쇼핑의도 포함 키워드 자동 추출 기법 (A Methodology for Extracting Shopping-Related Keywords by Analyzing Internet Navigation Patterns)

  • 김민규;김남규;정인환
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.123-136
    • /
    • 2014
  • 최근 온라인 및 다양한 스마트 기기의 사용이 확산됨에 따라 온라인을 통한 쇼핑구매가 더욱 활성화 되었다. 때문에 인터넷 쇼핑몰들은 쇼핑에 관심이 있는 잠재 고객들에게 한 번이라도 더 자사의 링크를 노출시키기 위해 키워드에 비용을 지불할 용의가 있으며, 이러한 추세는 검색 광고 시장의 광고비를 증가시키는 원인을 제공하였다. 이 때 키워드의 가치는 대체로 검색어의 빈도수에 기반을 두어 산정된다. 하지만 포털 사이트에서 검색어로 자주 입력되는 모든 단어가 쇼핑과 관련이 있는 것은 아니며, 이들 키워드 중에는 빈도수는 높지만 쇼핑몰 관점에서는 별로 수익과 관련이 없는 키워드도 다수 존재한다. 그렇기 때문에 특정 키워드가 사용자들에게 많이 노출된다고 해서, 이를 통해 구매가 이루어질 것을 기대하여 해당 키워드에 많은 광고비를 지급하는 것은 매우 비효율적인 방식이다. 따라서 포털 사이트의 빈발 검색어 중 쇼핑몰 관점에서 중요한 키워드를 추출하는 작업이 별도로 요구되며, 이 과정을 빠르고 효과적으로 수행하기 위한 자동화 방법론에 대한 수요가 증가하고 있다. 본 연구에서는 이러한 수요에 부응하기 위해 포털 사이트에 입력된 키워드 중 쇼핑의도를 포함하고 있을 가능성이 높을 것으로 추정되는 키워드만을 자동으로 추출하는 방안을 제시하고, 구체적으로는 전체 검색어 중 검색결과 페이지에서 쇼핑과 관련 된 페이지로 이동한 검색어만을 추출하여 순위를 집계하고, 이 순위를 전체 검색 키워드의 순위와 비교하였다. 국내 최대의 검색 포털인 'N'사에서 이루어진 검색 약 390만 건에 대한 실험결과, 제안 방법론에 의해 추천된 쇼핑의도 포함 키워드가 단순 빈도수 기반의 키워드에 비해 정확도, 재현율, F-Score의 모든 측면에서 상대적으로 우수한 성능을 보이는 것으로 나타남을 확인할 수 있었다.