• 제목/요약/키워드: Keywords Extraction

검색결과 139건 처리시간 0.022초

Word2Vec 기반의 의미적 유사도를 고려한 웹사이트 키워드 선택 기법 (Web Site Keyword Selection Method by Considering Semantic Similarity Based on Word2Vec)

  • 이동훈;김관호
    • 한국전자거래학회지
    • /
    • 제23권2호
    • /
    • pp.83-96
    • /
    • 2018
  • 문서를 대표하는 키워드를 추출하는 것은 문서의 정보를 빠르게 전달할 수 있을 뿐만 아니라 문서의 검색, 분류, 추천시스템 등의 자동화서비스에 유용하게 사용 될 수 있어 매우 중요하다. 그러나 웹사이트 문서에서 출현하는 단어의 빈도수, 단어의 동시출현관계를 통한 그래프 알고리즘 등의 기반으로 키워드를 추출할 경우 웹페이지 구조상 잠재적으로 주제와 관련이 없는 다양한 단어를 포함하고 있는 문제점과 한국어 형태소 분석의 정확성이 떨어지는 형태소 분석기 성능의 한계점 때문에 의미적인 키워드를 추출하는데 어려움이 존재한다. 따라서 본 논문에서는 의미적 단어 위주로 구축된 후보키워드들의 집합과 의미적 유사도 기반의 후보 키워드를 선택하는 방법으로써 의미적 키워드를 추출하지 못하는 문제점과 형태소 분석의 정확성이 떨어지는 문제점을 해결하고 일관성 없는 키워드를 제거하는 필터링 과정을 통해 최종 의미적 키워드를 추출하는 기법을 제안한다. 실 중소기업 웹페이지를 통한 실험 결과, 본 연구에서 제안한 기법의 성능이 통계적 유사도 기반의 키워드 선택기법보다 34.52% 향상된 것을 확인하였다. 따라서 단어 간의 의미적 유사성을 고려하고 일관성 없는 키워드를 제거함으로써 문서에서 키워드를 추출하는 성능을 향상시켰음을 확인하였다.

단어 임베딩(Word Embedding) 기법을 적용한 키워드 중심의 사회적 이슈 도출 연구: 장애인 관련 뉴스 기사를 중심으로 (A Study on the Deduction of Social Issues Applying Word Embedding: With an Empasis on News Articles related to the Disables)

  • 최가람;최성필
    • 정보관리학회지
    • /
    • 제35권1호
    • /
    • pp.231-250
    • /
    • 2018
  • 본 논문에서는 온라인 뉴스 기사에서 자동으로 추출된 키워드 집합을 활용하여 특정 시점에서의 세부 주제별 토픽을 추출하고 정형화하는 새로운 방법론을 제시한다. 이를 위해서, 우선 다량의 텍스트 집합에 존재하는 개별 단어들의 중요도를 측정할 수 있는 복수의 통계적 가중치 모델들에 대한 비교 실험을 통해 TF-IDF 모델을 선정하였고 이를 활용하여 주요 키워드 집합을 추출하였다. 또한 추출된 키워드들 간의 의미적 연관성을 효과적으로 계산하기 위해서 별도로 수집된 약 1,000,000건 규모의 뉴스 기사를 활용하여 단어 임베딩 벡터 집합을 구성하였다. 추출된 개별 키워드들은 임베딩 벡터 형태로 수치화되고 K-평균 알고리즘을 통해 클러스터링 된다. 최종적으로 도출된 각각의 키워드 군집에 대한 정성적인 심층 분석 결과, 대부분의 군집들이 레이블을 쉽게 부여할 수 있을 정도로 충분한 의미적 집중성을 가진 토픽들로 평가되었다.

한국어 웹 정보검색 시스템의 정확도 향상을 위한 연관 피드백 에이전트 (Relevance Feedback Agent for Improving Precision in Korean Web Information Retrieval System)

  • 백준호;최준혁;이정현
    • 한국정보처리학회논문지
    • /
    • 제6권7호
    • /
    • pp.1832-1840
    • /
    • 1999
  • 기존의 한국어 웹 정보 검색 시스템은 대부분이 불리언 검색 시스템이므로 사용자가 원하는 정보를 한 번의 질의에 의해 얻기가 매우 어렵다. 또한 생략이 빈번하고 링크가 많은 웹 문서의 특성상 기존의 역문헌 빈도에 의한 키워드 선정은 중의성의 문제를 가중시켜 부적절한 키워드가 추출된다. 따라서 원하는 정보를 얻을 때까지 사용자는 질의어의 수정을 반복한다. 본 논문에서는 이러한 문제를 해결하기 위해 연관 피드백(Relevace Feedback) 에이전트 시스템을 설계하고 구현하였다. 연관 피드백 에이전트 시스템은 사용자의 선호 키워드에 대한 적합 문서를 추출하여 선호 키워드를 선호 DB 테이블로 저장하였다가 사용자가 추후에 검색할 때 사용자 질의에 연관 키워드를 추가하여 검색한다. 이 결과로 사용자의 질의 수정의 횟수를 줄이고 검색 효율을 향상시킬 수 있었다.

  • PDF

빅데이터 클러스터에서의 추출된 형태소를 이용한 유사 동영상 추천 시스템 설계 (A Design of Similar Video Recommendation System using Extracted Words in Big Data Cluster)

  • 이현섭;김진덕
    • 한국정보통신학회논문지
    • /
    • 제24권2호
    • /
    • pp.172-178
    • /
    • 2020
  • 최근 널리 이용되고 있는 동영상 공유 서비스에서는 콘텐츠 추천 시스템이 매우 중요한 요소이다. 콘텐츠 추천을 위해서 일반적으로 사용자 선호도와 동영상(아이템) 유사도를 동시에 고려하는 협업 필터링을 사용하고 있다. 그러한 서비스는 주로 사용자의 검색 키워드와 시청시간과 같은 개인 선호도를 활용하여 사용자의 편의를 도모한다. 또한 동영상에 지정한 키워드를 중심으로 랭킹화한다. 그러나 한정된 키워드만을 이용한 동영상 유사도를 분석한다는 한계가 있다. 이런 경우 지정한 키워드가 아이템을 제대로 반영하지 못하는 경우 그 문제가 심각해진다. 이 논문에서는 교육 동영상으로부터 차별화된 의미를 갖는 모든 단어를 고려하여 유사도를 분석하며, 이런 경우 데이터와 연산의 규모가 방대하기 때문에 빅데이터 클러스터에서 처리하는 방법을 적용한다. 제안한 시스템은 빅데이터 영상 분석을 통해 동영상 공유 서비스 플랫폼의 기본 모듈로 활용될 것으로 기대한다.

텍스트마이닝과 연관규칙을 이용한 외부감사 실시내용의 그룹별 핵심어 추출 (Group-wise Keyword Extraction of the External Audit using Text Mining and Association Rules)

  • 성윤석;이동희;정욱
    • 품질경영학회지
    • /
    • 제50권1호
    • /
    • pp.77-89
    • /
    • 2022
  • Purpose: In order to improve the audit quality of a company, an in-depth analysis is required to categorize the audit report in the form of a text document containing the details of the external audit. This study introduces a systematic methodology to extract keywords for each group that determines the differences between groups such as 'audit plan' and 'interim audit' using audit reports collected in the form of text documents. Methods: The first step of the proposed methodology is to preprocess the document through text mining. In the second step, the documents are classified into groups using machine learning techniques and based on this, important vocabularies that have a dominant influence on the performance of classification are extracted. In the third step, the association rules for each group's documents are found. In the last step, the final keywords for each group representing the characteristics of each group are extracted by comparing the important vocabulary for classification with the important vocabulary representing the association rules of each group. Results: This study quantitatively calculates the importance value of the vocabulary used in the audit report based on machine learning rather than the qualitative research method such as the existing literature search, expert evaluation, and Delphi technique. From the case study of this study, it was found that the extracted keywords describe the characteristics of each group well. Conclusion: This study is meaningful in that it has laid the foundation for quantitatively conducting follow-up studies related to key vocabulary in each stage of auditing.

제 3대구치 발치 후 발생한 돌발성 난청: 증례보고 및 문헌 고찰 (Sudden sensorineural hearing loss after third molar extraction: Case report and literature review)

  • 김형기;김일형;구정귀;노민호
    • 대한치과의사협회지
    • /
    • 제58권7호
    • /
    • pp.404-411
    • /
    • 2020
  • This study reports the unusual complications of 22-year-old male who presented with sudden hearing loss after the right mandibular third molar extraction under local anesthesia with 3.6 ml of 2 % lidocaine. Total 8.75 mg of oral dexamethasone for 1 week immediately after extraction was prescribed in department of oral and maxillofacial surgery but hearing did not improve after 1 week. As referral to otolaryngology, total 600 mg of oral methylon and hyperbaric oxygen therapies were operated for 2 weeks. The hearing of patient was improved at 6 weeks after extraction but tinnitus was persisted even after 12 months. The reason and treatment were discussed with literature review, searching with the keywords ['hearing loss' AND ('dental' OR 'tooth extraction'OR'teeth extraction')] in PubMed and Google scholar at October 2019. Total five cases were reported after tooth extraction with local anesthesia. The sudden hearing loss could be associated with local anesthesia containing vasoconstrictors. Early steroid (extensive medication and intra-tympanic injection) and hyperbaric oxygen therapies were recommended within 2 weeks. As a proper treatment, hearing could be improved but other additional symptoms, such as tinnitus, dizziness, might be remained.

  • PDF

텍스트마이닝 기법을 활용한 허위·과장광고 관련 기사의 트렌드 분석(1990-2019) (Analyzing the Trend of False·Exaggerated Advertisement Keywords Using Text-mining Methodology (1990-2019))

  • 김도희;김민정
    • 한국콘텐츠학회논문지
    • /
    • 제21권4호
    • /
    • pp.38-49
    • /
    • 2021
  • 본 연구는 텍스트마이닝 기법을 사용하여 1990년부터 2019년까지 5,141건의 신문기사에서 '허위·과장광고' 용어의 트렌드를 분석하였다. 우선 전체 신문기사를 대상으로 빈도 분석을 통해 허위·과장광고의 최빈 키워드와 추출된 키워드 간의 맥락을 확인하고자 하였다. 다음으로 허위·과장광고가 어떻게 변화해왔는지에 대해 고찰하기 위해 10년 단위로 기사를 분리하여 빈도 분석을 수행하였고, 연도별 최빈 키워드를 주제로 한학술논문 수와 비교하여 해당 시기에 이슈가 된 키워드가 연구로까지 이어진 경향성을 파악하였다. 마지막으로 토픽모델링 분석을 통해 토픽 내 세부 키워드를 바탕으로 허위·과장광고의 동향을 제시하였다. 연구 결과, 특정 시점에 이슈가 되었던 주제가 최빈 키워드로 추출되었고 시대별 키워드 트렌드는 사회적, 환경적 요인과 연관되어 변화함을 확인하였다. 본 연구는 소비자들이 부당광고에 대한 배경지식을 함양함으로써 현명한 소비를 이어 나갈 수 있도록 도움을 주는 데 의의가 있다. 더욱이 핵심 키워드 추출을 통해 위법행위를 저지른 기업 및 관련 종사자들에게 광고의 참된 목적을 제시하고, 시사점을 전달할 수 있을 것이라 기대한다.

지능형 정보검색을 위한 KP AGENT의 설계 (A Design of KP AGENT for Intelligent Information Retrieval)

  • 박경우;배상현
    • 한국정보통신학회논문지
    • /
    • 제4권2호
    • /
    • pp.443-451
    • /
    • 2000
  • 지금가지 과학기술정보를 데이터베이스화한 여러 형태의 학술정보 데이터베이스가 있었지만, 이용자의 욕구를 만족시켜주는데는 미흡하였다. 따라서 이용자의 학술정보 데이터베이스의 기능을 보충하는 새로운 지식표현 패러다임으로 기술정보공간(ICPIS : Information Communication Papers Intelligent Surveyor)을 제안한다. 이것은 기술정보로부터 자동적으로 구축되어 그 중에서 이용자가 자유롭게 탐방 할 수 있는 정보 공간이다. 구축방법과 탐방기능을 명확히 하여 실 시스템을 구축, 평가하는 것이 연구의 목적이다, 이를 위해 ICPIS는 Keyword로 기술된 논문군을 입력하여 논문내용의 항목별 요약, 유사논문의 시각적 표시와 비교, 인과관계의 추출을 시작으로 논문의 요약정보, Survey정보를 사용자에게 제공한다. ICPIS에서 중심적 역할을 나타내는 것은 KP(Knowledge Piece)로 불리고, 이는 기술정보의 추출법과 구조화법을 일체화한 Domain지식의 패키지이다. ICPIS는 KP별로 기술된 Keyword에서 자연언어처리에 해당되는 기술정보를 논문 중에서 추출하여 KP에서 규정된 요약구조로 생성한다.

  • PDF

학회 웹사이트의 토픽 정보추출을 이용한 주제에 따른 학회 자동분류 기법 (Academic Conference Categorization According to Subjects Using Topical Information Extraction from Conference Websites)

  • 이수경;김관호
    • 한국전자거래학회지
    • /
    • 제22권2호
    • /
    • pp.61-77
    • /
    • 2017
  • 최근 온라인상에 게시된 학회정보가 급증함으로써 주제에 따른 학회정보의 자동분류는 연구자들에게 효율적인 관련 학회 탐색을 가능하게 한다. 그러나 대부분의 학회 목록 제공 서비스에서는 학회명칭, 날짜, 위치, URL 등의 정보만 제공하기 때문에 학회 주제를 파악할 수 있는 정보는 학회명칭에 국한된다. 따라서 본 연구에서는 URL을 통한 학회 웹사이트의 토픽정보를 추출함으로써 학회정보량의 부족문제를 해결하고, 동시에 양질의 정보로 학습의 성능을 향상시키는 기법을 제안한다. 구체적으로는 웹사이트 URL을 통해 수집한 HTML 문서로부터 주요 콘텐츠를 추출하고, 학회명칭과 유사한 토픽 키워드 정보를 선정하여 추가 가중치를 부여한다. 실 데이터를 활용한 실험 결과, 제안된 방법인 추가적인 웹 콘텐츠 정보의 사용은 주제에 따른 학회 분류의 성능을 성공적으로 향상시킬 수 있음을 확인하였다. 추후 연구에서는 웹 사이트의 구조를 고려한 토픽 정보추출을 통해 분류의 정확성을 더욱 향상시킬 계획이다.

빅데이터 처리를 통한 연예 뉴스에서의 키워드 추출에 관한 연구 (A Study on Keywords Extraction from Entertainment News using Bigdata Processing)

  • 유상현;이상준
    • 한국IT정책경영학회 논문지
    • /
    • 제11권6호
    • /
    • pp.1503-1507
    • /
    • 2019
  • 온라인 연예 뉴스 기사의 연성화와 속보성 기사가 증가함에 따라 많은 사람들이 연예면 기사를 접하며, 연예인에 대한 평가를 내릴 수 있게 됐다. 연예인에 대한 평판은 소속된 연예인 자원을 최대한 활용해야 하는 연예기획사의 사업전략에 핵심적인 요소이나, 실시간적으로 대규모 기사가 올라오는 환경에서 어떤 뉴스 기사가 어떤 연예인에 관한 것인지 체계적으로 분석하는 것은 용이하지 않다. 본 논문은 연예 뉴스 데이터에서 언급되는 연예인의 언급량을 기준으로 해당 기사의 주제가 되는 연예인을 추출하고, 해당 연예인의 연예기획사로 연관짓는 연예 뉴스 키워드 분석 시스템을 제안한다. 본 논문에서 제안된 시스템을 통해 광고사 혹은 연예기획사 측에서 사업을 위한 참고 자료로 해당 연예인의 가치 판단을 할 수 있다. 이와 더불어 증권사나 투자자들에게 연예기획사의 전망을 예측하여, 투자 전략의 토대를 마련해줄 수 있다.