• 제목/요약/키워드: 키워드 선택

검색결과 169건 처리시간 0.025초

LDA 모델을 이용한 잠재 키워드 추출 (Latent Keyphrase Extraction Using LDA Model)

  • 조태민;이지형
    • 한국지능시스템학회논문지
    • /
    • 제25권2호
    • /
    • pp.180-185
    • /
    • 2015
  • 인터넷 미디어의 발달과 함께 온라인 문서의 양이 급격하게 증가함에 따라, 문서 요약과 정보 검색 등 다양한 분야에 활용가능한 키워드를 자동으로 찾고자하는 연구가 활발히 진행되고 있다. 하지만 기존의 키워드 추출 연구들은 문서에서 나타나는 키워드만을 대상으로 하고 있어, 문서에서 등장하지 않는 잠재 키워드를 추출하지 못하는 한계를 갖고 있다. 잠재 키워드는 실데이터 키워드의 1/4 이상을 차지하고 있으며, 문서에서 나타나지는 않지만 문서의 중요한 개념이나 내용을 함축하고 있어 문서 요약 및 정보 검색에 중요한 역할을 차지할 수 있다. 특히 SNS와 같이 내용이 적어 키워드가 명시적으로 나타나기 어려운 문서에서 유용하게 활용될 수 있다. 본 논문에서는 잠재 키워드를 추출하기 위해 주어진 문서와 유사한 문서의 키워드를 후보 키워드로 선택하고 후보 키워드를 구성하는 개별 단어들을 이용해 후보 키워드의 중요도를 평가하는 방법을 제안한다. 실험을 통해, 제안 기법이 잠재 키워드를 합리적인 수준으로 추출할 수 있음을 보였다.

Covid 19 News Data Analysis and Visualization

  • Hur, Tai-Sung;Hwang, In-Yong
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권4호
    • /
    • pp.37-43
    • /
    • 2022
  • 본 논문에서는 2019년 12월부터 2020년 7월까지 약 8개월간 유통되었던 코로나19와 관련된 뉴스데이터를 이용하여 일자 및 지역별로 단어에 대한 빈도를 구하고, 결과를 활용하여 코로나19 환자에 대한 현황 데이터와의 상관관계를 시각화하였다. 뉴스데이터는 한국언론진흥재단에서 운영하고 있는 뉴스 빅데이터 시스템 '빅카인즈'에서 수집된 데이터를 활용하였다. 본 논문에서 제안하는 시각화 시스템은 지역과 기간을 선택하면 분석한 결과를 이용하여 전체 지역 대비 선택한 지역의 뉴스 빈도수, 선택한 지역의 주요 키워드, 주요 키워드의 지역별, 일자별 변화 등을 보여 주고 있다. 이러한 시각화를 통하여 이전에 발생하였던 사건에 대해 주요 키워드와 코로나19 확진자 및 감염자 추이를 확인할 수 있다.

블로그 키워드 추출을 통한 음악 추천 기법 (Music Recommendation based on Blog Keyword Extraction)

  • 최홍구;전상훈;황인준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.701-704
    • /
    • 2010
  • 본 논문에서는 블로그의 포스트로부터 주요 키워드를 추출하여 노래 가사 데이터와 유사도를 분석, 해당 블로그 포스트에 적합한 음악을 추천하는 기법을 제안한다. 또한, 블로거가 포스트마다 제시한 태그들도 주요한 키워드로서 활용한다. 이를 위해서, 첫째로 TF-IDF 기법을 사용하여 텍스트로 구성된 포스트의 중요 키워드를 추출한다. 둘째로 포스트의 태그와 추출된 키워드를 기반으로 유사한 노래 가사를 LSA 기법으로 검색하여 가장 높은 유사도를 갖는 음악을 선택, 적합한 음악으로써 추천한다. 사용자 만족도 평가 실험을 통해서 제안하는 기법이 실제 추천에 적합한지 검증한다.

확장 불리언 질의에 대한 비용 기반 최적화 (Cost-based Optimization of Extended Boolean Queries)

  • 박병권
    • 정보관리학회지
    • /
    • 제18권3호
    • /
    • pp.29-40
    • /
    • 2001
  • 본 논문에서는 역색인 파일을 미용하여 학장 불리언 질의를 처리할 때 최소 비용의 질의 처리 방법을 구해 주는 질의 최적화 알고리즘을 제시한다. 확장 불리언 질의를 처리하는 방법은 질의를 구성하는 키위드의 처리 순서에 따라 여러 가지가 있을 수 있으므로 확장 불리언 질의 최적화 문제는 결국 최적 키워드 처리 순서를 구하는 문제로 귀결된다. 본 논문에서는 이 문제가 데이터베이스 질의 최적화에서 최적 조인 순서를 구하는 문제와 구조적으로 유사함을 보이고 이 분야의 연구 결과를 이용하여 문제를 해결한다. 즉, 확장 불리언 질의 처리에 대한 비용 모델을 수립하고 키워드 선택률과 역색인 파일 접근 비용을 이용하여 키워드 순위 개념을 도입한 후 이를 이용하여 최적 키워드 처리 순서를 구하는 알고리즘을 도출한다. 그리고 도출한 질의 최적화 알고리즘의 최적성을 증명하고. 실험을 통하여 실제로 최소비용의 질의 처리 방법을 구함을 보이고, 질의 최적화를 하지 않을 경우와 비교하였을 때 그 성능이 월등히 우수함을 보인다. 본 논문에서 제시한 질의 최적화 알고리즘은 정보검색시스템의 질의 처리 성능 향상에 큰 기여를 하리라 믿는다.

  • PDF

인터넷 쇼핑몰에서 고객 쇼핑편익을 위한 감성공학적 검색 System 구현 (The implementation of the search system by Human sensibility Ergonomics for customer shopping benefit based on Internet shopping mall)

  • 오진희;김돈한
    • 디자인학연구
    • /
    • 제13권1호
    • /
    • pp.49-58
    • /
    • 2000
  • 본 연구는 인터넷상에서 쇼핑문화가 자리잡아 가고 있는 현실에서 전자상거래의 한 형태인 인터넷 쇼핑몰에서의 감성 공학적 검색시스템 구축에 있다. 기존 쇼핑몰에서 검색의 키워드로 사용하고 있는 업종, 품목, 가격, 크기 대신 제품에서 소비자가 느끼는 감성을 키워드를 통해 제품을 선택할 수 있는 시스템을 중심으로 연구가 이루어졌다. 감성공학적 검색시스템에서는 대상 제품을 선택하여 그 제품의 이미지가 가지고 감성을 어휘로 데이터베이스를 구축한 후, 인터넷상에 웹서버를 구축하여 쇼핑몰 상에서 소비자가 입력한 감성어휘를 키워드로 하여 제품을 검색하는 시스템이다. 따라서 본 연구에서는 명확하지 않은 소비자의 감성 니즈를 보다 실제적인 방향으로 체계화하고 소비자가 제품에서 가지는 감성을 파악하여 소비자 구매 의사 결정 과정에 영향을 주는 고객중심의 응용기술 환경을 제공하고, 인터넷 쇼핑몰에서 소비자에게 제품 선택 기회와 선택 폭을 확대하고, 제품에 대한 정보를 다양하게 제공하여 소비자 니즈에 실제적인 방향으로 접근하고자 했다.

  • PDF

워드임베딩을 활용한 복압성 요실금 관련 연구 동향에 관한 융합 연구 (A Convergence Study of the Research Trends on Stress Urinary Incontinence using Word Embedding)

  • 김준희;안선희;곽경태;원영수;유화익
    • 한국융합학회논문지
    • /
    • 제12권8호
    • /
    • pp.1-11
    • /
    • 2021
  • 본 연구의 목적은 '복압성 요실금'을 키워드로 검색된 연구들의 경향과 특성을 단어 빈도를 통해 분석하고, 워드 임베딩을 사용하여 그 관계를 모델링 하고자 하였다. 의학 서지 데이터베이스인 MEDLINE에 등록되어 있는 복압성 요실금 연구 9,868개 논문들의 초록 문자 데이터를 Python 프로그램을 이용하여 추출하였다. 그런 다음 빈도 분석을 통해 10개의 키워드를 선택하였다. 키워드 관련 단어들의 유사도는 Word2Vec 머신러닝 알고리즘으로 분석하였다. 그리고, t-SNE 기법을 사용하여 단어의 위치와 거리가 시각화하였고, 이에 따라 그룹을 분류하여 이를 분석하였다. 복압성 요실금과 관련된 연구는 1980년대 이후 빠르게 증가했다. 키워드 분석을 통해 논문 초록에서 가장 많이 사용된 키워드는 '여성', '요도', '수술'로 나타났다. Word2Vec 모델링을 통해 복압성 요실금 관련 연구에서 주요 키워드들과 가장 높은 연관성을 나타내는 단어들에는 '여성', '절박', '증상' 등이 있었다. 그리고, t-SNE 기법을 통해 키워드와 관련 단어들은 복압성 요실금의 증상, 신체 기관의 해부학적 특성, 그리고 수술적 중재를 중심으로 하는 3개의 그룹으로 분류될 수 있었다. 본 연구는 초록을 구성하는 단어들의 키워드 빈도 분석 및 워드임베딩 방식을 이용하여 복압성 요실금 관련 연구들의 동향을 살펴본 최초의 연구이다. 본 연구의 결과는 향후 연구자들이 복압성 요실금 관련 연구 분야의 주제와 방향성을 선택하는 데 있어 기초자료로 활용될 수 있을 것이다.

질의문 자동생성방식의 질의응답시스템의 설계 및 구축 (Design of Question Answering System with Automated Question Generation)

  • 김민경;김한준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.49-54
    • /
    • 2008
  • 질의응답시스템에서 사용자 질의로 입력된 자연어문장을 완벽하게 분석하는 것은 쉬운 일이 아니며, 사용자의 질의 의도의 불명확성으로 키워드 여러 개의 질의문이 존재할 수 있다. 본 논문에서는 질의를 하기 전에 사용자가 안게 되는 자연어 질의문의 작성 부담감을 줄이고, 키워드만으로 자신이 원하는 질의문을 선택할 수 있는 시스템을 제안하고자 한다. 제안 시스템은 평서문에서 자동으로 질의문을 생성한다. 질의문 생성은 장문형질의문생성과 단문형질의문생성으로 구분하며, 장문형질의문은 문장의 전체형태를 유지하면서 특정고유명사를 질의하는 것이고, 단문형질의문은 주어진 고유명사를 질의하는 최소한의 요소를 갖춘 단순 형태의 질의 문장이다. 또한 제안 시스템은 생성된 질의문이 유한 해답을 도출할 수 있는 의미있는 질의문을 선별하는 과정을 포함한다. 본 논문에서 제안한 방식이 사용자에게 의미있는 질의문을 제시하여주고 사용자가 원하는 질의문을 선택하게 함으로써 검색의 시간단축과 자연어문장 질의어 자체에 대한 고민을 해소시킬 수 있다. 또한 이는 자연어 문장처리의 한계를 극복할 수 있는 시스템을 구현할 수 있는 기반을 마련한 것이다.

  • PDF

품질기반의 웹 서비스 검색을 위한 확장 UDDI 개발 (Development of an Exteneded UDDI for Quality based Web Service Retrieval)

  • 박성수;이종근;윤지희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (C)
    • /
    • pp.79-81
    • /
    • 2006
  • 최근 이질 분산형태를 갖는 정보를 통합하는 방법으로서 웹 서비스 기술을 이용한 바이오 정보 시스템이 개발 구축되고 있다. 이러한 웹 서비스 기반 바이오 정보 시스템으로 Bio-MOBY. DDBJ, MyGrid Project 등을 들 수 있다. 그러나 이들 기존 시스템에서는 선택한 DB에 대한 accession 번호 검색을 지원하거나. 시스템에 등록된 서비스의 선택만이 허용되는 등 이용형태가 매우 제한적이다. 또한 서비스의 품질 평가 기능이 제공되지 않아 서비스의 관련성을 판별하지 못하며, 심지어 링크가 바르게 연결되지 않았거나, 작동하지 않는 서비스의 분별조차 불가능한 실정이다. 본 논문에서는 이러한 문제점을 해결하고자 서비스 검색과정에서 웹 서비스의 품질을 평가하고 평가된 품질을 기반으로 웹 서비스를 순위화해 사용자에게 제공하는 품질기반 UDDI를 제안한다. 이를 위해 우리는 Gene Ontology를 이용한 연관 키워드 검색방식과 키워드 기반의 서비스 품질 평가 방법을 제안하고, 본 방식의 유용성을 보인다.

  • PDF

베이지안 네트워크와 멀티 레이어 퍼셉트론을 이용한 모바일 스팸 문자 메시지 필터링 방법 (A Method for Spam SMS Filtering Using Bayesian Network and Multi Layer Perceptron)

  • 홍승범;김문현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.283-286
    • /
    • 2011
  • 스팸 메시지는 불특정 다수에게 보내지는 광고성 메시지로서 최근 들어 그 양이 증가하고 있는 추세이다. 본 논문에서는 모바일 환경에서의 스팸 메시지 필터링을 위한 시스템을 제안하며 기존 환경에서 자주 사용되었던 키워드 기반 필터링 시스템의 단점을 해결하고자 고안되었다. 베이지안 네트워크를 통해 스팸 메시지들의 패턴을 추출하고 추출된 패턴을 멀티 레이어 퍼셉트론을 이용해 학습하여 메시지들을 분류한다. 이 시스템을 통해 약 93.5%의 필터링 정확도률을 얻었으며 키워드 선택 대신 스팸 메시지를 선택해 학습시킴으로서 사용하기 쉽고 사용자에 맞는 시스템을 구성할 수 있었다.

칼라 지정을 이용한 내용기반 화상검색 시스템 구현 (Implementation of a Content-Based Image Retrieval System with Color Assignments)

  • 김철원;최기호
    • 한국정보처리학회논문지
    • /
    • 제4권4호
    • /
    • pp.933-943
    • /
    • 1997
  • 본 논문에서는 화상의 칼라 지정을 이용한 내용기반 화상검색 시스템 구현에 관하여 연구 하였다. 화상의 칼라는 사람이 느끼는 칼라에 적합하도록 RGB칼라 공간을 HSC(hue, saturation, value) 칼라공간으로 변환시켜 그 특징을 추출하였다. 칼라특징 추출시 화상을 9개의 영역으로 나누어 각 영역의 대표칼라 3개를 칼라 히스토 그램을 사용 하여 선택하였다. 키워드로 화상의 종류를 선택가능하도록 했으며, 검색은 화상 입력 에 의한 검색과,칼라지정을 이용한 키워드에 의한 검색, 칼라지정을 이용한 키워드와 화상 입력을 결합한 화상검색, 화상내의 특징 객체를 선택하여 검색하는 4가지 질의방법을 사용하여 실험하였다. 실험결과, 각각의 방법에서 Pre-cision/Recall이 0.55/0.37, 0.57/0.43, 0.59/0.45, 0.63/0.61의 결과를 얻었으며, 칼라지정을 사용함으로써 우수한 검색효율을 보였다.

  • PDF