• 제목/요약/키워드: 중요어

검색결과 869건 처리시간 0.025초

질의어 단위 사용자 프로파일을 이용한 북마크 기반 개인화 검색 방법 (Bookmark-Based Personalized Search through Query-Level User Profile)

  • 김현지;배동환;고민삼;이문용
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.42-44
    • /
    • 2012
  • 본 논문에서는 개인화 검색 시 사용자의 단일 프로파일이 개인의 다양한 정보 요구를 만족시키지 못하는 문제를 개선하고자, 질의어에 따라 프로파일을 조정하는 방법을 제안한다. 특히, 제안하는 방법은 북마크 데이터로부터 질의어에 관해 사용자가 중요하게 생각하는 단어들을 추출하여 프로파일을 조정하는데 활용한다. 유명 북마크 서비스인 CiteULike의 데이터를 활용한 실험에서, 제안하는 방법이 단일 프로파일에 기반한 기존의 방법보다 더 뛰어난 개인화 검색 결과를 제공함을 확인할 수 있었다.

실시간 검색어 분석을 이용한 인터넷 정보 관심도 분석 (An Analysis on Internet Information using Real Time Search Words)

  • 노기섭
    • 문화기술의 융합
    • /
    • 제4권4호
    • /
    • pp.337-341
    • /
    • 2018
  • 온라인 미디어의 지속적인 발전과 최근 모바일 컴퓨팅 사용 환경이 급격하게 개선됨에 따라 인터넷 정보의 유통이 공급자 중심 단방향에서 소비자 중심의 양방향으로 빠르게 변화하였다. 이에 따라 인터넷 정보의 관심도를 측정하는 것이 공급자와 소비자에게 중요한 문제로 대두되었다. 본 논문에서는 국내 인터넷 정보제공 업체에서 제공하는 실시간 검색어를 자동화된 소프트웨어를 구현하여 1개월간의 데이터를 수집하고, 실시간 검색어의 지속시간을 분석하여 인터넷 정보 관심도를 분석하였다.

어텐션 기반 비디오 하이라이트 예측 알고리즘의 개선 (Improving Attention-based Video Highlight Prediction)

  • 윤원빈;황준규;이계민
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 추계학술대회
    • /
    • pp.314-317
    • /
    • 2021
  • 하이라이트 영상은 원본 영상의 중요한 장면들을 짧은 시간 안에 감상할 수 있게 도와준다. 특히나 경기 시간 긴 축구나 야구 그리고 e-스포츠의 시청자들에게 있어, 하이라이트 영상의 효용성은 더욱 증가한다. 하이라이트 영상 추출의 자동화로 방송사나 온라인 플랫폼은 비용 절감과 시간 절약의 이점을 얻을 수 있다. 따라서 본 논문에서는 스포츠 영상에서 자동으로 하이라이트 구간을 추출하는 모델을 제안한다. 제안하는 모델은 멀티 헤드 어텐션 매커니즘과 LSTM 네트워크의 결합으로 구성된다. 해당 매커니즘의 여러 헤드를 통해 어텐션을 다양한 관점에서 진행한다. 이로 인해 영상의 전체적인 맥락과 장면 간의 유기적 관계를 다양한 관점에서 파악할 수 있다. 또한 오디오와 이미지 정보를 함께 이용하여 모델을 학습한다. 학습한 모델의 평가는 e-스포츠 경기 영상을 이용하여 평가한다.

  • PDF

화장품 후기글의 자질기반 감성분석을 위한 다단어 표현의 유한그래프 사전 및 문법 구축 (Building Korean Multi-word Expression Lexicons and Grammars Represented by Finite-State Graphs for FbSA of Cosmetic Reviews)

  • 황창회;유광훈;최성용;신동혁;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.400-405
    • /
    • 2018
  • 본 연구는 한국어 화장품 리뷰 코퍼스의 자질기반 감성 분석을 위하여, 이 도메인에서 실현되는 중요한 다단어 표현(MWE)의 유한상태 그래프 사전과 문법을 구축하는 방법론을 제시하고, 실제 구축된 사전과 문법의 성능을 평가하는 것을 목표로 한다. 본 연구에서는 자연어처리(NLP)에서 중요한 화두로 논의되어 온 MWE의 어휘-통사적 특징을 부분문법 그래프(LGG)로 형식화하였다. 화장품 리뷰 코퍼스에 DECO 한국어 전자사전을 적용하여 어휘 빈도 통계를 획득하고 이에 대한 언어학적 분석을 통해 극성 MWE(Polarity-MWE)와 화제 MWE(Topic MWE)의 전체 네 가지 하위 범주를 분류하였다. 또한 각 모듈간의 상호관계에 대한 어휘-통사적 속성을 반복적으로 적용하는 이중 증식(double-propagation)을 통해 자원을 확장하였다. 이 과정을 통해 구축된 대용량 MWE 유한그래프 사전 DECO-MWE의 성능을 테스트한 결과 각각 0.844(Pol-MWE), 0.742(Top-MWE)의 조화평균을 보였다. 이를 통해 본 연구에서 제안하는 MWE 언어자원 구축 방법론이 다양한 도메인에서 활용될 수 있고 향후 자질기반 감성 분석에 중요한 자원이 될 것임을 확인하였다.

  • PDF

피벗 역문헌빈도 가중치 기법에 대한 연구 (A Study on the Pivoted Inverse Document Frequency Weighting Method)

  • 이재윤
    • 정보관리학회지
    • /
    • 제20권4호통권50호
    • /
    • pp.233-248
    • /
    • 2003
  • 역문헌빈도 가중치 기법은 문헌 집단에서 출현빈도가 낮을수록 색인어의 중요도가 높다는 가정에 근거하고 있다. 그런데 이는 중간빈도어를 중요하게 여기는 여타 이론과는 일치하지 않는 것이다. 이 연구에서는 저빈도어보다 중간빈도어가 더 중요하다는 가정에 근거하여 역문헌빈도 가중치 공식을 수정한 피벗 역문헌번도 가중치 기법을 제안하였다. 제안된 기법을 검증하기 위해서 세 실험집단을 대상으로 검색실험을 수행한 결과, 피벗 역문헌빈도 가중치기법이 역문헌빈도 가중치 기법에 비해서 특히 검색결과 상위에서의 성능을 향상시키는 것으로 나타났다.

명사의 연어 정보와 서술성 명사의 공기 정보를 활용한 복합명사 분석 및 자동 색인 (Analysis of Compound Noun and Automatic Indexing Using Collocation Information of Nouns and Co-occurrence Information of Predicative Nouns)

  • 양성현;정의석;윤준태;송만석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.59-64
    • /
    • 1997
  • 복합명사로부터 적절한 색인어를 추출하는 것은 한국어 정보검색 시스템의 성능 향상에 중요한 역할을 한다. 본 논문에서는 복합명사로부터 색인어 추출을 하기 위해 복합명사 구문 구조 분석 결과를 활용한다. 단일명사가 3개 이상 결합된 복합명사의 경우 각 단일명사의 구문적 관계를 파악하여 적절한 괄호치기를 한 후 색인어를 추출하면 보다 좋은 결과를 얻을 수 있다. 이러한 복합명사 구문 구조 분석을 위해 말뭉치로부터 구조적 중의성이 없는 연어 관계의 완전 복합명사와, 서술성 명사와 공기하는 명사쌍을 추출한 결과를 이용한다. 또한 서술성 명사는 이와 공기하는 명사와 결합되어 복합명사를 이를 가능성이 많고, 복합명사의 형태로 인식되어야만 정확한 의미 파악이 가능하다. 서술성 명사와 공기하는 명사를 파악하여 복합명사를 추출하기 위해서 부분 파서로 공기쌍을 찾아 복합명사 후보를 생성한 후, 이 후보 가운데 적합한 복합명사만을 선택하기 위해 말뭉치에서 추출한 완전 복합명사 사전을 통해 검증한다. 이러한 방법으로 서술성 명사에서 복합명사 형태의 색인어를 추출한다.

  • PDF

"표준국어대사전"을 이용한 시소러스 구축 (Construction of Thesaurus Using "The Korean Standard Dictionary")

  • 한상길
    • 한국도서관정보학회지
    • /
    • 제44권4호
    • /
    • pp.233-254
    • /
    • 2013
  • 시소러스 작성에 있어서 가장 현실적인 어려움은 용어의 수집에 있다. 용어사전 뿐만 아니라 어휘사전도 시소러스의 중요한 용어 수집원으로 사용될 수 있다. "표준국어대사전"은 어문 규정을 충실히 반영한 우리나라의 대표사전이다. 또한 "표준국어대사전"은 단순히 표제어에 대한 용어 정의뿐만 아니라 해당 용어에 대한 다양한 정보를 체계적으로 담고 있기 때문에, 이를 시소러스 사전 구축에 활용할 수 있을 것이다. 본 연구는 "표준국어대사전"이 갖고 있는 다양한 용어관계 정보를 시소러스 용어관계로 정의하는 방안을 모색하였다. 또한 용어의 분리, 동등관계와 계층관계의 설정, 한정어의 사용, 북한어 관계 등 시소러스 구축에서의 문제점과 해결 방안을 제시한다.

불-한 연어 데이터베이스 구축을 위한 굴절 정보의 처리 (Processing of Inflectional forms for the French-Korean Collocational Database)

  • 윤애선;정휘웅;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.267-272
    • /
    • 2001
  • 구(phrase) 단위 또는 문장(sentence) 단위의 연어(collocation) 정보는 자연언어 처리를 위한 단일어 또는 이중어 데이터베이스를 구축할 수 있는 중요한 기초 자료가 될 뿐 아니라, 외국어 학습에서도 어휘 단계를 넘어선 학습 자료를 제공할 수 있다. 불어는 굴절 언어(inflectional language)로서 기본형 대 굴절형의 비율이 약 1:9 정도로 비교적 굴절 비율이 높은 언어다. 또한 불어 표제어 중 95% 이상을 차지하는 불어의 동사, 명사, 형용사 중 상당한 비율이 암기해야 할 목록(list)이라는 특성을 갖기 때문에 검색과 학습에 있어 오류가 지속적으로 일어나는 부분이다. 표제어의 검색의 경우 불어 굴절 현상을 지원하는 전자 사전이 개발되어 있지만 아직까지 연어 정보에서 굴절형을 지원할 수 사전 또는 데이터베이스는 개발되어 있지 않다. 본 연구의 목적은 전자 사전과 형태소 분석기를 이용하여 굴절형 처리를 지원할 수 있는 불-한 연어 데이터베이스를 구축하는데 있다. 이를 위해 부산대학교 언어정보 연구실에서 개발한 불어 형태소 분석기 Infection와 불-한 전자 사전 Franco를 사용하였으며, 지금까지 구축된 불-한 연어 정보는 94,965 개이다. 본 고에서는 두 정보를 이용하여 불어 굴절형 정보를 분석 및 생성하는 방식 및 불-한 연어 데이터베이스 구조를 살펴 본다.

  • PDF

인터넷에서 잠재적 의미 분석을 이용한 지능적 정보 검색 (Intelligne information retrieval using latent semantic analysis on the internet)

  • 임재현;김영찬
    • 한국통신학회논문지
    • /
    • 제22권8호
    • /
    • pp.1782-1789
    • /
    • 1997
  • 인터넷에서 분산 정보를 검색하는 대부분의 시스템들은 사용자가 요구하는 검색 용어의 의미를 반영하지 못해 관련된 정보를 정확히 찾지 못하고 있다. 본 논문에서는 정보 검색 성능을 향상시키는 방안으로 검색 용어의 의미를 반영할 수 있는 용어 분포에 기반한 자동화된 질의어 확장을 제안한다. 먼저, 사용자가 부여한 질의어와 전체 문서에서 용어의 중요도를 반영한 가중치(weight)를 계산하고, LSI의 SVD기법을 이용해 모든 문서에서 질의어와 유사하게 출현하는 용어의 분포를 측정하여, 이들 수치와 질의어 용어의 유사성을 측정하였다. 또한 자동적으로 추가할 용어를 줄이기 위한 방안을 연구하였으며 본 논문에서 제안한 방법을 사용해 검색 성능을 평가하였다.

  • PDF

문서 요약 및 비교분석을 위한 주제어 네트워크 가시화 (Keyword Network Visualization for Text Summarization and Comparative Analysis)

  • 김경림;이다영;조환규
    • 정보과학회 논문지
    • /
    • 제44권2호
    • /
    • pp.139-147
    • /
    • 2017
  • 문자 정보는 인터넷 공간에 통용되는 정보의 대다수를 차지하고 있다. 따라서 대용량의 문서의 의미를 빠르게 특히 자동적으로 파악하는 일은 빅 데이터 시대의 중요한 연구 주제중 하나이다. 이 분야의 대표적인 연구 중 하나는 문서의 의미를 요약해주는 주요 주제어의 자동 추출 및 분석이다. 그러나 단순히 추출된 개별 주제어들의 집합만으로 문서의 의미구조를 나타내기에는 부족함이 있다. 본 논문에서는 추출된 주제어들의 연관관계를 그래프로 표현하여 대상 문서의 의미구조를 보다 다양하게 표시하고 추상화할 수 있는 주제어 가시화 방법을 개발하였다. 먼저 각 주제어들 간의 연관관계를 추출하기 위해 주제어별 지배구간 모델과 단어거리 모델을 제안하였다. 이렇게 추출한 주제어 연결성과 그를 형상화한 그래프는 문서의 의미구조를 보다 함축적으로 담고 있으므로 문서의 빠른 내용파악과 요약이 가능하며 이 가시화 그래프를 비교함으로서 문서의 의미적 유사도 비교도 가능하다. 실험을 통하여 문서의 의미파악과 비교에 본 주제어 가시화 그래프는 일반적인 요약문이나 단순 주제어 리스트보다 더 유용함을 보였다.