• 제목/요약/키워드: 키워드추출 시스템

검색결과 287건 처리시간 0.032초

MPEG-7 시각 정보 기술자와 텍스트 정보를 이용한 내용 기반 웹 이미지 검색 시스템 (A Content based Web Image Retrieval System using MPEG-7 Visual Descriptors and Textual Information)

  • 박주현;낭종호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (A)
    • /
    • pp.232-234
    • /
    • 2006
  • 인터넷 기술의 발달과 디지털 카메라와 같은 디지털 미디어 생산 장비의 발달로 WWW에 이미지 데이터의 양이 급격하게 늘어나면서 웹 이미지에 대한 효율적인 검색에 대한 요구가 증가하고 있다. 본 논문에서는 사용자의 다양한 검색 요구를 만족시킬 수 있도록 기존의 텍스트 기반의 검색과 시각 정보 기반의 검색을 병합하여 수행할 수 있는 웹 이미지 검색 시스템을 설계하고 구현한다. 제안한 웹 이미지 검색 시스템은 웹 이미지 수집 및 검색정보 추출 도구. 검색 서버. 그리고 검색 클라이언트로 구성된다. 웹 이미지 수집 및 검색 정보 추출 도구는 웹에서 이미지를 수집하여 이미지가 속해있는 웹 문서 구조를 이용하여 적절한 키워드를 선택하며 시각 정보 기반의 검색을 지원하기 위해 MPEG-7 시각 정보 기술자(1)를 추출한다. 빠른 검색을 위해 추출된 텍스트 정보는 상용 데이터베이스에 저장되며 MPEG-7 시각 정보 기술자는 고차원 데이터 색인 방법인 HBI (Hierarchical Bitmap Index)(2)를 사용하여 색인 정보를 만들어 사용한다. 검색 클라이언트는 사용자가 각 검색 요소에 가중치를 부여하여 검색 할 수 있도록 하며 원하는 검색 결과를 얻을 때까지 반복하여 검색할 수 있는 연관 피드백 과정도 포함한다.

  • PDF

한국어 형태소 분석기 CBKMA와 색인어 추출기 CBKMA/IX (A Korean Morphological Analyzer CBKMA and A Index Word Extractor CBKMA/IX)

  • 김남철;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.50-59
    • /
    • 1999
  • 본 논문은 한국어 형태소 분석기 CBKMA와 이 CBKMA를 이용한 색인어 추출기 CBKMA/IX를 소개하고, 각각의 특징들에 대해서 설명한다. CBKMA는 음절 정보를 이용하는 분석 알고리즘과, 효율적인 사전구성을 이용한 형태소 분석기로서, 과다한 분석 후보의 생성을 줄임으로써 처리 속도를 향상시켰다. 수행시 필요로 하는 컴퓨터 자원은 Main Memory 약 4Mb정도로, 작은 규모의 시스템에서도 수행이 가능한 특징을 갖는다. CBKMA/IX는 CBKMA의 형태소 분석 기능을 이용하는 색인어 자동 추출기로서, 처리 속도 향상을 위하여 대분류 수준의 품사 태그만을 이용한다. 또한 CBKMA의 분석 기능에 색인어 추출을 위해 불용어 사전, 사용자 키워드 사전 처리 부분과, 복합명사와 미등록어 분석 부분 및 한자어, 일본어 등에 대한 처리를 강화시켰다. 특히 비소설류 자료의 분석시 좋은 성능을 발휘한다.

  • PDF

의미있는 정보 검색을 위한 개인화된 다중 전략 학습 모듈의 설계 및 구현 (Design and Implementation of PMSL for Information Retrieval)

  • 유수경;김교정
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.208-210
    • /
    • 2004
  • 오늘날 인터넷상에서 존재하는 않은 정보들은 다양한 사용자의 개인 특성에 안게 새로운 정보의 지식으로 제공되어지기를 원한다. 기존의 연구는 단일 학술 기법을 통해 정보를 추출했으나 사용자에게 보다 의미 있는 정보를 제공하기 위해 다중 전략 학습 기법인 PMSL(Personalized Multi-Strategy Learning) 모듈 시스템을 제안하고자 한다. PMSL 모듈은 인터넷의 정보를 여과하여 필터링하고, 사용자 개인화의 키워드를 중심으로 연관된 객체를 추출한다. 이때 연관된 객체 추출시 대용량 데이터에서 시간적, 공간적면에서 효율적인 연관 탐색 기법인 Fp-Tree와 Fp-Growth 알고리즘을 적용시킴으로 결과의 효율성을 높이고자 하였으며, 연관규칙의 문제점을 보완하기 위해 가중치 기법인 TF*IDF 학습 기법을 적용시켰다. PMSL 모듈을 실행한 결과 기존 학습 기법에 비해 보다 더 의미 있는 연관 지식을 추출하게 되었다.

  • PDF

수재해 정보 지오코딩 모듈 프로토타입 개발 (Development of geo-coding module prototype on water hazard information)

  • 백승협;박광하;황의호;채효석
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2017년도 학술발표회
    • /
    • pp.476-476
    • /
    • 2017
  • 최근 갑작스런 폭우로 인한 제방 붕괴, 침수 및 지진 등과 같은 재해 발생 시 추가 피해를 방지하고 주민들의 긴급대피를 도운 건 SNS를 통한 현장 정보와 경보 메시지의 지속적인 전파이다. 최근의 SNS는 재난정보에서도 활용할 수 있을 정도로 진화하였다. 국가재난정보 중 수재해 관련 정보를 추출하여 다양한 주제도위에 중첩으로 공간정보를 제공할 수 있는 재난정보 제공을 위한 웹서비스를 개발하고자 하였다. 수재해 정보를 필터링하기 위하여 우선 관련된 키워드 선정이 필요하며, 기본적인 키워드는 하천일람표를 참고하여 6개 권역 및 하천이름을 선정하였다. 또한, 한강 홍수 통제소의 수자원 용어사전과 (사)한국물학술단체연합회에서 발간한 물용어집을 참고하여 수재해 관련 용어들 약 300여개를 추가하였다. 선정된 용어들은 1차적으로 적재된 데이터베이스에서 수재해 정보 관련 필터링을 하는데 사용되며, 비정형 데이터들을 필터링하고 주소 정보 검색 및 추출을 통하여 정형화 하게 된다. 추출된 주소정보에 대하여 개발한 지오코딩 모듈을 적용하여 수재해 항목에 대해 좌표정보를 업데이트 하게 된다. 가뭄, 집중호우, 홍수 등의 수재해 정보별, 또한 일자별 그룹화 및 구조화를 진행하고 해당되는 정보를 공간정보 오픈플랫폼 API를 활용하여 지도상에 가시화할 수 있다. 개발한 지오코딩 모듈을 이용하여 실제 테이블 정보를 구성하여 데이터베이스에 수재해 정보 지오코딩 테이블을 구성하여 테스트 모의하였다. 재난정보 중 홍수, 가뭄에 대한 선택정보와 시간정보를 매개변수로 받는 XML 웹서비스 테스트로 검증을 하였다. 본 연구를 통하여 재난정보 가시화에 있어서 사용자가 조회하고자 하는 유형별, 날짜별 선택이 가능한 공간적 정보를 검색 및 확인할 수 있게 되었다. 개발한 수재해 정보 지오코딩 모듈 프로토 타입은 수재해 정보 플랫폼 융합기술 연구단에서 개발하는 핵심 목표시스템 내 재난정보 제공시스템에 적용 가능하며, 수재해 정보에 대하여 대국민 서비스가 가능할 것으로 사료된다.

  • PDF

사회문제 해결형 기술수요 발굴을 위한 키워드 추출 시스템 제안 (A Proposal of a Keyword Extraction System for Detecting Social Issues)

  • 정다미;김재석;김기남;허종욱;온병원;강미정
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.1-23
    • /
    • 2013
  • 융합 R&D가 추구해야 할 바람직한 방향은 이종 기술 간의 결합에 의한 맹목적인 신기술 창출이 아니라, 당면한 주요 문제를 해결함으로써 사회적 니즈를 충족시킬 수 있는 기술을 개발하는 것이다. 이와 같은 사회문제 해결형 기술 R&D를 촉진하기 위해서는 우선 우리 사회에서 주요 쟁점이 되고 있는 문제들을 선별해야 한다. 그런데 우선적이고 중요한 사회문제를 분별하기 위해 전문가 설문조사나 여론조사 등 기존의 사회과학 방법론을 사용하는 것은 참여자의 선입견이 개입될 수 있고 비용이 많이 소요된다는 한계를 지닌다. 기존의 사회과학 방법론이 지닌 문제점을 보완하기 위하여 본 논문에서는 사회적 이슈를 다루고 있는 대용량의 뉴스기사를 수집하고 통계적인 기법을 통하여 사회문제를 나타내는 키워드를 추출하는 시스템의 개발을 제안한다. 2009년부터 최근까지 3년 동안 10개 주요 언론사에서 생산한 약 백 30만 건의 뉴스기사에서 사회문제를 다루는 기사를 식별하고, 한글 형태소 분석, 확률기반의 토픽 모델링을 통해 사회문제 키워드를 추출한다. 또한 키워드만으로는 정확한 사회문제를 파악하기 쉽지 않기 때문에 사회문제와 연관된 키워드와 문장을 찾아서 연결하는 매칭 알고리즘을 제안하다. 마지막으로 사회문제 키워드 비주얼라이제이션 시스템을 통해 시계열에 따른 사회문제 키워드를 일목요연하게 보여줌으로써 사회문제를 쉽게 파악할 수 있도록 하였다. 특히 본 논문에서는 생성확률모델 기반의 새로운 매칭 알고리즘을 제안한다. 대용량 뉴스기사로부터 Latent Dirichlet Allocation(LDA)와 같은 토픽 모델 방법론을 사용하여 자동으로 토픽 클러스터 세트를 추출할 수 있다. 각 토픽 클러스터는 연관성 있는 단어들과 확률값으로 구성된다. 그리고 도메인 전문가는 토픽 클러스터를 분석하여, 각 토픽 클러스터의 레이블을 결정하게 된다. 이를 테면, 토픽 1 = {(실업, 0.4), (해고, 0.3), (회사, 0.3)}에서 토픽 단어들은 실업문제와 관련있으며, 도메인 전문가는 토픽 1을 실업문제로 레이블링 하게 되고, 이러한 토픽 레이블은 사회문제 키워드로 정의한다. 그러나 이와 같이 자동으로 생성된 사회문제 키워드를 분석하여 현재 우리 사회에서 어떤 문제가 발생하고 있고, 시급히 해결해야 될 문제가 무엇인지를 파악하기란 쉽지 않다. 따라서 제안된 매칭 알고리즘을 사용하여 사회문제 키워드를 요약(summarization)하는 방법론을 제시한다. 우선, 각 뉴스기사를 문단(paragraph) 단위로 세그먼트 하여 뉴스기사 대신에 문단 세트(A set of paragraphs)를 가지게 된다. 매칭 알고리즘은 각 토픽 클러스터에 대한 각 문단의 확률값을 측정하게된다. 이때 토픽 클러스터의 단어들과 확률값을 이용하여 토픽과 문단이 얼마나 연관성이 있는지를 계산하게 된다. 이러한 과정을 통해 각 토픽은 가장 연관성이 있는 문단들을 매칭할 수 있게 된다. 이러한 매칭 프로세스를 통해 사회문제 키워드와 연관된 문단들을 검토함으로써 실제 우리 사회에서 해당 사회문제 키워드와 관련해서 구체적으로 어떤 사건과 이슈가 발생하는 지를 쉽게 파악할 수 있게 된다. 또한 매칭 프로세스와 더불어 사회문제 키워드 가시화를 통해 사회문제 수요를 파악하려는 전문가들은 웹 브라우저를 통해 편리하게 특정 시간에 발생한 사회문제가 무엇이며, 구체적인 내용은 무엇인지를 파악할 수 있으며, 시간 순서에 따른 사회이슈의 변동 추이와 그 원인을 알 수 있게 된다. 개발된 시스템을 통해 최근 3년 동안 국내에서 발생했던 다양한 사회문제들을 파악하였고 개발된 알고리즘에 대한 평가를 수행하였다(본 논문에서 제안한 프로토타입 시스템은 http://dslab.snu.ac.kr/demo.html에서 이용 가능함. 단, 구글크롬, IE8.0 이상 웹 브라우저 사용 권장).

칼라공간과 키워드를 이용한 내용기반 화상검색 시스템 설계 및 구현 (A Design and Implementation of a Content_Based Image Retrieval System using Color Space and Keywords)

  • 김철원;최기호
    • 한국정보처리학회논문지
    • /
    • 제4권6호
    • /
    • pp.1418-1432
    • /
    • 1997
  • 일반적인 내용기반 화상 검색 기법은 검색 인덱스로서 칼라와 텍스쳐를 사용하며, 칼라기법인 칼라히스토그램과 칼라쌍 검색 기법은 공간정보와 텍스트가 부족하다. 따라서 본 논문은 칼라공간과 키워드를 결합한 내용 기반 화상 검색시스템을 설계하고 구현하였다. 화상검색을 위한 전처리기에서는 기존의 HSI(Hue, Saturation, Intensity) 좌표계를 사용하였고, 화상으로부터 색채 영역과 비색채영역을 검출해 내었다. 화상의 크시는 200*N 또는 N*200으로 정규화하고 256칼라로 변환시킨다. 칼라 공간으로 칼라 선택을 결정하기 위해서는 배경과 색채를 위한 2개의 칼라히스토그램을 사용한다. 공간정보는 최대 엔트로피 이산화를 사용함으로써 얻어진다. 키워드는 화상의 종류, 칼라, 모양, 위치, 크기를 선택 가능하도록 했으며, 입력되는 색채에 대해서는 한국 공업 규격의 유채색과 무채색 15가지 색으로 제한하였다. 화상검색 방법은 유사도 검색의 특징 키로 사용하였고, 화상 검색시 특정 성분의 가중치에 따른 검색을 위해 사용자는 질의어 입력시 칼라공간 ${\alpha}(%),\;키워드\;{\beta}(%)$등의 가중치를 화상 내용 특징에 따라 그 값을 조절하여 부여할 수 있는 방안을 개발하였다. 질의 화상에 대한 칼라공간, 키워드와 같은 추출된 특징중 하나의 특징으로 검색 실험한 결과는 가중치를 부여하여 실험한 결과보다 검색 효율이 낮았으며 가중치를 부여한 경우 측정된 파라메타의 평균치는 Precision(0.858), Recall(0.936), RT(1), MT(0)를 보임으로써 칼라공간, 키워드 내용기반 화상 검색 시스템들 보다 높은 검색 효율을 입증해 보였다.

  • PDF

정보검색에서 사용자 검색 패턴을 이용한 질의 확장 (Query Expansion Using User Search Pattern in Information Retrieval)

  • 천우관;김영도;정인정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 춘계학술발표논문집 (하)
    • /
    • pp.771-774
    • /
    • 2001
  • 정보검색에서 가장 많이 사용되는 불리언(Boolean)검색에서는 키워드 일치에 의해서만 검색하는 단점을 가지고 있다. 이를 보완하기 위해 다양한 정보원에서 추출한 관련 용어들을 원질의어에 첨가하여 검색의 효율을 높이기 위한 질의 확장 방법들이 모색되어 왔다. 본 논문에서는 질의 확장을 위하여 사용자가 검색에 사용하였던 질의어들의 연속성을 찾아내어 첨가할 용어를 선택하고 질의 확장을 하는 방법을 제시한다. 사용자가 입력한 질의어의 연속성을 찾아내는 방법으로는 데이터 마이닝 기법중 연관 규칙 탐사 방법을 이용한다. 실험은 현재 구축된 정보통신 기술기준 정도시스템에서 사용자들이 검색한 키워드 정보를 이용하였으며 사용자 검색 패턴(USP) 정보를 이용함으로써 사용자가 검색하고자 하는 질의어와 좀더 연관성 있는 용어로 확장하여 사용자 중심적 결과를 얻을 수 있다.

  • PDF

URI 서버 기반 통합 검색 시스템 (Integrated Search System Based on URI Server)

  • 정한민;이미경;성원경
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.38-45
    • /
    • 2007
  • 본 연구는 키워드 기반 통합 검색의 한계를 극복하고자, 시맨틱 웹 기술의 기반인 URI가 부여된 인스턴스를 등록하고 관리하는 URI 서버를 이용하여 개체 페이지를 구성하는 방식의 통합 검색 방안을 제안한다. 키워드로 구성된 사용자 질의어와 매칭된 URI 서버 내의 인스턴스를 분석하여 최적 개체를 선정하고 단위 서비스의 동시 작업 방식으로 개체 페이지를 구성한다. 또한, 논문으로부터 자동 추출된 주제 정보를 추론을 통해 인력, 기관, 위치 등으로 전파함으로써 주제 중심의 심층적 정보 제공이 가능하다. 해외에서 실 서비스되고 있는 Citeseer, Google Scholar와의 통합 검색 결과 비교 실험을 통해 본 연구의 효용성을 실증한다.

  • PDF

텍스트 마이닝을 이용한 리빙랩 연구동향 분석 (Research Trend Analysis on Living Lab Using Text Mining)

  • 김성묵;김영준
    • 디지털융복합연구
    • /
    • 제18권8호
    • /
    • pp.37-48
    • /
    • 2020
  • 본 연구는 텍스트 마이닝을 활용하여 리빙랩 연구의 동향을 파악하고 연구 방향 정립에 필요한 함의를 도출하고자 하였다. 리빙랩 관련 연구가 발표되기 시작한 2011년부터 2019년 11월까지의 논문 166편의 키워드와 초록을 대상으로 네트워크 분석 및 토픽 모델링 기법을 사용하여 분석하였다. 키워드 중 혁신, 지역, 사회, 기술, 스마트시티 등의 출현빈도가 높았고, 중심도 분석결과 현재까지 리빙랩 연구가 혁신, 사회, 기술, 개발, 사용자 등의 키워드를 중심으로 이루어짐을 파악하였다. 토픽 모델링 결과 지역혁신과 사용자지원, 정부 사회정책사업, 스마트시티 플랫폼구축, 기업기술혁신모델 및 시스템전환 참여 등 5개 토픽을 추출하였으며 토픽을 이어주는 키워드는 혁신, 기술, 사용자, 참여인것으로 분석하였다. 2017년 KNoLL 출범 후 토픽별 비중은 고른 분포로 연구 주제가 다양화됨을 확인하였다. 텍스트마이닝을 이용한 리빙랩 연구동향 분석과 방향 제시는 연구와 정책방향 수립에 유용한 자료를 제공할 수 있다.

잠재 의미 분석을 적용한 유사 특허 검색 서비스 시스템 (Similar Patent Search Service System using Latent Dirichlet Allocation)

  • 임현근;김재윤;정회경
    • 한국정보통신학회논문지
    • /
    • 제22권8호
    • /
    • pp.1049-1054
    • /
    • 2018
  • 유사 특허를 검색하는 방법으로 기존에는 키워드 검색 방법을 사용하고 최근에는 머신러닝을 활용한 자동분류 방법을 사용하고 있다. 키워드 검색은 데이터 정제를 통해 정형화된 데이터 분석 방법으로 단문일 경우 검색에서는 정확도는 높지만 문서와 같이 여러 단어로 이루어진 장문일 경우 문장에 내포된 의미 분석을 할 수 없었다. 의미 분석 단계에서의 자동 분류 방법은 비정형 데이터 분석 방법으로 여러 단어로 이루어진 문장을 분류하는데 사용되고 있다. 그 동안 두 가지 방법을 결합하여 유사 문서 검색을 하려는 시도가 있었지만 비정형 데이터와 정형 데이터의 동시 사용에는 분석하는 방법이 다르기 때문에 동시 적용에는 알고리즘 상의 문제가 있었다. 이에 본 논문에서는 문서에서 함축된 키워드를 검출하고 잠재 의미 분석(LDA) 방식을 사용하여 사람이 개입하지 않고 문서를 효율적으로 자동분류하고 유사 특허를 검색할 수 있는 방법을 연구하였다.