• 제목/요약/키워드: 텍스트 검색

검색결과 684건 처리시간 0.031초

키워드 요약의 세 가지 방법론 비교 (Compare Three Method for Keyword Summary)

  • 강종렬;남지성;박지나;김웅섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.852-854
    • /
    • 2019
  • 본 논문은 정확한 연관검색어를 보여주지 못하는 기존의 검색에서 벗어나기 위해 이미지와 PDF에서 텍스트를 추출하고 키워드 요약하는 방법을 사용하였다. 텍스트를 키워드로 요약하는 알고리즘으로는 TextRank, LSA, MMR을 사용하였고, 세 가지 방법으로 키워드를 요약하고 키워드 요약 결과와 Query의 코사인 유사도를 이용하여 추출한 문서와 Query와의 연관성을 확인하여 세 가지 알고리즘을 비교하였다.

음성 인식 서버를 이용한 모바일 사전 설계 및 구현 (The Design and Implementation of Mobile Dictionary App based on Voice Recognition Server)

  • 유재승;박희태;박미소;송민규;윤성현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.1698-1701
    • /
    • 2012
  • 음성 인식은 사용자의 음성을 문자로 변환하는 기술로 최근 스마트폰의 사용자 인터페이스로 사용되면서 그 활용도가 높아지고 있다. 기존의 스마트폰용 사전 프로그램은 좁은 자판으로 인하여 입력과정에 오타가 많이 발생하고, 찾고자 하는 단어의 발음은 알고 있지만 철자를 알지 못 하는 경우에 검색할 수 없다. 본 논문에서는 음성 명령을 이용한 스마트폰용 영한사전 앱을 설계 및 구현하였다. 외부 음성 인식 서버를 이용하여 음성 명령을 이해하고 클라이언트에 SQLite를 이용하여 사전 데이터 베이스를 구축한다. 클라이언트는 서버로 사용자 음성을 전달하고, 서버는 음성 정보를 텍스트로 변환하여 클라이언트에게 제공한다[1]. 클라이언트는 서버로부터 전송받은 텍스트를 이용하여 사전 데이터베이스를 검색하고, 그 결과를 사용자에게 보여준다.

효율적인 문서 자동 분류를 위한 대표 색인어 추출 기법 (A Feature Selection Technique for an Efficient Document Automatic Classification)

  • 김지숙;문현정;김영지;우용태
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 2001년도 춘계 Conference: CRM과 DB응용 기술을 통한 e-Business혁신
    • /
    • pp.295-302
    • /
    • 2001
  • 최근 대량의 텍스트 문서로부터 의미 있는 패턴이나 연관 규칙을 발견하기 위한 텍스트마이닝 기법에 대한 연구가 활발히 전개되고 있다. 하지만 비정형 텍스트 문서로부터 추출된 용어의 수는 불규칙적이고 일반적인 용어가 많이 추출되는 관계로 기존의 연관 규칙 탐사 방법을 사용하게 되면 무의미한 연관 규칙이 대량으로 생성되어 지식 정보를 효과적으로 검색하기 어렵다. 본 논문에서는 연관 규칙 탐사 기법을 이용하여 비감독학습 기법에 의해 대량의 문서를 효율적으로 분류하기 위한 대표 색인어 추출 기법을 제안하였다. 컴퓨터 분야의 논문을 대상으로 각 분야별 대표 색인어를 추출하여 유사한 문서끼리 분류하는 실험을 통해 제안된 방법의 효율성을 보였다.

  • PDF

압축된 써픽스 배열 구축 알고리즘의 성능 분석 (Performance Analysis of Construction Algorithms for Compressed Suffix Arrays)

  • 박치성;조준하;심정섭;김동규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (A)
    • /
    • pp.409-411
    • /
    • 2006
  • 써픽스 배열은 사전적 순서로 정렬된 써픽스들의 인덱스를 저장한 인덱스 자료구조로서, 긴 텍스트에서 반복되는 패턴 검색 시 효율적으로 사용 될 수 있다. 하지만 O($n\;log{\Sigma}$) 비트의 텍스트보다 큰 O(n log n) 비트 공간을 차지하기 때문에 대용량의 텍스트에 대해서는 큰 공간을 필요로 하는 문제점이 있다. 이를 해결하기 위해 압축된 써픽스 배열이 제안되었지만, 구축 시 이미 만들어진 써픽스 배열을 이용하기 때문에 실제 사용 공간을 줄이지는 못했다. 최근 써픽스 배열 없이 텍스트에서 직접 압축된 써픽스 배열을 구축할 수 있는 두 가지 알고리즘이 개발되었다. 본 논문에서는 이 두 가지 알고리즘을 구현한 후, 구축 시간과 사용 공간 등의 실험을 통해 기존의 써픽스 배열들과의 성능을 비교하고 분석한다.

  • PDF

의미 지향성 분석을 통한 단문 텍스트 기반 감정인지 (Emotion Recognition based on Short Text using Semantic Orientation Analysis)

  • 김현우;이승룡;정태충;윤석환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.375-377
    • /
    • 2012
  • 스마트폰과 같은 모바일 기기가 발전함에 따라 SNS, 모바일 메신저, SMS와 같은 단문 기반 메시지는 자신의 감정을 가장 잘 표현하는 매체이다. 그럼에도 불구하고 기존 연구는 주로 장문의 텍스트로부터 긍정, 부정 분류나 문서의 성향을 분석하는 것에 그치는 경우가 많다. 의미지향(Semantic Orientation)방법은 검색엔진을 통해 감정 키워드와 인지하고자 하는 단어의 동시 빈출 정도를 PMI로 계산한 것으로 WordNet과 같은 의미 사전이 존재하지 않는 한국어의 특성에서 적용 가능한 방법이다. 본 논문에서는 의미 지향성 및 다른 텍스트 기반 감정 분류 기술에 대해 비교하고 이들을 활용하여 한국어로 구성된 단문 텍스트에서 효율적인 감정 분류 기법을 제안하고자 한다.

데이타마이닝 기법을 이용한 효율적인 전문 용어 클러스터링 (An Efficient Terminology Clustering Method Using Datamining Technique)

  • 이정화;남상엽;문현정;우용태
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 2000년도 추계학술대회 E-Business와 정보보안
    • /
    • pp.210-215
    • /
    • 2000
  • 최근 대량의 텍스트 문서로부터 의미 있는 패턴이나 연관 규칙을 발견하기 위한 텍스트마이닝 기법에 대한 연구가 활발히 전개되고 있다. 하지만 비정형 텍스트 문서로부터 추출된 용어의 수는 불규칙적이고 일반적인 용어가 많이 추출되는 관계로 일반적인 연관 규칙 탐사 방법을 사용하게 되면 무의미한 연관 규칙이 대량으로 생성되어 지식 정보를 효과적으로 검색하기 어렵다. 본 논문에서는 연관 규칙 탐사 기법을 이용하여 대량의 문서로부터 유용한 지식 정보를 찾기 위하여 의미적으로 연관된 전문 용어들끼리 클러스터링 하기 위한 방법을 제안하였다. 학술 논문을 대상으로 전문 용어를 추출하여 관련된 용어들끼리 클러스터를 구성하는 실험을 통하여 제안된 방법의 효율성을 보였다.

  • PDF

자동색인을 위한 학습기반 주요 단어(핵심어) 추출에 관한 연구 (Learning-based Automatic Keyphrase Indexing from Korean Scientific LIS Articles)

  • 김혜진;정유경
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2017년도 제24회 학술대회 논문집
    • /
    • pp.15-18
    • /
    • 2017
  • 학술 데이터베이스를 통해 방대한 양의 텍스트 데이터에 대한 접근이 가능해지면서, 많은 데이터로부터 중요한 정보를 자동으로 추출하는 것에 대한 필요성 또한 증가하였다. 특히, 텍스트 데이터로부터 중요한 단어나 단어구를 선별하여 자동으로 추출하는 기법은 자료의 효과적인 관리와 정보검색 등 다양한 응용분야에 적용될 수 있는 핵심적인 기술임에도, 한글 텍스트를 대상으로 한 연구는 많이 이루어지지 않고 있다. 기존의 한글 텍스트를 대상으로 한 핵심어 또는 핵심어구 추출 연구들은 단어의 빈도나 동시출현 빈도, 이를 변형한 단어 가중치 등에 근거하여 핵심어(구)를 식별하는 수준에 그쳐있다. 이에 본 연구는 한글 학술논문의 초록으로부터 추출한 다양한 자질 요소들을 학습하여 핵심어(구)를 추출하는 모델을 제안하였고 그 성능을 평가하였다.

  • PDF

퍼지 개념 네트워크를 이용한 개인화된 링크기반 검색엔진의 개발 (Development of a Personalized Link-based Search Engine using Fuzzy Concept Network)

  • 김경중;조성배
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제7권3호
    • /
    • pp.211-219
    • /
    • 2001
  • 텍스트 정보만을 이용하는 일반적인 검색엔진들의 한계를 극복하여 향상된 결과를 내기 위하여 링크 구조를 이용해 검색을 수행하는 시스템이 새롭게 등장하고 있다. 링크 구조는 사용자의 질의에 대해 중요한 문서들을 가려준다. 본 논문에서는 한 걸음 더 나아가 링크 정보를 이용하여 검색된 웹 페이지들 중 사용자의 기호에 적절한 결과를 도출하는 방법을 제안한다. 사용자 프로파일에 기반한 퍼지 개념 네트워크로 구축된 퍼지 문서 추출 시스템은 사용자의 성향을 반영하여 링크 기반 검색결과를 개인화 한다. 5명의 사용자에 대한 실험결과, 개발한 시스템이 의미 있는 웹 페이지를 검색함은 물론이고 사용자의 성향을 잘 반영함을 알 수 있었다.

  • PDF

모바일 비주얼 검색: 기술과 표준화 동향 (Technology and Standardization Trend of Mobile Visual Search)

  • 이승재;이근동;나상일;제성관;정다운;오원근;서영호;손욱호
    • 전자통신동향분석
    • /
    • 제29권1호
    • /
    • pp.61-71
    • /
    • 2014
  • 모바일 비주얼 검색(MVS: Mobile Visual Search) 기술은 스마트폰 환경에서 질의 영상의 특징을 검출하고 그 주변 영역의 정보를 이용하여 추출한 서술자를 미리 구축된 영상정보 DB와 비교하여 검색하는 기술로 스마트폰의 보급과 네트워크 환경발달에 따라 응용서비스의 범위와 가능성이 확대되고 있다. 본 동향에서는 기존의 텍스트, 음성, QR코드 등의 검색을 넘어 인간이 보는 그대로를 검색하고자 하는 모바일 비주얼 검색의 기술 및 표준화 동향을 분석하고 향후 전망에 대해서 살펴보고자 한다.

  • PDF

3D 연관성 브라우저 'DocuSynth' 개발 ('DocuSynth': Displaying Relationship-based Information in 3D Browser)

  • 최정아;김은희;홍승표
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.340-345
    • /
    • 2009
  • 기존 파일 시스템의 검색은 검색결과를 제목과 요약문의 텍스트 형태로 제공함으로써 검색 결과가 많은 경우에 한눈에 결과를 살펴보는데 불편할 뿐 아니라 사용자가 직접 수많은 검색결과의 표제나 저자, 목차, 요약문을 확인하여 적합한 정보를 일일이 판별해야 하는 불편이 있다. 이에 정보들간의 유사도를 계산하여 군집화하고, 키워드와 검색결과들 간의 적합도와 검색결과들 간의 연관성 정보를 3D 공간 상에 디스플레이 하는 'DocuSynth' 시스템을 개발하였다. 이 연관성 정보들은 실세계 상의 3 차원 메타포인 '거리'로 변환되어 디스플레이 된다. 즉, 사용자로 하여금 정보간의 거리가 가까울수록 연관도가 높다고 직관적으로 인지할 수 있는 화면으로 설계하였다. 또한 3D 환경의 사용성을 높이기 위해 네비게이션 컨트롤러와 컨트롤 변수에 대한 사용성 평가를 실시하여 시스템 변수로 적용하였다. 본 연구결과는 향후 도래할 3D Web 에 대한 아이디어 제시와 구현 가이드라인으로 활용될 것으로 예상된다.

  • PDF