• 제목/요약/키워드: 태그 정보 추출

검색결과 211건 처리시간 0.023초

워드넷 의미정보로 선별된 우선 태그와 이를 이용한 웹 이미지의 검색 (Web Image Retrieval using Prior Tags based on WordNet Semantic Information)

  • 권대현;홍준혁;조수선
    • 한국멀티미디어학회논문지
    • /
    • 제12권7호
    • /
    • pp.1032-1042
    • /
    • 2009
  • 본 연구는 태깅된 웹 이미지의 검색에서 태그들의 의미정보를 미리 추출하여 검색 시에 이용하고자 하는 것이다. 일반적으로 웹 이미지의 태그들은 사용자들에 의해 순서 구분 없이 무작위로 매겨지며 많게는 그 수가 100여개에 이른다. 본 논문에서는 이 태그들 간에 의미정보가 많이 공유된 것일수록 해당 이미지를 설명하는 중요 태그가 될 것임에 착안하여 이미지와 태그 정보가 업 로드되는 시점에 중요도에 따른 우선 태그를 결정하고 이를 검색에 활용하는 방법을 소개한다 제안된 방법은 워드넷에 기반하여 태그의 연관성점수를 계산하고 이를 이용하여 다단계 검색으로 태징된 웹 이미지를 검색한다. 평가를 위하여 제안된 방법으로 검색된 결과와 검색어와 태그의 단순 비교방식인 기존의 검색을 비교하였으며 실험 결과, 정확도와 재현율에서 본 시스템의 우수함을 확인할 수 있었다.

  • PDF

무선 단말기에서의 웹 컨텐츠 변환을 위한 인덱스 추출 방법 (Index Extraction Method of Web Contents Transcoding System for Small Display Devices)

  • 김범호;마평수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (3)
    • /
    • pp.262-264
    • /
    • 2002
  • 기존의 웹 컨텐츠는 유선망에 접속된 PC를 대상으로 제작되었기 때문에 무선환경의 단말기 상의 소형 디스플레이에서 표현되기 위해서는 웹 문서의 변환이 필요하다 이를 위해 본 논문에서는 웹 컨텐츠를 자동 변환하는데 있어서 필요한 인덱스를 추출하는 기능을 제공한다. 기존의 방법과는 달리 HTML 태그 패턴 분석뿐만 아니라 컨텐츠 정보의 속성 분석을 통하여 실시간 분석으로 웹 문서 변환에 필요한 인덱스 정보를 추출하는 방식을 제안한다. 웹 페이지에서 인덱스 정보를 추출하고 이러한 인덱스 정보를 브라우저에게 전달함으로써, 웹 문서 변환에 있어서 콘텍스트를 제공하고 변환의 유연성을 향상시킬 수 있다.

  • PDF

위키피디아 QA를 위한 질의문의 정답제약 추출 (Answer Constraints Extraction on User Question for Wikipedia QA)

  • 왕지현;허정;이형직;배용진;김현기
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.248-250
    • /
    • 2017
  • 질의응답 시스템에서 정답을 제약하기 위한 위키피디아 영역의 정답제약 9개를 정의하고 질문 문장에서 제약표현을 추출하는 방법을 제안한다. 다어절의 정답제약 표현을 추출하기 위해서 언어분석 결과를 활용하여 정답제약 후보를 생성하며 후보단위로 정답제약 표현을 학습하기 위한 자질을 제시한다. 기계학습 방법을 이용하여 정답제약 후보 별로 정답제약 태그를 분류하여 정답제약 표현을 추출한다. 성능 실험은 각 정답제약 태그 별로 F1-Score 평가를 수행하였다.

  • PDF

블로그 키워드 추출을 통한 음악 추천 기법 (Music Recommendation based on Blog Keyword Extraction)

  • 최홍구;전상훈;황인준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.701-704
    • /
    • 2010
  • 본 논문에서는 블로그의 포스트로부터 주요 키워드를 추출하여 노래 가사 데이터와 유사도를 분석, 해당 블로그 포스트에 적합한 음악을 추천하는 기법을 제안한다. 또한, 블로거가 포스트마다 제시한 태그들도 주요한 키워드로서 활용한다. 이를 위해서, 첫째로 TF-IDF 기법을 사용하여 텍스트로 구성된 포스트의 중요 키워드를 추출한다. 둘째로 포스트의 태그와 추출된 키워드를 기반으로 유사한 노래 가사를 LSA 기법으로 검색하여 가장 높은 유사도를 갖는 음악을 선택, 적합한 음악으로써 추천한다. 사용자 만족도 평가 실험을 통해서 제안하는 기법이 실제 추천에 적합한지 검증한다.

백과사전 기반 전문용어 태깅 시스템 (Terminology Tagging System using elements of Korean Encyclopedia)

  • 배영준;최호섭;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.167-172
    • /
    • 2005
  • 지금까지 자연언어처리에서의 품사태깅(parts-of-speech tagging) 기술에 대한 연구는 활발히 진행된 반면, 전문용어에 대한 처리 기술은 미비한 점이 많았다. 전문용어에 관련된 연구는 대부분 구축, 표준화, 추출 등에 대한 연구가 많았으나 전문용어 태그 설정과 태깅 기술 연구는 부족한 상황이다. 본 논문에서는 전문용어 태그를 (분야정보: 아이디) 순으로 설정하고 백과사전의 분류 체계를 이용하여 어떤 특정 분야 문서의 전문용어를 자동으로 태깅하는 시스템을 구축하였다. 전문용어 태깅 시스템은 형태소분석기를 사용하지 알고 문맥의 규칙과 조사 어미사전을 이용해 자동으로 태깅을 하게 된다. 이 시스템의 정확률 측정을 위한 정답말뭉치는 웹 상에 공개되어 있는 백과사전 html문서를 이용하였다. 우선 백과사전에 나와있는 용어는 전문용어라고 가정한다. 하나의 문서에는 '용어', '요약', '본문', '이미지', '분류', '참조항목' 등의 정보들이 있다. 이 중 '본문'에는 그 용어에 대한 자세한 설명이 있는데 특정 단어에는 태그로 백과사전 내에 있는 단어를 찾아 볼 수 있게 링크 되어있다. 이 정보를 이용해 태그로 되어있는 것을 설정한 태그로 바꾸고 단계별로 확장 태깅을 해서 정답말뭉치를 만든다. 태깅 시스템과 정답말뭉치를 비교해 정확률을 계산해서 시스템의 성능을 측정하였다.

타입 정보 추출을 통한 질의 가능 XML 압축 (A Queriable XML Compression Through An Extraction of Type Information)

  • 박명제;민준기;정진완
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.554-556
    • /
    • 2003
  • 인터넷에서 널리 사용되는 HTML은 현재 데이터베이스 시스템과 같은 저장소 대신, 전형적인 파일 시스템에 저장되는 경우가 대부분이다. 마찬가지로 최근에 인터넷 상에서의 데이터 교환 및 표현의 표준으로 부각되는 XML 역시 파일 시스템에 저장되는 경우가 많다. 하지만, XML 문서의 비정규적인 구조와 장황성 때문에. 디스크 공간이나 네트워크 대역폭이 정규적인 구조의 데이터에 비해 비효율적이다. 따라서. 이를 해결하고자. XML 문서의 압축에 관한 연구가 진행되었다. 하지만. 최근에 연구된 XML 압축 기법들은 압축한 XML 문서에 대한 질의를 지원하지 않거나, 질의를 지원하더라도 XML 문서의 데이터 값들의 특성을 고려하지 않고 단순히 기존의 압축 방법을 통해 XML 문서를 압축한다. 그러므로 본 연구에서는 압축한 XML 문서에 대한 질의를 효율적으로 지원하는 XML 압축 기법을 제안한다. 본 연구에서는 태그를 Dictionary 압축으로 압축하며 태그 별로 데이터 값들의 타입을 추출하여 추출한 타입에 적절한 압축 방법으로 데이터 값을 압축한다. 또한, 제안하는 압축 기법의 구현 및 성능 평가를 통하여. 구현한 시스템이 실생활에 사용되는 XML 문서들을 효율적으로 압축하며 향상된 질의 성능을 제공하는 것을 보인다.

  • PDF

영한 기계 번역 품사 집합과 펜트리뱅크 코퍼스 품사 집합간의 품사 대응 (Part of Speech Mapping between Tagset of English-Korean Machine Translation and Tagset of Penn Treebank Corpus)

  • 이성욱;이공주;서정연
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.184-186
    • /
    • 1999
  • 펜트리뱅크 코퍼스를 기계 번역에서 품사 태깅의 통계 정보 추출에 이용하기 위해서는 펜트리뱅크 코퍼스의 품사 집합과 기계 번역의 품사 집합의 품사 대응이 필요하다. 본 연구는 기계 번역의 품사 태그 집합과 펜트리뱅크의 48개의 품사 태그를 서로 적절히 대응하여 펜트리뱅크 코퍼스의 통계 정보를 이용하는 품사 태깅 시스템을 구축하는데 발생하는 문제점과 그 해결방안을 제안한다.

  • PDF

특정 영역 정보 에이전트의 지식베이스 확장을 위한 웹 정보추출 (Web Information Extraction for Expanding Knowledge Base of a Specific Domain Information Agent)

  • 조은휘;변영태
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2002년도 추계정기학술대회
    • /
    • pp.336-341
    • /
    • 2002
  • 현재 연구개발 중인 웹 정보 에이전트는 Agent Manager와 KB Manager. Web Manager로 구성되어 있다. 이 시스템은 동물영역에 관련된 정보를 영어로 서비스하고 있어 국내 접근보다는 외국에서의 접근이 더 많았다. 그러므로 국내 사용을 높이기 위해 애완용 동물을 위주로 한 정보추출(IE)을 수행하여 지식베이스(KB)의 확장을 시도하고 있다. 이를 위하여 태그(tag) 및 심볼(symbol)의 패턴(pattern) 유사성 정보를 찾아내고, 기존 KB와 연계하여 KB의 확장 및 수정에 이용하기 위한 유효 정보 패턴 결정에 활용함으로써 정보 추출의 새로운 방법을 고찰하고 그 가능성을 제시하고자 한다.

  • PDF

의미속성 기반의 개념망을 위한 어휘 연관도 측정 (A Measurement of Lexical Relationship for Concept Network Based on Semantic Features)

  • 옥은주;이왕우;이수동;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.146-154
    • /
    • 2001
  • 본 논문에서는 개념망 구축을 위해 사전 뜻풀이말에서 추출 가능한 의미속성의 분포 정보를 기반으로 어휘 연관도를 측정하고자 한다. 먼저 112,000여 개의 사전 뜻풀이말을 대상으로 품사 태그와 의미 태그가 부여된 코퍼스에서 의미속성을 추출한다. 추출 가능한 의미속성은 체언류, 부사류, 용언류 등이 있는데 본 논문에서는 일차적으로 명사류와 수식 관계에 있는 용언류 중 관형형 전성어미('ㄴ/은/는')가 부착된 것을 대상으로 한다. 추출된 공기쌍 45,000여 개를 대상으로 정제 작업을 거쳐 정보이론의 상호 정보량(MI)을 이용하여 명사류와 용언류의 연관도를 측정한다. 한편, 자료의 희귀성을 완화하기 위해 수식 관계의 명사류와 용언류는 기초어휘를 중심으로 유사어 집합으로 묶어서 작업을 하였다. 이러한 의미속성의 분포 정보를 통해 측정된 어휘 연관도는 의미속성의 공유 정도를 계산하여 개념들간에 계층구조를 구축하는 데 이용할 수 있다.

  • PDF

전자부품관련 웹 정보 마이닝 에이전트(WIMA-EE) (A Web Information Mining Agent for Electrical Elements(WIMA-EE))

  • 오석일;변영태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.66-68
    • /
    • 2000
  • 웹에서 공개하는 정보의 많은 부분이 문자에 의존해서 제공되고 있으며, 이렇게 단어의 여러 형태로 구성된 웹 문서에서 원하는 정보를 찾아 추출하기 위한 노력은 다양하게 시도되고 있다. 본 논문에서는 전자부품관련 정보 제공 사이트와 관련해서 텍스트 기반과 웹 문서가 갖는 특별한 형태의 태그를 포함하는 형태에서 테이블 형식의 정보 표현과 같이 반 구조적(semi-structured) 문서에서의 정보 추출 방법과 이를 적용한 시스템을 구성하여 정보 추출의 가능성을 제시하고자 한다.

  • PDF