• 제목/요약/키워드: 문서 주제

검색결과 329건 처리시간 0.026초

웹 페이지의 내재 규칙 습득 과정에서 규칙식별 역할에 대한 효과 분석 (Effect of Rule Identification in Acquiring Rules from Web Pages)

  • 강주영;이재규;박상언
    • 지능정보연구
    • /
    • 제11권1호
    • /
    • pp.123-151
    • /
    • 2005
  • 오늘날 자원의 보고라 할 수 있는 웹에는 자연어로 표현된 텍스트와 테이블들로 구성된 무수히 많은 문서들이 존재하고 있다. 이러한 웹 문서들로부터 규칙을 습득하고 습득된 규칙과 웹 문서간의 일관성을 유지하기 위해, 본 논문에서는 확장형 규칙 표식 언어 (extensible Rule Markup Language, XRML) 체계를 개발하였다. XRML은 웹 페이지에 내재되어 있는 규칙을 식별하여 자동으로 정형화된 규칙을 생성할 수 있도록 지원하는 규칙 식별 표식 언어 (Rule Identification Markup Language, XRML)와 구조화된 규칙 표현을 위한 규칙 구조 표식 언어 (Rule Structure Markup Language)로 구성된다. 특히, RIML은 HTML안에 내재되어 있는 규칙을 HTML 문서에 직접 명시할 수 있도록 설계되었기 때문에, RIML을 통해 웹페이지에 있는 규칙들을 식별하고 이 식별된 규칙은 RSML으로 표현된 정형화된 규칙으로 자동 변환될 수 있다. 본 논문에서는 RIML의 설계 시 웹페이지로부터 규칙을 식별하는 과정에서 발생하는 공유되는 변수 (variables) 및 값 (values),생략된 어구 ,동의어와 같은 몇 가지 중요한 현상들을 발견하고 이를 해결하고자 하였다. 제안된 XRML 접근 방법의 성능을 측정하고자, 3개의 대표적인 온라인 서점인 Amazon.com, BarnesandNoble.com, Powells.com의 실제 웹페이지들로부터 배송 및 환불과 관련된 규칙을 습득하여 XRML의 효과를 측정하는 실험을 수행하였다. 실험 결과에 따르면, 웹페이지로부터 규칙은 $97.7\%$의 매우 높은 정확성을 가지고 습득되었으며, 생성된 규칙의 완전성은 $88.5\%$로 측정되어, XRML이 특정 주제에 관한 전문가 시스템을 구축하기 위해 웹페이지로부터 규칙을 추출할 때 효율적인 도구가 될 수 있음이 예시되었다.

  • PDF

Sentence BERT를 이용한 내용 기반 국문 저널추천 시스템 (Content-based Korean journal recommendation system using Sentence BERT)

  • 김용우;김대영;서현희;김영민
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.37-55
    • /
    • 2023
  • 전자저널의 발전과 다양한 융복합 연구들이 생겨나면서 연구를 게시할 저널의 선택은 신진 연구자들은 물론 기존 연구자들에게도 새로운 문제로 떠올랐다. 논문의 수준이 높더라도 논문의 주제와 저널 범위의 불일치로 인해 게재가 거부될 수 있기 때문이다. 이러한 문제를 해결하기 위해 연구자의 저널 선정을 돕기 위한 연구는 영문 저널을 대상으로는 활발하게 이루어졌으나 한국어 저널을 대상으로 한 연구는 그렇지 못한 실정이다. 본 연구에서는 한국어 저널을 대상으로 투고할 저널을 추천하는 시스템을 제시한다. 첫 번째 단계는 과거 저널에 게재된 논문들의 초록을 SBERT (Sentence-BERT)를 이용하여 문서 단위로 임베딩하고 새로운 문서와 기존 게재논문의 유사도를 비교하여 저널을 추천하는 것이다. 다음으로 초록의 유사도 여부, 키워드 일치 여부, 제목 유사성을 고려하여 추천할 저널의 순서가 결정되고, 저널별로 구축된 단어 사전을 이용하여 선순위 추천 저널과 유사한 저널을 찾아 추천 리스트에 추가하여 추천 다양성을 높인다. 이러한 방식으로 구축된 추천 시스템을 평가한 결과 Top-10 정확도 76.6% 수준으로 평가되었으며, 추천 결과에 대한 사용자의 평가를 요청하고 추천 결과의 유효성을 확인하였다. 또한, 제안된 프레임워크의 각 단계가 추천 정확도를 높이는 데에 도움이 된다는 결과를 확인하였다. 본 연구는 그동안 활발히 이루어지지 않았던 국문 학술지 추천에 대한 새로운 접근을 제시한다는 점에서 학술적 의의가 있으며, 제안된 기능을 문서와 저널 보유상태에 따라 변경하여 손쉽게 서비스에 적용할 수 있다는 점에서 실무적인 의의를 가진다.

적응적인 학습을 위한 텍스트 마이닝 기술 (Text Mining Techniques for Adaptable Learning)

  • 김천식;정명희;홍유식
    • 전자공학회논문지CI
    • /
    • 제45권3호
    • /
    • pp.31-39
    • /
    • 2008
  • 지금까지 이러닝 시스템을 통해서 학습 능력을 향상시키는 기술이 많이 나와 있다. 대부분의 이러닝 시스템에서 학습자들은 강의 자료와 학습문제를 통해서 학습을 한다. 그러나, 때로는 학습자간의 자료공유나 토론을 통해서 학습능력과 학습 의욕을 향상시킬 수 있다. 이 경우에 일반적으로 게시판을 통해서 학습 자료를 공유하거나 MSN과 같은 메신저를 사용하여 학습자들끼리 토론 및 자료를 공유한다. 하지만, 이와 같은 형태의 학습 공유 유형은 학습 자료가 주제별로 분류되어 있지 않기 때문에 학습자가 관련 자료를 검색하는 일이 쉽지 않다. 그 결과 학습에 크게 도움이 되지 않는다. 대부분의 텍스트 마이닝 기술은 문서데이터의 집합으로부터 요약 데이터를 추출하거나 유사한 문서의 집합을 분류하는 기술이다. 따라서, 본 논문에서 학습자가 학습능력을 향상시킬 수 있도록 이러닝 시스템에 텍스트 마이닝 기술을 적용하여 효과적으로 이러닝 자료를 분류하여 학습자에게 도움이 되는 시스템을 구현하고 평가하였다.

국내 포털 이용자들의 멀티미디어 검색 행태 분석 (The Multimedia Searching Behavior of Korean Portal Users)

  • 박소연
    • 한국문헌정보학회지
    • /
    • 제44권1호
    • /
    • pp.101-115
    • /
    • 2010
  • 멀티미디어 검색은 전통적인 검색과 웹 검색을 차별화시키는 중요한 요소 중 하나이다. 본 연구에서는 국내 주요 검색 포털인 네이버 이용자들의 멀티미디어 검색 행태를 분석, 평가하였다. 이를 위하여 이용자들이 입력한 통합 검색 질의들로 구성된 질의 로그와 질의에 대한 검색 결과에서 이용자들이 조회한 문서를 기록한 클릭 로그를 분석하였다. 연구 결과, 이용자가 입력하는 멀티미디어 질의 중 음악 질의가 차지하는 비중이 가장 높았으며, 이미지 질의와 동영상 질의의 비중은 비슷한 것으로 나타났다. 한편 멀티미디어 관련 컬렉션들 중 이용자가 가장 많이 조회하는 컬렉션은 동영상 컬렉션이었고, 이어서 이미지 컬렉션, 음악 컬렉션 순으로 나타났다. 이용자가 입력하는 멀티미디어 질의나 멀티미디어 컬렉션에서 클릭하는 문서 모두 엔터테인먼트와 관련된 주제가 가장 많았다. 본 연구의 결과는 향후 포털의 멀티미디어 컨텐츠 구축 및 검색 알고리즘 개발에 활용될 수 있을 것으로 기대된다.

럿거스 정보검색 평가 프로젝트에 관한 연구 (Rutgers Information Retrieval Evaluation Project on IR Performance on Different Precision Levels)

  • 이혁진
    • 정보관리학회지
    • /
    • 제23권2호
    • /
    • pp.97-111
    • /
    • 2006
  • 이 논문의 주요목적은 정보이용자들이 어떤 수준의 정확률 차이에서 유의미하게 차이를 인지하는지를 알아보고자 하는 것이다. 그에 관련한 몇 가지 흥미 있는 결과가 도출되었다. 그 외에 적합성 판정은 이용자의 판정시간과 관계가 없는 것으로 나타났다. 그리고 주제에 대한 이용자의 배경지식과 적합성 판정의 관계가 두드러졌다. 또한, 적합 문서의 숫자가 적었을 때 이용자들은 적합성 판정에 더욱 어려움을 겪었다. 마지막으로, 검색결과리스트중 상위 N 문서의 적합성 판정에 대한 중요성을 확인할 수 있었다.

래퍼 기반 경제 데이터 수집 시스템 설계 및 구현 (Wrapper-based Economy Data Collection System Design And Implementation)

  • 박철호;구영현;유성준
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 춘계학술대회
    • /
    • pp.227-230
    • /
    • 2015
  • 경제의 흐름, 주가 등을 분석, 예측을 위해 경제 뉴스, 주가 등 데이터 수집이 필요하다. 일반적인 웹 크롤러는 자동적으로 웹서버를 방문하면서 웹페이지 내용을 분석하고 URL들을 추출하면서 웹 문서를 수집한다. 반면 특정한 주제의 문서만을 수집할 수 있는 크롤러 형태도 있다. 특정 사이트에서 경제 뉴스 정보만 수집하기 위하여 사이트의 구조를 분석하고 직접적으로 데이터를 수집해올 수 있는 래퍼 기반 웹 크롤러 설계가 필요하다. 본 논문에서는 빅데이터를 기반으로, 경제뉴스 분석 시스템을 위한 크롤러 래퍼를 설계, 구현하여 경제 전문 분야의 뉴스 데이터를 수집하였다. 2000년부터 현재까지 미국 자동차 시장의 주식 데이터를 래퍼 기반으로 가져오고, 사이트 상에서의 데이터가 업데이트되는 주기를 판단하여 주기적으로 업데이트 함으로써 중복되지 않게 하였다. 그리고 미국, 한국의 경제 기사를 래퍼 기반의 웹 크롤러를 사용하여 수집하고, 향후 분석이 쉽게 데이터를 정형화 시켜 저장한다.

  • PDF

의견 어구 추출을 위한 생성 모델과 분류 모델을 결합한 부분 지도 학습 방법 (Semi-Supervised Learning for Sentiment Phrase Extraction by Combining Generative Model and Discriminative Model)

  • 남상협;나승훈;이예하;이용훈;김준기;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.268-273
    • /
    • 2008
  • 의견(Opinion) 분석은 도전적인 분야로 언어 자원 구축, 문서의 Sentiment 분류, 문장 내의 의견 어구 추출 등의 다양한 문제를 다룬다. 이 중 의견 어구 추출문제는 단순히 문장이나 문서 단위로 분류하는 수준을 뛰어 넘는 문장 내 의견 어구를 추출하는 문제로 최근 많은 관심을 받고 있는 연구 주제이다. 그러나 의견 어구 추출에 대한 기존 연구는 문장 내 의견 어구부분이 태깅(tagging)된 학습 데이터와 의견 어휘 자원을 이용한 지도(Supervised)학습을 이용한 접근이 대부분으로 실제 적용 상의 한계를 갖는다. 본 논문은 문장 내 의견 어구 부분이 태깅된 학습 데이터와 의견 어휘 자원이 없는 환경에서도 문장단위의 극성 정보를 이용하여 의견 어구를 추출하는 부분 지도(Semi-Supervised)학습 장법을 제안한다. 본 논문의 방법은 Baseline에 비하여 정확률(Precision)은 33%, F-Measure는 14% 가량 높은 성능을 냈다.

  • PDF

기계학습을 이용한 문서 자동분류에 관한 연구 (A Study on the Documents's Automatic Classification Using Machine Learning)

  • 김성희;엄재은
    • 정보관리연구
    • /
    • 제39권4호
    • /
    • pp.47-66
    • /
    • 2008
  • 본 논문에서는 수작업 분류 시 초래하는 여러 가지 한계점을 극복하고, 이용자에게 보다 빠르고 정확한 분류 서비스를 제공하기 위해 4개의 다양한 기계학습 알고리즘을 적용하였다. 연구대상으로는 MeSH의 8개의 주제별 범주로 각각 100개의 문헌 타이틀을 선정하였으며, 4개의 기계학습 알고리즘으로 실험을 수행하였다. 그 결과 신경망 기법과 C5.0 기법을 병행하여 사용했을 경우 단일 기법을 사용했을 경우보다 2.5%, 3.75%가 상승하여 분류 효율이 83.75%로 측정되었다. 이 수치는 4개의 분류 실험 결과 중 가장 높은 정확률을 나타내었다. 따라서 신경망 기법과 C5.0 기법의 장점을 이용하여 분류 서비스를 실행하면 단일 기법을 사용한 경우보다 높은 정확률을 나타낼 수 있을 것이라 기대된다.

MyNews : 모바일 환경에서 사용자 관심사를 고려한 XML 문서 트랜스코딩 (MyNews : Personalized XML Document Transcoding Technique for Mobile Device Users)

  • 송특섭;이진상;이경호;손원성;고승규;최윤철;임순범
    • 정보처리학회논문지B
    • /
    • 제12B권2호
    • /
    • pp.181-190
    • /
    • 2005
  • 기존의 웹 컨텐츠를 PDA나 핸드폰등 모바일 디바이스에서 표현하기 위해서는 단말기의 낮은 성능상의 제약으로 인해 적절한 변환이 필요하다. 이와 같이 단말기의 성능을 고려하여 컨텐츠를 변환하는 것을 트랜스 코딩이라 한다. 현재까지 트랜스코딩에 대한 연구들은 사용자의 관심사항온 반영하기 보다는 단말기의 성능을 고려한 연구가 주로 이루어지고 있다. 이는 서비스 제공자 중신의 컨텐츠 변환으로 사용자의 관심사항을 반영하기 곤란하다. 현재 웹컨텐츠의 경우 개인화에 대한 연구가 진행되고 있으나 주로 컨텐츠를 기반으로 하거나 웹로그를 분석하는 등의 방법을 사용하고 있기 때문에 사용자의 명시적인 관심사항을 반영하기 곤란하다. 따라서 본 논문에서는 사용자가 웹문서에서 특정 주제에 대한 관심사항을 명시적으로 표현하는 경우 효과적인 트랜스코딩 기법을 제안한다.

Spark 프레임워크 기반 비정형 빅데이터 토픽 추출 시스템 설계 (A Design on Informal Big Data Topic Extraction System Based on Spark Framework)

  • 박기진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.521-526
    • /
    • 2016
  • 온라인상에서 다루어지는 비정형 텍스트 데이터는 대용량이면서 비구조적 형태의 특성을 가지고 있기 때문에, 기존 관계형 데이터 모델의 저장 방식과 분석 방법만으로는 한계가 있다. 더군다나, 동적으로 발생하는 대량의 소셜 데이터를 활용하여 이용자의 반응을 실시간으로 분석하기란 어려운 상황이다. 이에 본 논문에서는 대용량 비정형 데이터(문서)의 의미를 빠르고, 용이하게 파악하기 위하여 데이터 셋에 대한 사전학습 없이, 문서 내 단어 비중에 따라 자동으로 토픽(주제)이 추출되는 시스템을 설계 및 구현하였다. 제안된 시스템의 토픽 모델링에 사용될 입력 단어는 N-gram 알고리즘에 의하여 도출되어 복수 개의 단어도 묶음 처리할 수 있게 했으며, 또한, 대용량 비정형 데이터 저장 및 연산을 위하여 Hadoop과 분산 인메모리 처리 프레임워크인 Spark 기반 클러스터를 구성하여, 토픽 모델 연산을 수행하였다. 성능 실험에서는 TB급의 소셜 댓글 데이터를 읽어 들여, 전체 데이터에 대한 전처리 과정과 특정 항목의 토픽 추출 작업을 수행하였으며, 대용량 데이터를 클러스터의 디스크가 아닌 메모리에 바로 적재 후, 처리함으로써 토픽 추출 성능의 우수성을 확인할 수 있었다.