• 제목/요약/키워드: 심층 웹

검색결과 55건 처리시간 0.027초

국가 심층 웹기록물 보존 포맷과 OAIS 참조모델 간의 데이터 맵핑 (Data Mapping between Korea Deep Web Archiving Format and Reference Model for OAIS)

  • 박병주;차승준;이규철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.197-200
    • /
    • 2010
  • 웹 기술이 발달함에 따라 공공기관 웹사이트는 단순한 행정기관의 홍보에서 벗어나 국민과 정부 간의 의사소통의 증거인 동시에 업무의 기록으로서 역할을 담당하고 있다. 따라서 공공기관의 웹사이트들은 공공기록물로 인식하고 보호해야 한다. 하지만 공공기관의 웹기록물 중 하나인 심층 웹기록물은 실시간으로 상이한 페이지를 동적으로 구성하기 때문에 기존의 보존방법과는 다른 수집 보존 활용 기술이 요구된다. 국가기록원은 이러한 특징을 가지고 있는 심층 웹기록물을 장기보존하기 위해서 심층 웹기록물 장기보존 포맷인 KoDeWeb을 연구하고 개발하였다. KoDeWeb은 전자기록물이기 때문에 전자기록물로서 진본성 및 무결성을 보장해야 한다. 본 연구에서는 KoDeWeb의 전자기록물로서의 진본성 및 무결성을 증명하기 위해 국제 전자기록물 표준인 OAIS 참조모델에 KoDeWeb을 맵핑시켰다. 나아가 OAIS표준을 따르고 있는 전자기록물 장기보존 시스템에 KoDeWeb을 사용함으로써, 정부 및 공공기관의 심층 웹기록물 생성 및 수집을 체계화하고, 또한 민간이 운영하는 웹의 심층 웹기록물 장기보존에 활용할 수 있다.

  • PDF

심층 웹 문서 수집을 위한 크롤링 알고리즘 설계 (Crawling Algorithm Design for Deep Web Document Collection)

  • 원동현;강윤정;박혁규
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.367-369
    • /
    • 2022
  • 웹 기술이 발전함에 따라 웹은 사용자의 요구에 맞는 맞춤 정보들을 제공하게 된다. 클릭 이벤트나 사용자의 질의어에 따라 정보가 제공되며 검색엔진으로는 검색이 어려운 정보가 제공되는 웹 서비스를 심층웹이라 한다. 이러한 심층웹은 표면웹보다 많은 정보를 포함하고 있지만, 방문 당시의 정보를 수집하는 일반적인 크롤링으로는 정보 수집이 어렵다. 심층웹은 javascript와 같은 스크립트언어를 브라우저에서 실행함으로 서버의 정보를 사용자에게 제공한다. 본 논문에서는 심층웹 수집을 위해 스크립트를 분석하여 동적으로 변화되는 웹사이트의 탐색 및 정보 수집이 가능한 알고리즘을 제안한다. 본 논문에서는 실험을 위해 질병관리청의 게시판의 스크립트를 분석하였다.

  • PDF

공공기관 심층 웹기록물 아카이빙을 위한 메타데이터 설계 (Metadata Design for Archiving Public Deep Web Records)

  • 차승준;최윤정;이규철
    • 한국전자거래학회지
    • /
    • 제14권4호
    • /
    • pp.181-193
    • /
    • 2009
  • 웹 기술이 발전함에 따라, 공공기관에서는 웹을 이용하여 업무를 처리하고 또한 국가와 시민간의 연결통로로 사용하고 있다. 웹기록물은 공공기관에서 이용하는 웹 사이트상에서의 업무처리의 결과로, 정보로서 중요한 가치를 담고 있으나 보존의 방법과 도구가 부족하여 많은 양의 자원들이 소실되고 있는 실정이다. 본 논문은 웹기록물의 한 분류인 심층 웹기록물 아카이빙에 필요한 메타데이터 설계를 목적으로 하고 있다. 이를 위해 우선 국외 연구기관 및 연방정부에서 제공하는 심층 웹기록물에 대해 알아보고, 이를 바탕으로 국내 공공기관의 심층 웹기록물을 정의하였다. 정의된 심층 웹기록물을 바탕으로 아카이빙에 필요한 메타데이터 항목을 설계하고, 국내외 호환성을 위해 전자기록물 장기보존포맷과 더블린코어 메타데이터와의 관계를 설명하였다. 이는 국내 웹기록물 아카이빙의 기반기술로 활용될 수 있다.

  • PDF

심층 웹 문서 자동 수집을 위한 크롤링 알고리즘 설계 및 실험 (Crawling algorithm design and experiment for automatic deep web document collection)

  • 강윤정;이민혜;원동현
    • 한국정보통신학회논문지
    • /
    • 제27권1호
    • /
    • pp.1-7
    • /
    • 2023
  • 심층 웹 수집은 검색 양식에 질의어를 입력하고 응답 결과를 수집하는 것을 의미한다. 심층 웹이 가진 정보는 정적으로 구성되는 표면 웹보다 약 450~550배 이상의 정보를 가지고 있을 것으로 추산한다. 정적인 방식에서는 웹페이지가 새로 고쳐지기 전까지 변화된 정보를 보여주지 못한다. 동적 웹페이지 방식은 실시간으로 필요한 정보가 갱신되어 웹페이지를 새로 불러오지 않아도 실시간 정보 제공이 가능한 장점이 있지만, 일반적인 크롤러는 갱신된 정보에 접근하는 데 어려움이 있다. 따라서 이들 심층 웹에 있는 정보들을 크롤러를 이용해 자동으로 수집할 방안이 필요하다. 이에 본 논문은 스크립트를 일반적인 링크로 활용하는 방법을 제안하였으며, 이를 위해 클라이언트 스크립트를 일반 URL처럼 활용이 가능한 알고리즘을 제안하고 실험하였다. 제안된 알고리즘은, 검색 양식에 데이터를 입력하는 일반적인 방법 대신 메뉴 탐색 및 스크립트 실행으로 웹 정보를 수집하는 데 중점을 두었다.

웹 아카이빙을 위한 정보자원의 자동수집방법 개발 - 재난안전정보를 중심으로 - (The Development of Automatic Collection Method to Collect Information Resources for Wed Archiving: With Focus on Disaster Safety Information)

  • 이수진;한희영;심민정;원동현;김용
    • 한국기록관리학회지
    • /
    • 제17권4호
    • /
    • pp.1-26
    • /
    • 2017
  • 본 연구는 각 기관별로 산재되어 있는 재난안전정보의 효율적인 공유 및 활용과 일반 이용자들의 재난안전정보의 접근성 향상을 위하여 웹 크롤러를 활용한 자동수집방안을 제시하고자 한다. 그러나 현재 웹은 심층 웹이 대부분을 차지하고 있어 일반적인 아카이빙 전략에 사용되는 크롤러로 수집이 불가능하다. 이에 따라 본 연구에서는 심층 웹의 논리적 구조를 분석하여 정보 자원을 수집할 수 있는 알고리즘을 개발하고 실제 크롤러를 구현하였다. 이를 통해 재난안전정보의 자동수집을 수행하였고 이는 재난안전정보의 공유 및 활용으로 효율적인 재난 업무에 도움을 줄 것으로 예상된다. 나아가 본 연구에서 구현한 크롤러의 범용화를 통해 심층 웹 형태의 정보 자원을 자동수집할 수 있다는 점에 의의가 있다.

웹 아카이빙의 성과와 과제 (Web Archiving: What We Have Done and What We Should Do)

  • 서혜란
    • 한국비블리아학회지
    • /
    • 제15권1호
    • /
    • pp.5-22
    • /
    • 2004
  • 이 연구의 목적은 도서관들이 웹 아카이빙이라는 새로운 도전에 대응하여 어떻게 해결책을 모색해 왔으며 앞으로 어떤 과제를 해결해 나가야 할 것인지를 정리하는 것이다. 이 논문에서는 웹 정보자원의 특성을 양적 급성장, 심층 웹의 존재, 웹 정보의 신뢰성에 대한 의문과 역동성, 웹 출판의 무정부성으로 규정하고, 도서관 이 왜 웹 아카이빙을 해야 하는가에 대해서 논의하였다. Kurturarw3, PANDORA, Internet Archive를 중심으로 웹 아카이빙 프로젝트의 성과를 검토하였다. 그리고 효과적이고 성공적인 웹 아카이빙을 실현하기 위해서 해결해야 할 정책적 과제와 기술적 과제들을 점검하였다.

  • PDF

웹 사이트 탐색 알고리즘 비교분석 (Comparision and Analysis of Algorithm for web Sites Researching)

  • 김덕수;권영직
    • 한국산업정보학회논문지
    • /
    • 제8권3호
    • /
    • pp.91-98
    • /
    • 2003
  • 무선 PDA.휴대폰을 통해 웹을 탐색하려는 이용자들은 인터페이스 상의 문제 때문에 어려움을 겪는다. 단지 그래픽을 문자로 바꾸거나 기호체계를 재구성한다고 해서 해결될 문제가 아니다. 심층 연계 구조를 통과하는 데에는 많은 시간이 걸리기 때문이다. 이러한 문제들을 해결하기 위해서 본 논문에서는 실시간의 최단경로를 제공하기 위하여 무선 웹 탐색을 자동적으로 개선시키는 Minimal Path 알고리즘을 제안한다. 본 논문의 결과 Minimal Path 알고리즘은 웹 이용자들에 대해 지름길을 제공해 주며, 링크의 숫자가 가장 짧았음을 알 수 있었다.

  • PDF

질의 응답 시스템을 위한 질의문 심층 분석 (Deep Analysis of Question for Question Answering System)

  • 신승은;서영훈
    • 한국콘텐츠학회논문지
    • /
    • 제6권3호
    • /
    • pp.12-19
    • /
    • 2006
  • 본 논문에서는 질의 응답 시스템의 성능 향상을 위한 질의문 심층 분석을 제안한다. 일반적인 질의응답 시스템들은 사용자의 자연언어 질의의 의미를 분석하지 않기 때문에 정확한 정답을 제공하는 것이 어렵다. 질의문 심층 분석은 의미자질 추출 문법과 자연언어 질의 특성을 이용하여 사용자의 질의를 의미적으로 분석하고, 의미자질들을 추출한다. 의미자질 추출 문법과 자연언어 질의 특성은 사용자 질의의 의미와 구문 구조를 반영하기 위해 의미자질과 형식형태소로 표현된다. 웹에서 추출한 세부 정답 유형이 '인물'인 100개의 질의에 대한 실험을 통해, 비교적 짧지만 사용자의 질의 의도를 충분히 표현하고 있는 자연언어 질의에 대해 질의문 심층 분석을 수행함으로써 사용자의 질의 의도를 분석하고, 의미자질들을 추출할 수 있음을 보였다.

  • PDF

웹기록물 보존을 위한 전자기록물 장기보존포맷 확장 설계 (Extension of the Long-term Archival Information Package for Electronic Records to Accommodate Web Records)

  • 박병주;차승준;이규철
    • 한국전자거래학회지
    • /
    • 제15권4호
    • /
    • pp.33-47
    • /
    • 2010
  • 웹기록물은 공공기관의 업무활동이나 전자상거래에 대한 법적증거로 활용될 수 있기 때문에 보존할 가치가 있는 정보이지만 웹기록물의 특징 중 하나인 '휘발성'으로 인해 소실되고 있다. 따라서 이렇게 사라지는 웹기록물을 장기보존하기 위한 장기보존포맷이 정의되어야 한다. 웹기록물은 전자기록물의 일종이기 때문에 전자기록물 장기보존포맷에 보존할 수 있어야 한다. 하지만 현재 표준으로 제시된 포맷은 웹기록물의 특성을 고려하지 않고 정의되었기 때문에 웹기록물을 보존할 수 없다. 본 논문에서는 표면/심층 웹기록물 문서보존포맷으로 연구된 KoDeWeb/KoSurWeb과 전자기록물 장기보존포맷을 분석하고, 이를 바탕으로 웹기록물을 보존할 수 있는 확장된 전자기록물 장기보존포맷을 정의하였다. 정의된 포맷을 활용하면 웹기록물도 전자기록물들과 같이 보존되어 활용될 수 있고, 전자 상거래에 관련된 공공기관의 웹기록물을 보존함으로써 전자 상거래에 대한 법적 증거로서 활용될 수 있다.

웹 2.0 시대의 프라이버시 청년 UCC 이용자들의 인식과 실천을 중심으로 (Self-disclosure and Privacy in the Age of Web 2.0 A Case Study)

  • 이동후
    • 한국언론정보학보
    • /
    • 제46권
    • /
    • pp.556-589
    • /
    • 2009
  • 인터넷 이용이 일상화되고 참여, 공유, 개방의 정신을 표방한 소위 웹 2.0 시대가 도래하면서, 프라이버시 침해나 보호의 문제가 자주 거론되고 있다. 이 연구는 UCC(User Created Contents) 활용을 통한 자기 노출이 활발하게 이루어지고 있는 웹 2.0 시대에 프라이버시에 관한 인식과 실천이 구체적으로 어떻게 이루어지고 있는 지를 질적 조사를 통해 알아보고자 하였다. 이를 위해 일상적으로 UCC를 활용하는 10대 후반, 20대 초반 이용자에 대한 심층인터뷰를 실시하였다. 그리고 UCC를 통한 이들의 사회적 소통 방식과 이러한 소통 과정에서의 자신 노출 및 공사 구분의 방식, 그리고 여기에 나타난 프라이버시 인식 등을 구체적으로 살펴보았다. 심층 인터뷰 결과, 인터뷰 참여자들은 콘텐츠를 선택하고 그 접근과 공유의 범위를 설정할 때 공사의 구분을 상황에 따라 유동적으로 하는 경향을 보여준다. 또한 UCC를 통해 낯선 이에게 자신의 이미지가 노출되고 감시당할 수 있는 점에 대해서 막연하게 불안감을 갖지만, 악의적인 반응을 얻지 않는 한 프라이버시와 연계시켜 문제의식을 갖지 않는다. 이러한 결과는 웹 2.0 시대의 프라이버시 문제를 보다 복합적인 차원에서 접근할 필요가 있다는 점을 시사한다.

  • PDF