Search | Korea Science

Link Extraction and Validation for Web-page Maintenance (웹 페이지 관리를 위한 링크 추출과 검증)

엄정섭;유대승;심민석;이명재
- Proceedings of the Korean Information Science Society Conference
- /
- 2001.10a
- /
- pp.427-429
- /
- 2001
웹의 발전에 따라 거대해진 웹사이트들은 서로 복잡하게 얽혀진 링크들로 인해 웹 개발과 유지보수에 큰 어려움이 따른다. 효율적인 웹 개발과 유지보수를 위해서는 웹에서 가장 중요한 정보의 단위인 링크정보들을 추출할 수 있는 방법이 요구된다. 본 논문에서는 웹 브라우저 요청에 의해 반환된 HTTP 헤더분석과 HTML 문서의 태그분석을 통해 링크들을 추출하여 “끊어진 링크”를 찾고, 추출된 “링크요소”들과 서버에 저장된 파일들을 비교하여 “사용되지 않는 파일”들을 찾아주는 “링크 분석기”시스템을 개발함으로 써 웹 개발과 유지보수에 있어서 가장 기본적이면서도 중요한 링크관리에 대한 방법을 제시한다
PDF

OCTOPUS : 다중링크상태분석기

Lee, Geun-U
- ETRI Journal
- /
- v.14 no.3
- /
- pp.16-30
- /
- 1992
SMX-1 시스팀과 같이 다수의 신호링크들이 운용되면서 신호망의 시험 및 운용이 이루어질 때 부분적인 분석 검증이 아닌 시스팀의 전반적인 검증에서부터 망차원에서의 동작여부를 판단하여 시스팀을 수정, 보완해가야 할 필요성이 있다. 그러나, 범용의 링크상태분석기를 사용하는 것은 한정된(1 또는 2 링크)신호링크만을 제공하기 때문에 다수의 신호링크에 대한 실시간 상태분석을 할 수 없는 점, 이미 정해진 메시지만을 추출/검색할 수 있기때문에 사용자가 원하는 형태의 니모닉 검색/추출이 되지 않는 기능상의 미비점, 다수의 신호링크를 제공하기 위해서 고가의 링크상태 분석기를 여러대 구입하는 것은 중복구매로 인한 예산문제 등 많은 문제점들이 있다. OCTOPUS는 이러한 문제점들을 해결하기위해 제안된 다중링크상태분석기로서, 상태분석시 다수의 신호링크를 제공할 수 있고, 사용자가 원하는 형태의 니모닉 검색/추출이 가능하며, SMX-1 연구결과인 부산물을 이용한다는 측면과, No. 7 레벨2 프로토콜을 이용한 레벨2 비가용원인이유 파악기능제공, 유사한 형태의 HDLC(데이터링크 프로토콜) 처리기능등을 제공할 수 있다는 것이 장점이다. OCTOPUS의 하드웨어는 자체 개발된 SMX-1시스팀의 하드웨어를 사용하며 그위에 링크상태 분석기용 소프트웨어를 탑재하게 된다.
PDF

Retrieval of XML Documents Using Link Information (링크 정보를 활용한 XML 문서의 검색)

Moon, Chan-Ho;Kang, Hyun-Chul
- Proceedings of the Korea Information Processing Society Conference
- /
- 2000.04a
- /
- pp.45-49
- /
- 2000
다양한 정보 형태를 가진 전자 문서의 효과적인 관리를 위해 XML과 관련된 연구들이 활발히 진행되고 있다. 그러나 XML과 관련된 대부분의 연구들은 XML 문서들을 저장, 관리 및 검색할 수 있는 XML 저장 관리 시스템을 대상으로 하고 있다. 본 논문에서는, 실제 Web 상에 분산되어 저장된 전자 문서들 중 하이퍼링크로 연결된 XML 문서들을 대상으로 사용자 질의에 대해 효율적인 검색을 지원해주기 위해, XML 링크 정보를 추출하여 참조하는 검색 질의 처리 방안을 제시한다. 이를 위해 링크 정보를 저장하는 링크 정보 관리 테이블의 구조, 링크 정보를 활용한 XML 문서의 검색 모델, XML 문서의 검색 질의 처리 방안, 그리고 링크 정보의 갱신을 질의 처리 중에 부가적으로 수행하는 방안을 기술하였다. 주어진 사용자 질의에 대한 처리 과정 중 링크와 관련된 질의 처리에 대해 추출된 링크 정보를 이용하여 부질의를 생성하고 처리할 수 있도록 하였다.
PDF

Web Structure Mining by Extracting Hyperlinks from Web Documents and Access Logs (웹 문서와 접근로그의 하이퍼링크 추출을 통한 웹 구조 마이닝)

Lee, Seong-Dae;Park, Hyu-Chan
- Journal of the Korea Institute of Information and Communication Engineering
- /
- v.11 no.11
- /
- pp.2059-2071
- /
- 2007
If the correct structure of Web site is known, the information provider can discover users# behavior patterns and characteristics for better services, and users can find useful information easily and exactly. There may be some difficulties, however, to extract the exact structure of Web site because documents one the Web tend to be changed frequently. This paper proposes new method for extracting such Web structure automatically. The method consists of two phases. The first phase extracts the hyperlinks among Web documents, and then constructs a directed graph to represent the structure of Web site. It has limitations, however, to discover the hyperlinks in Flash and Java Applet. The second phase is to find such hidden hyperlinks by using Web access log. It fist extracts the click streams from the access log, and then extract the hidden hyperlinks by comparing with the directed graph. Several experiments have been conducted to evaluate the proposed method.
https://doi.org/10.6109/jkiice.2007.11.11.2059 인용 PDF KSCI

A Method of Link Extraction on Non-standard Links in Web Crawling (웹크롤러의 비표준 링크에 관한 링크 추출 방안)

Jeong, Jun-Yeong;Jang, Mun-Su;Gang, Seon-Mi
- Proceedings of the Korean Institute of Intelligent Systems Conference
- /
- 2008.04a
- /
- pp.79-82
- /
- 2008
웹크롤러는 웹페이지 내의 URL링크를 추적하여 다른 문서를 수집한다. 국내의 상당수 웹사이트는 웹 표준에 맞지 않는 링크방식으로 웹문서를 연결하고 있다. 일반적인 웹크롤러는 링크의 비표준적인 사용을 가정하지 않기 때문에 이러한 문서는 수집할 수 없다. 비표준적인 링크가 가능한 것은 사용자의 실수에 강인한 마크업 언어인 HTML에 자바스크립트 기능이 추가되면서 자바스크립트의 변칙적인 사용이 허용되었기 때문이다. 본 논문에서는 230여개의 웹사이트를 조사하여 기존 웹크롤러에서 해결하지 못한 링크 추출 문제를 찾아내고, 이를 수집하기 위한 알고리즘을 제안한다. 또한 자바스크립트 문제 해결을 위한 무거운 자바스크립트 엔진을 대신하여 필요한 기능만으로 구성된 모듈을 사용함으로써 효율적인 문서 수집기 모델을 제안한다.
PDF

Web site construction using tag extraction (< a href > 태그 추출을 이용한 웹 문서 구조화)

박은주;임한규
- Proceedings of the Korea Multimedia Society Conference
- /
- 2000.11a
- /
- pp.121-124
- /
- 2000
하이퍼텍스트 구조를 가진 웹문서들은 HTML 태그를 사용하여 문서들을 링크한다. 웹사이트가 점점 더 커짐에 따라 새로운 웹사이트를 디자인하고, 일일이 웹 페이지들을 만들고 그들간의 링크를 만들어 다시 갱신하는 작업은 몹시도 지루한 작업이 되었다. 웹문서를 그래프로 표현함으로써, 웹 사용자들이 요청한 자료로의 빠른 접근을 가능하게 해 주기 위하여 페이지의 조직을 동적으로 바꾸거나 문서들간의 링크의 구조를 바꾸어 줄 경우 웹사이트 관리를 편리하게 해주는 것이 가능하고, 자동적으로 웹문서들을 재조정하는 것이 가능하다. 본 논문에서는, HTML 문서에서 문서를 연결해주는 태그인 으로 구성된 태그들을 추출하여, 이 태그들을 방향을 가진 링크로 간주하여 웹 페이지들을 그래프로 표현한다. 이 그래프 구조에서 링크를 재조정함으로써 사이트들에서 페이지의 조작을 동적으로 구성하고, 사용자들에게 편리함을 제공하는 링크를 제시한다.

A Method to Block Spam Mail Automatically Through the Connection to Link URL (링크 유알엘 접속을 통한 스팸메일 자동 차단 방법에 관한 연구)

Jung, Nam-Cheol
- Journal of Digital Contents Society
- /
- v.8 no.4
- /
- pp.451-458
- /
- 2007
In this paper, I developed a method whereby spam mail is automatically blocked through the connection to link URL. The blocking system works as follows. First, the system extracts information of URL linked to electronic mail which was delivered from any server on the internet. Next, the system lets itself be connected to the web pages through this URL. Last, the system blocks the electronic mail if those web pages contain any key word which was defined as a clue to spam mail.
PDF

Performance Improvement of a Search Engine Using Semantic Category and Hyperlink (의미 카테고리와 하이퍼링크를 이용한 검색엔진의 성능 향상)

김형일;김준태
- Proceedings of the Korean Information Science Society Conference
- /
- 2004.04b
- /
- pp.649-651
- /
- 2004
현재, 웹의 정보는 사용자들이 원하는 모든 정보를 담고 있다고 할 수 있으나, 방대한 웹에서 사용자가 원하는 정보를 정확히 추출하기란 어려운 문제이다. 이러한 정보 추출의 어려움은 방대한 정보량과 정보추출 방식과 직결된다. 웹에서 정보를 정확히 추출하여도 일반적인 검색엔진들의 웹 페이지 순위 결정 방식을 따르게 되면, 사용자에게 중요한 페이지를 상위에 위치시키기란 쉬운 일이 아니다. 본 논문에서는 질의어의 모호성을 해결하기 위해 워드넷 기반 사용자 인터페이스를 설계하고, 웹 페이지의 가중치에 의미 카테고리 빈도 확률과 하이퍼링크 가중치를 이용한 웹 페이지의 가중치 결정 방식을 제안한다.
PDF

Improved Link Analysis Algorithm Using Document Feature Information (문서 내의 주제정보를 이용한 개선된 링크분석 알고리즘)

박기림;장유진;김민구;박승규
- Proceedings of the Korean Information Science Society Conference
- /
- 2003.10a
- /
- pp.7-9
- /
- 2003
최근 인터넷을 대상으로 하는 정보검색의 방법 중 하이퍼링크 정보를 이용한 방법이 각광받고 있다. 그리고 하이퍼링크 정보이외에 문서내에 존재하는 다양한 정보를 이용하여 검색 성능을 향상시키고자 하는 시도가 지속적으로 이루어지고 있다. 본 연구에서는 문서와 문서 사이의 유사도를 이용하여 하이퍼링크의 가중치를 부설하여 검색 성능을 향상시킨 방법을 개선하여 문서내의 주제정보를 추출하고 주제 단위의 유사도를 이용하여 하이퍼링크의 가중치를 새롭게 부여하여 링크분석 알고리즘에 적용하였다. 본 연구에서 제안한 방법이 문서사이의 유사도를 이용한 방법보다 뛰어난 성능을 나타내고 있음이 입증되었다.
PDF

Web Site Construction Using Internet Information Extraction (인터넷 정보 추출을 이용한 웹문서 구조화)

박은주;임한규
- Journal of Korea Society of Industrial Information Systems
- /
- v.6 no.2
- /
- pp.7-15
- /
- 2001
In this paper, we suggest the algorithm that inserts or deletes documents into web sites without creating tag. This algorithm uses tag which links between documents to automatically inset or delete the web documents. This study extracts the texts in the ... tag of the document to put into the structure as a type of graph creating the link as a node m of sub-node. That is, in this case of configurating new link between web documents, this algorithm allows to insert or delete the node to or from the graph without creating the tag. In the case of deleting the document, it removes the broken link connecting the sub-nodes of deleted node newly to its parent node.

Search Result 211, Processing Time 0.026 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)