• 제목/요약/키워드: Web text

검색결과 819건 처리시간 0.029초

HTML 논리적 구조분석을 통한 본문추출 알고리즘 (Text Extraction Algorithm using the HTML Logical Structure Analysis)

  • 전현지;고찬
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권3호
    • /
    • pp.445-455
    • /
    • 2015
  • 인터넷과 컴퓨터 기술이 발전함에 따라 정보의 양이 폭발적으로 증가하였으며, 이로 인해 다양한 웹 저작 도구 및 새로운 웹 표준의 출현과 웹에 대한 접근성이 보다 편리해지면서 매우 다양한 종류의 웹 콘텐츠들이 아주 빠르게 생산되고 있다. 하지만 웹 문서는 여러 블록으로 나누어 다양한 주제를 담아내고 있으며, 각각의 블록들이 서로 연관성이 없는 주제를 다루는 경우가 많을 뿐만 아니라 네비게이션, 단순한 장식물, 광고, 저작권 정보 등과 같이 콘텐츠로 볼 수 없는 블록들도 존재한다. 이러한 문제를 해결하기 위해 HTML 웹 문서의 정확한 본문영역만을 추출하여 사용자 요구조건을 충족하고 효과적으로 정보를 학습할 수 있도록 하며, 추후에는 문서를 체계적으로 관리할 수 있게 최적화된 웹 검색 시스템으로서의 재구성 방법을 제안하고자 한다.

Informix Media Asset Management

  • BBC Case Study
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 1998년도 국제 컨퍼런스: 국가경쟁력 향상을 위한 디지틀도서관 구축방안
    • /
    • pp.83-98
    • /
    • 1998
  • Who needs Media Asset Management? ◆ Publishers ◆ Any company publishing newspapers, magazines, catalogs or web sites. ◆ Content Creators ◆ Companies who create content for use in their business ◆ Broadcasters, Advertising Agencies, Studios, Sports Houses (NBA, NFL), Corporate Training Depts, Retailers ◆ Content Distributors ◆ Cable Operators, Telecoms, Internet Service Providers, Online Service Providers Who needs Media Asset Management? ◆ There's a LOT of money being spent on this kind of technology, and not just by 'media' companies ◆ Retailers, for catalogs, web sites, call centers ◆ Chems/Pharms, for drug. discovery, knowledge management ◆ Legal, for document and knowledge management ◆ Federal, for video surveillance and knowledge management ◆ Manufacturing, for integration of CAD, text and business-to-business applications ◆ Anyone with a Web/Content Management challenge(omitted)

  • PDF

영어 FrameNet의 수동번역을 통한 한국어 FrameNet 구축 개발 (Construction of Korean FrameNet through Manual Translation of English FrameNet)

  • 남세진;김영식;박정열;함영균;황도삼;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.38-43
    • /
    • 2014
  • 본 논문은, 현존하는 영어 FrameNet 데이터를 기반으로 하여, FrameNet에 대한 전문 지식이 없는 번역가들을 통해 수행할 수 있는 한국어 FrameNet의 수동 구축 개발 과정을 제시한다. 우리 연구팀은 실제로, NLTK가 제공하는 영어 FrameNet 버전 1.5의 Full Text를 이루고 있는 5,945개의 문장들 중에서, Frame 데이터를 가진 4,025개의 문장들을 추출해내어, 번역가들에 의해 한국어로 수동번역 함으로써, 한국어 FrameNet 구축 개발을 향한 의미 있는 초석을 마련하였으며, 제시한 방법의 실효성을 입증하는 연구결과들을 웹에 공개하기도 하였다.

  • PDF

의류를 중심으로 한 전자상거래의 활용 실태에 관한 연구 (Application of Electronic Retailing in Apparel)

  • 원명심
    • 한국생활과학회지
    • /
    • 제8권3호
    • /
    • pp.511-524
    • /
    • 1999
  • This research examines 13 Korean Web sites and 15 foreign Web Sites to explore how companies present apparel products by both layout of graphics and information at the Web sites. The results show that most Web sites display tiny icons next to the item's text description. Clicking on these icons takes the customers to another web page, where the full size photograph of the item appears. The results also revealed that most web sites offer shopping bag function and payment options such as on-line and credit cards. The results indicate that Web sites are constantly evolving and following functions such as virtual dressing room, FAQ, the links, E-Cash payment, currency converter and multilingual sites are becoming standards in the near future.

  • PDF

Layout Analysis for Calculation of Web Page Similarity as Image

  • Mitsuhashi, Noriaki;Yamaguchi, Toru;Takama, Yasufumi
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 ISIS 2003
    • /
    • pp.142-145
    • /
    • 2003
  • When we search information on the Web using search engines, they only analyze the text information collected from the source files of Web pages. However, there is a limit to analyze the layout of a Web page only from its source file, although Web page design is the most important factor for a user to estimate a page. In particular it often happens on the Web that the pages of similar design ofter similar information. We propose a method to analyze layout for comparing the design of pages by treating the displayed page as image.

  • PDF

Ch를 이용한 직선형 5공 압력 프로브의 3차원 유동속도 계측시스템 개발 (Development of Three-Dimensional Flow Velocity Component Measurement System with Straight-Type Five-Hole Pressure Probe Using Ch Language)

  • 오석형;김장권
    • 동력기계공학회지
    • /
    • 제14권1호
    • /
    • pp.40-46
    • /
    • 2010
  • This paper shows the development process for measuring three-dimensional flow velocity components in a web-browser. The system is developed in an embeddable C/C++ interpreter Ch and Ch-CGI toolkit. The interface for the web-based measurement system consists of a set of web HTML files and Ch files for CGI. All of data in web browser are passed to Ch-CGI script to generate the output of new HTML file. PC-Server and PC-Client can submit measurement parameters and receive the text/graphical results each other. PC-Client can control the test equipment by using a parameters that received from PC-Server. It also can pass the test results between the web-based measurement system. In summary, the designed measurement system is evaluated, the outputs shown well on the web browser.

국내 인터넷 뱅킹 사이트의 웹 접근성 준수 실태 (Web Accessibility Compliance of Internet Bankings in Korea)

  • 현준호;김병초
    • 한국IT서비스학회지
    • /
    • 제7권2호
    • /
    • pp.77-93
    • /
    • 2008
  • According to the statistics revealed by Bank of Korea on March, 2007, Internet banking transactions outnumbered face-to-face banking services in Korea. Internet banking is becoming essential in every financial service sectors. For people with disabilities, Internet banking is more meaningful because they do not need to visit the bank, thereby saving inconvenient trips. Governments in many countries are working on setting standards and laws on the web accessibility for people with disabilities. Korea government enacted Korea Disability Discrimination Act in 2007. This paper examined the web accessibility compliance of Internet banking sites. Twenty one Internet banking sites were selected from the list in the Korea Federation of Banks's Web sites. We examined four major checkpoints that are considered crucial among the fourteen checkpoints in "Internet Web Contents Accessibility Guidelines" which was amended by Ministry of the information and Communication in 2005. The results showed that all of the twenty one Internet banking sites didn't meet the four major checkpoint requirements. Moreover, only one banking site satisfied alt-text requirement that is considered the most fundamental among the checkpoints.

CML을 이용한 웹 기반 차트출력시스템 (Web-based Chart Generating System Using CML)

  • 윤현님;김양우
    • 인터넷정보학회논문지
    • /
    • 제9권5호
    • /
    • pp.47-58
    • /
    • 2008
  • 차트는 여러 종류의 정보를 시각적으로 표현하기 때문에 정보 전달력이 높다. 이런 이유로 웹 개발자들도 정보를 표현할 때 차트를 자주 활용한다. 그러나 차트를 활용하기 위해서는 차트를 작성하는 전용 프로그램이 필요하며, 작성된 차트도 일반적으로 래스터 방식의 이미지로 표현되기 때문에 차트정보를 공유하기 어렵다. 이러한 래스터 방식의 이미지는 이미지의 크기가 고정되기 때문에 이미지의 크기를 변경하면 이미지가 왜곡된다는 문제점이 발생한다. 본 논문에서는 차트정보의 호환성과 차트정보의 공유 문제를 해결하기 위해 CML(Chart Markup Language)을 이용한 웹 기반의 차트출력시스템을 제안한다. 본 논문에서 제안한 차트출력시스템은 XML, Text, HTML 문서를 분석하여 차트정보를 추출한 후, 추출한 차트정보를 CML로 변환하고, 변환된 CML문서를 벡터 방식을 이용하여 차트를 웹브라우저에 출력한다. 벡터 방식은 이미지를 표현할 때 벡터를 활용하기 때문에 이미지의 크기가 변경되더라도 이미지가 깨지거나 왜곡되는 현상이 없다는 장점이 있다. 본 논문에서 제안한 CML은 차트정보를 표현하기 위해 정의한 XML 기반의 차트생성언어이다. 웹에서 차트를 표현할 때 CML을 활용하면 차트정보를 쉽게 공유할 수 있으며, 차트정보 변환이 수월하다는 장점이 있다.

  • PDF

온톨로지 자동추출도구의 기능적 성능 평가를 위한 평가지표의 개발 및 적용 (Measurement Criteria for Ontology Extraction Tools)

  • 박진수;조원진;노상규
    • 지능정보연구
    • /
    • 제14권4호
    • /
    • pp.69-87
    • /
    • 2008
  • 이제 인터넷은 시맨틱 웹(Semantic Web)의 형태로 진화 발전하고 있다. 그 결과 시맨틱 웹의 지식을 표현하는 백본 인 온톨로지가 매우 중요하게 인식되고 있다. 그러나 온톨로지를 구축하는 것은 많은 시간과 자원을 필요로 하는 작업이다. 이로 인해 온톨로지 추출도구(ontology extraction tool)에 대한 개발의 필요성이 지난 십여 년간 제기되어 왔으며, 온톨로지를 자동으로 추출하거나 온톨로지 구축을 돕는 도구들이 개발되었다. 그러나 여러 온톨로지 자동추출도구들 중에 구축하고자 하는 온톨로지의 사용자 요구사항에 적합한 자동추출도구를 선택하기 위해서는 이런 도구들에 대한 평가지표가 필요하다. 하지만, 현재 이런 도구들을 평가하기 위한 포괄적인 평가 프레임워크(comprehensive evaluation framework)가 존재하지 않는다. 본 연구에서는, 문헌연구를 수행하여 온톨로지 자동추출도구가 갖춰야 할 핵심 요소들을 찾고, 온톨로지 추출도구들을 평가하기 위한 일련의 평가지표들을 개발했다. 또한 본 연구에서 제안하는 평가지표에 따라 온톨로지 자동추출도구인 OntoLT, Text-To-Onto, TERMINAE, OntoBuilder를 평가해 보았다.

  • PDF

신뢰성 유지를 위한 이벤트 기반 실시간 웹크롤러의 설계 및 구현 (Design and Implementation of Event-driven Real-time Web Crawler to Maintain Reliability)

  • 안용학
    • 한국융합학회논문지
    • /
    • 제13권4호
    • /
    • pp.1-6
    • /
    • 2022
  • 웹 크롤링 데이터를 이용한 실시간 시스템은 원격지의 데이터와 동일한 데이터베이스의 데이터를 사용자에게 제공해야 하며, 이를 위해서 웹 크롤러는 원격지 데이터의 변경 여부를 확인하기 위해 원격 서버에 반복적인 HTTP(HyperText Transfer Protocol) 요청을 수행해야 한다. 이 과정은 크롤링 서버와 원격 서버의 네트워크 부하를 일으키며 과도한 트래픽 발생 등의 문제의 원인이 된다. 이러한 문제점을 해결하기 위해 본 논문에서는 사용자 이벤트를 기반으로 크롤링 서버의 데이터와 다중 원격지 데이터와의 동일성을 유지하는 신뢰성을 확보함과 동시에 네트워크의 과부하를 줄일 수 있는 실시간 웹 크롤링 기법을 제안한다. 제안된 방법은 단위 데이터와 목록 데이터를 요청하는 이벤트를 기반으로 크롤링 프로세스를 수행한다. 실험 결과, 제안된 방법은 기존 웹 크롤러에서의 네크워크 트래픽 과부하를 줄이면서 데이터의 신뢰성을 확보할 수 있음을 확인하였다. 향후에는 이벤트 기반 크롤링과 시간 기반 크롤링에 대한 융합에 대한 연구가 필요하다.