• 제목/요약/키워드: Web text

검색결과 817건 처리시간 0.028초

웹의 개념지식을 위한 Anchor Text에서의 키워드 추출 알고리즘의 구현 (A Implementation of Keyword Extraction Algorithm Using Anchor Text for Web's Conceptual Knowledge)

  • 조남덕;배환국;김기태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.72-74
    • /
    • 2000
  • 인터넷을 효과적으로 검색하기 위하여 검색엔진을 많이 이용하고 있다. 그런데 문서의 키워드를 추출할 적에 지금까지는 Anchor Text를 염두에 두지 않았었다. Anchor Text는 사람이 직접 요약한 것이고(요약성), 하이퍼링크를 포함하는 웹 문서에 반드시 존재하므로(보편성) 그 하이퍼링크가 가리키는 곳의 문서의 키워드를 추출에 적합한 용도가 될 수 있다. 웹 그래프는 이러한 Anchor Text를 이용하여 키워드를 추출함으로써 문서와 문서간, 단어와 단어간의 관계(연관성)까지도 나타내 줄 수 있게 한 검색 엔진 시스템이다. 그러나 Anchor Text 자체가 본문의 내용이 아니고, Anchor Text를 작성한 사람에 따라 다르게 작성되며, 본문의 내용과 무관한 내용도 작성할 수 있다. 따라서 Anchor Text 자체를 어떠한 여과 없이 문서의 키워드로 받아들이긴 힘들다. 본 논문에서는 TFIDF를 통해 좀 더 정확성이 있는 키워드를 추출하였다.

  • PDF

외국인 암 환자를 위한 국내 방사선치료 영문 텍스트 가독성 분석 (Analysis of Readability of Text in English for Radiation Therapy for Foreigner Patient with Cancer in South Korea)

  • 김대건;김성철
    • 대한방사선기술학회지:방사선기술과학
    • /
    • 제45권6호
    • /
    • pp.543-552
    • /
    • 2022
  • This study compared and analyzed with the United States(USA) to evaluated the level of readability of radiotherapy information (English text) provide to foreign patients with cancer by medical institutions in South Korea (KOR). A total of 20 the KOR and USA medical hospitals in 10 each provide information for radiation therapy technology were selected. The readability was comparatively analyzed a total of three aspects (lexical, syntactic, cohesion and readability) by using a Coh-Metrix on-line web program. In readability respect, the mean of the Flesch Reading Ease (FRE) was lower in the KOR (8.3) than in the USA (23.2), Flesch-Kincaid grade level (FKGL) was higher in the KOR than in the USA (14.2) indicating that KOR was less readable than the US (p<.05). In both KOR and USA, the reading level (literacy) of the English text for the radiation therapy was found to be higher than high school (FRE level 50 or lower). Therefore, text information in English for the radiation therapy to foreign patients with cancer should be lowered to elementary school level and read to improve the quality of medical services.

한·미·일 지상파 방송사의 웹 접근성 비교·분석 (Comparison and Analysis of Web Accessibility for the Korea, USA, and Japan's Broadcast Web Sites)

  • 박성제;김영근;김종원
    • 한국산업정보학회논문지
    • /
    • 제19권4호
    • /
    • pp.105-117
    • /
    • 2014
  • 방송 매체를 통한 정보 습득은 현대를 살아가기 위한 필수적 요소이며, 디지털 테크놀로지의 발전으로 각 방송사는 인터넷을 통한 서비스 전환을 진행하고 있다. 이에, 본 연구에서는 한국, 미국, 일본의 대표적 방송사 웹사이트를 대상으로 웹 접근성 평가를 진행하여 그 결과를 비교 분석하였다. 그 결과에 의하면, 세 나라 방송사들 모두 접근성 수준에 현저한 차이를 보이지는 않았으나, 한국 방송사들의 경우, 대체텍스트 제공, 반복 영역 건너뛰기 및 제목 제공 등에서 접근성 준수율이 미흡한 것으로 조사되었다. 또한 텍스트 콘텐츠의 명도 대비와 사용자가 의도하지 않은 기능의 실행, 기본 언어 명시 및 레이블 제공 등에서도 접근성 오류가 있는 것으로 조사되어, 접근성 준수를 위한 수정 및 보완이 시급한 것으로 나타났다.

태그 서열 위치와 경사 부스팅을 활용한 한국어 웹 본문 추출 (Korean Web Content Extraction using Tag Rank Position and Gradient Boosting)

  • 모종훈;유재명
    • 정보과학회 논문지
    • /
    • 제44권6호
    • /
    • pp.581-586
    • /
    • 2017
  • 웹 문서를 자동으로 수집하면 대량의 정보를 손쉽게 모을 수 있다. 이러한 정보 수집 과정을 위해 웹 문서에서 메뉴, 광고 등 불필요한 정보를 제거하고 본문을 자동으로 추출할 필요가 있다. 특히 한국어 웹문서는 영어권과 달리 메타데이터가 포함된 경우가 드물고 디자인이 복잡하여 한국어 웹에 맞는 자동 본문 추출 방법이 필요하다. 기존의 본문 추출 방법은 주로 본문 블록의 문자적, 구조적 특성을 활용한다. 시각적 특성을 처리하기 위해서는 렌더링, 이미지 처리 등에 많은 계산이 필요하기 때문이다. 이 논문에서는 HTML에서 태그 위치를 준-시각적 특성으로 활용한 새로운 본문 추출 방법을 제시한다. 태그 위치는 텍스트의 길이에 따라 가변적이기 때문에 태그 서열 위치라는 특성을 개발하였고, 이를 경사 부스팅과 함께 이용하면 정확한 본문 추출이 가능함을 보인다. 본 논문의 연구 결과는 텍스트 분석에 필요한 양질의 문서 자료를 다양한 형태의 웹페이지에서 자동으로 수집하는 데에 쓰일 수 있다.

웹상의 영상 내의 문자 인식과 음성 전환 시스템 (Text to Speech System from Web Images)

  • 안희임;정기철
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(3)
    • /
    • pp.5-8
    • /
    • 2001
  • The computer programs based upon graphic user interface(GUI) became commonplace with the advance of computer technology. Nevertheless, programs for the visually-handicapped have still remained at the level of TTS(text to speech) programs and this prevents many visually-handicapped from enjoying the pleasure and convenience of the information age. This paper is, paying attention to the importance of character recognition in images, about the configuration of the system that converts text in the image selected by a user to the speech by extracting the character part, and carrying out character recognition.

  • PDF

A Development for Web -based Name-plate Production System by using Image Processing

  • Kim, Gibom;Youn, Cho-Jin
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2001년도 ICCAS
    • /
    • pp.60.2-60
    • /
    • 2001
  • In this paper, manufacturing system and Internet are combined and NC milling machine engraves image and text on nameplate. Image and text are input through Internet. And NC tool path is obtained by thinning algorithm and NC part program is generated. Thinning algorithm detects center lines from image and text by using connectivity and tool path is obtained along the center line. Actually experiments are performed and thinning algorithm and G-code generation module are verified.

  • PDF

INFORMATION SEARCH BASED ON CONCEPT GRAPH IN WEB

  • Lee, Mal-Rey;Kim, Sang-Geun
    • Journal of applied mathematics & informatics
    • /
    • 제10권1_2호
    • /
    • pp.333-351
    • /
    • 2002
  • This paper introduces a search method based on conceptual graph. A hyperlink information is essential to construct conceptual graph in web. The information is very useful as it provides summary and further linkage to construct conceptual graph that has been provided by human. It also has a property which shows review, relation, hierarchy, generality, and visibility. Using this property, we extracted the keywords of web documents and made up of the conceptual graph among the keywords sampled from web pages. This paper extracts the keywords of web pages using anchor text one out of hyperlink information and makes hyperlink of web pages abstract as the link relation between keywords of each web page. 1 suggest this useful search method providing querying word extension or domain knowledge by conceptual graph of keywords. Domain knowledge was conceptualized knowledged as the conceptual graph. Then it is not listing web documents which is the defect of previous search system. And it gives the index of concept associating with querying word.

Web 트래픽 기반의 전용 회선 대여곡 결정에 관한 연구 (A Study on Planning for Leased-line Bandwidth based-on web Traffic)

  • 서상현;최영수;안성진;정진욱
    • 한국정보처리학회논문지
    • /
    • 제7권8S호
    • /
    • pp.2713-2721
    • /
    • 2000
  • 이 논문에서는 Web 사이트를 설계할 때 응답시간과 관련해서 고려되어야 할 요수 중[10,15,16], 인터넷 연결 회선의 대역폭 결정에 참조될 수 있는 자료를 제시한다. 이를 위해 다양한 환경에서 Web 세션 도착율에 따른 응답시간과 회선 이용율의 변화를 관찰하고, 이를 통해 특정 대역폭의 회선에 대해 Web 서비스가 한계 응답시간 내에 보장될 수 있는 Web 세션 도착율의 임계치를 구한다. [15,16]. 이 논문에서는 데이터 수집을 위해 실험 네트워크를 구성하고, 자체적으로 구현한 패킷 생성기를 이용하여 세션 도착율의 변화에 따른 Web 트래픽을 시뮬레이션한다. 응답시간은 패킷 생성기가 생성한 각각의 HTTP(Hyper-Text Transfer Protocol)요청 패킷이 전송되는 시점부터 HTTP응답 메시지가 도착하는 시점까지의 경과된 시간으로 구하고, 회선 이용율은 SNMP(Simple Network Management Protocol)를 이용해 자체 구현한 데이터 수집기로 구한다[3]. 이 실험의 결과는, Web 사이트를 설계할 때 네트워크 전문가가 아니더라도 인터넷 연결 회선의 대역폭 결정 문제를 해결하는데 쉽고 유용하게 참조될 수 있다.

  • PDF

Document Classification Model Using Web Documents for Balancing Training Corpus Size per Category

  • Park, So-Young;Chang, Juno;Kihl, Taesuk
    • Journal of information and communication convergence engineering
    • /
    • 제11권4호
    • /
    • pp.268-273
    • /
    • 2013
  • In this paper, we propose a document classification model using Web documents as a part of the training corpus in order to resolve the imbalance of the training corpus size per category. For the purpose of retrieving the Web documents closely related to each category, the proposed document classification model calculates the matching score between word features and each category, and generates a Web search query by combining the higher-ranked word features and the category title. Then, the proposed document classification model sends each combined query to the open application programming interface of the Web search engine, and receives the snippet results retrieved from the Web search engine. Finally, the proposed document classification model adds these snippet results as Web documents to the training corpus. Experimental results show that the method that considers the balance of the training corpus size per category exhibits better performance in some categories with small training sets.

Text-Mining of Online Discourse to Characterize the Nature of Pain in Low Back Pain

  • Ryu, Young Uk
    • 대한물리의학회지
    • /
    • 제14권3호
    • /
    • pp.55-62
    • /
    • 2019
  • PURPOSE: Text-mining has been shown to be useful for understanding the clinical characteristics and patients' concerns regarding a specific disease. Low back pain (LBP) is the most common disease in modern society and has a wide variety of causes and symptoms. On the other hand, it is difficult to understand the clinical characteristics and the needs as well as demands of patients with LBP because of the various clinical characteristics. This study examined online texts on LBP to determine of text-mining can help better understand general characteristics of LBP and its specific elements. METHODS: Online data from www.spine-health.com were used for text-mining. Keyword frequency analysis was performed first on the complete text of postings (full-text analysis). Only the sentences containing the highest frequency word, pain, were selected. Next, texts including the sentences were used to re-analyze the keyword frequency (pain-text analysis). RESULTS: Keyword frequency analysis showed that pain is of utmost concern. Full-text analysis was dominated by structural, pathological, and therapeutic words, whereas pain-text analysis was related mainly to the location and quality of the pain. CONCLUSION: The present study indicated that text-mining for a specific element (keyword) of a particular disease could enhance the understanding of the specific aspect of the disease. This suggests that a consideration of the text source is required when interpreting the results. Clinically, the present results suggest that clinicians pay more attention to the pain a patient is experiencing, and provide information based on medical knowledge.