• 제목/요약/키워드: 텍스트 연구

Search Result 3,471, Processing Time 0.031 seconds

Text Extraction and Skew Compensation in Natural Scenes using Gray-level Information (명도 정보를 이용한 자연 영상에서의 기울기 보정 및 텍스트 추출)

  • 최규담;김성동;최기호
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2004.05a
    • /
    • pp.215-218
    • /
    • 2004
  • 본 논문은 실내외에서 얻어진 자연 영상으로부터 기울어진 영상을 바로 보정하고 텍스트를 추출하는 방법을 제안한다. 본 연구는 명도 이미지를 대상으로 모든 과정이 4단계로 이루어진다. 첫째 자연 영상에서 에지 검출 처리를 위한 전처리 및 Canny 에지 추출을 수행하며, 둘째 영상의 기울기를 추출하기 위해 허프변환에 대한 전처리와 후처리를 한 후, 셋째로 잡음영상과 선을 제거하고 텍스트 특징을 이용한 후보영역 검출을 한다. 마지막으로 텍스트 후보영역 안에서 지역적 이진화를 수행하여 불필요한 비텍스트 연결 요소를 추려내기 위해 두 가지 텍스트 추출 방법을 수행한다. 본 연구는 게시판, 교통표지판, 책 표지 등 100장의 자연영상을 대상으로 실험한 결과 텍스트 추출에서 90.3% 추출 정확도를 가졌으며, 기울어진 각도 추출에서도 94.3%의 높은 추출률을 보였다.

  • PDF

A Role-Based Access Control Security Model for a Distributed Hypertext System (역할기반접근제어를 기반으로 한 분산 하이퍼텍스트 시스템 보안모델)

  • Jeong, Cheol-Yun;Lee, Hyeong-Hyo;No, Bong-Nam
    • The Transactions of the Korea Information Processing Society
    • /
    • v.5 no.3
    • /
    • pp.720-731
    • /
    • 1998
  • 멀티미디어, 인터넷 환경에서 하이퍼텍스트 시스템의 활용이 일반화됨에 따라 하이퍼텍스트 시스템에 저장된 정보에 대한 보호를 위해 권한부여나 접근제어와 같은 상위수준의 보안 메카니즘의 필요성이 요구되었다. 또한 분산환경에서는 하이퍼텍스트 시스템내에 저장된 정보들의 정형화된 스키마의 부재, 비체계성 등으로 인하여 보다 복잡한 체계의 보안이 필요하다. 본 논문에서는 분산 하이퍼텍스트 시스템 보안모델을 설계하기 위해 하이퍼텍스트 시스템의 특성 및 현재까지 제안된 보안 메카니즘을 살펴보고, 하이퍼텍스트 시스템상에 다양한 접근제어 정책들을 적용하였을 때의 문제점들을 제시한다. 또한 본 논문에서 제안하는 분산 하이퍼텍스트 시스템 보안모델의 기본개념인 연산도메인의 구성요소 및 관련 성질에 대해 기술하고, 현재 상용시스템에서 보안 메카니즘으로 널리 활용중인 역할기반 접근제어 정책과 연산도메인이 결합된 새로운 보안모델에 대해 기술한다. 마지막으로 본 모델의 장 단점 및 추후 연구과제를 제시한다.

  • PDF

KorCAT: Cohesion Analysis Tool for Korean Text (한국어 텍스트 결속성 측정 도구: KorCAT)

  • Dong-Hyun Kim;Hyun-Jung Kim;Chul-hui Kim;Young-Duk Seo
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.582-587
    • /
    • 2022
  • 결속성은 텍스트의 의미 관계 분석에서 주요하게 고려되는 요인 중 하나이다. 결속성이 높을 수록 텍스트 내 언어적 의미 관계가 긴밀한 것으로 볼 수 있기 때문이다. 사람에 의한 텍스트 결속성 분석은 주관이 개입되는 문제를 배제할 수 없는데, 영어에는 TAACO라고 불리는 결속성 자동 측정 도구가 있어 다양한 지표들로 텍스트의 결속성을 측정하고 있다. 그러나 한국어에는 이와 같은 텍스트 결속성 자동 측정 도구가 거의 없으며, 관련 연구도 상당히 부족한 실정이다. 따라서 본 논문에서는 한국어 텍스트의 의미 관계 분석을 위한 결속성 지표를 정의하고, 한국어의 특성에 맞는 결속성 측정 도구인 KorCAT을 제안한다.

  • PDF

Information acquisition and searching in hypertext: Comparison Between adults and children (하이퍼텍스트상의 정보획득과 성인과 아동의 정보탐색)

  • 최순희;조경자;이승복
    • Korean Journal of Cognitive Science
    • /
    • v.11 no.3_4
    • /
    • pp.1-11
    • /
    • 2000
  • This study investigated information acquisition from hypertext and the difference of searching behavior between adults and children. In experiment 1. we compared the amount of information acquisition from the hypertext to that of the printed text. The result showed that the performance in printed text was better than in hypertext. However. the performance of experienced (in the internet) participant showed no difference between the hypertext and the printed text. Experiment 2 compared the information-searching behavior of the adults and children in the hypertext environment. The results showed that adults performed the information-searching faster than children, yet there was no difference in the proportion of correct responses of the two groups. However. children who were more experienced in the internet and produced right answers to the 7th level questions in depth performed better and faster than the adults who were not. These results suggest that the experience in the internet is the most important factor in the searching of the wanted information.

  • PDF

A Study on Feasibility of Full-text Search Using Super-structure of Text (텍스트의 상부구조를 이용한 전문탐색 기법의 타당성 고찰)

  • 이병기
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1996.08a
    • /
    • pp.19-22
    • /
    • 1996
  • 본 연구는 전문 D/B의 본문 필드를 텍스트 언어학적 상부구조로 분할하고 태그를 부여함으로써 이용자의 목적이나 상황에 따라서 필요한 부분만을 검색할 수 있는 전문탐색기법의 타당성을 고찰하였다. 한 문헌은 다수의 텍스트 단위로 구성되며, 이 텍스트는 의사소통이나 인지과정의 기본 단위로써 문헌 전체를 통괄하는 상부구조에 의해 연결된다. 상부구조는 텍스트의 생성과 이해에 중요한 매개체 역할을 하며, 정보요구의 상황이나 목적과 밀접하게 관련되어 있음을 밝히고 정보검색시스템의 주요 대상인 학술문헌의 상부구조를 고찰하였다.

  • PDF

Case Analysis of Bible Visualization based on Text Data Traits -Focused on Content, Structure, Quotation of Text- (텍스트 데이터의 특성에 따른 성경 시각화 사례 분석 -텍스트의 내용적, 구조적 특성 및 인용 정보를 중심으로-)

  • Kim, Hyoyoung;Park, Jin Wan
    • The Journal of the Korea Contents Association
    • /
    • v.13 no.8
    • /
    • pp.83-92
    • /
    • 2013
  • Text visualization begins with understanding text itself which is material of visual expression. To visualize any text data, sufficient understanding about characteristics of the text first and the expressive approaches can be decided depending on the derived unique characteristics of the text. In this research we aimed to establish theoretical foundation about the approaches for text visualization by diverse examples of text visualization which are derived through the various characteristics of the text. To do this, we chose the 'Bible' text which is well known globally and digital data of it can be accessed easily and thus diverse text visualization examples exist and analyzed the examples of the bible text visualization. We derived the unique characteristics of text-content, structure, quotation- as criteria for analyzing and supported validity of analysis by adopting at least 2-3 examples for each criterion. In the result, we can comprehend that the goals and expressive approaches are decided depending on the unique characteristics of the Bible text. We expect to build theoretical method for choosing the materials and approaches by analyzing more diverse examples with various point of views on the basis of this research.

Multi-modal Image Processing for Improving Recognition Accuracy of Text Data in Images (이미지 내의 텍스트 데이터 인식 정확도 향상을 위한 멀티 모달 이미지 처리 프로세스)

  • Park, Jungeun;Joo, Gyeongdon;Kim, Chulyun
    • Database Research
    • /
    • v.34 no.3
    • /
    • pp.148-158
    • /
    • 2018
  • The optical character recognition (OCR) is a technique to extract and recognize texts from images. It is an important preprocessing step in data analysis since most actual text information is embedded in images. Many OCR engines have high recognition accuracy for images where texts are clearly separable from background, such as white background and black lettering. However, they have low recognition accuracy for images where texts are not easily separable from complex background. To improve this low accuracy problem with complex images, it is necessary to transform the input image to make texts more noticeable. In this paper, we propose a method to segment an input image into text lines to enable OCR engines to recognize each line more efficiently, and to determine the final output by comparing the recognition rates of CLAHE module and Two-step module which distinguish texts from background regions based on image processing techniques. Through thorough experiments comparing with well-known OCR engines, Tesseract and Abbyy, we show that our proposed method have the best recognition accuracy with complex background images.

Current Research Trends and Present Conditions on Visual Transformation of Digital Text (디지털텍스트의 시각적 변형에 관한 연구 동향 및 실태 분석)

  • Jin, Sung-Hee
    • The Journal of the Korea Contents Association
    • /
    • v.10 no.1
    • /
    • pp.486-497
    • /
    • 2010
  • The purpose of this study is to investigate the research trends and the present conditions of real digital texts on "Visual Transformation." For the purpose of this study adopted two different methods: meta analysis and case study. The research trends on visual transformation of digital text were investigated through analyzing the total of 167 literature by means of synthetic meta analysis. Relevant literature was categorized into three types of research: functional, dynamic, and interactional transformation. The type of literature and research methods in each literature were analyzed. The present conditions of real digital texts on visual transformation were investigated by means of case study. The well designed 12 e-learning contents selected and analyzed in terms of the analysis framework which was drawn by the research trends. The results suggested problems as follows in designing e-learning contents. Firstly, there were some cases that did not follow the basic design principles related to typography. Secondly, the content was just provided in each learning steps without consideration of design to enhance text comprehension in many cases. Thirdly, web technology adequately was not applied to design e-learning contents.

Quantitative Text Mining for Social Science: Analysis of Immigrant in the Articles (사회과학을 위한 양적 텍스트 마이닝: 이주, 이민 키워드 논문 및 언론기사 분석)

  • Yi, Soo-Jeong;Choi, Doo-Young
    • The Journal of the Korea Contents Association
    • /
    • v.20 no.5
    • /
    • pp.118-127
    • /
    • 2020
  • The paper introduces trends and methodological challenges of quantitative Korean text analysis by using the case studies of academic and news media articles on "migration" and "immigration" within the periods of 2017-2019. The quantitative text analysis based on natural language processing technology (NLP) and this became an essential tool for social science. It is a part of data science that converts documents into structured data and performs hypothesis discovery and verification as the data and visualize data. Furthermore, we examed the commonly applied social scientific statistical models of quantitative text analysis by using Natural Language Processing (NLP) with R programming and Quanteda.

The Selective Effect of Cohesive Devices on Scientific Text Reading and Comprehension (과학텍스트의 읽기 및 이해에 대한 결속장치의 선택적 영향)

  • Kim, Say-Young;Han, Kwang-Hee;Cho, Sook-Whan
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.226-232
    • /
    • 2001
  • 본 연구는 결속장치(cohesive devices)가 과학텍스트의 읽기 속도와 내용 이해에 끼치는 영향에 대해 연구하였다. 연구의 목적을 위한 실험을 통해서 먼저, 텍스트의 문단별 읽기 시간을 측정하여 온라인 처리 과정을 검토하였고, 둘째, 회상과 재인 검사를 실시하여 오프라인 상태에서의 이해도를 조사하였다. 이 연구의 재료로 사용된 텍스트는 번개 생성과정에 대한 과학텍스트로서, 반복, 지시사, 정박(anchoring), 인과적 접속사 등의 결속장치를 이용하여 응집성(coherence)의 강도를 높고, 낮게 조작하였다. 실험 결과, 결속장치가 길속장치의 종류와 지엽적 응집성의 강도에 따라 과학텍스트 읽기와 이해에 선택적으로 영향을 끼친다는 것을 발견하였다. 첫째, 인과적 접속사는 읽기 시간에는 영향을 주지 않는 반면, 이해를 촉진했는데, 이 긍정적 효과는 과제의 종류에 따라 다르게 나타났다. 즉, 회상 검사 결과에서는 인과적 접속사가 쓰인 모든 문단에서 유의한 차이가 나타났으나, 재인 검사에서는 유의한 차이가 부분적으로만 나타났다. 둘째, 반복 결속장치는 다른 결속장치와 같이 발생할 경우에만 읽기 시간과 이해를 부분적으로 촉진하는 것으로 나타났다. 셋째. 정박 결속장치의 영향은 읽기와 이해 두 처리 과정에 모두 선택적으로 영향을 준 것으로 나타났다. 인과적 접속사와 함께 쓰인 문단의 경우에는 회상 검사에서만, 반복 결속장치가 함께 쓰인 문단에서는 회상, 재인 검사에서 모두 긍정적 영향을 준 것으로 관찰되었다.

  • PDF