• 제목/요약/키워드: Text feature

검색결과 416건 처리시간 0.026초

문자-에지 맵의 패턴 히스토그램을 이용한 자연이미지에서의 텍스트 영역 추출 (Text Region Extraction using Pattern Histogram of Character-Edge Map in Natural Images)

  • 박종천;황동국;이우람;권교현;전병민
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2006년도 추계학술발표논문집
    • /
    • pp.220-224
    • /
    • 2006
  • 자연이미지에 포함된 텍스트는 많은 중요한 정보를 포함하고 있다. 그러므로 자연이미지에서 텍스트를 추출할 수 있다면 다양한 분야에서 활용될 수 있다. 본 논문에서는 문자-에지 맵 패턴 히스토그램 분석함으로서 텍스트 영역을 추출하는 방법을 제안한다. 캐니-에지 검출기로 에지를 추출하여 16가지 에지 맵을 생성하고, 에지 맵을 조합하여 문자 특징을 갖는 8가지 문자-에지 맵을 생성한다. 8가지 문자-에지 맵과 16가지 에지 맵을 이용하여 텍스트 후보 영역을 추출하고, 문자-에지 맵의 패턴 히스토그램 및 텍스트 영역의 구조적 특징을 이용하여 텍스트 후보 영역에 대한 검증을 수행하였다. 제안한 방법은 다양한 종류의 자연이미지를 대상으로 실험하였고, 복잡한 배경, 다양한 글꼴, 다양한 텍스트 컬러로 구성된 자연이미지에서 텍스트 영역을 효과적으로 추출하였다.

  • PDF

2D 텐서 보팅에 기반 한 손상된 텍스트 영상의 복원 및 분할 (Corrupted Region Restoration based on 2D Tensor Voting)

  • 박종현;;이귀상
    • 정보처리학회논문지B
    • /
    • 제15B권3호
    • /
    • pp.205-210
    • /
    • 2008
  • 본 논문에서는 잡음에 의해 손상된 텍스트 영상으로부터 복원 및 분할을 위한 새로운 접근 방법을 제안한다. 제안된 방법은 손상된 영역의 복원을 위하여 색상 및 비색상 성분을 2차 대칭 스틱 텐서로 표현하고 보팅 기반의 손상된 영역을 복원하였으며, 마지막으로 클러스터링 방법에 의해 분할을 수행한다. 먼저 우리는 제안된 색상 선택함수에 의해 잡음에 강건한 색상과 비색상 성분을 선택한다. 두 번째 단계에서는 각각의 선택된 특징 벡터들은 스틱 텐서로 표현하였으며 제한된 보팅 커널의 필드내에서 이웃하는 보터들과 통신을 통하여 새롭게 정의된다. 따라서 2차 보팅 후 각각의 스틱 텐서는 이웃하는 텐서와 같은 특성을 가지며 손상된 영역들을 복원할 수 있다. 마지막으로 복원된 영상의 성능을 평가하기 위하여 적응적 평균 이동 알고리즘과 클러스터링 알고리즘을 이용하여 영상 분할을 수행하였다. 실험에서 제안된 방법은 전체적인 처리과정을 자동적으로 수행 가능하였으며 배경 및 객체의 영역에서 효율적인 복원 및 분할을 수행할 수 있었다.

Context-based classification for harmful web documents and comparison of feature selecting algorithms

  • Kim, Young-Soo;Park, Nam-Je;Hong, Do-Won;Won, Dong-Ho
    • 한국멀티미디어학회논문지
    • /
    • 제12권6호
    • /
    • pp.867-875
    • /
    • 2009
  • More and richer information sources and services are available on the web everyday. However, harmful information, such as adult content, is not appropriate for all users, notably children. Since internet is a worldwide open network, it has a limit to regulate users providing harmful contents through each countrie's national laws or systems. Additionally it is not a desirable way of developing a certain system-specific classification technology for harmful contents, because internet users can contact with them in diverse ways, for example, porn sites, harmful spams, or peer-to-peer networks, etc. Therefore, it is being emphasized to research and develop context-based core technologies for classifying harmful contents. In this paper, we propose an efficient text filter for blocking harmful texts of web documents using context-based technologies and examine which algorithms for feature selection, the process that select content terms, as features, can be useful for text categorization in all content term occurs in documents, are suitable for classifying harmful contents through implementation and experiment.

  • PDF

Modality-Based Sentence-Final Intonation Prediction for Korean Conversational-Style Text-to-Speech Systems

  • Oh, Seung-Shin;Kim, Sang-Hun
    • ETRI Journal
    • /
    • 제28권6호
    • /
    • pp.807-810
    • /
    • 2006
  • This letter presents a prediction model for sentence-final intonations for Korean conversational-style text-to-speech systems in which we introduce the linguistic feature of 'modality' as a new parameter. Based on their function and meaning, we classify tonal forms in speech data into tone types meaningful for speech synthesis and use the result of this classification to build our prediction model using a tree structured classification algorithm. In order to show that modality is more effective for the prediction model than features such as sentence type or speech act, an experiment is performed on a test set of 970 utterances with a training set of 3,883 utterances. The results show that modality makes a higher contribution to the determination of sentence-final intonation than sentence type or speech act, and that prediction accuracy improves up to 25% when the feature of modality is introduced.

  • PDF

프레스 금형의 특징형상 인식에 의한 가공데이터 자동변환 (Automatic conversion of machining data by the recognition of press mold)

  • 최홍태;반갑수;이석희
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 1994년도 춘계공동학술대회논문집; 창원대학교; 08월 09일 Apr. 1994
    • /
    • pp.703-712
    • /
    • 1994
  • This paper presents an automatic conversion of machining data from the orthographic views of press mold by feature recognition rule. The system includes following 6 modules : separation of views, function support, dimension text recognition, feature recognition, dimension text check and feature processing modules. The characteristic of this system is that with minimum user intervention, it recognizes basic features such as holes, slots, pockets and clamping parts and thus automatically converts CAD drawing details of press mold into machining data using 2D CAD system instead of using an expensive 3D Modeler. The system is developed by using IBM-PC in the environment of AutoCAD R12, AutoLISP and MetaWare High C. Performance of the system is verified as a good interfacing of CAD and CAM when applied to a lot of sample drawings.

The Use of MSVM and HMM for Sentence Alignment

  • Fattah, Mohamed Abdel
    • Journal of Information Processing Systems
    • /
    • 제8권2호
    • /
    • pp.301-314
    • /
    • 2012
  • In this paper, two new approaches to align English-Arabic sentences in bilingual parallel corpora based on the Multi-Class Support Vector Machine (MSVM) and the Hidden Markov Model (HMM) classifiers are presented. A feature vector is extracted from the text pair that is under consideration. This vector contains text features such as length, punctuation score, and cognate score values. A set of manually prepared training data was assigned to train the Multi-Class Support Vector Machine and Hidden Markov Model. Another set of data was used for testing. The results of the MSVM and HMM outperform the results of the length based approach. Moreover these new approaches are valid for any language pairs and are quite flexible since the feature vector may contain less, more, or different features, such as a lexical matching feature and Hanzi characters in Japanese-Chinese texts, than the ones used in the current research.

토픽모델링과 딥 러닝을 활용한 생의학 문헌 자동 분류 기법 연구 (A Study of Research on Methods of Automated Biomedical Document Classification using Topic Modeling and Deep Learning)

  • 육지희;송민
    • 정보관리학회지
    • /
    • 제35권2호
    • /
    • pp.63-88
    • /
    • 2018
  • 본 연구는 LDA 토픽 모델과 딥 러닝을 적용한 단어 임베딩 기반의 Doc2Vec 기법을 활용하여 자질을 선정하고 자질집합의 크기와 종류 및 분류 알고리즘에 따른 분류 성능의 차이를 평가하였다. 또한 자질집합의 적절한 크기를 확인하고 문헌의 위치에 따라 종류를 다르게 구성하여 분류에 이용할 때 높은 성능을 나타내는 자질집합이 무엇인지 확인하였다. 마지막으로 딥 러닝을 활용한 실험에서는 학습 횟수와 문맥 추론 정보의 유무에 따른 분류 성능을 비교하였다. 실험문헌집단은 PMC에서 제공하는 생의학 학술문헌을 수집하고 질병 범주 체계에 따라 구분하여 Disease-35083을 구축하였다. 연구를 통하여 가장 높은 성능을 나타낸 자질집합의 종류와 크기를 확인하고 학습 시간에 효율성을 나타냄으로써 자질로의 확장 가능성을 가지는 자질집합을 제시하였다. 또한 딥 러닝과 기존 방법 간의 차이점을 비교하고 분류 환경에 따라 적합한 방법을 제안하였다.

문자열 검출을 위한 슬라브 영역 추정 (Slab Region Localization for Text Extraction using SIFT Features)

  • 최종현;최성후;윤종필;구근휘;김상우
    • 전기학회논문지
    • /
    • 제58권5호
    • /
    • pp.1025-1034
    • /
    • 2009
  • In steel making production line, steel slabs are given a unique identification number. This identification number, Slab management number(SMN), gives information about the use of the slab. Identification of SMN has been done by humans for several years, but this is expensive and not accurate and it has been a heavy burden on the workers. Consequently, to improve efficiency, automatic recognition system is desirable. Generally, a recognition system consists of text localization, text extraction, character segmentation, and character recognition. For exact SMN identification, all the stage of the recognition system must be successful. In particular, the text localization is great important stage and difficult to process. However, because of many text-like patterns in a complex background and high fuzziness between the slab and background, directly extracting text region is difficult to process. If the slab region including SMN can be detected precisely, text localization algorithm will be able to be developed on the more simple method and the processing time of the overall recognition system will be reduced. This paper describes about the slab region localization using SIFT(Scale Invariant Feature Transform) features in the image. First, SIFT algorithm is applied the captured background and slab image, then features of two images are matched by Nearest Neighbor(NN) algorithm. However, correct matching rate can be low when two images are matched. Thus, to remove incorrect match between the features of two images, geometric locations of the matched two feature points are used. Finally, search rectangle method is performed in correct matching features, and then the top boundary and side boundaries of the slab region are determined. For this processes, we can reduce search region for extraction of SMN from the slab image. Most cases, to extract text region, search region is heuristically fixed [1][2]. However, the proposed algorithm is more analytic than other algorithms, because the search region is not fixed and the slab region is searched in the whole image. Experimental results show that the proposed algorithm has a good performance.

판소리 독서물 탄생의 기반 사유 -<춘향전> 필사본을 통한 고찰- (A Basic Thinking of Pansori Reading Text Appearance -A study on version of -)

  • 차충환
    • 공연문화연구
    • /
    • 제23호
    • /
    • pp.313-346
    • /
    • 2011
  • 판소리작품 필사본을 읽다 보면, 방각본이나 창본 등 다른 이본에는 보이지 않는 생소한 내용이나 장면을 드물지 않게 발견하게 된다. 이러한 현상을 보고, 해당 이본의 작가는 어떠한 목적으로 그처럼 생소한 내용이나 장면을 설정했을까 하는 의문을 가지게 되었는데, 이러한 의문이 본고의 출발점이다. 다른 이본에는 존재하지 않아 공유성이 거의 없는 내용이나 장면은 해당 이본의 작가가 새롭게 창조한 것이라고 볼 수 있다. 그리고 그러한 이본은 대개 독서물로 유통된 작품이라고 판단된다. 그래서 본고에서는 일부 <춘향전> 필사본을 대상으로, 생소한 내용이나 장면에 초점을 맞춰, 판소리 독서물 탄생에 개재된 기반 사유를 추론해 보았다. 그 결과 첫째, <춘향전> 독서물 중에는 작가가 자신의 지식을 현시하기 위해 전에 없던 사설과 장면을 창조한 예를 볼 수 있었다. 이에 해당하는 이본으로는 김광순소장28장본 <별춘향가>, 사재동소장87장본 <춘향전>, 홍윤표소장154장본 <춘향전> 등이 있다. 이들 이본에 나타난 지식의 현시는 19세기 전후에 폭넓게 부상한 지식문화의 영향을 크게 받은 것으로 생각된다. 둘째, 일부 <춘향전> 이본을 보면 마치 조선후기의 연희 현장을 재현한 듯한 모습을 발견하게 된다. 이에 해당하는 이본으로 본고에서 주목한 것은 경상대소장75장본 <춘향전>과 계명대소장52장본 <춘향전>이다. 전자에는 주점 여객들의 이야기판, 판소리명창의 판소리판이 장면화되어 있고, 후자에는 왈자들의 연희판이 장면화되어 있다. 이러한 특징은 해당 이본의 작가가 조선 후기 당대에 흔히 접할 수 있었던 연희판을 자신의 작품 속에 재현해 보려는 목적이 있었기에 나타난 것으로 생각된다. 실제로 조선후기 연희 현장에는 판소리가 다른 예능들과 늘 함께 있었다. 판소리의 이러한 존재 환경이 판소리 작가에게 주목되었고, 그 결과로 독서물에 연희판을 재현한 듯한 장면이 등장할 수 있었다고 본다. 셋째, 일부 <춘향전>에는 양반권력을 풍자·비판하려는 목적이 좀 더 강화된 모습을 볼 수 있다. 이에 해당하는 이본으로는 충남대소장72장본 <춘향전>과 그 계열, 박순호소장59장본 <춘향전>과 그 계열이 있다. 양반권력에 대한 퐁자와 비판은 판소리작품이면 거의 모두 공유하는 것인데, 위 계열의 작가는 다른 이본에는 없는 내용과 장면을 새롭게 설정하여 그 점을 좀 더 강화했다.

한의학 고문헌 텍스트에서의 저자 판별 - 기능어의 역할을 중심으로 - (A Comparative Study of Feature Extraction Methods for Authorship Attribution in the Text of Traditional East Asian Medicine with a Focus on Function Words)

  • 오준호
    • 대한한의학원전학회지
    • /
    • 제33권2호
    • /
    • pp.51-59
    • /
    • 2020
  • Objectives : We would like to study what is the most appropriate "feature" to effectively perform authorship attribution of the text of Traditional East Asian Medicine Methods : The authorship attribution performance of the Support Vector Machine (SVM) was compared by cross validation, depending on whether the function words or content words, single word or collocations, and IDF weights were applied or not, using 'Variorum of the Nanjing' as an experimental Corpus. Results : When using the combination of 'function words/uni-bigram/TF', the performance was best with accuracy of 0.732, and the combination of 'content words/unigram/TFIDF' showed the lowest accuracy of 0.351. Conclusions : This shows the following facts from the authorship attribution of the text of East Asian traditional medicine. First, function words play an important role in comparison to content words. Second, collocations was relatively important in content words, but single words have more important meanings in function words. Third, unlike general text analysis, IDF weighting resulted in worse performance.