• 제목/요약/키워드: text information

검색결과 4,380건 처리시간 0.036초

Impact of Instance Selection on kNN-Based Text Categorization

  • Barigou, Fatiha
    • Journal of Information Processing Systems
    • /
    • 제14권2호
    • /
    • pp.418-434
    • /
    • 2018
  • With the increasing use of the Internet and electronic documents, automatic text categorization becomes imperative. Several machine learning algorithms have been proposed for text categorization. The k-nearest neighbor algorithm (kNN) is known to be one of the best state of the art classifiers when used for text categorization. However, kNN suffers from limitations such as high computation when classifying new instances. Instance selection techniques have emerged as highly competitive methods to improve kNN through data reduction. However previous works have evaluated those approaches only on structured datasets. In addition, their performance has not been examined over the text categorization domain where the dimensionality and size of the dataset is very high. Motivated by these observations, this paper investigates and analyzes the impact of instance selection on kNN-based text categorization in terms of various aspects such as classification accuracy, classification efficiency, and data reduction.

The Adaptive SPAM Mail Detection System using Clustering based on Text Mining

  • Hong, Sung-Sam;Kong, Jong-Hwan;Han, Myung-Mook
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제8권6호
    • /
    • pp.2186-2196
    • /
    • 2014
  • Spam mail is one of the most general mail dysfunctions, which may cause psychological damage to internet users. As internet usage increases, the amount of spam mail has also gradually increased. Indiscriminate sending, in particular, occurs when spam mail is sent using smart phones or tablets connected to wireless networks. Spam mail consists of approximately 68% of mail traffic; however, it is believed that the true percentage of spam mail is at a much more severe level. In order to analyze and detect spam mail, we introduce a technique based on spam mail characteristics and text mining; in particular, spam mail is detected by extracting the linguistic analysis and language processing. Existing spam mail is analyzed, and hidden spam signatures are extracted using text clustering. Our proposed method utilizes a text mining system to improve the detection and error detection rates for existing spam mail and to respond to new spam mail types.

FastText 알고리즘을 이용한 사용자 지정 키워드 기반 동영상 요약 시스템 (Keywords-based Video Summary System using FastText Algorithm)

  • 김경민;박승민
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.693-694
    • /
    • 2023
  • 본 논문에서는 FastText 알고리즘을 기반으로 한 사용자 지정 키워드 기반 동영상 요약 시스템을 제안한다. 사용자가 키워드를 입력하면 시스템은 해당 키워드와 관련된 단어들을 FastText를 통해 추출하며, 이를 STT (Speech-to-Text)로 변환된 동영상에서 타임 스탬프 기반으로 인식한다. 인식된 키워드와 관련된 내용은 클립 형식으로 요약되어 사용자에게 제공된다. 본 연구의 목적은 숏폼 콘텐츠 환경에서 효과적인 콘텐츠 추출 및 제공을 통해 사용자 경험과 정보 제공의 효율성을 향상시키기 위함이다. 제안된 시스템은 사용자 지정 키워드에 맞춰 다양한 동영상 플랫폼에서 효율적인 영상 요약을 제공함으로써 온라인 동영상 환경에서 큰 혁신을 이끌어낼 것으로 기대된다.

  • PDF

딥러닝을 활용한 웹 텍스트 저자의 남녀 구분 및 연령 판별 : SNS 사용자를 중심으로 (Authorship Attribution of Web Texts with Korean Language Applying Deep Learning Method)

  • 박찬엽;장인호;이준기
    • 한국IT서비스학회지
    • /
    • 제15권3호
    • /
    • pp.147-155
    • /
    • 2016
  • According to rapid development of technology, web text is growing explosively and attracting many fields as substitution for survey. The user of Facebook is reaching up to 113 million people per month, Twitter is used in various institution or company as a behavioral analysis tool. However, many research has focused on meaning of the text itself. And there is a lack of study for text's creation subject. Therefore, this research consists of sex/age text classification with by using 20,187 Facebook users' posts that reveal the sex and age of the writer. This research utilized Convolution Neural Networks, a type of deep learning algorithms which came into the spotlight as a recent image classifier in web text analyzing. The following result assured with 92% of accuracy for possibility as a text classifier. Also, this research was minimizing the Korean morpheme analysis and it was conducted using a Korean web text to Authorship Attribution. Based on these feature, this study can develop users' multiple capacity such as web text management information resource for worker, non-grammatical analyzing system for researchers. Thus, this study proposes a new method for web text analysis.

웹 이미지로부터 이미지기반 문자추출 (Locating Text in Web Images Using Image Based Approaches)

  • Chin, Seongah;Choo, Moonwon
    • 지능정보연구
    • /
    • 제8권1호
    • /
    • pp.27-39
    • /
    • 2002
  • 본 논문은 다양한 웹 이미지로부터 문자영역(text block)의 위치를 알아내고 문자영역을 추출하는 방법을 제안한다. 인터넷 사용자관점에서 볼 때, 웹 이미지에 포함되어 있는 문자정보는 중요한 정보이지만 최근까지 이 분야의 연구는 그리 활발하지 못했다. 본 연구에서 제안된 알고리즘은 문자의 경사방향(skew)과 문자의 크기나 폰트에 관한 사전 정보 없이 수행되어 질 수 있도록 제안되었다 폰트 스타일과 크기에 제약되지 않고 문자영역을 적합하게 추출하기 위해 유용한 에지 검출, 문자 클러스터링 영역으로 정의되는 문자의 고유한 특성을 위한 히스토그램을 사용하였다. 다수의 실험을 통하여 제안된 방법을 테스트하고 수용할 만한 결과를 도출했다.

  • PDF

문헌의 내용단위구조에 의한 전문검색시스템의 타당성 고찰 (A Study on the Feasibility of Full-Text Information Retrieval System Based on Document Content Structure)

  • 이병기
    • 한국문헌정보학회지
    • /
    • 제32권1호
    • /
    • pp.129-154
    • /
    • 1998
  • 전통적인 전문검색시스템은 전문색인방식을 취하고 있기 때문에 접근점이 많다는 장점이 있으나, 대량의 문헌이 검색되어 부적합 문헌이 검색될 가능성이 높고, 정보요구 상황이나 목적에 따라서 본문의 특정 부분만을 지정하여 탐색할 수 없다는 단점이 있다. 따라서 본고에서는 전문데이터베이스의 본문을 내용단위로 구조화해야 할 이론적 타당성을 검토하였으며, 선행연구에 나타난 학술논문의 내용단위구조를 비교 분석하여 내용단위요소를 추출하고, 실제 한국어로 작성된 180여건의 학술논문에 적용 검토함으로써 표준적인 학술논문의 내용구조 모델을 개발하였다. 그 결과 문헌의 내용단위구조는 이용자의 정보요구 상황이나 목적과 밀접하게 관련되어 있기 때문에 전문데이터베이스 구축이나 전문검색시스템의 설계시에 내용단위로 구조화해야할 필요성을 도출하였다.

  • PDF

메타데이타와 텍스트 정보의 통합검색 모델 (A Hybrid Information Retrieval Model Using Metadata and Text)

  • 유정목;맹성현;김성수;이만호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권3호
    • /
    • pp.232-243
    • /
    • 2007
  • 메타데이타를 위한 검색모델은 질의에 사용자의 정보요구를 정확하게 반영하기 때문에 정확율(precision)은 높지만 질의 조건에 만족하지 않는 정보를 배제하므로 재현율(recall)은 낮다. 반면 전문(full-text) 텍스트 검색 모델은 사용자 질의에 대하여 모든 문서를 검색대상으로 하므로 정확율은 낮고 재현율은 높다. 메타데이타 검색모델의 높은 정확율은 사용자가 메타데이타의 구조적 특성에 맞게 질의를 구성할 경우 가능하지만 일반적으로 사용자가 메타데이타의 구조 정보를 반영한 사용자 질의를 구성할 수 있다고 기대하기는 어렵다. 또한 메타데이타에 포함된 정보의 양은 전문 텍스트가 가진 정보의 양보다 적기 때문에 텍스트를 검색한 결과보다 재현율이 떨어진다. 본 논문에서는 이러한 특성을 반영하여 메타데이타 검색 시, 사용자의 다양한 질의를 메타데이타의 특성에 맞게 재구성하고 메타데이타뿐 아니라 텍스트에 대해서도 검색을 수행하여 두 모델의 장점을 함께 고려한 통합 검색 모델을 제안한다.

2차 법률정보 전문데이터베이스 구축을 위한 기초 연구 (A Primary Study on Building the Secondary Legal Information Full-Text Databases)

  • 권기원;노정란
    • 한국문헌정보학회지
    • /
    • 제32권3호
    • /
    • pp.281-296
    • /
    • 1998
  • 최근 주제별 데이터베이스의 구축이 활발해지고 있다. 현재까지 이루어진 연구결과를 보면 자연어 색인시스템의 검색효율이 통제어 색인시스템의 검색효율보다 일반적으로 높은 것으로 나타나고 있어 각 주제 부문에서는 데이터베이스의 구축시 이러한 결과를 수용하여 자연어 색인시스템을 채택하는 경향이 높다. 본 연구는 전문데이터베이스로는 그 수요가 매우 높은 2차 법률정보 전문데이터베이스를 대상으로 법률정보의 내재적 특성에 근거한 통제어 색인시스템의 이론적 가능성을 제안하려는 것이다. 본 연구를 통해 색인어의 자동적 추출 가능성이 추론된다면, 그 결과는 2차 법률정보시스템의 설계자들에게 주제배경이 없이도 특정의 원리에 의하여 자동색인을 가능케 하고, 다른 주제분야의 정보시스템 설계자들에게는 해당 주제분야의 고유한 지식베이스를 활용하는데 있어서의 시사점을 제공하게 될 것이다.

  • PDF

위키피디어 기반 개념 공간을 가지는 시멘틱 텍스트 모델 (A Semantic Text Model with Wikipedia-based Concept Space)

  • 김한준;장재영
    • 한국전자거래학회지
    • /
    • 제19권3호
    • /
    • pp.107-123
    • /
    • 2014
  • 텍스트마이닝 연구의 기본적인 난제는 기존 텍스트 표현모델이 자연어 문장으로 기술된 텍스트 데이터로부터 의미 또는 개념 정보를 표현하지 않는데 기인한다. 기존 텍스트 표현모델인 벡터공간 모델(vector space model), 불리언 모델(Boolean model), 통계 모델(statistical model), 텐서공간 모델(tensor space model) 등은 'Bag-of-Words' 방식에 바탕을 두고 있다. 이러한 텍스트 모델들은 텍스트에 포함된 단어와 그것의 출현 횟수만으로 텍스트를 표현하므로, 단어의 함축 의미, 단어의 순서 및 텍스트의 구조를 전혀 표현하지 못한다. 대부분의 텍스트 마이닝 기술은 대상 문서를 'Bag-of-Words' 방식의 텍스트 모델로 표현함을 전제로 하여 발전하여 왔다. 하지만 오늘날 빅데이터 시대를 맞이하여 방대한 규모의 텍스트 데이터를 보다 정밀하게 분석할 수 있는 새로운 패러다임의 표현모델을 요구하고 있다. 본 논문에서 제안하는 텍스트 표현모델은 개념공간을 문서 및 단어와 동등한 매핑 공간으로 상정하여, 그 세 가지 공간에 대한 연관 관계를 모두 표현한다. 개념공간의 구성을 위해서 위키피디어 데이터를 활용하며, 하나의 개념은 하나의 위키피디어 페이지로부터 정의된다. 결과적으로 주어진 텍스트 문서집합을 의미적으로 해석이 가능한 3차 텐서(3-order tensor)로 표현하게 되며, 따라서 제안 모델을 텍스트 큐보이드 모델이라 명명한다. 20Newsgroup 문서집합을 사용하여 문서 및 개념 수준의 클러스터링 정확도를 평가함으로써, 제안 모델이 'Bag-of-Word' 방식의 대표적 모델인 벡터공간 모델에 비해 우수함을 보인다.

자원공유 수단으로서의 전문 데이터베이스 (Full-text databases as a means for resource sharing)

  • 노진구
    • 한국도서관정보학회지
    • /
    • 제24권
    • /
    • pp.45-79
    • /
    • 1996
  • Rising publication costs and declining financial resources have resulted in renewed interest among librarians in resource sharing. Although the idea of sharing resources is not new, there is a sense of urgency not seen in the past. Driven by rising publication costs and static and often shrinking budgets, librarians are embracing resource sharing as an idea whose time may finally have come. Resource sharing in electronic environments is creating a shift in the concept of the library as a warehouse of print-based collection to the idea of the library as the point of access to need information. Much of the library's material will be delivered in electronic form, or printed. In this new paradigm libraries can not be expected to su n.0, pport research from their own collections. These changes, along with improved communications, computerization of administrative functions, fax and digital delivery of articles, advancement of data storage technologies, are improving the procedures and means for delivering needed information to library users. In short, for resource sharing to be truly effective and efficient, however, automation and data communication are essential. The possibility of using full-text online databases as a su n.0, pplement to interlibrary loan for document delivery is examined. At this point, this article presents possibility of using full-text online databases as a means to interlibrary loan for document delivery. The findings of the study can be summarized as follows : First, turn-around time and the cost of getting a hard copy of a journal article from online full-text databases was comparable to the other document delivery services. Second, the use of full-text online databases should be considered as a method for promoting interlibrary loan services, as it is more cost-effective and labour saving. Third, for full-text databases to work as a document delivery system the databases must contain as many periodicals as possible and be loaded on as many systems as possible. Forth, to contain many scholarly research journals on full-text databases, we need guidelines to cover electronic document delivery, electronic reserves. Fifth, to be a full full-text database, more advanced information technologies are really needed.

  • PDF