• Title/Summary/Keyword: 텍스트 연구

Search Result 3,471, Processing Time 0.031 seconds

Bigdata Analysis on Keyword by Generations through Text Mining: Focused on Board of Nate Pann in 10s, 20s, 30s (텍스트 마이닝을 활용한 세대별 키워드 빅데이터 분석: 네이트판 10대·20대·30대 게시판을 중심으로)

  • Jeong, Baek;Bae, Sungwon;Hwangbo, Yujeong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.513-516
    • /
    • 2022
  • 본 논문에서는 텍스트 마이닝 기법을 이용하여 MZ 세대를 이해하는 키워드를 도출하고자 한다. MZ 세대의 비중이 높아지면서, MZ 세대를 분석하려고 하는 많은 연구들이 수행되고 있다. 이에 본 연구에서는 MZ 세대를 이해하기 위하여 네이트 판의 연령별 게시판 크롤링을 통해 빅데이터를 수집하였다. 그리고 텍스트 마이닝 기법을 활용하여 10대, 20대, 30대의 각각의 키워드를 도출할 수 있었다. 본 논문에서 도출된 키워드는 이는 MZ 세대를 이해하는데 중요한 키워드로 볼 수 있을 것이다. 향후 연구로는 MZ 세대와 기성 세대를 비교하기 위하여 추가 크롤링을 통해 세대 간 비교 연구를 수행하고자 한다.

  • PDF

DBpedia Ontology Population Coverage Enhancement with FrameNet (프레임넷을 통한 디비피디아 온톨로지 인스턴스 생성의 커버리지 개선)

  • Hahm, Younggyun;Seo, Jiwoo;Hwang, Dosam;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.32-37
    • /
    • 2014
  • 비구조 텍스트로부터 지식을 추출하여 온톨로지 기반 지식베이스를 구축하는 연구가 최근 국내외로 다양하게 진행되고 있다. 이러한 목적을 달성하기 위해서는 자연어 텍스트에서 나타난 지식요소들의 다양한 속성들을 표현할 수 있는 온톨로지를 필요로 한다. 디비피디아 역시 위키피디아의 지식들을 표현하기 위하여 디비피디아 온톨로지를 사용한다. 그러나 디비피디아 온톨로지는 위키피디아의 인포박스에 기반한 온톨로지로서, 요약된 정보를 설명하기에는 적합할 수 있으나 자연어 텍스트로 표현된 다양한 지식표현을 충분히 커버하는 것은 보증되지 않는다. 본 논문에서는 자연어 텍스트로 쓰여진 지식을 디비피디아 온톨로지가 충분히 표현할 수 있는지를 검토하고, 또한 그 불완전성을 프레임넷이 어느정도까지 보완할 수 있는지를 살핀다. 이를 통해 한국어 텍스트로부터 지식베이스를 자동구축하는 온톨로지 인스턴스 자동생성 연구의 방향으로서 디비피디아 온톨로지와 프레임넷의 효용성을 전망한다.

  • PDF

An Android based Contextphone to aware Human Emotion (인간의 감정을 인지하는 안드로이드 기반 컨텍스트폰)

  • Ryu, Yunji;Kim, Sangwook
    • Annual Conference of KIPS
    • /
    • 2010.04a
    • /
    • pp.558-561
    • /
    • 2010
  • 컨텍스트폰은 사용자의 주변 상황을 실시간으로 수집하고 시각화하는 휴대전화이며 인간의 여섯 번째 감각 도구로써 신체의 일부가 되고 있다. 이에 따라 사용자에 특화된 상황 인지 기능을 지원하는 모바일 플랫폼 기술이 많이 연구되고 있다. 하지만 모바일 기기간의 상호작용이 아니라 사용자간의 소셜 인터랙션을 지원하는 모바일 플랫폼 연구는 미비하며 감정 등의 고수준 정보는 지원하지 않는다. 따라서 본 논문에서는 감정을 포함한 다양한 정보들을 지원하는 컨텍스트폰 플랫폼을 이용하여 사용자간의 감정을 공유 할 수 있는 컨텍스트폰에 대해 기술한다. 또한 사용자의 감정을 인식하기 위해 컨텍스트폰 플랫폼은 휴대전화 카메라를 이용하여 사용자의 얼굴이미지를 수집하고 감정인식기로 전달한다. 감정인식기는 사용자의 얼굴을 특징추출하여 패턴인식에 적용되는 분류분석 알고리즘을 통해 사용자의 감정을 알아내고 컨텍스트 서버를 매개체로 사용자간 감정을 전달하며 모바일 화면에 시각화한다.

A Study on Preprocessing Image Text Using Yolov4 in OCR System (OCR 시스템에서 YOLOv4를 활용한 텍스트 이미지 전처리 연구)

  • Kim, Ha-Yoon;Yu, Sang-Yin;Ju, Hye-gyeong;Choi, Yeo-jin
    • Annual Conference of KIPS
    • /
    • 2022.11a
    • /
    • pp.964-966
    • /
    • 2022
  • 본 연구는 유료 OCR 서비스를 이용하여 야외 촬영 이미지의 텍스트를 검출하는 프로젝트에서 야외 촬영 텍스트를 학습시킨 Yolov4 모델을 통한 전처리 작업을 제안한다. 텍스트 감지를 통한 이미지 텍스트 전처리 진행은 불필요한 OCR 실행을 줄여 리소스를 절약하고 유료 서비스의 경우 비용 절감 효과까지 도모할 수 있다는 장점이 있다.

A Study on Rhythm Information Visualization Using Syllable of Digital Text (디지털 텍스트의 음절을 이용한 운율 정보 시각화에 관한 연구)

  • Park, seon-hee;Lee, jae-joong;Park, jin-wan
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2009.05a
    • /
    • pp.120-126
    • /
    • 2009
  • As the information age grows rapidly, the amount of digital texts has been increasing as well. It has brought an increasing of visualization case in order to figure out lots of digital texts. Existing visualized design of digital text is merely concentrating on figuration of subject word through adoption of stemming algorithm and word frequency extraction, prominence of meaning of text, and connection in between sentences. So it is a fact that expression of rhythm that can visualize sentimental feeing of digital text was insufficient. Syllable is a phoneme unit that can express rhythm more efficiently. In sentences, syllable is a most basic pronunciation unit in pronouncing word, phase and sentence. On this basis, accent, intonation, length of rhythm factor and others are based on syllable. Sonority, which is most closely associated with definitions of syllable, is expressed through air flow of igniting lung and acoustic energy that is specified kinetic energy into sonority. Seen from this perspective, this study examines phonologic definition and characteristics based on syllable, which is properties of digital text, and research the way to visualize rhythm through diagram. After converting digital text into phonetic symbol by the experiment, rhythm information are visualized into images using degree of resonance, which was started from rhythm in all languages, and using syllable establishment of digital text. By visualizing syllable information, it provides syllable information of digital text and express sentiment of digital text through diagram to assist user's understanding by systematic formula. Therefore, this study is aimed at planning for easy understanding of text's rhythm and realizing visualization of digital text.

  • PDF

Interplay of Text Mining and Data Mining for Classifying Web Contents (웹 컨텐츠의 분류를 위한 텍스트마이닝과 데이터마이닝의 통합 방법 연구)

  • 최윤정;박승수
    • Korean Journal of Cognitive Science
    • /
    • v.13 no.3
    • /
    • pp.33-46
    • /
    • 2002
  • Recently, unstructured random data such as website logs, texts and tables etc, have been flooding in the internet. Among these unstructured data there are potentially very useful data such as bulletin boards and e-mails that are used for customer services and the output from search engines. Various text mining tools have been introduced to deal with those data. But most of them lack accuracy compared to traditional data mining tools that deal with structured data. Hence, it has been sought to find a way to apply data mining techniques to these text data. In this paper, we propose a text mining system which can incooperate existing data mining methods. We use text mining as a preprocessing tool to generate formatted data to be used as input to the data mining system. The output of the data mining system is used as feedback data to the text mining to guide further categorization. This feedback cycle can enhance the performance of the text mining in terms of accuracy. We apply this method to categorize web sites containing adult contents as well as illegal contents. The result shows improvements in categorization performance for previously ambiguous data.

  • PDF

Self-Supervised Document Representation Method

  • Yun, Yeoil;Kim, Namgyu
    • Journal of the Korea Society of Computer and Information
    • /
    • v.25 no.5
    • /
    • pp.187-197
    • /
    • 2020
  • Recently, various methods of text embedding using deep learning algorithms have been proposed. Especially, the way of using pre-trained language model which uses tremendous amount of text data in training is mainly applied for embedding new text data. However, traditional pre-trained language model has some limitations that it is hard to understand unique context of new text data when the text has too many tokens. In this paper, we propose self-supervised learning-based fine tuning method for pre-trained language model to infer vectors of long-text. Also, we applied our method to news articles and classified them into categories and compared classification accuracy with traditional models. As a result, it was confirmed that the vector generated by the proposed model more accurately expresses the inherent characteristics of the document than the vectors generated by the traditional models.

The Study of Making Interface for Text to Image (텍스트를 이미지화하기 위한 Interface 제작에 관한 연구 -작품 "Yesterday to Today"를 중심으로-)

  • Lee, Woo-Hyun;Lee, Sung-Young;Kim, Kyu-Jung
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02c
    • /
    • pp.194-198
    • /
    • 2007
  • 본 연구의 주제는 텍스트를 어떻게 회화적이미지로 전환시킬 수 있을까?에 대한 것이다. 오늘날 디지털 환경 속에 있는 우리는 이미지 중심의 세계 속에 살고 있다. 과거 텍스트가 해왔던 정보의 생산과 전달 그리고 저장의 역할을 오늘날은 상당부분 이미지가 하게 되었다. 하지만 그럼에도 불구하고 아날로그 방식과 정서는 여전히 우리 곁에 남아있는 것도 사실이다. "Yesterday to Today"는 문자의 최소 단위인 알파벳을 통하여 이미지를 재현하려는 작품이다. 이 작품은 크게 두 가지 Idea로 이루어지는데 하나는 복수개의 실시간 영상 소스를 이용하여 이미지를 구성해내는 것과, 다른 하나는 텍스트에 의한 이미지의 변환이다. 복수개의 실시간 영상 소스는 프로그램이 작동하는 컴퓨터와 직/간접적으로 연결되어 전달되는데, 직접적으로 연결되어 근거리의 특정한 지점으로부터 영상 소스를 받을 수 있고, 또 하나의 방법은 인터넷을 통한하나 이상의 원거리 지점으로부터 보내어지는 영상을 조합하여 받을 수 있다. 프로그램 구현 개념은 픽셀 소스 카메라에서 캡쳐된 최초 이미지를 명도, 색상, 채도로 분류하고, 이것의 각각을 26개의 구간-자판의 개수에 의하여 정해짐-으로 나누고, 다시 그 각각의 구간을 26단계로 나눈다. 이렇게 나누어진 구간들은 알파벳과 1:1로 대응시켜 결과이미지의 해당 부분을 수치대로 재현하도록 프로그램 시킨다. 이미지의 부분들을 지정하기 위하여 특정한 텍스트로부터 알파벳의 빈도수를 조사했는데, 이 조사를 바탕으로 빈도수의 많고 적음에 따라 이미지부분들이 26개 구간으로 정해졌다. 이미지 재현 방법은 사용자가 모니터 위의 Result Image Cam을 통하여 얻고자 하는 이미지를 캡쳐한 후, 특정한 텍스트를 타이핑하면 이미지를 재현할 수 있는데, -입력된 텍스트의 알파벳은 프로그램이 지정한 HSI 컬러 모델의 영역과 1:1로 대응하게 하였다-이 이미지는 특정 장소에 실시간으로 받아진 영상을 데이터화 한 소스에 의하여 만들어진다. 이미지를 재현할 때 텍스트에 따라 알파벳 빈도수는 달라질 수 있으므로 비록 최초 이미지가 동일할지라도 얻고자하는 결과 이미지가 달라진다. 그러므로 사용자는다양한 창조적 경험을 할 수 있다.

  • PDF

Text Animation with Music (음악이 흐르는 텍스트 애니메이션)

  • Park Doojin;Park Jong C.
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.526-528
    • /
    • 2005
  • 음악은 스토리텔링에서 이야기의 분위기와 흐름을 전달하는데 중요한 역할을 한다. 최근 컴퓨터 애니메이션에 자동으로 알맞은 음악을 삽입하기 위하여 많은 연구가 진행되고 있지만 이야기가 있는 애니메이션보다는 주로 영상물의 동기화를 위한 연구가 대부분이었다. 텍스트 애니메이션은 동화를 자동으로 분석하여 애니메이션을 만들어 주는 연구이다. 본 논문에서는 동화의 이야기 구조에 근거하여 각 장면의 분위기에 맞는 음악 자질을 자동으로 추출하는 과정을 보이고 이를 이용하여 텍스트 애니메이션에 음악이 삽입될 수 있는 방법에 대하여 논의한다.

  • PDF

A Semantic Text Model with Wikipedia-based Concept Space (위키피디어 기반 개념 공간을 가지는 시멘틱 텍스트 모델)

  • Kim, Han-Joon;Chang, Jae-Young
    • The Journal of Society for e-Business Studies
    • /
    • v.19 no.3
    • /
    • pp.107-123
    • /
    • 2014
  • Current text mining techniques suffer from the problem that the conventional text representation models cannot express the semantic or conceptual information for the textual documents written with natural languages. The conventional text models represent the textual documents as bag of words, which include vector space model, Boolean model, statistical model, and tensor space model. These models express documents only with the term literals for indexing and the frequency-based weights for their corresponding terms; that is, they ignore semantical information, sequential order information, and structural information of terms. Most of the text mining techniques have been developed assuming that the given documents are represented as 'bag-of-words' based text models. However, currently, confronting the big data era, a new paradigm of text representation model is required which can analyse huge amounts of textual documents more precisely. Our text model regards the 'concept' as an independent space equated with the 'term' and 'document' spaces used in the vector space model, and it expresses the relatedness among the three spaces. To develop the concept space, we use Wikipedia data, each of which defines a single concept. Consequently, a document collection is represented as a 3-order tensor with semantic information, and then the proposed model is called text cuboid model in our paper. Through experiments using the popular 20NewsGroup document corpus, we prove the superiority of the proposed text model in terms of document clustering and concept clustering.