• 제목/요약/키워드: text extraction

검색결과 454건 처리시간 0.028초

Research trends in the Korean Journal of Women Health Nursing from 2011 to 2021: a quantitative content analysis

  • Ju-Hee Nho;Sookkyoung Park
    • 여성건강간호학회지
    • /
    • 제29권2호
    • /
    • pp.128-136
    • /
    • 2023
  • Purpose: Topic modeling is a text mining technique that extracts concepts from textual data and uncovers semantic structures and potential knowledge frameworks within context. This study aimed to identify major keywords and network structures for each major topic to discern research trends in women's health nursing published in the Korean Journal of Women Health Nursing (KJWHN) using text network analysis and topic modeling. Methods: The study targeted papers with English abstracts among 373 articles published in KJWHN from January 2011 to December 2021. Text network analysis and topic modeling were employed, and the analysis consisted of five steps: (1) data collection, (2) word extraction and refinement, (3) extraction of keywords and creation of networks, (4) network centrality analysis and key topic selection, and (5) topic modeling. Results: Six major keywords, each corresponding to a topic, were extracted through topic modeling analysis: "gynecologic neoplasms," "menopausal health," "health behavior," "infertility," "women's health in transition," and "nursing education for women." Conclusion: The latent topics from the target studies primarily focused on the health of women across all age groups. Research related to women's health is evolving with changing times and warrants further progress in the future. Future research on women's health nursing should explore various topics that reflect changes in social trends, and research methods should be diversified accordingly.

웹 문서 검색을 위한 검색어 추출과 확장에 관한 연구 (A Study on Keyword Extraction and Expansion for Web Text Retrieval)

  • 윤성희
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권9호
    • /
    • pp.1111-1118
    • /
    • 2004
  • 웹 문서 검색 시스템 사용자에게 자연어 질의를 입력하는 방법은 가장 이상적인 인터페이스이다. 본 논문은 자연어 질의를 입력하는 웹 문서 검색 시스템을 위해 자연어 처리 기술에 기반하여 사용자의 입력 질의 문장을 구문 분석한 후 검색어를 추출하고 확장하는 다중검색 기법을 제안한다. 질의문에 대한 형태소 분석 및 구문 분석을 수행하고, 구문 트리를 순회하여 구조적으로 연관된 복합명사를 조합하거나 분할하며, 검색어가 되는 음역어와 축약어들을 확장하여 다중 검색함으로써 재현율과 정확도를 향상시킬수 있음을 보였다.

  • PDF

동영상에 삽입된 자막 내 문자영역화소추출 (Extraction text-region's pixel on caption of video)

  • 안권재;김계영
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2011년도 제43차 동계학술발표논문집 19권1호
    • /
    • pp.43-45
    • /
    • 2011
  • 본 논문은 동영상 내 삽입된 자막을 문자인식이 가능하도록 문자영역을 이루는 화소를 추출하는 방법을 제안한다. 최초 자막영상을 통계학적 방법을 이용하여 색상극성을 결정한다. 이 후 색상극성에 따른 잡음제거 방법을 명암값기반과 형태학적기반으로 달리한다. 제안된 방법은 각 색상결정에 따른 적합한 잡음제거를 수행함으로서 추출된 화소들이 이루는 문자영역의 영상을 이용하여 문자인식을 수행하였을 때 기존방법보다 높은 문자인식률을 보였다.

  • PDF

음성 데이터베이스로부터의 효율적인 색인데이터베이스 구축과 정보검색 (The Extraction of Effective Index Database from Voice Database and Information Retrieval)

  • 박미성
    • 한국도서관정보학회지
    • /
    • 제35권3호
    • /
    • pp.271-291
    • /
    • 2004
  • 전자도서관과 같은 정보제공원은 이미지, 음성, 동영상 등과 같은 비정형 멀티미디어 데이터 서비스에 대한 요구를 받고 있다. 그리하여 본 연구에서는 음성 처리를 위해 어절생성기, 음절복원기, 형태소분석기, 교정기를 제안하였다. 제안한 음성처리 기술로 음성데이터베이스를 텍스트데이터베이스로 변환 한후 텍스트데이터베이스로부터 색인데이터베이스를 추출하였다. 그리고 추출한 색인데이터베이스로 텍스트와 음성의 내용기반정보검색에 활용할 수 있음을 보이기 위해 정보검색모델을 제안하였다.

  • PDF

명도 정보와 분할/합병 방법을 이용한 자연 영상에서의 텍스트 영역 추출 (Text Region Extraction of Natural Scene Images using Gray-level Information and Split/Merge Method)

  • 김지수;김수형;최영우
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권6호
    • /
    • pp.502-511
    • /
    • 2005
  • 본 논문에서는 자연 이미지에 포함되어 있는 텍스트를 추출하기 위해 명도 정보를 사용한 하이브리드 분석 방법(HAM)을 제안하였다. 즉, 제안한 방법은 명도 정보 분석(Gray-intensity Information Analysis)과 분할/합병 분석(Split/Merge Analysis)을 결합하였다. 제안한 방법의 추출 결과를 보면 단순한 영상과 복잡한 영상 모두에서 기존의 연구 결과보다 우수한 성능을 보임을 알 수 있었다.

TextRank 기반의 한국어 기사 추출 및 텍스트 처리 (Korean Article Extraction and Text Processing based on TextrRank Library)

  • 이세훈;공진용;황지현;예지민
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.199-200
    • /
    • 2021
  • 인터넷과 컴퓨팅 기술의 발전, 모바일 기기와 센서들의 진화, 소셜 네트워크의 출현 등으로 정보량은 급속도로 늘어나고 있다. 따라서 방대한 정보 속에서 의미있는 지식을 추출하기 위한 시스템의 기반 연구가 활발히 시도되고 있다. 본 논문에서는 텍스트 랭크를 사용한 중심 문장 추출을 통한 서비스와 사용자 이미지에 대한 한국어 OCR, 맞춤법 검사와 문장 생성을 가능케 하는 통합 한국어 처리 서비스 사이트를 구현함으로써, 신문 기사를 읽는 다수의 경제성을 확보했고, 한국어 처리의 편의성을 제공한다.

  • PDF

Fine-tuning BERT Models for Keyphrase Extraction in Scientific Articles

  • Lim, Yeonsoo;Seo, Deokjin;Jung, Yuchul
    • 한국정보기술학회 영문논문지
    • /
    • 제10권1호
    • /
    • pp.45-56
    • /
    • 2020
  • Despite extensive research, performance enhancement of keyphrase (KP) extraction remains a challenging problem in modern informatics. Recently, deep learning-based supervised approaches have exhibited state-of-the-art accuracies with respect to this problem, and several of the previously proposed methods utilize Bidirectional Encoder Representations from Transformers (BERT)-based language models. However, few studies have investigated the effective application of BERT-based fine-tuning techniques to the problem of KP extraction. In this paper, we consider the aforementioned problem in the context of scientific articles by investigating the fine-tuning characteristics of two distinct BERT models - BERT (i.e., base BERT model by Google) and SciBERT (i.e., a BERT model trained on scientific text). Three different datasets (WWW, KDD, and Inspec) comprising data obtained from the computer science domain are used to compare the results obtained by fine-tuning BERT and SciBERT in terms of KP extraction.

비할당 영역 데이터 파편의 문서 텍스트 추출 방안에 관한 연구 (A Study on Extracting the Document Text for Unallocated Areas of Data Fragments)

  • 유병영;박정흠;방제완;이상진
    • 정보보호학회논문지
    • /
    • 제20권6호
    • /
    • pp.43-51
    • /
    • 2010
  • 디지털 포렌식 관점에서 디스크의 비할당 영역의 데이터를 분석하는 것은 삭제된 데이터를 조사할 수 있다는 점에서 의미가 있다 파일 카빙(Carving) 을 이용하여 비할당 영역의 데이터를 복구할 경우 일반적으로 연속적으로 할당된 완전한 파일은 복구 기능하지만, 비연속적으로 할당되거나 완전하지 않은 형태의 단편화된 데이터 파편(Fragment)은 복구하기 어렵다. 하지만 데이터 파편은 많은 양의 정보를 포함하고 있기 때문에 이에 대한 분석이 필요하다. Microsoft Word. Excel, PowerPoint, PDF 문서 파일은 텍스트와 같은 정보들을 압축된 형태로 저장하거나 문서 내부에 특정 형식을 이용하여 저장한다. 앞서 언급한 문서 파일의 일부분이 데이터 파편에 저장되어 있을 경우 해당 데이터 파편에서 데이터의 압축 여부를 판단하거나 문서 내부 형식을 이용하여 텍스트 추출이 가능하다. 본 논문에서는 비할당 영역 데이터 파편에서 특정 문서파일의 텍스트를 추출하는 방안을 제시한다.

Text-Independent Speaker Identification System Based On Vowel And Incremental Learning Neural Networks

  • Heo, Kwang-Seung;Lee, Dong-Wook;Sim, Kwee-Bo
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2003년도 ICCAS
    • /
    • pp.1042-1045
    • /
    • 2003
  • In this paper, we propose the speaker identification system that uses vowel that has speaker's characteristic. System is divided to speech feature extraction part and speaker identification part. Speech feature extraction part extracts speaker's feature. Voiced speech has the characteristic that divides speakers. For vowel extraction, formants are used in voiced speech through frequency analysis. Vowel-a that different formants is extracted in text. Pitch, formant, intensity, log area ratio, LP coefficients, cepstral coefficients are used by method to draw characteristic. The cpestral coefficients that show the best performance in speaker identification among several methods are used. Speaker identification part distinguishes speaker using Neural Network. 12 order cepstral coefficients are used learning input data. Neural Network's structure is MLP and learning algorithm is BP (Backpropagation). Hidden nodes and output nodes are incremented. The nodes in the incremental learning neural network are interconnected via weighted links and each node in a layer is generally connected to each node in the succeeding layer leaving the output node to provide output for the network. Though the vowel extract and incremental learning, the proposed system uses low learning data and reduces learning time and improves identification rate.

  • PDF

특허 문서로부터 키워드 추출을 위한 위한 텍스트 마이닝 기반 그래프 모델 (Text-mining Based Graph Model for Keyword Extraction from Patent Documents)

  • 이순근;임영문;엄완섭
    • 대한안전경영과학회지
    • /
    • 제17권4호
    • /
    • pp.335-342
    • /
    • 2015
  • The increasing interests on patents have led many individuals and companies to apply for many patents in various areas. Applied patents are stored in the forms of electronic documents. The search and categorization for these documents are issues of major fields in data mining. Especially, the keyword extraction by which we retrieve the representative keywords is important. Most of techniques for it is based on vector space model. But this model is simply based on frequency of terms in documents, gives them weights based on their frequency and selects the keywords according to the order of weights. However, this model has the limit that it cannot reflect the relations between keywords. This paper proposes the advanced way to extract the more representative keywords by overcoming this limit. In this way, the proposed model firstly prepares the candidate set using the vector model, then makes the graph which represents the relation in the pair of candidate keywords in the set and selects the keywords based on this relationship graph.