• 제목/요약/키워드: Word Segmentation

검색결과 135건 처리시간 0.023초

동적 프로그래밍을 이용한 OCR에서의 띄어쓰기 교정 (Using Dynamic Programming for Word Segmentation in OCR)

  • 박호민;김창현;노경목;천민아;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.243-245
    • /
    • 2016
  • 광학 문자 인식(OCR)을 통해 문서의 글자를 인식할 때 띄어쓰기 오류가 발생한다. 본 논문에서는 이를 해결하기 위해 OCR의 후처리 과정으로 동적 프로그래밍을 이용한 분절(Segmentation) 방식의 띄어쓰기 오류 교정 시스템을 제안한다. 제안하는 시스템의 띄어쓰기 오류 교정 과정은 다음과 같다. 첫째, 띄어쓰기 오류가 있다고 분류된 어절 내의 공백을 모두 제거한다. 둘째, 공백이 제거된 문자열을 동적 프로그래밍을 이용한 분절로 입력 문자열에 대하여 가능한 모든 띄어쓰기 후보들을 찾는다. 셋째, 뉴스 기사 말뭉치와 그 말뭉치에 기반을 둔 띄어쓰기 확률 모델을 참조하여 각 후보의 띄어쓰기 확률을 계산한다. 마지막으로 띄어쓰기 후보들 중 확률이 가장 높은 후보를 교정 결과로 제시한다. 본 논문에서 제안하는 시스템을 이용하여 OCR의 띄어쓰기 오류를 해결할 수 있었다. 향후 띄어쓰기 오류 교정에 필요한 언어 규칙 등을 시스템에 추가한 띄어쓰기 교정시스템을 통하여 OCR의 최종적인 인식률을 향상에 대해 연구할 예정이다.

  • PDF

사전기반 후처리를 이용한 모바일 폰 영상에서 와인 라벨 문자 인식 (Wine Label Character Recognition in Mobile Phone Images using a Lexicon-Driven Post-Processing)

  • 임준식;김수형;이칠우;이귀상;양형정;이명은
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권5호
    • /
    • pp.546-550
    • /
    • 2010
  • 본 논문에서는 모바일 폰에서 오프라인 필기체 과분할 인식의 후처리 방법에 관하여 논하였다. 제안된 방법은 조합 행렬 생성, 문자 조합 필터링, 문자 유사도 측정으로 구성된다. 조합 행렬 생성 과정은 각각의 조각의 인식 결과로부터 생성가능한 모든 조합 행렬을 계산하는 부분이며 조합 행렬을 그래프로 구성하게 된다. 문자 조합 필터링 과정은 그래프의 노드들과 단어 사전을 비교하여 불필요한 노드를 삭제하는 과정이며 문자 유사도 측정과정은 단어 사전의 각각의 단어들과 Levenshtein 거리(distance)를 계산하여 최적의 후처리 결과를 추출하게 된다. 제안된 방법의 인식률은 85.8%의 정확도를 보였다.

인터넷 패션쇼핑몰 유형별 점포이미지평가와 고객만족 및 재구매의도와의 관련성에 관한 연구 (Relationship between Store Image Evaluation, Customer Satisfaction, and Repurchase Intention according to the Types of Internet Fashion Shopping Malls)

  • 김경희
    • 한국의류산업학회지
    • /
    • 제10권1호
    • /
    • pp.50-58
    • /
    • 2008
  • This study aims to identify whether shopping malls affect customer satisfaction significantly according to the store image assessment of consumers after their purchases. This comparative study on the store image and satisfaction level according to shopping mall type is supposed to offer useful basic data for developing a niche market while establishing market segmentation strategies for internet fashion shopping malls. As a result of an empirical analysis, it was found that important standards for assessing the store image of internet fashion shopping malls include product and information service, customer service after purchase, atmosphere, convenience and reliability, and all five factors were shown to affect the satisfaction level for all general malls significantly. However, product and information service and convenience were shown not to be significantly influential to the satisfaction level for fashion specialty mall. In addition, customer satisfaction was found to affect the customers' intention to repurchase and word of mouth. Therefore, if marketing managers of internet fashion shopping malls elevate customer satisfaction by managing the store image before the customers' purchase, they can attract customers to repurchase intention and ultimately prompt a word of mouth effect.

Maximum Likelihood-based Automatic Lexicon Generation for AI Assistant-based Interaction with Mobile Devices

  • Lee, Donghyun;Park, Jae-Hyun;Kim, Kwang-Ho;Park, Jeong-Sik;Kim, Ji-Hwan;Jang, Gil-Jin;Park, Unsang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권9호
    • /
    • pp.4264-4279
    • /
    • 2017
  • In this paper, maximum likelihood-based automatic lexicon generation using mixed-syllables is proposed for unlimited vocabulary voice interface for East Asian languages (e.g. Korean, Chinese and Japanese) in AI-assistant based interaction with mobile devices. The conventional lexicon has two inevitable problems: 1) a tedious repetition of out-of-lexicon unit additions to the lexicon, and 2) the propagation of errors during a morpheme analysis and space segmentation. The proposed method provides an automatic framework to solve the above problems. The proposed method produces a level of overall accuracy similar to one of previous methods in the presence of one out-of-lexicon word in a sentence, but the proposed method provides superior results with the absolute improvements of 1.62%, 5.58%, and 10.09% in terms of word accuracy when the number of out-of-lexicon words in a sentence was two, three and four, respectively.

Research Trend Analysis on Customer Satisfaction in Service Field Using BERTopic and LDA

  • YANG, Woo-Ryeong;YANG, Hoe-Chang
    • 융합경영연구
    • /
    • 제10권6호
    • /
    • pp.27-37
    • /
    • 2022
  • Purpose: The purpose of this study is to derive various ways to realize customer satisfaction for the development of the service industry by exploring research trends related to customer satisfaction, which is presented as an important goal in the service industry. Research design, data and methodology: To this end, 1,456 papers with English abstracts using scienceON were used for analysis. Using Python 3.7, word frequency and co-occurrence analysis were confirmed, and topics related to research trends were classified through BERTopic and LDA. Results: As a result of word frequency and co-occurrence frequency analysis, words such as quality, intention, and loyalty appeared frequently. As a result of BERTopic and LDA, 11 topics such as 'catering service' and 'brand justice' were derived. As a result of trend analysis, it was confirmed that 'brand justice' and 'internet shopping' are emerging as relatively important research topics, but CRM is less interested. Conclusions: The results of this study showed that the 7P marketing strategy is working to some extent. Therefore, it is proposed to conduct research related to acquisition of good customers through service price, customer lifetime value application, and customer segmentation that are expected to be needed for the development of the service industry.

MSFM: Multi-view Semantic Feature Fusion Model for Chinese Named Entity Recognition

  • Liu, Jingxin;Cheng, Jieren;Peng, Xin;Zhao, Zeli;Tang, Xiangyan;Sheng, Victor S.
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권6호
    • /
    • pp.1833-1848
    • /
    • 2022
  • Named entity recognition (NER) is an important basic task in the field of Natural Language Processing (NLP). Recently deep learning approaches by extracting word segmentation or character features have been proved to be effective for Chinese Named Entity Recognition (CNER). However, since this method of extracting features only focuses on extracting some of the features, it lacks textual information mining from multiple perspectives and dimensions, resulting in the model not being able to fully capture semantic features. To tackle this problem, we propose a novel Multi-view Semantic Feature Fusion Model (MSFM). The proposed model mainly consists of two core components, that is, Multi-view Semantic Feature Fusion Embedding Module (MFEM) and Multi-head Self-Attention Mechanism Module (MSAM). Specifically, the MFEM extracts character features, word boundary features, radical features, and pinyin features of Chinese characters. The acquired font shape, font sound, and font meaning features are fused to enhance the semantic information of Chinese characters with different granularities. Moreover, the MSAM is used to capture the dependencies between characters in a multi-dimensional subspace to better understand the semantic features of the context. Extensive experimental results on four benchmark datasets show that our method improves the overall performance of the CNER model.

음성정보 내용분석을 통한 골프 동영상에서의 선수별 이벤트 구간 검색 (Retrieval of Player Event in Golf Videos Using Spoken Content Analysis)

  • 김형국
    • 한국음향학회지
    • /
    • 제28권7호
    • /
    • pp.674-679
    • /
    • 2009
  • 본 논문은 골프 동영상에 포함된 오디오 정보로부터 검출된 이벤트 사운드 구간과 골프 선수이름이 포함된 음성구간을 결합하여 선수별 이벤트 구간을 검색하는 방식을 제안한다. 전체적인 시스템은 동영상으로부터 분할된 오디오 스트림으로부터 잡음제거, 오디오 구간분할, 음성 인식 등의 과정을 통한 자동색인 모듈과 사용자가 텍스트로 입력한 선수 이름을 발음열로 변환하고, 색인된 데이터베이스에서 질의된 선수 이름과 상응하는 음성구간과 연결되는 이벤트 구간을 찾아주는 검색 모듈로 구성된다. 선수이름 검색을 위해서 본 논문에서는 음소 기반, 단어 기반, 단어와 음소를 결합한 하이브리드 방식을 적용한 선수별 이벤트 구간 검색결과를 비교하였다.

한국어 인식을 위한 인식 단위와 학습 데이터 분류 방법에 대한 연구 (A Study on Recognition Units and Methods to Align Training Data for Korean Speech Recognition))

  • 황영수
    • 융합신호처리학회논문지
    • /
    • 제4권2호
    • /
    • pp.40-45
    • /
    • 2003
  • 본 연구는 한국어 분절음 인식을 위한 인식 단위 설정과 학습시 학습 데이터 분할 방법에 대한 연구이다 대용량 음성 인식을 수행할 경우, 표준 패턴의 인식 단위를 단어나 음절이 아닌 분절음 단위로 사용하여야 효율적인 음성 인식을 수행할 수 있다. 본 연구는 이와 같은 분절음 인식을 수행하기 위한 연구로서, 인식 단위 설정 변화와 학습시 학습 데이터 분할 방법에 따른 인식 결과를 미국 OGI 연구소의 speech toolkit을 이용하여 검토한다. 인식 단위에 관해서 특히 모음의 경우 철자에 기초한 음소별 인식 단위 설정과 현대어 발음에 기초한 인식 단위 설정을 비교했으며, 그 결과 발음에 기초해 몇 개의 모음을 통합한 경우가 더 우수한 결과를 보였으며, 학습 데이터 분할 방법에 따른 인식 결과는 손으로 분할한 방법이 자동 분할 방법보다 약 2-3%의 인식 향상을 보였다. 또한 인식 단위의 설정에 있어서 독립된 분절음으로 설정한 경우보다 앞, 뒤의 소리의 상황을 고려한 바이폰(bipbone)을 이용할 경우가 5.7%-25.9%의 향상된 인식 결과를 보였다 인식 방법에 있어서는 HMM 만을 이용한 방법보다 신경회로망과 HMM을 결합한 인식 방법이 6.1%-7.5%의 더 좋은 인식률을 나타내었다.

  • PDF

고객세분화를 통한 지방의료원의 의료서비스 전문화 전략 (Medical Services Specialization strategies of the Regional Public Hospital through Customer Segmentation)

  • 이진우
    • 한국산학기술학회논문지
    • /
    • 제16권7호
    • /
    • pp.4641-4650
    • /
    • 2015
  • 본 연구는 지방의료원의 고객세분화를 통하여 향후 전문화된 의료기관으로 진료전문성을 강화하여 경쟁력을 확보할 수 있는 진료전문화 전략을 제시하는데 목적이 있다. 조사기간은 2013년 1월부터 12월까지 입원한 환자 26,658명을 연구대상을 선정하였다. 분석방법은 군집분석과 의사결정나무분석을 이용하였다. 결론을 보면, 성별은 여자, 연령은 60세 이상, 질환별로는 근 골격계 및 결합조직의 질환이 충성고객으로 선정되었다. 이들은 지방의료원의 고객관리측면에서 향후 구전의 효과가 높은 고객 군으로 금전적인 소비규모가 높은 점을 고려하여 이들에게 제공된 의료서비스에 대한 모니터링과 커뮤니케이션을 통해 지속적인 관계를 유지하는 것이 중요하다. 앞으로 전문 분야의 전문의와 전문적 시설 확보 등의 적합한 조직구조와 환경을 갖추는 것이 중요하며, 지역 내 개원의, 유관기관간의 전략적 제휴 통한 진료협력 및 의뢰, 의료서비스 범위의 집중화가 필요하다.

자동 음성분할 및 레이블링 시스템의 구현 (Implementation of the Automatic Segmentation and Labeling System)

  • 성종모;김형순
    • 한국음향학회지
    • /
    • 제16권5호
    • /
    • pp.50-59
    • /
    • 1997
  • 본 논문에서는 한국어 음성 데이터베이스 구축을 위하여 자동으로 음소경계를 추출하는 자동 음성분할 및 레이블링 시스템을 구현하였다. 기존의 음성분할 및 레이블링 기술을 근간으로 본 시스템을 구현하였으며, 또한 사용자가 자동분할된 음소경계를 확인하여 그 경계를 쉽게 수정할 수 있도록 한글 모티프 환경에서 그래픽 사용자 인터페이스를 개발하였다. 개발된 시스템은 16kHz로 샘플링된 음성을 대상으로 하고 있으며, 레이블링 단위는 45개의 유사음소와 하나의 묵음으로 구성하였다. 그리고 언어학적 정보의 입력방식으로는 음소표기와 철자표기를 사용하였으며, 패턴매칭 방법으로는 hidden Markov model(HMM)을 이용하였다. 개발된 시스템의 각 음소 모델은 수작업에 의해서 음소단위로 분할한 음성학적으로 균형잡힌 445 단어 데이터베이스를 이용해서 훈련되었다. 그리고 본 시스템의 성능평가를 위해 훈련에 사용되지 않는 문장 데이터베이스에 대해서 자동 음성분할 실험을 수행하였다. 실험결과, 수작업에 의해서 분할된 음소경계위치와의 오차가 20ms 이내인 것이 74.7%였으며, 40ms이내에는 92.8%가 포함되었다.

  • PDF