• 제목/요약/키워드: words frequency

검색결과 876건 처리시간 0.023초

레벤스타인 거리 기반의 위치 정확도를 이용하여 다중 음성 인식 결과에서 관련성이 적은 후보 제거 (Removal of Heterogeneous Candidates Using Positional Accuracy Based on Levenshtein Distance on Isolated n-best Recognition)

  • 윤영선
    • 한국음향학회지
    • /
    • 제30권8호
    • /
    • pp.428-435
    • /
    • 2011
  • Many isolated word recognition systems may generate irrelevant words for recognition results because they use only acoustic information or small amount of language information. In this paper, I propose word similarity that is used for selecting (or removing) less common words from candidates by applying Levenshtein distance. Word similarity is obtained by using positional accuracy that reflects the frequency information along to character's alignment information. This paper also discusses various improving techniques of selection of disparate words. The methods include different loss values, phone accuracy based on confusion information, weights of candidates by ranking order and partial comparisons. Through experiments, I found that the proposed methods are effective for removing heterogeneous words without loss of performance.

Lexical Status and the Degree of /l/-darkening

  • 안미연
    • 말소리와 음성과학
    • /
    • 제7권3호
    • /
    • pp.73-78
    • /
    • 2015
  • This study explores the degree of velarization of English word-final /l/ (i.e., /l/-darkness) according to the lexical status. Lexical status is defined as whether a speech stimulus is considered as a word or a non-word. We examined the temporal and spectral properties of word-final /l/ in terms of the duration and the frequency difference of F2-F1 values by varying the immediate pre-liquid vowels. The result showed that both temporal and spectral properties were contrastive across all vowel contexts in the way of real words having shorter [l] duration and low F2-F1 values, compared to non-words. That is, /l/ is more heavily velarized in words than in non-words, which suggests that lexical status whether language users encode the speech signal as a word or not is deeply involved in their speech production.

사건명사의 네트워크 분석 (A Network Analysis of Event Nouns)

  • 김혜영;강범모;이도길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.94-99
    • /
    • 2010
  • This paper is to present how a network between words is formed. Not only have we looked at the distributivity, frequency and strength in connections between related words, but we have also presented some way to shed lights on what this network means to linguistic and social studies. The target source is morpho-analysis components of Trends 21 corpus which cover all newspaper articles from lour major newspapers, including Chosun, Joongang, Donga, and Hankyoreh, issued between 2000 and 2008. Based on nodes, links, and their connectivity indexes - density, degree, and centralizations, we have been able to retrieve and cluster related words forming the network with 20 event nouns. To reduce noise, we have considered the words whose t-score is above 1.64. By conducting both network and statistical analyses, we have presented the network of each event noun.

  • PDF

Research trends in dental hygiene based on topic modeling and semantic network analysis

  • Yun-Jeong Kim;Jae-Hee Roh
    • 한국치위생학회지
    • /
    • 제22권6호
    • /
    • pp.495-502
    • /
    • 2022
  • Objectives: The purpose of this study was to analyze research trends in dental hygiene using topic modeling and semantic network analysis. Methods: A total of 261 published studies were collected 686 key words from the Research Information Sharing Service (RISS) by 2019-2021. Topic modeling and semantic network analysis were performed using Textom. Results: The most frequently and frequency-inverse document frequently key words were 'dental hygienist', 'oral health', 'elderly', 'periodontal disease', 'dental hygiene'. N-gram of key words show that 'dental hygienist-emotional labor', 'dental hygienist-elderly', 'dental hygienist-job performance', 'oral health-quality of life', 'oral health-periodontal disease' etc. were frequently. Key words with high degree centrality were 'dental hygienist (0.317)', 'oral health (0.239)', 'elderly (0.127)', 'job satisfaction (0.057)', 'dental care (0.049)'. Extracted topics were 5 by topic modeling. Conclusions: Results from the current study could be available to know research trends in dental hygiene and it is necessary to improve more detailed and qualitative analysis in follow-up study.

웹문서를 이용한 단계별 한국어 미등록어 인식 모델 (Phase-based Model Using Web Documents for Korean Unknown Word Recognition)

  • 박소영
    • 한국정보통신학회논문지
    • /
    • 제13권9호
    • /
    • pp.1898-1904
    • /
    • 2009
  • 신문이나 블로그와 같은 실제 문서에서는 위키백과(Wikipedia)와 같은 기존에 없던 새로운 단어를 포함하고 있다. 그러나, 대부분의 정보 처리 기술은 시스템 개발 당시 확보한 자료를 바탕으로 사전을 구축하므로, 이러한 새로운 단어에 대해 신속하게 대처할 수 없다는 한계가 있다. 따라서 본 논문에서는 사전에 등록되어 있지 않은 한국어 미등록어를 자동으로 인식하는 모델을 제안한다. 제안하는 모델은 전문분석 기반 미등록명사 인식 단계, 웹 출현빈도 기반 미등록용언 인식 단계, 웹 출현빈도 기반 미등록명사 인식 단계로 구성된다. 제안하는 모델은 문서에서 여러 번 나타난 미등록어에 대해 전문분석을 통해 정확하게 인식할 수 있다. 그리고, 제안하는 모델은 문서에 한번 나타난 미등록어에 대해서도 웹문서를 바탕으로 광범위하게 인식할 수 있다. 또한, 제안하는 모델은 기본형이 어절에 그대로 나타나는 미등록명사뿐만 아니라 기본형이 변형하여 나타날 수 있는 미등록용언도 인식할 수 있다. 실험 결과 기존 미등록어 인식방법에 비해 제안하는 접근방법은 정확률 1.01%와 재현을 8.50%를 개선하였다.

북한 제1중학교 영어교과서 분석 (Analysis of the English Textbooks in North Korean First Middle School)

  • 황서연;김정렬
    • 한국콘텐츠학회논문지
    • /
    • 제17권11호
    • /
    • pp.242-251
    • /
    • 2017
  • 본 연구는 북한의 수재양성 기관인 제1중학교의 영어교과서를 코퍼스로 구축한 후, 이를 분석하여 언어적 특징을 파악한 연구이다. 그동안 북한의 일반중학교의 영어교과서의 특징들을 파악한 연구는 많았지만, 북한의 수재교육기관인 제1중학교 영어교과서에 대한 연구는 부족했다. 이를 위하여 북한자료센터에서 입수한 제1중학교 1학년, 2학년, 4학년, 6학년 영어 교과서 구성 체계를 살펴보고, 코퍼스를 구축한 후, 워드스미스 툴스 7.0을 활용하여 제1중학교 영어 교과서의 언어적인 특징과 고빈도 내용어를 분석하였다. 기본적인 통계 정보를 살펴본 결과, 학년의 위계에 따라 어휘 수가 증가하지는 않았으나 어휘다양성은 고학년으로 갈수록 순차적으로 높아지는 경향성이 발견되었다. 한편 학년별 고빈도 내용어의 분포를 살펴본 결과, 각 학년별 교과서에 수록된 지문의 주제에 따라 학년별로 큰 차이를 보였다.

소셜 네트워크 분석을 활용한 항공서비스 품질 비교 (Comparisons of Airline Service Quality Using Social Network Analysis)

  • 박주현;이현철
    • 산업경영시스템학회지
    • /
    • 제42권3호
    • /
    • pp.116-130
    • /
    • 2019
  • This study investigates passenger-authored online reviews of airline services using social network analysis to compare the differences in customer perceptions between full service carriers (FSCs) and low cost carriers (LCCs). While deriving words with high frequency and weight matrix based on the text analysis for FSCs and LCCs respectively, we analyze the semantic network (betweenness centrality, eigenvector centrality, degree centrality) to compare the degree of connection between words in online reviews of each airline types using the social network analysis. Then we compare the words with high frequency and the connection degree to gauge their influences in the network. Moreover, we group eight clusters for FSCs and LCCs using the convergence of iterated correlations (CONCOR) analysis. Using the resultant clusters, we match the clusters to dimensions of two types of service quality models ($Gr{\ddot{o}}nroos$, Brady & Cronin (B&C)) to compare the airline service quality and determine which model fits better. From the semantic network analysis, FSCs are mainly related to inflight service words and LCCs are primarily related to the ground service words. The CONCOR analysis reveals that FSCs are mainly related to the dimension of outcome quality in $Gr{\ddot{o}}nroos$ model, but evenly distributed to the dimensions in B&C model. On the other hand, LCCs are primarily related to the dimensions of process quality in both $Gr{\ddot{o}}nroos$ and B&C models. From the CONCOR analysis, we also observe that B&C model fits better than $Gr{\ddot{o}}nroos$ model for the airline service because the former model can capture passenger perceptions more specifically than the latter model can.

Perception of native Korean Speakers on English and German

  • Kang, Hyun-Sook;Koo, So-Ryeong;Lee, Sook-hyang
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2000년도 7월 학술대회지
    • /
    • pp.86-87
    • /
    • 2000
  • In this paper, we discuss why two different surface forms appear in loanwords for English and German /${\int}$/ In Korean, a vowel is inserted into loanwords if a consonant cannot be properly syllabified. Therefore, /${\int}$/ in some positions of loanwords trigger vowel insertion. Interestingly, /${\int}$/s in the onset cluster of English and German words were borrowed in Korean as Iful with the inserted vowel [u] whereas If Is in the coda position of English and German words were borrowed as Ifil with the inserted vowel [i]. For example, 'shrimp' is adopted as [${\int}urimphi$] whereas 'rush' is adopted as [$ra{\int}i$]. In this paper, we attempt to find out the phonetic reason for the distribution of the surface forms of /${\int}$/. We assume that since the formant frequency of [i] is higher than that of [u], the peak frequency of /${\int}$/ with the surface form of [${\int}$i] in loanwords may be higher than that of /${\int}$/ with the surface form of [${\int}u$]. We also assume that duration may be another factor for the distribution of [${\int}i$] and [${\int}u$]. Since /${\int}$/ and /u/ use lip rounding whereas /i/ doesn't, the duration for [${\int}i$] might be longer than that of [${\int}u$]. German supports our assumption. /${\int}$/ in the onset cluster is longer than /${\int}$/ in the coda position. It also has higher peak frequency than that of /${\int}$/ in the coda position. In loanwords, ${\int}$ in the onset cluster is borrowed as [${\int}u$] as in Spiegel whereas /${\int}$/ in the coda position is borrowed as [${\int}i$] as in Bosch. English, however, does not support our assumption. Peak frequency of [${\int}$] depends on the preceding vowel, not on its position in the syllable structure. If the preceding vowel is front, then the peak freuency of the following of the following /${\int}$/ is high but if the preceding vowel is back, than the peak frequency of the following /${\int}$/ is low. The peak frequency of /${\int}$/ in the onset cluster seems to be in between. As we assumed, however, the duration of /${\int}$/ in the coda position is longer than of /${\int}$/ in the onset cluster. With the mixed results, we question whether Koreans really hear two different xounds for /${\int}$/ in English words. For the future experiment, we would like to perform the perception tet for /${\int}$/ in English words.

  • PDF

워드임베딩을 활용한 복압성 요실금 관련 연구 동향에 관한 융합 연구 (A Convergence Study of the Research Trends on Stress Urinary Incontinence using Word Embedding)

  • 김준희;안선희;곽경태;원영수;유화익
    • 한국융합학회논문지
    • /
    • 제12권8호
    • /
    • pp.1-11
    • /
    • 2021
  • 본 연구의 목적은 '복압성 요실금'을 키워드로 검색된 연구들의 경향과 특성을 단어 빈도를 통해 분석하고, 워드 임베딩을 사용하여 그 관계를 모델링 하고자 하였다. 의학 서지 데이터베이스인 MEDLINE에 등록되어 있는 복압성 요실금 연구 9,868개 논문들의 초록 문자 데이터를 Python 프로그램을 이용하여 추출하였다. 그런 다음 빈도 분석을 통해 10개의 키워드를 선택하였다. 키워드 관련 단어들의 유사도는 Word2Vec 머신러닝 알고리즘으로 분석하였다. 그리고, t-SNE 기법을 사용하여 단어의 위치와 거리가 시각화하였고, 이에 따라 그룹을 분류하여 이를 분석하였다. 복압성 요실금과 관련된 연구는 1980년대 이후 빠르게 증가했다. 키워드 분석을 통해 논문 초록에서 가장 많이 사용된 키워드는 '여성', '요도', '수술'로 나타났다. Word2Vec 모델링을 통해 복압성 요실금 관련 연구에서 주요 키워드들과 가장 높은 연관성을 나타내는 단어들에는 '여성', '절박', '증상' 등이 있었다. 그리고, t-SNE 기법을 통해 키워드와 관련 단어들은 복압성 요실금의 증상, 신체 기관의 해부학적 특성, 그리고 수술적 중재를 중심으로 하는 3개의 그룹으로 분류될 수 있었다. 본 연구는 초록을 구성하는 단어들의 키워드 빈도 분석 및 워드임베딩 방식을 이용하여 복압성 요실금 관련 연구들의 동향을 살펴본 최초의 연구이다. 본 연구의 결과는 향후 연구자들이 복압성 요실금 관련 연구 분야의 주제와 방향성을 선택하는 데 있어 기초자료로 활용될 수 있을 것이다.

한국어 단음절 낱말 인식에 미치는 어휘적 특성의 영향 (Analysis of Lexical Effect on Spoken Word Recognition Test)

  • 윤미선;이봉원
    • 대한음성학회지:말소리
    • /
    • 제54호
    • /
    • pp.15-26
    • /
    • 2005
  • The aim of this paper was to analyze the lexical effects on spoken word recognition of Korean monosyllabic word. The lexical factors chosen in this paper was frequency, density and lexical familiarity of words. Result of the analysis was as follows; frequency was the significant factor to predict spoken word recognition score of monosyllabic word. The other factors were not significant. This result suggest that word frequency should be considered in speech perception test.

  • PDF