• 제목/요약/키워드: Text frequency analysis

검색결과 459건 처리시간 0.028초

빅데이터 마이닝에 의한 공시지가 민원의 시공간적 분석모델 제시 (A Suggestion for Spatiotemporal Analysis Model of Complaints on Officially Assessed Land Price by Big Data Mining)

  • 조태인;최병길;나영우;문영섭;김세훈
    • 지적과 국토정보
    • /
    • 제48권2호
    • /
    • pp.79-98
    • /
    • 2018
  • 이 연구는 빅데이터 마이닝에 기초하여 공시지가 민원에 대한 시공간적 특성을 분석하는 모델을 제시하는 데 목적이 있다. 특히 이 연구는 행정 민원이 제기되는 원인을 학술적 요인보다는 시공간적 측면에서 찾았고, 그러한 민원 발생의 경향을 시공간적으로 모니터링하는 모델을 제시하였다. 2006년부터 2015년까지 인천광역시 중구의 공시지가에 대한 6,481개의 민원정보가 시간 및 공간적 특성을 고려해 수집되었고 분석을 위해 사용되었다. 텍스트 마이닝 기법을 이용해 주요 키워드의 빈도수를 도출했으며, 소셜 네트워크 분석을 통해 주요 키워드 간의 관계를 분석하였다. 키워드의 가중치와 연관되는 TF(term frequency)와 TF-IDF(term frequency-inverse document frequency)를 산출함으로써, 공시지가의 민원 발생에 대한 주요 키워드를 식별하였다. 마지막으로 Getis-Ord의 $Gi^*$의 통계량에 기초한 핫스팟 분석을 통해 공시지가 민원의 시공간적 특성을 분석하였다. 연구 결과, 공시지가 민원의 특성은 시공간적으로 연계된 군집 형태를 형성하면서 변화하고 있음을 알 수 있었다. 텍스트 마이닝과 소셜 네트워크 분석 방법을 이용하여 자연어 기반의 공시지가 민원에 대한 발생 원인을 정량적으로 규명할 수 있음을 알 수 있었으며, 키워드 가중치인 단어 빈도(TF) 및 단어 빈도와 역문서 빈도의 조합값(TF-IDF)의 상대적인 차이가 있어 시공간적인 민원 특성을 분석하기 위한 주요 설명변수로 활용될 수 있음을 알 수 있었다.

화자인식을 위한 주파수 워핑 기반 특징 및 주파수-시간 특징 평가 (Evaluation of Frequency Warping Based Features and Spectro-Temporal Features for Speaker Recognition)

  • 최영호;반성민;김경화;김형순
    • 말소리와 음성과학
    • /
    • 제7권1호
    • /
    • pp.3-10
    • /
    • 2015
  • In this paper, different frequency scales in cepstral feature extraction are evaluated for the text-independent speaker recognition. To this end, mel-frequency cepstral coefficients (MFCCs), linear frequency cepstral coefficients (LFCCs), and bilinear warped frequency cepstral coefficients (BWFCCs) are applied to the speaker recognition experiment. In addition, the spectro-temporal features extracted by the cepstral-time matrix (CTM) are examined as an alternative to the delta and delta-delta features. Experiments on the NIST speaker recognition evaluation (SRE) 2004 task are carried out using the Gaussian mixture model-universal background model (GMM-UBM) method and the joint factor analysis (JFA) method, both based on the ALIZE 3.0 toolkit. Experimental results using both the methods show that BWFCC with appropriate warping factor yields better performance than MFCC and LFCC. It is also shown that the feature set including the spectro-temporal information based on the CTM outperforms the conventional feature set including the delta and delta-delta features.

텍스트 데이터 분석을 위한 근접성 데이터의 생성과 군집화 (Creation and clustering of proximity data for text data analysis)

  • 정민지;신상민;최용석
    • 응용통계연구
    • /
    • 제32권3호
    • /
    • pp.451-462
    • /
    • 2019
  • 문서-용어 빈도행렬은 텍스트 마이닝 분야에서 보편적으로 사용되는 데이터의 한 유형으로, 여러 개체들이 제공하는 문서를 기반으로 만들어진다. 그러나 대다수의 연구자들은 개체 정보에 무게를 두지 않고 여러 문서에서 공통적으로 등장하는 공통용어 중 핵심적인 용어를 효과적으로 찾아내는 방법에 집중하는 경향을 보인다. 공통용어에서 핵심어를 선별할 경우 특정 문서에서만 등장하는 중요한 용어들이 공통용어 선정단계에서부터 배제될 뿐만 아니라 개별 문서들이 갖는 고유한 정보가 누락되는 등의 문제가 야기된다. 본 연구에서는 이러한 문제를 극복할 수 있는 데이터를 근접성 데이터라 정의한다. 그리고 근접성 데이터를 생성할 수 있는 12가지 방법 중 개체 군집화의 관점에서 가장 최적화된 방법을 제안한다. 개체 특성 파악을 위한 군집화 알고리즘으로는 다차원척도법과 K-평균 군집분석을 활용한다.

네트워크 텍스트 분석을 활용한 대학부설 과학영재교육원의 중등수학 강의교재 분석 (A Study of Secondary Mathematics Materials at a Gifted Education Center in Science Attached to a University Using Network Text Analysis)

  • 김성연;이선영;신종호;최원
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제29권3호
    • /
    • pp.465-489
    • /
    • 2015
  • 본 연구는 중등수학 강의교재를 대상으로 네트워크 텍스트 분석을 실시하여 향후 수학영재 교재개발 및 수정에 대한 시사점을 제안하였다. 분석대상은 2002년부터 2014년까지 한 대학부설 과학영재교육원에서 사용한 110개의 강의교재에 제시되어 있는 학습목표를 활용하였다. 주제어 빈도 분석은 KrKwic, 행렬화 작업은 KrTitle, 사회 네트워크 분석은 NetMiner4.0 프로그램을 활용하였으며, 네트워크의 기본정보, 중심성, 중앙성, 컴포넌트, 그리고 k-코어 분석을 수행하였다. 구체적인 연구결과는 다음과 같다. 첫째, 전체 주제어 네트워크에는 '다양성', '이해', '개념', '방법', '적용', '연결성', '문제해결', '기본', '실생활', 그리고 '사고력' 등을 포함하는 핵심 주제어 네트워크가 형성되어 있으며, 중심성 분석 결과 지식 측면이 강의교재에 잘 반영되어 있는 것으로 나타났다. 둘째, 영재교육진흥종합계획 시기별로 주제어 네트워크를 분석한 결과, 시기에 상관없이 '이해'를 중심으로 네트워크가 구성되고, '문제', '해결', 그리고 '문제해결' 사이의 연결강도가 높게 나타났다. 반면에 중앙성 분석 결과 제1차 영재교육진흥종합계획 시기에는 '의사소통', 제2차 시기에는 '발견', 그리고 제3차 시기에는 '증명'만이 나타났다 사라지는 특성을 보였다. 이러한 연구결과를 바탕으로 강의교재에 정의적 측면과 복잡한 인지과정 차원을 수반하는 활동이 포함되어져야 하며, 학습목표의 타성화와 무역사성이 발생하지 않도록 할 것을 제안하였다.

요리레시피의 텍스트 구조해석 - 김치찌개 레시피 중심으로 - (Structural Analysis of Cooking Recipe Texts - Based on Kimchi Jjigae Recipe -)

  • 최지유;한규상
    • 한국지역사회생활과학회지
    • /
    • 제28권2호
    • /
    • pp.191-201
    • /
    • 2017
  • This study compared and analyzed the structures of cooking recipes in order to identify the overall cooking method and develop an efficient method for analyzing cooking recipes. We present procedural texts using a flow graph, which can be referred to as a recipe tree, to represent cooking recipes and the database. A total of 110 kimchi jjigae recipes were identified and classified as 'portion', 'kinds of ingredients', and 'number of cooking deployment'. Recipes for two persons were the most common (43.6%), and 7-13 kinds of ingredients accounted for 50% of kimchi jjigae recipes. Kimchi presented the highest frequency at 78 cases, and pork showed the high frequency at 30 cases. To identify cooking deployment, step 6 was the highest, followed by step 5 (17.3%), step 7 (17.3%), step 4 (11.8%), and step 3 (9.1%). When analyzing the frequency of the relationship between ingredients and action in a recipe expression, Food (F) and Action by the chef (Ac) showed the highest rates at 11.29 and 12.30, respectively, in the cooking process. For frequencies of dependency relation expression in recipes, d-obj (direct object) was the highest at 13.56. The proposed method provides users more efficient and easier access to recipes suitable for their cooking skills.

텍스트마이닝을 활용한 아동, 청소년 대상 소비관련 연구 키워드 분석 (Keyword Analysis of Research on Consumption of Children and Adolescents Using Text Mining)

  • 진현정
    • 한국가정과교육학회지
    • /
    • 제33권4호
    • /
    • pp.1-13
    • /
    • 2021
  • 본 연구는 텍스트마이닝 기법으로 최근 20년간 아동, 청소년 대상 소비 관련 연구의 주요어를 분석하여 소비 관련 연구의 동향을 파악하고자 하였다. 이를 위하여 KCI 등재/등재후보 학술지에 게재된 아동, 청소년의 소비관련 연구 869편의 주요어를 분석하였다. 빈도분석 결과 가장 빈도가 높은 주요어는 청소년, 청소년소비자, 소비자교육, 과시소비, 소비행동, 캐릭터, 경제교육, 윤리적소비 순으로 나타났다. 5년 단위로 주요어의 빈도를 분석한 결과, 2006년~2010년에는 소비자교육의 빈도가 월등하게 높아 이 시기에 소비자교육에 관한 연구가 많이 이루어졌음을 확인할 수 있었다. 2011년 이후 윤리적소비에 관한 연구가 활발해졌으며, 최근 5년 동안은 두드러지는 주요어가 없는 대신 다양한 주제로 연구가 이루어졌음을 알 수 있었다. TF-IDF 기준으로 주요어를 살펴보면 2001년~2005년 사이에는 환경과 인터넷 관련 단어가 주요 키워드였다. 2006년~2010년에는 미디어이용, 광고 교육, 인터넷아이템, 2011년~2015년에는 공정무역, 녹색성장, 녹색소비, 북한이탈청소년, 소셜미디어, 2016~2020년에는 텍스트마이닝, 지속가능발전교육, 메이커교육, 2015개정교육과정이 중요한 용어로 등장하였다. 토픽모델링 결과, 소비자교육, 대중매체/또래문화, 합리적 소비, 한류/문화산업, 소비자역량, 경제교육, 교수학습방법, 친환경/윤리적소비의 8개의 토픽이 도출되었다. 동시 출현 빈도를 활용한 네트워크 분석을 통해 아동, 청소년 관련 소비 연구에서 과시소비와 소비자교육이 중요한 연구주제임을 알 수 있었다.

텍스트 마이닝을 활용한 OTT 서비스 플랫폼별 사용자 반응 비교 연구 (Comparative Study of User Reactions in OTT Service Platforms Using Text Mining)

  • 권순찬;김지은;장백철
    • 인터넷정보학회논문지
    • /
    • 제25권3호
    • /
    • pp.43-54
    • /
    • 2024
  • 본 연구는 텍스트 마이닝 기법을 활용하여 다양한 OTT(Over-The-Top) 서비스 플랫폼에 대한 사용자 반응을 비교한다. 연구의 주요 목표는 OTT 서비스 플랫폼의 사용자 만족도를 파악하여 보다 효과적인 리뷰 전략을 수립하는 데 기여하는 것이다. 본 연구에서 다루는 주요 질문에는 다양한 OTT 서비스에 대한 사용자 리뷰에서 두드러진 토픽과 키워드를 식별하고 플랫폼별 사용자 반응을 이해하는 것이 포함된다. 이를 위해 긍정, 부정 리뷰에서 중요 단어를 추출하기 위해 Tf-idf를, 복잡한 사용자 리뷰를 보다 정교하고 포괄적으로 분석하기 위해 고급 토픽 모델링 기법인 BERTopic을 사용한다. Tf-idf 분석한 결과, 앱에 대한 긍정 리뷰는 콘텐츠와 관련된 단어들의 수치가 높았으며 부정 리뷰에서는 앱 사용 과정에서 발생할 수 있는 문제점에 관한 단어 수치가 높게 기록되었다. BERTopic을 활용한 토픽 모델링에서는 콘텐츠의 속성과 연관 지어 콘텐츠의 다양성, 앱 성능 요소, 결제, 호환성에 관한 키워드를 도출하였으며, 플랫폼 별로 두각을 보이는 속성이 다르다는 점도 확인하였다. 본 연구 결과는 사용자 행동과 선호도에 대한 중요한 인사이트를 제공하며, 이를 통해 OTT 서비스 제공업체는 사용자 경험과 만족도를 개선하는 데 활용할 수 있다. 또한, 연구자들은 사용자 리뷰 텍스트 분석에서 딥러닝 모델을 활용한 연구의 아이디어를 얻을 수 있을 것이라 기대한다.

반정량 식품섭취빈도조사의 응답에 관한 인지면접연구 (Response Experiences with a Semi-Quantitative Food Frequency Questionnaire : A Qualitative Study using Cognitive Interview)

  • 이경실;이명선;정효지;백희영
    • Journal of Nutrition and Health
    • /
    • 제40권6호
    • /
    • pp.566-575
    • /
    • 2007
  • The purpose of this research was to understand how individuals reflect on the frequency and quantity of foods that they consume. Participants selected 5 males and 15 females aged 30 years or older were first interviewed on the frequency of their food consumption. Then based on this data, they were given a cognitive interview using the method of verbal proving. The individual cognitive interviews were recorded with consent while being conducted after complete approval by the Seoul National University Institution Review Board. The recorded material was evaluated using a thematic analysis after transcribing them into text. By analyzing stages of reflection, the major barriers to make the device difficult are revealed: 1) More difficulty in remembering events over the course of a full year due to diversification in the types of food that people consume 2) difficulty calculating the average for seasonal foods 3) difficulty estimating the amount of consumption from the photos presented 4) difficulty estimating amount of consumption from the quantity presented 5) difficulty processing foods that people think are healthy and foods are unhealthy simultaneously 6) difficulty having to consider foods where target food goes in as an ingredient; 7) difficulties arising from having to increase frequency when the amount consumed is higher than the quantity that is presented 8) difficulty having to combine the frequency and quantity of each food item when numerous foods are clustered into one category. These findings show that the less participants were involved in cooking, the more diverse their eating habits were, and the more they tried to adhere to rules of filling out the questionnaire, the more it was difficult for them to come up with an answer to the question being asked. It therefore seems necessary to construct a Food Frequency questionnaire that is attentive to these problems that arise from the recall stages.

Topic Extraction and Classification Method Based on Comment Sets

  • Tan, Xiaodong
    • Journal of Information Processing Systems
    • /
    • 제16권2호
    • /
    • pp.329-342
    • /
    • 2020
  • In recent years, emotional text classification is one of the essential research contents in the field of natural language processing. It has been widely used in the sentiment analysis of commodities like hotels, and other commentary corpus. This paper proposes an improved W-LDA (weighted latent Dirichlet allocation) topic model to improve the shortcomings of traditional LDA topic models. In the process of the topic of word sampling and its word distribution expectation calculation of the Gibbs of the W-LDA topic model. An average weighted value is adopted to avoid topic-related words from being submerged by high-frequency words, to improve the distinction of the topic. It further integrates the highest classification of the algorithm of support vector machine based on the extracted high-quality document-topic distribution and topic-word vectors. Finally, an efficient integration method is constructed for the analysis and extraction of emotional words, topic distribution calculations, and sentiment classification. Through tests on real teaching evaluation data and test set of public comment set, the results show that the method proposed in the paper has distinct advantages compared with other two typical algorithms in terms of subject differentiation, classification precision, and F1-measure.

Dynamic Text Categorizing Method using Text Mining and Association Rule

  • Kim, Young-Wook;Kim, Ki-Hyun;Lee, Hong-Chul
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권10호
    • /
    • pp.103-109
    • /
    • 2018
  • In this paper, we propose a dynamic document classification method which breaks away from existing document classification method with artificial categorization rules focusing on suppliers and has changing categorization rules according to users' needs or social trends. The core of this dynamic document classification method lies in the fact that it creates classification criteria real-time by using topic modeling techniques without standardized category rules, which does not force users to use unnecessary frames. In addition, it can also search the details through the relevance analysis by calculating the relationship between the words that is difficult to grasp by word frequency alone. Rather than for logical and systematic documents, this method proposed can be used more effectively for situation analysis and retrieving information of unstructured data which do not fit the category of existing classification such as VOC (Voice Of Customer), SNS and customer reviews of Internet shopping malls and it can react to users' needs flexibly. In addition, it has no process of selecting the classification rules by the suppliers and in case there is a misclassification, it requires no manual work, which reduces unnecessary workload.