• 제목/요약/키워드: Text frequency analysis

검색결과 459건 처리시간 0.027초

텍스트 마이닝을 이용한 상황 정보 분석 및 예측 프로세스에 관한 연구 (A novel on Context Information Analysis and Prediction Process using Text Mining)

  • 정세훈;강주희;김종찬;심춘보
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.1039-1040
    • /
    • 2015
  • 최근 IoT 및 인공지능 기술을 활용한 상황 정보 예측 서비스가 각광을 받고 있다. 본 논문에서는 특정 메타 데이터(Meta Data)로부터 입력되는 정보를 기반으로 상황 정보 분석 및 예측하는 프로세스를 제안한다. 주성분 분석 및 데이터의 집단화(Corpus), 문서 매트릭스(Document Matrix), 단어 빈도수(Frequency)에 따른 데이터 전처리 과정을 통해 상황정보 데이터를 확보한다. 또한 연관 규칙분석을 통해 분류된 데이터의 연관성을 분석하여 예측 데이터의 연관성을 확보한다. 제안하는 상황정보 분석 및 예측 모델은 R을 적용하여 설계한다.

  • PDF

텍스트 마이닝을 활용한 '학교 공간 혁신' 정책 키워드 분석 - 뉴스 기사를 중심으로 - (An Analysis of Keywords on 'School Space Innovation' Policies using Text Mining - Focused on News Articles -)

  • 이동국
    • 교육녹색환경연구
    • /
    • 제19권2호
    • /
    • pp.11-20
    • /
    • 2020
  • 본 연구의 목적은 텍스트 마이닝을 활용하여 한국의 주요 언론 매체를 통해 드러난 학교 공간 혁신 정책의 실행과 관련 이슈를 알아보는 것이다. 이러한 목적을 달성하기 위하여 언론에서 발행한 학교 공간 혁신 관련 기사 총 519개를 수집하여 빈도 분석과 네트워크 분석을 하였다. 연구 결과를 기반으로 학교 공간 혁신의 특징을 다음과 같이 요약할 수 있다. 첫째, 학교 공간 혁신은 미래교육에 대한 대응으로 추진되고 있다. 둘째, 사용자가 학교 공간 혁신의 주체로 참여한다. 셋째, 전문가는 협력 체제를 갖추어 학교 공간 혁신을 지원하고 있다. 넷째, 학교 공간 혁신에 지역사회를 적극적으로 참여시키고 있다. 다섯째, 교육부와 교육청의 주요 사업으로, 상향식과 하향식이 조화를 이루어 진행되고 있다. 본 연구 결과는 학교 공간 혁신 정책의 주요 이슈를 이해하고, 차후 연구와 실천에 시사점을 제공할 수 있을 것이다.

초록데이터를 활용한 국내외 FTA 연구동향: 2000-2020 (Trends in FTA Research of Domestic and International Journal using Paper Abstract Data)

  • 윤희영;곽일엽
    • 무역학회지
    • /
    • 제45권5호
    • /
    • pp.37-53
    • /
    • 2020
  • This study aims to provide the implications of research development by comparing domestic and international studies conducted on the subject of FTA. To this end, among the papers written during the period from 2000 to July 23, 2020, papers whose title is searched by FTA (Free Trade Agreement) were selected as research data. In the case of domestic research, 1,944 searches from the Korean Citation Index (KCI) and 970 from the Web of Science and SCOPUS were selected for international research, and the research trend was analyzed through keywords and abstracts. Frequency analysis and word embedding (Word2vec) were used to analyze the data and visualized using t-SNE and Scattertext. The results of the analysis are as follows. First, in the top 30 keywords of domestic and international research, 16 out of 30 were found to be the same. In domestic research, many studies have been conducted to analyze the outcomes or expected effects of countries that have concluded or discussed FTAs with Korea, on the other hand there are diverse range of study subjects in international research. Second, in the word embedding analysis, t-SNE was used to visually represent the research connection of the top 60 keywords. Finally, Scattertext was used to visually indicate which keywords were frequently used in studies from 2000 to 2010, and from 2011 to 2020. This study is the first to draw implications for academic development through abstract and keyword analysis by applying various text mining approaches to the FTA related research papers. Further in-depth research is needed, including collecting a variety of FTA related text data, comparing and analyzing FTA studies in different countries.

증권신고서의 TF-IDF 텍스트 분석과 기계학습을 이용한 공모주의 상장 이후 주가 등락 예측 (The prediction of the stock price movement after IPO using machine learning and text analysis based on TF-IDF)

  • 양수연;이채록;원종관;홍태호
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.237-262
    • /
    • 2022
  • 본 연구는 개인투자자들의 투자의사결정에 도움을 주고자, 증권신고서의 TF-IDF 텍스트 분석과 기계학습을 이용해 공모주의 상장 5거래일 이후 주식 가격 등락을 예측하는 모델을 제시한다. 연구 표본은 2009년 6월부터 2020년 12월 사이에 신규 상장된 691개의 국내 IPO 종목이다. 기업, 공모, 시장과 관련된 다양한 재무적 및 비재무적 IPO 관련 변수와 증권신고서의 어조를 분석하여 예측했고, 증권신고서의 어조 분석을 위해서 TF-IDF (Term Frequency - Inverse Document Frequency)에 기반한 텍스트 분석을 이용해 신고서의 투자위험요소란의 텍스트를 긍정적 어조, 중립적 어조, 부정적 어조로 분류하였다. 가격 등락 예측에는 로지스틱 회귀분석(Logistic Regression), 랜덤 포레스트(Random Forest), 서포트벡터머신(Support Vector Machine), 인공신경망(Artificial Neural Network) 기법을 사용하였고, 예측 결과 IPO 관련 변수와 증권신고서 어조 변수를 함께 사용한 모델이 IPO 관련 변수만을 사용한 모델보다 높은 예측 정확도를 보였다. 랜덤 포레스트 모형은 1.45%p 높아진 예측 정확도를 보였으며, 인공신공망 모형과 서포트벡터머신 모형은 각각 4.34%p, 5.07%p 향상을 보였다. 추가적으로 모형간 차이를 맥니마 검정을 통해 통계적으로 검증한 결과, 어조 변수의 유무에 따른 예측 모형의 성과 차이가 유의확률 1% 수준에서 유의했다. 이를 통해, 증권신고서에 표현된 어조가 공모주의 가격 등락 예측에 영향을 미치는 요인이라는 것을 확인할 수 있었다.

변혁적 리더십의 연구동향 분석: 최근 10년(2007-2016)간 국내 학술지 중심으로 (Research Trends in Transformational Leadership: Focusing on Domestic Journals Published in 2007-2016)

  • 함병우;고근영;전주성
    • 한국콘텐츠학회논문지
    • /
    • 제17권8호
    • /
    • pp.490-505
    • /
    • 2017
  • 이 연구의 목적은 최근 10년 동안 국내 학술지에 게재된 변혁적 리더십 관련 논문을 분석하여 연구동향을 파악하고, 이를 토대로 향후 연구에 관한 시사점을 모색하는데 있다. 이를 위해 2007년부터 2016년까지 발표된 변혁적 리더십 관련 논문 337편을 대상으로 하였으며, 연구방법은 빈도 및 백분율에 의한 기술통계와 네트워크 텍스트 분석방법을 이용하였다. 주요 연구결과는 다음과 같다. 첫째, 연도별 학술지 게재 논문수는 연간 평균 33편 정도였다. 둘째, 학술지별로 보면 '인적자원관리연구'가 가장 많았다. 셋째, 연구대상은 일반기업종사자(49.8%)가 주를 이루었다. 넷째, 연구방법은 양적연구(96.7%)가 가장 많이 활용되고 있었다. 다섯째, 학술지 논문의 초록에 제시된 주제어는 '거래적 리더십'이 가장 높은 빈도를 보였다. 여섯번째, 네트워크 텍스트 분석을 실시한 결과 변혁적 리더십과 연결 중심성이 가장 높은 '거래적 리더십'은 '직무만족'과 최단경로를 이루고 있어 이들이 밀접한 관련성을 가지고 함께 연구되는 경향성이 발견되었다.

텍스트마이닝을 활용한 패브릭 관련 DIY 의류 상품 현황 연구 (A study on the current status of DIY clothing products related to fabric using text mining)

  • 이은혜;이하은;최정욱
    • 한국의상디자인학회지
    • /
    • 제25권2호
    • /
    • pp.111-122
    • /
    • 2023
  • This study aims to collect Big Data related to DIY clothing, analyze the results on a year-by-year basis, understand consumers' perceptions, the status, and reality of DIY clothing. The reference period for the evaluation of DIY clothing trends was set from 2012 to 2022. The data in this study was collected and analyzed using Textom, a Big Data solution program certified as a Good Software by the Telecommunications Technology Association (TTA). For the analysis of fabric-related DIY products, the keyword was set to "DIY clothing", and for data cleansing following collection, the "Espresso K" module was employed. Also, via data collection on a year-by-year basis, a total of 11 lists were generated and the collected data was analyzed by period. The following are the findings of this study's data collection on DIY clothing. The total number of keywords collected over a period of ten years on search engines "Naver" and "Google" between January 1, 2012 and December 31, 2022 was 16,315, and data trends by period indicate a continuous upward trend. In addition, a keyword analysis was conducted to analyze TF-IDF (Term Frequency-Inverse Document Frequency), a statistical measure that reflects the importance of a word within data, and the relationship with N-gram, an analysis of the correlation concerning the relationship between words. Using these results, it was possible to evaluate the popularity and growing tendency of DIY clothing products in conjunction with the evolving social environment, as well as the desire to explore DIY trends among consumers. Therefore, this study is valuable in that it provides preliminary data for DIY clothing research by analyzing the status and reality of DIY products, and furthermore, contributes to the development and production of DIY clothing.

지자체 사이버 공간 안전을 위한 금융사기 탐지 텍스트 마이닝 방법 (Financial Fraud Detection using Text Mining Analysis against Municipal Cybercriminality)

  • 최석재;이중원;권오병
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.119-138
    • /
    • 2017
  • 최근 SNS는 개인의 의사소통뿐 아니라 마케팅의 중요한 채널로도 자리매김하고 있다. 그러나 사이버 범죄 역시 정보와 통신 기술의 발달에 따라 진화하여 불법 광고가 SNS에 다량으로 배포되고 있다. 그 결과 개인정보를 빼앗기거나 금전적인 손해가 빈번하게 일어난다. 본 연구에서는 SNS로 전달되는 홍보글인 비정형 데이터를 분석하여 어떤 글이 금융사기(예: 불법 대부업 및 불법 방문판매)와 관련된 글인지를 분석하는 방법론을 제안하였다. 불법 홍보글 학습 데이터를 만드는 과정과, 데이터의 특성을 고려하여 입력 데이터를 구성하는 방안, 그리고 판별 알고리즘의 선택과 추출할 정보 대상의 선정 등이 프레임워크의 주요 구성 요소이다. 본 연구의 방법은 실제로 모 지방자치단체의 금융사기 방지 프로그램의 파일럿 테스트에 활용되었으며, 실제 데이터를 가지고 분석한 결과 금융사기 글을 판정하는 정확도가 사람들에 의하여 판정하는 것이나 키워드 추출법(Term Frequency), MLE 등에 비하여 월등함을 검증하였다.

텍스트 마이닝 기법을 이용한 모바일 간편결제 서비스에 대한 소비자 반응 분석: 삼성페이를 중심으로 (An exploratory study on consumers' responses to mobile payment service focused on Samsung Pay)

  • 정민지;이유림;유채민;김지원;정재은
    • 디지털융복합연구
    • /
    • 제17권1호
    • /
    • pp.9-27
    • /
    • 2019
  • 본 연구는 모바일 간편결제 서비스에 대한 소비자 반응을 살펴보고 그 반응이 서로 어떤 연관이 있는지 파악하고자 하였다. 이를 위해 대표적인 모바일 간편결제 서비스인 삼성페이를 사용한 경험에 대해 언급한 데이터를 수집하고, R을 이용하여 텍스트 빈도분석, 텍스트 군집분석 그리고 텍스트 네트워크 분석을 실시하였다. 본 연구의 주요 결과는 다음과 같다. 첫째, 빈도분석 결과 삼성페이의 기능과 삼성페이가 지갑을 대체할 수 있는 지에 대한 관심이 높은 것으로 드러났다. 둘째, 군집분석 결과 크게 긍정과 부정 반응으로 분류되었으며 5가지 긍정반응 군집과 4가지의 부정반응 군집이 도출되었다. 셋째, 삼성페이에 대한 지갑 대체 가능 여부는 복수의 반응을 하나의 메시지로 묶어주며, 삼성페이에 대한 지속적인 이용의도와 높은 관련성을 지니는 요인임이 밝혀졌다. 본 연구를 통해 소비자 측면에서 삼성페이에 대한 이해를 높이고, 소비자의 가치와 기대에 부응하여 궁극적으로 높은 만족을 이끌어낼 수 있는 서비스를 제공하는데 도움이 될 것으로 기대된다.

중고의류와 중고명품 구매 관련 언론 보도 빅데이터 분석: 텍스트마이닝을 활용한 사회적 인식과 현황 파악 (Big Data Analysis of News on Purchasing Second-hand Clothing and Second-hand Luxury Goods: Identification of Social Perception and Current Situation Using Text Mining)

  • 유화숙
    • Human Ecology Research
    • /
    • 제61권4호
    • /
    • pp.687-707
    • /
    • 2023
  • This study was conducted to obtain useful information on the development of the future second-hand fashion market by obtaining information on the current situation through unstructured text data distributed as news articles related to 'purchase of second-hand clothing' and 'purchase of second-hand luxury goods'. Text-based unstructured data was collected on a daily basis from Naver news from January 1st to December 31st, 2022, using 'purchase of second-hand clothing' and 'purchase of second-hand luxury goods' as collection keywords. This was analyzed using text mining, and the results are as follows. First, looking at the frequency, the collection data related to the purchase of second-hand luxury goods almost quadrupled compared to the data related to the purchase of second-hand clothing, indicating that the purchase of second-hand luxury goods is receiving more social attention. Second, there were common words between the data obtained by the two collection keywords, but they had different words. Regarding second-hand clothing, words related to donations, sharing, and compensation sales were mainly mentioned, indicating that the purchase of second-hand clothing tends to be recognized as an eco-friendly transaction. In second-hand luxury goods, resale and genuine controversy related to the transaction of second-hand luxury goods, second-hand trading platforms, and luxury brands were frequently mentioned. Third, as a result of clustering, data related to the purchase of second-hand clothing were divided into five groups, and data related to the purchase of second-hand luxury goods were divided into six groups.

Analysis of Keywords and Language Networks of Pedagogical Problems in the Secondary-School Teacher's Employment Exam : Focusing on the 2019~2022 School Year Exam

  • Kwon, Choong-Hoon
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권7호
    • /
    • pp.115-124
    • /
    • 2022
  • 본 연구의 목적은 2019~2022학년도 중등교사 임용시험 교육학문제의 연도별 핵심어와 그 경향, 핵심어들의 언어네트워크를 분석하여 그 결과를 제시하는 것이다. 주요 연구방법론은 텍스트 마이닝 기법과 언어네트워크 분석방법이었으며, 분석프로그램으로는 KrKwic, Wordcloud Maker, Ucinet6, NetDraw 등이었다. 연구결과는 다음과 같다. 첫째, 연도별 교육학문제의 상위출현빈도 핵심어는 교사, 학생, 교육과정, 수업, 평가 등의 기존 상위출현빈도 핵심어들이었으며, 최근 코로나 19 상황의 온라인수업 진행을 반영한 핵심어(온라인, 위키, 토의식, 정보 등)들도 추가로 등장하는 경향을 보였다. 4개년도 통합 텍스트에서의 상위출현빈도 핵심어는 학생(44), 교사(39), 수업(27), 학교(18), 교육과정(16), 온라인(10), 토의식(8) 등이었다. 둘째, 4개년도 상위출현빈도 핵심어들의 전체 언어네트워크는 상당한 수준의 밀도(0.566), 총연결수(492), 평균연결정도(16.4)로 분석되었다. 연결정도 중심성은 교사(199.0), 수업(197.0), 학생(185.0), 학교(150.0) 순으로 나타났으며, 매개 중심성은 교사(30.859), 수업(18.956), 학생(16.054), 학교(15.745) 순으로 나타났다. 본 연구결과는 중등교사 임용시험 수험생인 예비교사, 해당 시험 출제 관리하는 기관과 관련자, 중등학교 예비교사 양성기관의 교수자와 행정가들에게 고려해볼 만한 자료가 되길 기대한다.