• 제목/요약/키워드: Text frequency analysis

검색결과 464건 처리시간 0.038초

텍스트 마이닝 기법을 활용한 인공지능 기술개발 동향 분석 연구: 깃허브 상의 오픈 소스 소프트웨어 프로젝트를 대상으로 (A Study on the Development Trend of Artificial Intelligence Using Text Mining Technique: Focused on Open Source Software Projects on Github)

  • 정지선;김동성;이홍주;김종우
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.1-19
    • /
    • 2019
  • 제4차 산업혁명을 이끄는 주요 원동력 중 하나인 인공지능 기술은 이미지와 음성 인식 등 여러 분야에서 사람과 유사하거나 더 뛰어난 능력을 보이며, 사회 전반에 미치게 될 다양한 영향력으로 인하여 높은 주목을 받고 있다. 특히, 인공지능 기술은 의료, 금융, 제조, 서비스, 교육 등 광범위한 분야에서 활용이 가능하기 때문에, 현재의 기술 동향을 파악하고 발전 방향을 분석하기 위한 노력들 또한 활발히 이루어지고 있다. 한편, 이러한 인공지능 기술의 급속한 발전 배경에는 학습, 추론, 인식 등의 복잡한 인공지능 알고리즘을 개발할 수 있는 주요 플랫폼들이 오픈 소스로 공개되면서, 이를 활용한 기술과 서비스들의 개발이 비약적으로 증가하고 있는 것이 주요 요인 중 하나로 확인된다. 또한, 주요 글로벌 기업들이 개발한 자연어 인식, 음성 인식, 이미지 인식 기능 등의 인공지능 소프트웨어들이 오픈 소스 소프트웨어(OSS: Open Sources Software)로 무료로 공개되면서 기술확산에 크게 기여하고 있다. 이에 따라, 본 연구에서는 온라인상에서 다수의 협업을 통하여 개발이 이루어지고 있는 인공지능과 관련된 주요 오픈 소스 소프트웨어 프로젝트들을 분석하여, 인공지능 기술 개발 현황에 대한 보다 실질적인 동향을 파악하고자 한다. 이를 위하여 깃허브(Github) 상에서 2000년부터 2018년 7월까지 생성된 인공지능과 관련된 주요 프로젝트들의 목록을 검색 및 수집하였으며, 수집 된 프로젝트들의 특징과 기술 분야를 의미하는 토픽 정보들을 대상으로 텍스트 마이닝 기법을 적용하여 주요 기술들의 개발 동향을 연도별로 상세하게 확인하였다. 분석 결과, 인공지능과 관련된 오픈 소스 소프트웨어들은 2016년을 기준으로 급격하게 증가하는 추세이며, 토픽들의 관계 분석을 통하여 주요 기술 동향이 '알고리즘', '프로그래밍 언어', '응용분야', '개발 도구'의 범주로 구분하는 것이 가능함을 확인하였다. 이러한 분석 결과를 바탕으로, 향후 다양한 분야에서의 활용을 위해 개발되고 있는 인공지능 관련 기술들을 보다 상세하게 구분하여 확인하는 것이 가능할 것이며, 효과적인 발전 방향 모색과 변화 추이 분석에 활용이 가능할 것이다.

2015 개정 교육과정에 따른 7학년 과학교과서 물질 영역에 제시된 외적 표상의 분석 (Analysis of External Representations in Matter Units of 7th Grade Science Textbooks Developed Under the 2015 Revised National Curriculum)

  • 윤회정
    • 한국과학교육학회지
    • /
    • 제40권1호
    • /
    • pp.61-75
    • /
    • 2020
  • 이 연구에서는 2015 개정 교육과정 7학년 과학의 물질 영역인 '기체의 성질'과 '물질의 상태 변화' 단원에 제시된 외적 표상을 분석하여 표상을 활용한 과학교육을 위한 시사점을 도출하고자 하였다. 표상의 유형, 표면적 특성의 해석, 본문과의 관련성, 캡션의 존재와 특성, 복합적 표상에서 표상 간 관련성, 표상의 기능의 여섯 가지 범주로 구성된 분석틀을 이용하여 다섯 종의 교과서에 나타난 표상의 특성을 분석하였다. 또한, '기체의 성질'과 '물질의 상태 변화' 단원의 성취기준을 설명하는 각 교과서에 제시된 대표적인 표상의 특징을 분석하였다. 연구의 결과는 다음과 같다. 먼저 표상의 유형에서는 거시적 표상이 가장 높은 빈도로 나타났으며, 표면적 특성의 해석 범주에서는 명시적 특성을 가진 표상의 빈도가 가장 높았다. 본문과의 관련성 범주의 분석 결과, 대부분의 표상이 완전한 연관성과 연결 또는 완전한 연관성과 비연결에 해당하여 표상과 본문 내용은 일관성 있게 연관되어 있는 것으로 나타났다. 캡션의 존재와 특성 범주에서는 적절한 캡션이 존재하는 표상의 빈도가 가장 높았고, 복합적 표상에서 표상 간의 관련성은 충분히 연결된 표상이 대부분이었다. 표상의 기능 범주에서는 완성형이 가장 높은 빈도를 보였으나 탐구 활동에 제시된 표상에서는 미완성형이 높은 빈도를 나타냈다. 성취기준과 관련된 대표적인 표상을 분석한 결과, 표상의 유형, 표상에 제시된 정보및 기호의 사용 등에서 교과서별로 차이를 나타냈다. 연구의 결과로부터 7학년 물질 영역의 표상 활용과 관련된 교육적 시사점을 논의하였다.

코퍼스 기반 한국어 합성기의 억양 구현 방안 (A Method of Intonation Modeling for Corpus-Based Korean Speech Synthesizer)

  • 김진영;박상언;엄기완;최승호
    • 음성과학
    • /
    • 제7권2호
    • /
    • pp.193-208
    • /
    • 2000
  • This paper describes a multi-step method of intonation modeling for corpus-based Korean speech synthesizer. We selected 1833 sentences considering various syntactic structures and built a corresponding speech corpus uttered by a female announcer. We detected the pitch using laryngograph signals and manually marked the prosodic boundaries on recorded speech, and carried out the tagging of part-of-speech and syntactic analysis on the text. The detected pitch was separated into 3 frequency bands of low, mid, high frequency components which correspond to the baseline, the word tone, and the syllable tone. We predicted them using the CART method and the Viterbi search algorithm with a word-tone-dictionary. In the collected spoken sentences, 1500 sentences were trained and 333 sentences were tested. In the layer of word tone modeling, we compared two methods. One is to predict the word tone corresponding to the mid-frequency components directly and the other is to predict it by multiplying the ratio of the word tone to the baseline by the baseline. The former method resulted in a mean error of 12.37 Hz and the latter in one of 12.41 Hz, similar to each other. In the layer of syllable tone modeling, it resulted in a mean error rate less than 8.3% comparing with the mean pitch, 193.56 Hz of the announcer, so its performance was relatively good.

  • PDF

데이터마이닝을 이용한 동의보감에서 경락의 주치특성 분석 (An Analysis of Indications of Meridians in DongUiBoGam Using Data Mining)

  • 채윤병;류연희;정원모
    • Korean Journal of Acupuncture
    • /
    • 제36권4호
    • /
    • pp.292-299
    • /
    • 2019
  • Objectives : DongUiBoGam is one of the representative medical literatures in Korea. We used text mining methods and analyzed the characteristics of the indications of each meridian in the second chapter of DongUiBoGam, WaeHyeong, which addresses external body elements. We also visualized the relationships between the meridians and the disease sites. Methods : Using the term frequency-inverse document frequency (TF-IDF) method, we quantified values regarding the indications of each meridian according to the frequency of the occurrences of 14 meridians and 14 disease sites. The spatial patterns of the indications of each meridian were visualized on a human body template according to the TF-IDF values. Using hierarchical clustering methods, twelve meridians were clustered into four groups based on the TF-IDF distributions of each meridian. Results : TF-IDF values of each meridian showed different constellation patterns at different disease sites. The spatial patterns of the indications of each meridian were similar to the route of the corresponding meridian. Conclusions : The present study identified spatial patterns between meridians and disease sites. These findings suggest that the constellations of the indications of meridians are primarily associated with the lines of the meridian system. We strongly believe that these findings will further the current understanding of indications of acupoints and meridians.

A Research on Difference Between Consumer Perception of Slow Fashion and Consumption Behavior of Fast Fashion: Application of Topic Modelling with Big Data

  • YANG, Oh-Suk;WOO, Young-Mok;YANG, Yae-Rim
    • 융합경영연구
    • /
    • 제9권1호
    • /
    • pp.1-14
    • /
    • 2021
  • Purpose: The article deals with the proposition that consumers' fashion consumption behavior will still follow the consumption behavior of fast fashion, despite recognizing the importance of slow fashion. Research design, data and methodology: The research model to verify this proposition is topic modelling with big data including unstructured textual data. we combined 5,506 news articles posted on Naver news search platform during the 2003-2019 period about fast fashion and slow fashion, high-frequency words have been derived, and topics have been found using LDA model. Based on these, we examined consumers' perception and consumption behavior on slow fashion through the analysis of Topic Network. Results: (1) Looking at the status of annual article collection, consumers' interest in slow fashion mainly began in 2005 and showed a steady increase up to 2019. (2) Term Frequency analysis showed that the keywords for slow fashion are the lowest, with consumers' consumption patterns continuing around 'brand.' (3) Each topic's weight in articles showed that 'social value' - which includes slow fashion - ranked sixth among the 9 topics, low linkage with other topics. (4) Lastly, 'brand' and 'fashion trend' were key topics, and the topic 'social value' accounted for a low proportion. Conclusion: Slow fashion was not a considerable factor of consumption behavior. Consumption patterns in fashion sector are still dominated by general consumption patterns centered on brands and fast fashion.

Text-Independent Speaker Identification System Based On Vowel And Incremental Learning Neural Networks

  • Heo, Kwang-Seung;Lee, Dong-Wook;Sim, Kwee-Bo
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2003년도 ICCAS
    • /
    • pp.1042-1045
    • /
    • 2003
  • In this paper, we propose the speaker identification system that uses vowel that has speaker's characteristic. System is divided to speech feature extraction part and speaker identification part. Speech feature extraction part extracts speaker's feature. Voiced speech has the characteristic that divides speakers. For vowel extraction, formants are used in voiced speech through frequency analysis. Vowel-a that different formants is extracted in text. Pitch, formant, intensity, log area ratio, LP coefficients, cepstral coefficients are used by method to draw characteristic. The cpestral coefficients that show the best performance in speaker identification among several methods are used. Speaker identification part distinguishes speaker using Neural Network. 12 order cepstral coefficients are used learning input data. Neural Network's structure is MLP and learning algorithm is BP (Backpropagation). Hidden nodes and output nodes are incremented. The nodes in the incremental learning neural network are interconnected via weighted links and each node in a layer is generally connected to each node in the succeeding layer leaving the output node to provide output for the network. Though the vowel extract and incremental learning, the proposed system uses low learning data and reduces learning time and improves identification rate.

  • PDF

텍스트마이닝 기반의 인적재난사고사례 신뢰도 측정연구 (Measuring the Confidence of Human Disaster Risk Case based on Text Mining)

  • 이영재;이성수
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제20권3호
    • /
    • pp.63-79
    • /
    • 2011
  • Deducting the risk level of infrastructure and buildings based on past human disaster risk cases and implementing prevention measures are important activities for disaster prevention. The object of this study is to measure the confidence to proceed quantitative analysis of various disaster risk cases through text mining methodology. Indeed, by examining confidence calculation process and method, this study suggests also a basic quantitative framework. The framework to measure the confidence is composed into four stages. First step describes correlation by categorizing basic elements based on human disaster ontology. Secondly, terms and cases of Term-Document Matrix will be created and the frequency of certain cases and terms will be quantified, the correlation value will be added to the missing values. In the third stage, association rules will be created according to the basic elements of human disaster risk cases. Lastly, the confidence value of disaster risk cases will be measured through association rules. This kind of confidence value will become a key element when deciding a risk level of a new disaster risk, followed up by preventive measures. Through collection of human disaster risk cases related to road infrastructure, this study will demonstrate a case where the four steps of the quantitative framework and process had been actually used for verification.

태양에너지학회 논문집의 풍력에너지 연구동향 분석 (Review of Trends in Wind Energy Research Publications in Journal of the Korean Solar Energy Society)

  • 김현구
    • 한국태양에너지학회 논문집
    • /
    • 제40권4호
    • /
    • pp.1-11
    • /
    • 2020
  • The Journal of the Korean Solar Energy Society is the first journal in South Korea that adopts wind energy as one of its subjects. Since 2000, more than 140 papers on wind energy have been published in the journal, which accounts for 8.5% of the total publication. However, in recent years, the number of published papers on wind energy has been decreasing steadily, and a reason for this decline is the significant dependence on a few specific institutions and authors. In this study, wind energy subjects were classified using the frequency analysis of the subject words extracted from the title, keywords, and abstract of wind energy papers using the text mining technique. In addition, the Korea Citation Index was used to perform quantitative level evaluation by subject and institution and to analyze the trends and characteristics of the wind energy field. Therefore, it was identified that in terms of the number of publications and citations, the main subject areas were resource/micrositing and policy/potential.

온라인 패션 쇼핑몰 창업의 실패 경험에 관한 연구 -텍스트 마이닝과 근거이론을 적용하여- (A Study on the Failure Experiences of Online Fashion Shopping Mall Startups -Applying Text Mining and Grounded Theory-)

  • 서민정
    • 한국의류학회지
    • /
    • 제47권6호
    • /
    • pp.1096-1112
    • /
    • 2023
  • Many entrepreneurs who launched online fashion shopping malls faced failure compared to those who achieved success. Recognizing the importance of research that reflects reality, this study explores entrepreneurs' experiences during the failure process of online fashion shopping malls. Two studies utilized YouTube videos documenting such online fashion shopping malls' failure. Study 1 employed text mining techniques, including high-frequency analysis and topic modeling, while Study 2 used a qualitative research method, specifically grounded theory. Study 1 identified the prominent experiences of operating online fashion shopping malls, while Study 2 provided a holistic perspective on the failure processes. The integrated findings from both studies highlight that entrepreneurs' passion for fashion motivates them to establish online fashion shopping malls, yet they encounter numerous challenges during the operational process. Insufficient business preparation and operational capabilities contribute to their failure to achieve financial goals. Despite efforts to boost sales and profit, entrepreneurs often close their businesses due to inadequate funds and waning motivation. The outcomes of this study can inform us about the operational challenges faced by online fashion shopping malls and offer valuable insights for developing new strategies to sustain and improve them.

빅데이터 분석을 통한 발명 교육 센터에 대한 사회적 인식 (Social Perception of the Invention Education Center as seen in Big Data)

  • 이은상
    • 한국융합학회논문지
    • /
    • 제13권1호
    • /
    • pp.71-80
    • /
    • 2022
  • 이 연구의 목적은 빅데이터 분석 방법을 이용하여 발명 교육 센터에 대한 사회적 인식을 확인해 보는 데 있다. 이를 위해 TEXTOM 사이트를 이용하여 네이버와 다음 사이트의 블로그, 카페, 뉴스 채널에서 '발명+교육+센터'를 검색 키워드로 2014년 1월부터 2021년 9월까지의 데이터를 수집하였다. 수집된 데이터는 TEXTOM 사이트에서 정제하였으며, 텍스트 마이닝 분석과 의미 연결망 분석을 위해 TEXTOM 사이트, Ucinet 6, Netdraw 프로그램을 이용하였다. 수집된 데이터는 1차와 2차의 정제 과정을 거쳐 단어빈도를 바탕으로 주요 키워드 60개를 선정하였으며, 선정된 주요 키워드는 매트릭스 데이터로 변환하여 의미 연결망 분석을 실시하였다. 이 연구의 텍스트 마이닝 분석 결과 '학생', '운영', '한국발명진흥회', '특허청' 등이 의미 있는 키워드임을 확인하였다. 의미 연결망 분석 결과 발명 교육 센터와 관련된 '교육 운영', '발명 대회', '교육 과정 및 진행', '사업 모집 및 지원', '주관 및 선정 기관' 등 5개의 군집을 확인할 수 있었다. 이 연구의 결과는 발명 교육 센터에 대한 연구를 수행하는 연구자나 정책 입안자의 학술 연구에 활용될 수 있을 것이다.