Abstract
In this study we examined the topic analysis and correlation analysis by text mining from the self introduction letter of freshman at Korea National College of Agriculture and Fisheries(KNCAF) in 2020. The analysis items of the 3rd question were and the 4th question were the motivation for applying to college, the academic plan and the career plan. The text mining to the 3rd question showed that the frequency of 'friends' was overwhelmingly high, followed by keywords such as 'thought', 'time', 'opinion', 'activity', and 'club'. In the 4th question, keyword frequency such as 'thought', 'agriculture', 'KNCAF', 'farm', 'father' was high. The result of association rules analysis for each question showed that the relationship with the highest support level, which means the frequency and importance of the rule, was the {friend} <=> {thought}, {thought} <=> {KNCAF}. The confidence level of a correlation between keywords was the highest in the rules of {teacher}=>{friend}, {agriculture, KNCAF}=>{thought}. Also the lift level that indicates the closeness of two words was the highest in the rules of {friend} <=> {teacher}, {knowledge} <=> {professional}. These keywords are found to play a very important roles in analyzing betweenness centrality and analyzing degree centrality between keywords. The results of frequency analysis and association analysis were visualized with word cloud and correlation graphs to make it easier to understand all the results.
본 연구는 2020년 한농대 입학생의 자소서에 서술된 학생들의 다양한 교내외 활동, 대학 지원 동기, 학업계획 및 향후 영농·영어계획 등의 텍스트 데이터를 대상으로 텍스트 마이닝에 의한 토픽 분석과 연관성 분석을 하였다. 텍스트 마이닝 결과에서 문항 3의 동아리 활동을 비롯한 다양한 활동 사례와 그 과정에서 배우고 느낀 점에 대한 키워드는 '친구' 빈도가 압도적으로 높았으며, '생각', '시간', '의견', '활동', '사람', '학교', '선생님', '학생', '동아리' 등의 키워드 순으로 많이 사용되었다. 문항 4의 대학 지원동기 및 졸업 후 진로계획에 대한 서술 데이터에는 '생각', '농업', '한농대', '농장', '지식', '공부', '사람', '관심', '전문', '아버지' 등의 키워드 빈도가 높게 나타났으며, 이 가운데 '아버지', '한농대', '전문', '농장' 등의 키워드는 다른 질문에 비하여 상위에 나타나는 특징을 보였다. 연관규칙 분석 결과에서 키워드 간 규칙의 발생 빈도이자 중요성을 나타내는 지지도는 문항 3에서 {친구} <=> {생각}, 문항 4에서 {생각} <=> {한국농수산대학} 규칙에서 가장 높게 나타났다. 두 단어 사이 연관성을 나타내는 신뢰도는 문항 3에서 {선생님} => {친구}, 문항 4에서 {농업, 한국농수산대학} => {생각}에서 높게 나타났다. 두 단어 간 밀접성을 나타내는 향상도는 문항 3에서 {친구} <=> {선생님}, 문항 4에서 {지식} <=> {전문}에서 높게 나타났다. 즉 두 단어는 우연히 함께 사용되지 않고 한 단어가 나타나면 뒤에 반드시 나머지 단어가 사용되었다는 것을 의미한다. 또한 키워드 간의 매개체 역할의 분석, 즉 키워드들 사이에 최단 경로를 파악하는 관계 중심성 분석과 연결 edge 수를 평가하는 연결 중심성 분석에서 문항 3은 '친구', '생각', '학교', '시간' 및 '사람', 문항 4는 '생각', '한국농수산대학', '지식' 및 '지원' 등의 키워드의 중심성이 매우 높은 결과를 나타냈다.