• 제목/요약/키워드: analyzing unstructured data

검색결과 107건 처리시간 0.02초

텍스트 마이닝 기반의 이슈 관련 R&D 키워드 패키징 방법론 (Methodology for Issue-related R&D Keywords Packaging Using Text Mining)

  • 현윤진;윌리엄;김남규
    • 인터넷정보학회논문지
    • /
    • 제16권2호
    • /
    • pp.57-66
    • /
    • 2015
  • 빅데이터 기술에 대한 관심이 급증함에 따라, 소셜 미디어를 통해 유통되는 방대한 양의 비정형 데이터를 분석하고자 하는 시도가 활발히 이루어지고 있다. 이에 따라서 텍스트 형태의 비정형 데이터 분석을 통해 의미 있는 정보를 찾고자 하는 시도가 비즈니스 영역뿐 아니라, 정치, 경제, 문화 등 다양한 영역에서 이루어지고 있다. 특히 최근에는 여러 현안 및 이슈들을 발굴하여 이를 의사결정에 활용하고자 하는 시도가 활발히 이루어지고 있다. 이처럼 빅데이터 분석을 통해 국가현안이나 이슈를 발굴하고자 하는 시도가 꾸준히 이루어져왔음에도 불구하고, 국가현안 및 이슈로부터 이와 관련된 R&D 문서를 효율적으로 제공하는 방안은 마련되지 않고있다. 이는 사용자들이 인식하는 현안 키워드와 실제 사용되는 R&D 키워드 사이의 이질성이 존재하기 때문이다. 따라서 현안 및 R&D키워드간의 이질성을 극복하기 위한 중간 장치가 필요하며, 이 중간 장치를 통해 각 현안 키워드와 R&D 키워드간에 적절한 대응이 이루어져야 한다. 이를 위해 본 연구에서는 (1) 현안 키워드 추출을 위한 하이브리드 방법론, (2) 현안 대응 R&D 정보 패키징 방법론, 그리고 (3) R&D 관점에서의 연관 현안 네트워크 구축 방법론의 총 세 가지 방법론을 제안한다. 제안하는 방법론은 텍스트 마이닝, 소셜네트워크 분석, 그리고 연관 규칙 마이닝 등의 데이터 분석 기법들을 활용하여 수행하였으며, 그 결과, (1)에 의한 키워드 보강률은 42.8%로 나타났으며, (2)의 경우, 현안 키워드와 R&D 키워드간 다수의 연관 규칙이 나타났다. (3)의 경우는 현재 진행 중에 있으며, 향후 가시적 성과를 낼 수 있을 것으로 예상된다.

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템 (Twitter Issue Tracking System by Topic Modeling Techniques)

  • 배정환;한남기;송민
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.109-122
    • /
    • 2014
  • 현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.

텍스트 마이닝 기법을 활용한 고전 추리 소설 작가 간 문체적 차이와 문체 구조에 대한 연구 (A study on detective story authors' style differentiation and style structure based on Text Mining)

  • 문석형;강주영
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.89-115
    • /
    • 2019
  • 본 연구는 고전 추리 소설 작가로 유명한 아서 코난 도일과 애거서 크리스티의 문체적 차이점을 데이터 분석을 통해 제시하고, 나아가 텍스트 마이닝에 입각한 문체 연구의 해석적 방법론을 제시하고자 시행되었다. 추리 소설의 핵심 요소인 사건과 인물에 더해 작가의 문법적인 집필 방식을 문체로 정의하고 분석을 시도하였다. 작가 별로 각 2권, 총 4권의 책을 선정하였으며 문장 단위로 텍스트를 나누어 데이터를 확보하였다. 각 문장에 따른 감성 점수를 부여한 뒤 페이지 진행에 따른 감성을 시각화하였으며, 페이지에 따라 토픽 모델링을 적용하여 소설 속 사건 진행 흐름을 파악할 수 있었다. 동시 발생 매트릭스(co-occurrence matrix)를 구성하고 네트워크 분석(Network Analysis)을 시행함으로써 사건이 진행되는 과정에서 인물들 간 관계의 변화를 확인할 수 있었다. 또한 전체 문장을 총 6가지 문체를 기준으로 문법적인 체계를 나누어 작가 간, 그리고 작품 간 집필 방식의 차이점을 확인하였다. 이러한 일련의 연구 과정은 문체에 대한 이해를 바탕으로 글 전체의 맥락을 파악할 수 있도록 도움을 줄 수 있으며, 나아가 기존에 개별적으로 진행되었던 문체 연구를 통합시킴으로써 문체 구조에 대한 이해를 도울 수 있다. 그리고 이러한 선행된 이해를 통해 온라인 텍스트를 비롯한 비정형 데이터 속 문체의 존재를 발견하고 구체화하는 작업에 기여할 수 있다. 뉴미디어를 포함한 온라인 텍스트를 심도 있게 분석하고자 하는 시도가 증가하고 있는 상황에서 해당 연구들과 연계를 통해 보다 의미 있는 온라인 텍스트 분석에 기여할 것으로 기대된다.

텍스트마이닝을 통한 최고경영자 대상 이러닝 콘텐츠 트렌드 분석 (Text Mining-Based Emerging Trend Analysis for e-Learning Contents Targeting for CEO)

  • 김경훈;채명신;이병태
    • 경영정보학연구
    • /
    • 제19권2호
    • /
    • pp.1-19
    • /
    • 2017
  • 본 연구는 텍스트마이닝 기법 중 토픽 분석을 활용하여 관련 업계 국내 1위 S사(社)의 최고경영자 대상 온라인 교육 콘텐츠 강의 중심으로 원문 스크립트를 분석했다. 지난 5년간(2011~2015)년 서비스된 총 4,824개 콘텐츠를 바탕으로 핵심 키워드를 추출한 다음 주제별 22가지 토픽으로 분류한 후 동향 분석을 수행했다. 이를 통해 최근 콘텐츠 비중이 급증하고 있는 토픽 주제를 확인할 수 있었다. 다음으로 토픽 분석을 통해 분류한 토픽 및 카테고리를 바탕으로 회원 평가 요인을 적용해 카테고리 및 각 토픽별 지적 관심도를 체계화 할 수 있었다. 경영·경제 분야에서는 마케팅전략, 인사/조직, 커뮤니케이션 분야 등이 높은 관심도와 만족도를 나타냈다. 인문 분야에서는 철학, 전쟁사, 역사(서양) 라이프스타일에서는 마음건강 분야가 관심도와 만족도 둘 다 높은 것으로 나타났다. 이와 함께 교육용 콘텐츠가 시대 변화에 민감하게 반응할지라도 회원의 관심과 만족도 제고에는 실패할 수 있다는 사실을 확인할 수 있었다. 최근 콘텐츠 비중은 급증했지만 평균 이하의 만족도를 기록한 IT기술 토픽이 대표적 사례라 할 수 있다. 이를 통해 최고경영자 대상 콘텐츠 제작 시 단순히 기술적 측면의 정보전달에서 끝나는 것이 아닌 기술 적용을 통한 가치혁신에 대한 깊이 있는 시사점을 도출하거나 풍부한 영상 자료를 바탕으로 다양한 볼거리를 제공하는 등 양적인 측면과 함께 질적인 측면을 고려해야 한다는 교훈을 얻을 수 있었다. 본 연구는 포털 사이트 혹은 SNS 자료가 아닌 국내 가장 영향력 있는 이러닝 기업 데이터를 토대로 분석을 진행했기에 보다 심도 있고 실용적인 결과를 도출했다. 또한 이러닝 관련 연구 분야에서 지금까지는 드물었지만 기술의 발달로 점점 연구 조사 방법론으로 기대가 높아진 텍스트마이닝 방법에 대하여 그 적용 가능성을 성공적으로 탐색해 보았다. 기존에는 콘텐츠 운영 현황 분석 시 콘텐츠 프로그램명에 입각, 표면적인 방식으로 분류할 수밖에 없는 한계가 존재했다면 텍스트마이닝 방법론을 활용하면 비정형 데이터 콘텐츠 스크립트를 바탕으로 분석하여 내용을 바탕으로 한 보다 심도 있는 콘텐츠 분류 및 주제 분류를 이끌어 낼 수 있다. 이를 바탕으로 연도에 따른 주제별 콘텐츠 서비스 현황을 도식화한다면 현재 부족한 분야와 필요한 분야에 대한 보다 심도 있는 고찰이 가능하다. 본 연구는 다양한 텍스트마이닝 기법 중에서 이러닝의 상황에서 효과적으로 연구하기 위한 새로운 방법론을 제시했으며 향후 최고경영자 교육 관련 분야별 지적 관심도에 대한 분석에 도움이 될 것으로 기대된다.

고등학생의 건강 및 삶의 질에 대한 진단적 연구 - PRECEDE 모형을 근간으로 - (A Diagnostic Study on High School Students' Health and Quality of Life - Based on the PRECEDE model -)

  • 유재순;홍여신
    • 한국간호교육학회지
    • /
    • 제3권
    • /
    • pp.78-98
    • /
    • 1997
  • Health education, as the most fundamental concept for national health promotion, alms for developing the self-care ability of the general public. High school days are regarded as the period when most important physical, mental and social developments occur, and most health-related behaviors are formed. School health education is one of the major learning resources influencing health potential in the home and community as well as for the individual student. High school health education in Korea has a fundamental systemic flaw in that health-related subjects are divided and taught under various subjects areas at school. In order to achieve the goal of school health education, it is essential to make a systematic assessment of the learner's concerns connected with his health and life, and the factors affecting them. So far, most of the research projects that had been carried out for improving high school health education were limited in their concerns to a particular aspect of health. Even though some had been done in view of comprehensive school health education, they failed to Include a health assessment of the learner. Therefore, in this study the high school students' concerns related to health and life were investigated in the first place on the basis of the PRECEDE model, developed by Green and others for the purpose of a comprehensive diagnostic research on high school health education. This study was done in two steps : one was the basic study for developing research instrument and the other was the main one. The former was conducted at five high schools in Seoul and Cheongju for 2 months-beginning in March, 1996. The students were asked to respond to questions related to their health and lives in unstructured open-ended question forms. On the basis of analysis of the basic study, the diagnostic instruments for the quality of life, health problems, health behavior and educational factors were constructed to be used for the collection of data for main study. An expert panel and the pilot study were used to improve content validity and reliability of the instruments. The reliability of the instruments was measured at between .7697 and .9611 by the Cronbach $\alpha$. The data for this study were collected from the sample consisted of the junior and senior classes of twenty general and vocational high schools in Seoul and Cheongju for two months period beginning in July, 1996. In analyzing the data, both t-test and $X^2$-test were done by using SAS-$PC^+$ Program to compare data between the sexes of the high school students and the types of high school. A canonical correlation analysis was carried out to determine the relationships among the diagnostic variables, and a multivariate multiple regression analysis was conducted by using LISREL 8.03 to ascertain the influences of variables on the high school students' health and quality of life. The results were as follows : 1) The findings of the hypothesis tests (1) The canonical correlation between the educational diagnosis variables and behavioral, epidemiological, social diagnosis variables was .7221, which was significant at the level of p<.001. (2) The canonical correlation between the educational diagnosis variables and the behavior variables was .6851, which also was significant (p<.001). (3) The canonical correlation between the behavioral diagnosis variables and the epidemiological variables was 4295, which was significant (p<.001). (4) The canonical correlation between the epidemiological diagnosis variables and the social variables was .6005, which was also significant (p<.001). Therefore, the relationship between each diagnosis variable suggested by the PRECEDE model had been experimentally proven to be valid, supporting the conceptual framework of the study as appropriate for assessing the multi-dimensional factors affecting high school students' health and quality of life. Health behavior self-efficacy, the level of parents' interest and knowledge of health, and the level of the perception of school health education, all of which are the educational diagnostic variables, are the most influential variables in students' health and quality of life. In particular, health behavior self-efficacy, a causative factor, was one of the main influential variables in their health and quality of life. Other diagnostic variables suggested in the steps of the PRECEDE model were found to have reciprocal relations rather than a unidirectional causative relationship. The significance of this research is that it has diagnosed the needs of high school health education by the learner-centered assessment of variety of factors related to the health and the life of the students. This research findings suggest an integrated system of school health education to be contrived to enhance the effectiveness of the education by strengthening the influential factors such as self-efficacy to improve the health and quality of the lives of high school students.

  • PDF

단일 카테고리 문서의 다중 카테고리 자동확장 방법론 (A Methodology for Automatic Multi-Categorization of Single-Categorized Documents)

  • 홍진성;김남규;이상원
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.77-92
    • /
    • 2014
  • 텍스트에 대한 사용자의 접근성을 향상시키기 위해, 이들 문서는 정해진 기준에 따라 카테고리로 분류되어 제공되고 있다. 과거에는 카테고리 분류 작업이 수작업으로 수행되었지만, 문서 작성자에게 분류를 맡기는 경우 분류 정확성을 보장할 수 없고 관리자가 모든 분류를 담당하는 경우 많은 시간과 비용이 소요된다는 어려움이 있었다. 이러한 한계를 극복하기 위해 카테고리를 자동으로 식별할 수 있는 문서 분류 기법에 대한 연구가 활발하게 수행되었다. 하지만 대부분의 문서 분류 기법은 각 문서가 하나의 카테고리에만 속하는 경우를 가정하고 있기 때문에, 하나의 문서가 다양한 주제를 갖는 실제 상황과 부합하지 않는다는 한계를 갖는다. 이를 보완하기 위해 최근 문서의 다중 카테고리 식별을 위한 연구가 일부 수행되었으나, 이들 연구는 대부분 이미 다중 카테고리가 부여되어 있는 문서에 대한 학습을 통해 분류 규칙을 생성하므로 단일 카테고리만 부여되어 있는 기존 문서의 다중 카테고리 식별에는 적용할 수 없다는 제약을 갖는다. 따라서 본 연구에서는 이러한 제약을 극복하기 위해, 카테고리, 토픽, 문서간 관계 분석을 통해 단일 카테고리를 갖는 문서로부터 추가 주제를 발굴하여 이를 다중 카테고리로 자동 확장시킬 수 있는 방법론을 제안하였다. 실험 결과 원 카테고리가 식별된 총 24,000건의 문서 중 23,089건에 대해 카테고리를 확장시킬 수 있었다. 또한 정확도 분석에서 카테고리의 특성에 따라 카테고리 분류 정확도가 상이하게 나타나는 현상을 발견하였다. 본 연구는 단일 카테고리로 분류된 문서에 대해 다중 카테고리를 추가로 식별하여 부여함으로써, 규칙 학습 과정에서 다중 카테고리가 부여된 문서를 필요로 하는 기존 다중 카테고리 문서 분류 알고리즘의 활용성을 매우 향상시킬 수 있을 것으로 기대한다.

K-Beauty 구전효과가 온라인 매출액에 미치는 영향: 중국 SINA Weibo와 Meipai 중심으로 (Word-of-Mouth Effect for Online Sales of K-Beauty Products: Centered on China SINA Weibo and Meipai)

  • 류미나;임규건
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.197-218
    • /
    • 2019
  • 중국 화장품 전체 교역중 약 67% 정도가 전자상거래로 이루어지고 있는데 특히 한국 화장품인 K-Beauty 제품의 인기가 높다. 기존 연구에 의하면 화장품 같은 소비재의 경우 소비자의 80%는 제품 구매 전 제품정보를 인터넷으로 검색하며 구전정보에 영향을 받는다. 대부분의 중국 소비자들은 화장품과 관련된 정보를 주요 SNS에 다른 소비자들이 올린 댓글을 통해 획득하며 최근에는 뷰티 관련 동영상 채널 정보를 이용하기도 한다. 기존의 온라인 구전 관련 연구는 대부분 Facebook, Twitter, 블로그 등의 매체 자체가 중심이었다. 본 연구에서는 온라인 구전정보의 전달 형태와 정보의 형태를 고려하여 정보유형을 동영상과 사진 및 텍스트로 나누어 연구하고자 한다. 중국의 SNS대표 플랫폼인 SINA Weibo와 동영상 플랫폼 Meipai의 비정형 데이터를 분석하고 온라인 구전정보를 양과 방향성으로 나누어 K-Beauty브랜드 매출액에 미치는 영향을 분석하고자 한다. Meipai에서는 총 약 33만개의 데이터를 수집하였고 SINA Weibo에서는 총 약 11만개의 데이터를 수집하여 화장품의 기본 속성도 고려하여 분석하였다. 본 연구의 의의는 온라인 매출은 K-Beauty화장품에 대해서도 구전에 영향을 받는다는 것을 기본적으로 입증함과 동시에 특히 정보 유형에 대한 구분을 시도 했다는 것이다. 두가지 매체 모두 기존 연구와 같이 양이 매출에 영향을 미치고 있으나 매체풍부성으로 인해 텍스트보다 동영상이 정보를 더 주고 영향이 크다는 것을 입증하였다. 또한, 정보 방향성 측면에서는 색조화장품의 경우 부정 댓글의 영향이 크게 나타났다. 실무적으로는 화장품 판매 전략 및 광고 전략에 기초 및 색조 화장품을 구분하여 중국 K-Beauty화장품 매출증대를 위한 마케팅전략을 구사하는데 도움이 될 것으로 기대된다.