• 제목/요약/키워드: 비정형 텍스트 자료

검색결과 40건 처리시간 0.032초

저출산 대응 정책 비교분석 (육아휴직과 아동수당의 비정형 데이터 중심으로) (Comparative Analysis of Low Fertility Response Policies (Focusing on Unstructured Data on Parental Leave and Child Allowance))

  • 금은영;김도희
    • 문화기술의 융합
    • /
    • 제9권5호
    • /
    • pp.769-778
    • /
    • 2023
  • 본 연구는 현재의 심각한 저출산 문제의 해결방안 중 두 가지 주요정책인 육아휴직과 아동수당의 비정형 데이터를 활용하여 비교분석하고 이를 토대로 관련 대응 정책의 향후 방향과 시사점을 모색하였다. 수집 키워드는 "저출산+육아휴직", "저출산+아동수당"으로 하였으며, 자료분석은 텍스트 빈도분석, 중심성 분석, 네트워크 시각화, CONCOR 분석 순으로 진행하였다. 분석 결과 첫째, 육아휴직은 아동수당 보다 다각적이고 체계적인 논의들이 데이터 분석상 나타남으로써 저출산 대응 정책에 있어 현실적이고 실질적인 정책임을 알 수 있었다. 둘째, 아동수당은 데이터 분석상 아동수당을 포함한 현금지원급여제도에 대한 정보와 관심도는 높은 것으로 나타났으나 그 이외의 특이점이나 적극적인 논의는 이루어지지 않았다. 향후 개선방안으로 두 정책 모두 기존 제도의 활용에 있어 첫째, 육아휴직은 제도의 확산을 위한 근로환경과 사각지대의 개선이 필요하며, 둘째 아동수당은 지급에 있어 획일적이고 편중된 것에서 벗어난 형식의 변화가 모색되어야 하며, 수급연령 확대를 제안하였다.

텍스트 마이닝을 이용한 SNS와 언론의 이슈에 대한 반응 비교 -"한일군사정보보호협정(GSOMIA) 종료"를 중심으로- (Comparison of responses to issues in SNS and Traditional Media using Text Mining -Focusing on the Termination of Korea-Japan General Security of Military Information Agreement(GSOMIA)-)

  • 이수련;최은정
    • 디지털융복합연구
    • /
    • 제18권2호
    • /
    • pp.277-284
    • /
    • 2020
  • 텍스트마이닝은 비정형, 대용량의 텍스트 자료로부터 유의미한 정보를 추출하는 빅데이터 분석의 대표적인 방법이다. 트위터와 같은 SNS는 1초에서 수십만건의 데이터를 생성해내며 대중들의 의견이나 생각 등을 즉각적이며 직접적으로 보여주는 1인 미디어로의 역할을 하고 있다. 기성 미디어인 언론은 정보전달, 사회비판, 여론형성의 기능을 수행하고 있다. 본 논문에서는 미디어로의 SNS와 언론을 비교해 보고자 한다. 이를 위해 2019년 하반기 국내의 이슈 중의 하나인 "한일군사정보보호협정(GSOMIA) 종료"에 대한 SNS의 반응과 언론의 반응을 비교 분석한다. 수집된 데이터는 총 201,728개의 트윗과 20,698개의 신문 기사를 대상으로 감성분석, 연관분석, 군집분석을 수행하였다. 그 결과로 SNS의 경우 이슈에 대해 긍정적 반응이 높았고 언론의 경우는 부정적 반응이 높았다. 연관검색의 경우는 SNS의 경우 "파기, 결정, 우리" 등 국내적 이슈에 대한 지지가 높았고 언론의 경우 "실망, 유감, 우려" 등으로 대외적 이슈에 대한 부정적 견해를 보여주는 차이를 보여주었다. SNS는 정보전달의 기능보다는 사회 비판 및 여론의 추이를 살피거나 형성하는데 언론보다 빠르고 강하게 나타내고 있어 언론이 대중의 인식을 반영해주는 역할을 보완할 수 있다.

지도학습 오토인코더를 이용한 전문어의 범용어 공간 매핑 방법론 (Domain-Specific Terminology Mapping Methodology Using Supervised Autoencoders)

  • 윤병호;김준우;김남규
    • 경영정보학연구
    • /
    • 제25권1호
    • /
    • pp.93-110
    • /
    • 2023
  • 최근 비정형 자료인 텍스트를 벡터로 변환하고 이를 통해 다양한 목적으로 방대한 양의 자연어를 분석하는 시도가 이루어지고 있다. 특히 코퍼스 규모가 제한적일 수밖에 없는 전문적인 도메인의 텍스트에 대해서도 분석 수요가 급증하면서, 해당 전문 분야의 문서를 범용 문서와 함께 분석하기 위한 연구가 활발하게 이루어지고 있다. 특정 전문어를 해당 전문어 코퍼스 외부의 일반적인 범용어와 함께 분석하기 위해서는, 전문어 임베딩 공간을 범용어 임베딩 공간과 일치시키는 것이 필요하다. 기존에는 변환 행렬 또는 매핑 함수 등을 통해 전문어 코퍼스로부터 얻은 전문어 임베딩 값을 범용어 임베딩 공간으로 변환, 일치시키려는 시도가 있었지만, 변환 행렬을 기반으로 하는 선형 변환은 국지적인 범위에서만 근사적인 변환 효과가 있다는 일반적인 선형 변환의 한계를 극복하지 못했다. 이러한 선형 변환의 한계를 극복하기 위해 최근에는 다양한 형태의 비선형적인 변환 방법이 제안되고 있으며, 본 연구에서는 오토인코더(Autoencoder)와 회귀 모델을 동시에 학습하는 종단형 학습을 통해 전문어 임베딩 공간을 범용어 임베딩 공간으로 변환하여 임베딩 공간을 일치시키는 모델을 제안한다. 실제 "보건의료" 분야의 R&D 문서에 대해 임베딩 변환 실험을 진행한 결과, 제안 방법론이 기존의 오토인코더를 활용한 방법 대비 변환 정확도 측면에서 우수한 성능을 보임을 확인하였다.

우울과 스트레스에 관한 국내 연구 분석 : 치료와 대상자를 중심으로 (Analysis of Domestic Research on Depression and Stress : Focused on the Treatment and Subjects)

  • 조남희;나은영
    • 융합정보논문지
    • /
    • 제7권6호
    • /
    • pp.53-59
    • /
    • 2017
  • 본 연구는 우울 및 스트레스와 관련된 국내 연구를 파악하기 위해 시도되었다. 분석대상은 2016년 11월 30일을 기준으로 우울, 스트레스 키워드로 검색된 1,875편의 국회도서관 등재 학위논문으로 하였다. 분석방법은 텍스트마이닝 기법의 하나인 워드 클라우드로 비정형 자료를 시각화하였다. 또한, 치료와 대상자를 분류하기 위해서는 잠재디리클레 할당(LDA), R의 LDA패키지를 사용하였다. 분석 결과, 치료 관련 키워드를 가지고 있는 논문은 전체 논문 중 233건(12.4%)이었다. 치료방법의 적용은 미술치료, 음악치료, 원예치료, 인지행동치료, 임상미술치료, 인지치료, 심리치료, 우울증치료, 집단치료, 웃음치료 순으로 나타났다. 연구 대상자는 청소년, 노인, 환자, 어머니, 아동, 여성, 부모, 대학생 순으로 나타났다. 청소년을 대상으로 한 LDA 토픽분석 결과 자아지지, 치료프로그램, 관계효과, 변인연구의 4개의 토픽으로 분류되었다. 본 연구 결과는 우울과 스트레스 관련 향후 연구에서 연구 대상자와 주제의 다양화 및 새로운 치료방법의 적용과 개발을 탐색하는 기초자료로 활용될 수 있을 것으로 기대된다.

텍스트 마이닝 기법을 활용한 설문 문항 개선에 관한 연구 (A Study on Questionnaire Improvement using Text Mining)

  • 백연지;정창현
    • 해양환경안전학회지
    • /
    • 제26권2호
    • /
    • pp.121-128
    • /
    • 2020
  • 국민의 해양안전문화 수준을 객관적으로 측정하고 해양안전문화 확산을 위한 자료로 활용하고자 2018년에 해양안전문화지수를 개발하였다. 안전문화지수를 산출하는 방법은 안전문화에 영향을 줄 만한 이슈를 포함해야 하고 현 실태를 측정할 수 있는 문항으로 구성되어야 한다. 또한, 사회적·경제적 변화에 따라 지속적인 검증과 보완이 요구된다. 해양 전문가에 의해 설계된 설문 문항이 국민의 관심사와 요구를 잘 반영하고 있는지 확인하기 위해 915명의 해양안전 관련 제안 내용을 분석하였다. 비정형 데이터인 해양안전 제안 내용을 분석하기 위해 텍스트 마이닝 기법을 활용하였으며, 네트워크 분석과 토픽 모델링을 수행하였다. 해양안전 제안을 분석한 결과 '교육', '홍보', '안전수칙', '의식', '전문 인력', '시스템'에 관한 내용이 주를 이루었다. 해양안전 제안 사항이 2019년 설문 문항에 반영되도록 18개의 문항을 수정·보완하였고, 설문 문항의 신뢰도를 분석한 결과 내적 일관성은 0.895로 높게 평가되었으며 전년 대비 향상되었다. 해양 관련 전문가뿐만 아니라 국민의 요구사항까지 반영한 개선된 설문 문항으로 해양안전문화지수를 도출함으로써 해양안전문화 확산을 위한 정책 수립에 더 기여할 것으로 기대된다.

토픽 모델링을 활용한 한국의 플랫폼정부 연구동향 분석 (A Study on the Research Trends on Domestic Platform Government using Topic Modeling)

  • 서병조;신선영
    • 정보화정책
    • /
    • 제24권3호
    • /
    • pp.3-26
    • /
    • 2017
  • 온라인에서 생성되는 비정형 데이터가 기하급수적으로 증가하고 있으며 이중에서도 텍스트 데이터에 대한 분석이 다양한 분야에서 이루어지고 있다. 본 연구는 국내 지능정보사회 대비를 위한 플랫폼 정부의 연구 동향을 규명하기 위하여 국내 논문DB인 디비피아(www.dbpia.co.kr)에서 플랫폼 정부를 주제로 한 학술논문들의 제목과 연도, 학회, 초록 정보를 수집하였다. 본 연구에서 국내의 연구현황, 연구주제, 연구 분야 추이 등을 텍스트마이닝의 토픽 모델링 기법을 활용하여 분석하였다. 지능정보사회 대비를 위한 플랫폼 정부 전반적인 분야에 대해 기존 연구결과를 바탕으로 국내 국가정보화 추진 단계별 플랫폼 정부 관련 논문에서 기술, 서비스, 거버넌스로 잠재된 토픽을 추출하고, 연도별로 핵심 토픽의 추이를 분석하였다. 본 연구는 지능정보시대를 맞아 민간이 혁신을 주도하고 정부는 조력자 또는 촉진자 역할을 통해 국가사회 혁신이 이뤄질 수 있는 장을 조성해야 한다는 플랫폼 정부라는 정부의 새로운 역할에 대한 근거를 제시하였다는 데 의의를 지닌다. 플랫폼 정부의 국내연구 현황에 대한 객관적인 분석을 통해 플랫폼 정부 연구의 현주소를 이해하고 향후 발전방향을 모색함으로써, 향후 연구에 기여하는 참고자료를 제공할 수 있을 것으로 기대된다.

사용자 관심 이슈 분석을 통한 추천시스템 성능 향상 방안 (Improving Performance of Recommendation Systems Using Topic Modeling)

  • 최성이;현윤진;김남규
    • 지능정보연구
    • /
    • 제21권3호
    • /
    • pp.101-116
    • /
    • 2015
  • 많은 기관들이 데이터에 기반을 둔 의사결정을 수행해 왔으며, 특히 수치자료를 비롯한 정형 데이터가 이러한 목적으로 널리 활용되어 왔다. 하지만 최근에는 스마트기기와 소셜미디어의 발달로 인해 다양한 형태를 가진 방대한 양의 정보가 생성, 공유, 저장되면서, 전통적인 정형 데이터 기반 의사결정으로부터 비정형 빅데이터 기반 의사결정으로 관심의 전환이 이루어지고 있다. 데이터 기반 의사결정의 대표적 분야인 추천시스템 분야에서도 성능 향상을 위해 비정형 데이터를 활용해야 한다는 필요성이 최근 꾸준히 제기되고 있다. 특히 사용자의 성향이나 선호도는 고객의 니즈와 직결되기 때문에, 비정형 데이터 분석을 통해 사용자의 성향을 파악하고 이를 통해 상품 추천 및 구매 예측의 정확도를 향상시키기 위한 노력이 매우 시급하게 이루어질 필요가 있다. 따라서 본 연구에서는 사용자의 성향을 측정하여 재구매 예측 정확도, 특히 카테고리별 재구매 예측 정확도를 높임으로써, 궁극적으로 추천시스템의 성능을 향상시킬 수 있는 방안을 제시한다. 구체적으로는 사용자의 일상적인 인터넷 사용 기록을 분석하여 고객이 조회하는 뉴스 기사의 이슈를 식별하고 다양한 이슈에 대한 고객의 관심을 계량화한 후, 이를 활용하여 고객의 카테고리별 재구매 여부를 예측하는 모델을 제안하고자 한다. 실제 웹 트랜잭션으로부터 도출된 인터넷 뉴스 조회 기록 및 쇼핑몰 구매 기록을 대상으로 실험을 수행한 결과, 고객의 과거 구매이력만을 활용한 카테고리 재구매 예측 모형에 비해 본 연구에서 제안한 모형, 즉 고객의 과거 구매이력과 관심 이슈를 모두 활용한 예측 모형의 정확도가 다소 우수한 것으로 나타났다.

텍스트마이닝을 통한 최고경영자 대상 이러닝 콘텐츠 트렌드 분석 (Text Mining-Based Emerging Trend Analysis for e-Learning Contents Targeting for CEO)

  • 김경훈;채명신;이병태
    • 경영정보학연구
    • /
    • 제19권2호
    • /
    • pp.1-19
    • /
    • 2017
  • 본 연구는 텍스트마이닝 기법 중 토픽 분석을 활용하여 관련 업계 국내 1위 S사(社)의 최고경영자 대상 온라인 교육 콘텐츠 강의 중심으로 원문 스크립트를 분석했다. 지난 5년간(2011~2015)년 서비스된 총 4,824개 콘텐츠를 바탕으로 핵심 키워드를 추출한 다음 주제별 22가지 토픽으로 분류한 후 동향 분석을 수행했다. 이를 통해 최근 콘텐츠 비중이 급증하고 있는 토픽 주제를 확인할 수 있었다. 다음으로 토픽 분석을 통해 분류한 토픽 및 카테고리를 바탕으로 회원 평가 요인을 적용해 카테고리 및 각 토픽별 지적 관심도를 체계화 할 수 있었다. 경영·경제 분야에서는 마케팅전략, 인사/조직, 커뮤니케이션 분야 등이 높은 관심도와 만족도를 나타냈다. 인문 분야에서는 철학, 전쟁사, 역사(서양) 라이프스타일에서는 마음건강 분야가 관심도와 만족도 둘 다 높은 것으로 나타났다. 이와 함께 교육용 콘텐츠가 시대 변화에 민감하게 반응할지라도 회원의 관심과 만족도 제고에는 실패할 수 있다는 사실을 확인할 수 있었다. 최근 콘텐츠 비중은 급증했지만 평균 이하의 만족도를 기록한 IT기술 토픽이 대표적 사례라 할 수 있다. 이를 통해 최고경영자 대상 콘텐츠 제작 시 단순히 기술적 측면의 정보전달에서 끝나는 것이 아닌 기술 적용을 통한 가치혁신에 대한 깊이 있는 시사점을 도출하거나 풍부한 영상 자료를 바탕으로 다양한 볼거리를 제공하는 등 양적인 측면과 함께 질적인 측면을 고려해야 한다는 교훈을 얻을 수 있었다. 본 연구는 포털 사이트 혹은 SNS 자료가 아닌 국내 가장 영향력 있는 이러닝 기업 데이터를 토대로 분석을 진행했기에 보다 심도 있고 실용적인 결과를 도출했다. 또한 이러닝 관련 연구 분야에서 지금까지는 드물었지만 기술의 발달로 점점 연구 조사 방법론으로 기대가 높아진 텍스트마이닝 방법에 대하여 그 적용 가능성을 성공적으로 탐색해 보았다. 기존에는 콘텐츠 운영 현황 분석 시 콘텐츠 프로그램명에 입각, 표면적인 방식으로 분류할 수밖에 없는 한계가 존재했다면 텍스트마이닝 방법론을 활용하면 비정형 데이터 콘텐츠 스크립트를 바탕으로 분석하여 내용을 바탕으로 한 보다 심도 있는 콘텐츠 분류 및 주제 분류를 이끌어 낼 수 있다. 이를 바탕으로 연도에 따른 주제별 콘텐츠 서비스 현황을 도식화한다면 현재 부족한 분야와 필요한 분야에 대한 보다 심도 있는 고찰이 가능하다. 본 연구는 다양한 텍스트마이닝 기법 중에서 이러닝의 상황에서 효과적으로 연구하기 위한 새로운 방법론을 제시했으며 향후 최고경영자 교육 관련 분야별 지적 관심도에 대한 분석에 도움이 될 것으로 기대된다.

키밸류 저장소 성능 제어를 위한 삭제 키 분리 LSM-Tree (A Tombstone Filtered LSM-Tree for Stable Performance of KVS)

  • 이은지
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권4호
    • /
    • pp.17-22
    • /
    • 2022
  • 최근 웹 서비스의 확산과 함께 데이터의 형태는 더욱 다양해지고 있다. 이미지, 동영상, 텍스트 등 데이터를 저장하는 형태 뿐 아니라 해당 데이터를 표현하는 속성 및 메타데이터 등도 개수 및 형태가 데이터 별로 상이하다. 이러한 비정형 데이터를 효율적으로 처리하기 위해 키밸류 스토어(Key-Value Store)의 사용이 확산되고 있다. LSM-Tree(Log Structured Merge Tree)는 다양한 상용 키밸류 스토어의 핵심 자료구조이다. LSM-Tree 는 모든 쓰기 및 삭제 연산을 로그 방식으로 기록함으로써 소량의 쓰기에 높은 성능을 제공하도록 최적화 되어 있다. 그러나 최근 유효성 만료 데이터의 대용량 삭제 연산이 LSM-Tree에 특수 키밸류 데이터로 삽입됨에 따라 사용자 요청의 지연시간 및 처리속도가 저하된다는 문제점이 있다. 본 논문은 기존 LSM-Tree의 장점을 모두 유지하면서도 삭제된 키를 주요 트리 구조에서 분리하여 상기 문제를 해결하는 Filtered LSM-Tree (FLSM-Tree)를 제안한다. 제안하는 기법은 상용 키밸류 저장소인 LevelDB에 구현되었으며 성능 평가에서 읽기 성능이 최대 47% 향상됨을 보인다.

사물인터넷 동향분석을 통한 Co-creation기반 스마트시티 구축 방안 (A Development Plan for Co-creation-based Smart City through the Trend Analysis of Internet of Things)

  • 박주섭;홍순구;김나랑
    • 한국산업정보학회논문지
    • /
    • 제21권4호
    • /
    • pp.67-78
    • /
    • 2016
  • 최근 세계 각국은 교통난, 주택난, 에너지 부족 등 많은 도시 문제를 해결하고 삶의 질을 높이기 위해 스마트시티 프로젝트를 적극적으로 추진하고 있다. 이는 사물인터넷의 발달로 인해 도시 자원의 효율적 통제 및 재사용을 통한 지속가능성, 편리성 및 친환경성을 갖춘 스마트시티의 구축이 가능해졌기 때문이다. 본 연구의 목적은 사물인터넷 기술 동향을 분석하고 사물인터넷 활용분야 가운데 하나인 스마트시티 구축을 위한 방안을 제시하는 데 있다. 이를 위해 비정형 데이터 분석의 하나인 텍스트마이닝 기법을 활용하여 2013년부터 2015년까지 전자신문 기사를 분석하였고 외국의 스마트시티 구축 사례를 조사하였다. 분석결과 빅데이터, 클라우드, 플랫폼, 센서 등이 스마트시티와 밀접한 관계가 있었다. 스마트시티의 성공적 구축을 위해서는 첫째, 도시내 이해관계자들이 모두 협력하여 가치사슬 전 과정에서 새로운 가치를 창출해내야 한다. 둘째, 빅데이터를 적극 활용하여야 하고 공공분야 데이터를 지금보다 더 적극적으로 개방하여야 한다. 본 연구는 빅데이터 분석 방법을 제시하여 후속 연구를 유발하였다는 학문적 기여도가 있다. 또한 실제 지방정부 및 행정기관에서 스마트시티 구축을 위한 정책 수립의 자료로 활용될 수 있는 실무적인 기여도가 있다. 본 연구에서는 사물인터넷 기술 동향을 분석하기 위해 '전자신문' 기사만을 선정하여 분석하였기 때문에 전체 동향을 반영하는 데 제한이 있을 수 있다.