• 제목/요약/키워드: 텍스트 빈도 분석

검색결과 342건 처리시간 0.027초

온라인 정보 보호: 소셜 미디어 내 정보 유출 반응 분석 (Online Privacy Protection: An Analysis of Social Media Reactions to Data Breaches)

  • 서승우;고영준;이홍주
    • 지식경영연구
    • /
    • 제25권1호
    • /
    • pp.1-19
    • /
    • 2024
  • 최근 개인 정보 유출 사건이 빈번히 발생하고 빈도가 갈수록 증가하는 추세이지만, 개인 정보 유출 사건에 대한 사회나 정보주체인 시민들의 반응은 크게 대두되고 있지 않다. 또한, 개인 정보 유출 사건들에 대한 정보 주체의 반응을 여러 해 기간동안의 데이터에 기반하여 비교하는 연구는 많이 수행되어 있지 않다. 따라서, 본 연구는 2014년 1월부터 2022년 10월까지 국내에서 발생한 주요 개인정보 유출 사건들에 대한 정보주체의 소셜미디어 반응 변화를 분석하였다. 각 사건들이 발생한 직후 일주일간의 기간 동안 네이버 블로그에 작성된 총 1,317건의 포스팅을 수집하였다. 이 포스팅들에 대해 LDA 토픽 모델링 기법을 적용하여 주제를 분석한 결과, 개인정보 유출, 해킹, 정보기술 등 5개의 주요 토픽이 도출되었다. 토픽 분포의 시간변화를 분석한 결과, 개인정보 유출 사건 직후에는 해당 사건에 대한 직접적인 언급 토픽의 비중이 가장 높았으나, 시간이 지나면서 개인정보 유출과 간접적으로 관련된 토픽의 언급 비중이 증가하는 것을 확인하였다. 이는 개인정보 유출 사건 발생 후 정보주체의 관심이 시간이 지남에 따라 해당 사건에서 벗어나 관련 토픽으로 옮겨지고, 개인정보 보호에 대한 관심 또한 줄어든다는 것을 의미한다. 본 연구 결과는 향후 개인정보 유출 사건 이후 정보주체의 프라이버시 인식 변화에 대한 연구의 필요성을 시사한다.

텍스트 마이닝을 이용한 부동산경기 순환기별 부동산 투자심리 특성 연구 (A Study on the Characteristics of Real Estate Investment Sentiment by Real Estate Business Cycle Using Text Mining)

  • 이현정;오윤경
    • 토지주택연구
    • /
    • 제15권3호
    • /
    • pp.113-127
    • /
    • 2024
  • 부동산 시장에서 언론매체는 투자정보의 주요 출처로, 투자심리 변화에 큰 영향을 미친다. 본 연구는 2012년 1월부터 2022년 12월까지 전국 주택 및 토지 거래량 지표를 기준으로 부동산경기를 3개의 순환기로 나누어 분석하였다. 빅카인즈에서 제공하는 54개의 언론매체로부터 '부동산 투자심리' 검색어로 수집된 기사 중 제목 3,387건, 본문 8,544건을 대상으로 주요 단어를 빈도 분석하고, LDA 기법을 적용하여 토픽 모델링 분석을 수행하였다. 분석 결과, 제1순환기(2012-2015)에는 아파트 분양시장 관련 기사가 주를 이루며, 실수요와 투자 수요의 기대에 대한 보도가 많았다. 정책 변화에 대한 기대가 투자심리에 영향을 미쳤으나, 실제 투자로 이어지지 않는 경우도 많았다. 제2순환기(2016-2018)에는 금리 인상 및 집값 상승에 대한 기사가 많았으며, 수도권 및 강남지역의 부동산 가격 상승 기대가 주요 투자심리를 형성했다. 금리 변화와 연계된 부동산 거래량 변화가 많이 보도되었다. 제3순환기(2019-2022)에는 COVID-19 위기와 부동산 시장의 불안과 양극화, 정부 정책의 실패로 인한 투자심리의 왜곡과 쏠림 현상을 비판하는 내용이 많았다. 부동산 시장의 혼란과 가격 하락, 실질적인 거래 감소가 언론에 많이 보도되었으며, 이는 투자심리의 위축으로 이어졌다. 요약하면, 각 순환기마다 부동산 정책, 금리, 경제적 사건들이 투자심리에 중요한 영향을 미쳤으며, 언론보도는 이러한 심리 변화를 반영하고 있는 것으로 나타났다.

Word2Vec 기반의 의미적 유사도를 고려한 웹사이트 키워드 선택 기법 (Web Site Keyword Selection Method by Considering Semantic Similarity Based on Word2Vec)

  • 이동훈;김관호
    • 한국전자거래학회지
    • /
    • 제23권2호
    • /
    • pp.83-96
    • /
    • 2018
  • 문서를 대표하는 키워드를 추출하는 것은 문서의 정보를 빠르게 전달할 수 있을 뿐만 아니라 문서의 검색, 분류, 추천시스템 등의 자동화서비스에 유용하게 사용 될 수 있어 매우 중요하다. 그러나 웹사이트 문서에서 출현하는 단어의 빈도수, 단어의 동시출현관계를 통한 그래프 알고리즘 등의 기반으로 키워드를 추출할 경우 웹페이지 구조상 잠재적으로 주제와 관련이 없는 다양한 단어를 포함하고 있는 문제점과 한국어 형태소 분석의 정확성이 떨어지는 형태소 분석기 성능의 한계점 때문에 의미적인 키워드를 추출하는데 어려움이 존재한다. 따라서 본 논문에서는 의미적 단어 위주로 구축된 후보키워드들의 집합과 의미적 유사도 기반의 후보 키워드를 선택하는 방법으로써 의미적 키워드를 추출하지 못하는 문제점과 형태소 분석의 정확성이 떨어지는 문제점을 해결하고 일관성 없는 키워드를 제거하는 필터링 과정을 통해 최종 의미적 키워드를 추출하는 기법을 제안한다. 실 중소기업 웹페이지를 통한 실험 결과, 본 연구에서 제안한 기법의 성능이 통계적 유사도 기반의 키워드 선택기법보다 34.52% 향상된 것을 확인하였다. 따라서 단어 간의 의미적 유사성을 고려하고 일관성 없는 키워드를 제거함으로써 문서에서 키워드를 추출하는 성능을 향상시켰음을 확인하였다.

해양사고 온톨로지 구축 및 데이터 관리방안 연구: 서해남부해역 선박사고 상황보고서 분석을 중심으로 (A Study on Marine Accident Ontology Development and Data Management: Based on a Situation Report Analysis of Southwest Coast Marine Accidents in Korea)

  • 이영재;강성경;구자영
    • 해양환경안전학회지
    • /
    • 제25권4호
    • /
    • pp.423-432
    • /
    • 2019
  • 매년 해양활동이 증가하며 해양사고 발생빈도가 높아지고 있다. 이에 따라 해양안전을 위한 각종 연구 활동과 정책이 실행되고 있다. 하지만 이러한 노력에도 불구하고 매년 해양사고가 증가하고 있어 이들의 실효성에 대한 문제가 제기되고 있다. 문헌연구 결과에 따르면, 통계연보를 활용한 선행연구는 통계제공항목 간 비교를 통해 두드러지는 항목에 대한 예방책을 제시하고 있다. 2000년대 이후에는 대형 해양사고가 반복적으로 발생하면서 '사고대응'에 대한 사례연구(case study)가 진행되고 있다. 국내 해양안전을 위한 정책수립 연구과정에서 통계연보나 사고사례를 주 자료로 활용하고 있으나 현재 자료는 사후결과 요약정도의 수준이다. 따라서 본 연구에서는 해양사고 사례분석 및 개선방안 관련 문헌연구를 통해 현행 해양관련 연구와 정책의 한계를 탐색하였다. 또한 자료 활용 한계를 개선하기 위한 방안의 일환으로 선박사고 상황보고서 속성분석, 텍스트 마이닝을 통해 해양사고 정보 분류체계인 온톨로지(ontology)를 수정 보완하였다. 해당 항목은 '신고자, 신고수단, 구조세력, 대응 조치사항, 대응취약성, 적재물, 유류유출경위, 피해유형, 사고처리결과'이며, 이 항목들은 분류체계 표준용어를 활용해 향후 지속적으로 수집 활용할 수 있다. 마지막으로 온톨로지를 실질적으로 활용하기 위한 데이터 수집 및 품질확보 방안을 제시했다. 결과적으로 현재 해양안전이 직면한 문제를 명확히 파악하고 '품질이 확보된 충분한 정보'를 활용한다면 보다 다양한 연구와 실효성 있는 정책 실현이 가능할 것이다.

지방자치단체의 스마트시티 조례 분석: 토픽모델링을 활용하여 (Analysis of Municipal Ordinances for Smart Cities of Municipal Governments: Using Topic Modeling)

  • 서형준
    • 정보화정책
    • /
    • 제30권1호
    • /
    • pp.41-66
    • /
    • 2023
  • 본 연구는 72개 지자체의 74개 스마트시티 조례를 대상으로, 지자체 스마트시티 조례의 방향성을 확인하고자 토픽모델링을 활용하여 조례의 주요 키워드를 확인하고, 조례의 키워드에 따른 주제분류를 진행하였다. 분석결과 주요 키워드는 스마트도시위원회의 구성 및 운영에 관한 키워드가 조례 내에서 높은 빈도를 보였다. 조례에 대한 토픽모델링 Latent Dirichlet Allocation(LDA) 분석결과 관련 키워드에 따라 총 8개의 주제로 분류할 수 있었다. 구체적으로 주제-1(스마트시티 추진사항 보안), 주제-2(스마트시티 산업진흥), 주제-3(스마트시티 주민협의체 구성), 주제-4(스마트시티 추진체계 지원), 주제-5(개인정보 관리), 주제-6(스마트시티 데이터 활용), 주제-7(지능정보화 행정구현), 주제-8(스마트시티 홍보) 등으로, 주제의 비중은 주제-6, 주제-4, 주제-1 등의 순으로 나타났다. 권역별 주제분류는 수도권은 주제-5, 주제-6, 주제-8 의 비중이 높았고, 지방권은 주제-2, 주제-3, 주제-4의 비중이 높아 수도권은 스마트시티의 실질 운영 관련 주제가 높았고, 지방권은 스마트시티 추진을 위한 준비단계 관련 주제 비중이 높았다.

상호작용적 독해 과정에서 생성된 질문과 답변의 분석을 통한 교사용 지도서와 초등예비교사의 내용지식 사이의 불일치 탐색 -'그림자와 거울' 단원을 중심으로 (An Exploration of Discrepancies between Text and Content Knowledge of Pre-service Elementary Teachers through an Analysis of Questions and Answers Created in the Interactive Reading of a Teacher's Guide: Focusing on a 'Shadow and Mirror' Unit)

  • 고아라;이지원
    • 한국과학교육학회지
    • /
    • 제43권3호
    • /
    • pp.253-263
    • /
    • 2023
  • 이 연구에서는 초등학교 과학 빛의 직진과 반사 단원의 교사용 지도서 텍스트와 초등예비교사의 내용 지식 체계 사이의 불일치를 탐색하였다. 이를 위하여 교육대학교에 재학 중인 초등예비교사 279명이 교사용 지도서의 '그림자와 거울' 단원의 정해진 분량을 읽고 생성한 과학 지식에 대한 질문 455개와 답변 543개를 분석하였다. 질문은 과학 개념의 종류와 불일치 유형에 따라 분류하였고, 답변은 정확도를 분석하였다. 질문의 과학 개념을 분석한 결과, 초등예비교사들은 직진 개념에서는 그림자에 대해, 반사에서는 상에 대해, 그 외 개념에서는 광원에 대해 가장 궁금해하였다. 부정확한 답변이나 무응답률이 높아서 정답률이 낮은 질문은 반사에 의한 빛의 중첩, 실험도구의 원리, 렌즈에 의한 상 등으로 초등과학 교육과정에 일부포함되어 있거나 심화된 내용이었다. 불일치 유형에 따라 질문은 분류하면, 지식 충돌에 의한 질문보다 지식 결핍에 의한 질문 빈도가 89.5%로 높게 나타났으며, 지식 결핍 유형 중 현상의 원인에 대한 설명 요구 유형이 45.9%로 질문도 가장 많고, 답변의 정확도도 가장 낮았다. 이를 통해 초등예비교사의 지식 결핍에 의한 인지적 불일치가 해소될 수 있도록 초등교육과정에 현상 중심으로 제시되어 다루지 않는 개념이라도 교사가 알아야 할 개념은 교사용 지도서의 내용을 보강할 필요가 있다는 것을 확인하였다. 또한 교과서에 제시된 실험을 현장의 상황에 맞게 재구성할 때 정확한 실험이 이루어질 수 있도록 실험 설정의 이유와 실험 도구의 작동 원리에 대한 추가 설명을 지도서에 포함해야 할 필요가 있다는 것을 확인하였다. 지식 충돌에 의한 불일치는 현실에서 경험하는 것과 교과용 지도서에 제시된 내용이 충돌하여 생기는 사례가 많았다. 따라서 이를 해소하기 위해 우리 삶의 실제 맥락과 교과서 맥락에 대한 차이를 교사용 지도서에 포함하여 교사용 지도서 텍스트와 초등예비교사의 지식 사이의 불일치를 줄일 필요가 있다.

잠재 토픽 기반의 제품 평판 마이닝 (Latent topics-based product reputation mining)

  • 박상민;온병원
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.39-70
    • /
    • 2017
  • 최근 여론조사 분야에서 데이터에 기반을 둔 분석 기법이 널리 활용되고 있다. 기업에서는 최근 출시된 제품에 대한 선호도를 조사하기 위해 기존의 설문조사나 전문가의 의견을 단순 취합하는 것이 아니라, 온라인상에 존재하는 다양한 종류의 데이터를 수집하고 분석하여 제품에 대한 대중의 기호를 정확히 파악할 수 있는 방안을 필요로 한다. 기존의 주요 방안에서는 먼저 해당 분야에 대한 감성사전을 구축한다. 전문가들은 수집된 텍스트 문서들로부터 빈도가 높은 단어들을 정리하여 긍정, 부정, 중립을 판단한다. 특정 제품의 선호를 판별하기 위해, 제품에 대한 사용 후기 글을 수집하여 문장을 추출하고, 감성사전을 이용하여 문장들의 긍정, 부정, 중립을 판단하여 최종적으로 긍정과 부정인 문장의 개수를 통해 제품에 대한 선호도를 측정한다. 그리고 제품에 대한 긍 부정 내용을 자동으로 요약하여 제공한다. 이것은 문장들의 감성점수를 산출하여, 긍정과 부정점수가 높은 문장들을 추출한다. 본 연구에서는 일반 대중이 생산한 문서 속에 숨겨져 있는 토픽을 추출하여 주어진 제품의 선호도를 조사하고, 토픽의 긍 부정 내용을 요약하여 보여주는 제품 평판 마이닝 알고리즘을 제안한다. 기존 방식과 다르게, 토픽을 활용하여 쉽고 빠르게 감성사전을 구축할 수 있으며 추출된 토픽을 정제하여 제품의 선호도와 요약 결과의 정확도를 높인다. 실험을 통해, K5, SM5, 아반떼 등의 국내에서 생산된 자동차의 수많은 후기 글들을 수집하였고, 실험 자동차의 긍 부정 비율, 긍 부정 내용 요약, 통계 검정을 실시하여 제안방안의 효용성을 입증하였다.

에바 알머슨 작품 연구 -보편성의 미, 미술과 디자인의 탈경계를 중심으로- (A Study on Eva Armisen's Artworks -Focused on Beauty of Universality, Deterritorialization of Art and Design-)

  • 변현진
    • 한국콘텐츠학회논문지
    • /
    • 제16권8호
    • /
    • pp.435-447
    • /
    • 2016
  • 21세기로 접어들면서 순수미술과 디자인과의 교류 및 융합 현상이 더욱 활발해 졌다. 이 논문에서는 현재 왕성한 활동을 하고 있는 스페인 출신의 예술가 에바 알머슨의 주요 작품을 분석하였다. 이를 토대로, 동시대 미술과 문화의 특성이 반영된 그녀의 작품 세계를 보다 깊이 이해할 수 있는 학술적 틀을 제시하고자 하였다. 에바 알머슨의 작품을 분석한 결과, 그녀의 작품의 주요 주제는 대중들에게 잘 알려진 일상이나 동심보다는 인간 관계성, 즉 타인과의 관계 속에서 가져야 할 인간으로서 바람직한 태도 등 사회성 측면에 더 비중이 높다는 것이 밝혀졌다. 알머슨의 작품에서 특히 여성 성인 캐릭터가 전체 작품 중 등장 빈도가 가장 높고 각 작품 주제를 전달하는 중요한 역할을 한다. 이 캐릭터는 그녀이 심미적 원인, 시대적 특성, 문화적 요소가 어우러져 이미지가 형성된 것으로 볼 수 있다. 20세기의 상황과는 다르게, 현재 알머슨의 작품 속 여성 인물이 대중의 사랑을 받고 있다는 것으로서, 대중들이 미를 향유하는 영역이 순수미에서 보편성의 미로 변화 확장되고 있다는 것을 알 수 있었다. 또한 그녀의 캐릭터적 여성 인물이 순수미술의 특성과 캐릭터 디자인의 특성을 동시에 갖추고 있는 점과, 알머슨의 작품이 갤러리에서 거래됨과 동시에 마트에서도 구매할 수 있는 상품의 모습 갖추고 거래된다는 점 등에서 포스트모던작품의 특징인 미술과 디자인의 탈경계 현상이 알머슨의 작품에서도 드러남을 알 수 있었다. 하지만 그녀 작품의 텍스트와 이미지의 관계, 독창적인 조형요소, 아포리즘적 특성 등은 앞으로 더 연구해야 할 과제로 남아 있다.

특허 등록 예측을 위한 특허 문서 분석 방법 (Analysis method of patent document to Forecast Patent Registration)

  • 구정민;박상성;신영근;정원교;장동식
    • 한국산학기술학회논문지
    • /
    • 제11권4호
    • /
    • pp.1458-1467
    • /
    • 2010
  • 최근 지식재산권의 모방과 권리 침해는 국가 산업발전의 저해요소로 인식되고 있다. 많은 연구자들은 이러한 저해요소로 인하여 발생하는 막대한 손실을 막기 위해 지식재산권의 보호와 효율적 관리에 관한 연구를 다양하게 진행 중이다. 특히, 특허 등록 예측은 지식재산권 보호와 권리 주장을 위해 매우 중요한 연구이다. 본 연구는 텍스트 마이닝 기법을 이용한 특허문서 분석을 통하여 특허 등록 및 거절 여부를 예측하는 방법을 제안한다. 먼저 거절된 특허문서들의 단어 빈도수를 이용하여 데이터베이스를 생성한다. 그리고 생성한 데이터베이스와 다른 특허문서들을 비교하여 각 문서와 데이터베이스와의 유사한 정도를 판단하는 유사치를 도출한다. 본 논문에서는 특허 거절 기준 값을 선정하기 위하여 분할 군집화 알고리즘인 k-means 사용하였다. 그 결과로 거절된 특허 문서와 유사한 특허 문서는 거절될 가능성이 높다는 결론을 얻을 수 있었다. 실험을 위한 데이터는 현재 미국에 출원되어 있는 블루투스 기술, 태양전지 기술 그리고 디스플레이에 관한 특허 문서를 이용하였다.

레이싱 모델 폐지에 관한 현대인의 감성 탐색 (Exploration on Modern People's Emotion regarding Abolition of Racing Model)

  • 정상필
    • 디지털융복합연구
    • /
    • 제18권11호
    • /
    • pp.571-579
    • /
    • 2020
  • 본 연구는 2018년 2월 F1의 레이싱 모델 제도 폐지 발표에 대한 현대인의 감성을 탐색하는 데 목적이 있었다. 이를 위하여 댓글 저널리즘을 바탕으로 레이싱 모델 제도 폐지와 관련된 블로그 15건, 카페 글 10건, 유튜브 영상 1건, 그리고 이 세 온라인 콘텐츠에 달린 429개의 댓글에 대한 해석적 텍스트 분석을 하였다. 레이싱 모델 제도 폐지에 대한 댓글 분석 결과로써 가장 높은 빈도를 기록한 범주는 반 페미니즘 정서이며, 이는 다시 페미니스트/여성에 대한 혐오, 페미니즘 비판, 여성의 적은 여성이라는 관념의 재확인 등으로 세분되었다. 이 외에도 직업을 박탈당한 레이싱 모델들에 대한 동정 정서, 유사업종에 대한 형평성 요구, 남녀의 공간적 분리, 레이싱 모델 폐지 찬성 담론 등이 발견되었다. 이와 같은 결과는 레이싱 모델에 대한 사회적 이미지가 기존 여권주의에서 근거하고 있는 성 상품화의 개념을 벗어나 보다 개방된 직업으로서 인정받고 있다는 현대인의 감성을 보여주고 있으며, 이를 통해 레이싱 모델이 성 상품화가 아닌 보통의 직업으로서 존중받을 수 있는 계기가 되기를 기대한다.