• 제목/요약/키워드: 한글문서

검색결과 625건 처리시간 0.021초

한국어 문서 요약 기법을 활용한 휘발유 재고량에 대한 미디어 분석 (Media-based Analysis of Gasoline Inventory with Korean Text Summarization)

  • 윤성연;박민서
    • 문화기술의 융합
    • /
    • 제9권5호
    • /
    • pp.509-515
    • /
    • 2023
  • 국가 차원의 지속적인 대체 에너지 개발에도 석유 제품의 사용량은 지속적으로 증가하고 있다. 특히, 대표적인 석유 제품인 휘발유는 국제유가의 변동에 그 가격이 크게 변동한다. 주유소에서는 휘발유의 가격 변화에 대응하기 위해 휘발유 재고량을 조절한다. 따라서, 휘발유 재고량의 주요 변화 요인을 분석하여 전반적인 휘발유 소비 행태를 분석할 필요가 있다. 본 연구에서는 주유소의 휘발유 재고량 변화에 영향을 미치는 요인을 파악하기 위해 뉴스 기사를 활용한다. 첫째, 웹 크롤링을 통해 자동으로 휘발유와 관련한 기사를 수집한다. 둘째, 수집한 뉴스 기사를 KoBART(Korean Bidirectional and Auto-Regressive Transformers) 텍스트 요약 모델을 활용하여 요약한다. 셋째, 추출한 요약문을 전처리하고, N-Gram 언어 모델과 TF-IDF(Term Frequency Inverse Document Frequency)를 통해 단어 및 구 단위의 주요 요인을 도출한다. 본 연구를 통해 휘발유 소비 형태의 파악 및 예측이 가능하다.

딥러닝 기반 소셜미디어 한글 텍스트 우울 경향 분석 (A Deep Learning-based Depression Trend Analysis of Korean on Social Media)

  • 박서정;이수빈;김우정;송민
    • 정보관리학회지
    • /
    • 제39권1호
    • /
    • pp.91-117
    • /
    • 2022
  • 국내를 비롯하여 전 세계적으로 우울증 환자 수가 매년 증가하는 추세이다. 그러나 대다수의 정신질환 환자들은 자신이 질병을 앓고 있다는 사실을 인식하지 못해서 적절한 치료가 이루어지지 않고 있다. 우울 증상이 방치되면 자살과 불안, 기타 심리적인 문제로 발전될 수 있기에 우울증의 조기 발견과 치료는 정신건강 증진에 있어 매우 중요하다. 이러한 문제점을 개선하기 위해 본 연구에서는 한국어 소셜 미디어 텍스트를 활용한 딥러닝 기반의 우울 경향 모델을 제시하였다. 네이버 지식인, 네이버 블로그, 하이닥, 트위터에서 데이터수집을 한 뒤 DSM-5 주요 우울 장애 진단 기준을 활용하여 우울 증상 개수에 따라 클래스를 구분하여 주석을 달았다. 이후 구축한 말뭉치의 클래스 별 특성을 살펴보고자 TF-IDF 분석과 동시 출현 단어 분석을 실시하였다. 또한, 다양한 텍스트 특징을 활용하여 우울 경향 분류 모델을 생성하기 위해 단어 임베딩과 사전 기반 감성 분석, LDA 토픽 모델링을 수행하였다. 이를 통해 문헌 별로 임베딩된 텍스트와 감성 점수, 토픽 번호를 산출하여 텍스트 특징으로 사용하였다. 그 결과 임베딩된 텍스트에 문서의 감성 점수와 토픽을 모두 결합하여 KorBERT 알고리즘을 기반으로 우울 경향을 분류하였을 때 가장 높은 정확률인 83.28%를 달성하는 것을 확인하였다. 본 연구는 다양한 텍스트 특징을 활용하여 보다 성능이 개선된 한국어 우울 경향 분류 모델을 구축함에 따라, 한국 온라인 커뮤니티 이용자 중 잠재적인 우울증 환자를 조기에 발견해 빠른 치료 및 예방이 가능하도록 하여 한국 사회의 정신건강 증진에 도움을 줄 수 있는 기반을 마련했다는 점에서 의의를 지닌다.

오류가 발생한 멀티바이트 인코딩 데이터의 인코딩 기법 판별 알고리즘 개선 (Improvement of Encoding Detection Algorithm for Multi-byte Encoded Data with Errors)

  • 배준우;김선범;박희진
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권2호
    • /
    • pp.18-25
    • /
    • 2017
  • 인코딩(encoding)은 컴퓨터에서 사용되는 음성, 영상 및 텍스트 문자를 부호화하는 방법을 가리킨다. 그러므로 특정 데이터를 열람하기 위해서는 해당 인코딩 정보를 알아야하며, 데이터마다 인코딩을 판별해주는 알고리즘들이 존재한다. 하지만 실제 음원이나 문서를 송수신하는 과정에서 패킷 손실이 발생할 수 있으며, 특히 무선 통신망에서 패킷 스니핑으로 정보를 가로챌 경우 손실률은 더욱 증가되어 인코딩 기법 판별에 어려움이 발생한다. 본 논문에서는 이러한 오류가 발생한 데이터의 인코딩 기법 판별율을 향상시키기 위해 기존의 문자 인코딩 기법 판별 프로그램인 'uchardet'에 Bit-shift 알고리즘을 적용하여 성능 향상을 이루었다. 알고리즘의 성능 평가를 위해 임의의 한글 및 일본어 텍스트 파일에 손실률(loss rate)을 적용하여 부분적으로 데이터가 소실된 인코딩 파일을 생성하여 결과를 비교하였다. 그 결과, 패킷이 손실된 데이터에서 Bit-shift 알고리즘을 적용한 'uchardet-bitshift' 경우 기존의 알고리즘보다 더 나은 성능을 보였다. 한국어 인코딩의 경우 기존의 uchardet는 0.005% 손실률까지 100%의 정확도를 보이고 1%보다 높은 손실률에서는 인코딩을 전혀 판별해 내지 못한데 비해, Bit-shift 알고리즘을 적용할 경우 0.05%의 손실률에도 100%의 정확도를 보였으며 그보다 큰 손실률에서도 해당 인코딩을 판별해냈다. 또한 한자어를 많이 포함하는 일본어의 경우 손실률이 높아질수록 중국어 인코딩으로 잘못 판별하는 경향을 보였다. 시뮬레이션 분석 결과, Bit shift 알고리즘을 추가하여 기존 인코딩 기법 판별 알고리즘의 개선이 가능하였다.

여학생 친화적 과학활동 프로그램의 운영 평가 (Evaluation on the Implementation of Girl Friendly Science Activity)

  • 전영석;신영준
    • 한국과학교육학회지
    • /
    • 제24권3호
    • /
    • pp.442-458
    • /
    • 2004
  • 여학생 친화적 과학 활동 프로그램의 활용 현황을 조사하고 시범운영 결과를 분석하여 이를 토대로 프로그램의 확대 보급 방안을 마련하기 위하여 본 연구를 수행하였다. 1999년 여성부의 연구용역으로 개발된 여학생 친화적 과학활동 자료는 5개 주제의 특기적성 교육자료와 7학년부터 10학년 까지의 심화 보충 학습자료들인데, 이 자료는 서울 지역의 과학교사 모임인 '신나는 과학을 만드는 사람들'의 홈페이지에 체계적으로 정리되어 수록되었으며 한글 문서를 다운로드받아서 활용할 수도 있고 html 형식의 문서를 모니터 상에서 그대로 확인할 수도 있도록 하였다. 현재 여학생 친화적 과학활동 자료 홈페이지의 방문객이 꾸준히 이어지고 있다. 특기 적성 프로그램에 대한 시범 실시 결과, 개발된 자료는 개발 목적과의 일치도 및 내용 및 수준, 적용 효과에 대해서는 높은 점수를 얻었지만 교사 수행의 수월성, 조직과 운영 측면에서는 낮은 점수를 얻었다. 또한 학생들은 과학에 대한 인식이 변화되었고, 간학문적인 활동을 통해 다양한 과학 경험을 하였다는 점에 대해서 긍정적으로 생각하였다. 한편, 학생들의 활동 내용에 대한 평가는 성공의 경험에 크게 좌우되며, 주로 오리고 자르고 붙이는 일로 이루어진 활동에 대한 평가 점수는 낮게 나타났다. 학생들의 성취도 검사에 의하면, 정의적 영역은 향상되었지만(p<0.05), 탐구 능력의 향상은 통계적으로 의미가 없었다. 그러나 많은 시범 실시학교에서 협동 활동 및 토의 능력의 향상과 관찰, 추론 능력이 향상되었음을 관찰하였다고 보고하였다. 본 프로그램의 확대 보급을 위해서는 프로그램이 교사들의 지지를 얻고 이들의 교수 학습 전략을 변화될 수 있도록 유도하는 것이 가장 중요하며, 이에 따라 교사 커뮤니티를 형성하고 교사 연수를 실시하는 것이 필요하다는 결론을 얻었다. 또한 프로그램의 추가 개발 및 국내 여성 과학 기술인을 적극적으로 발굴하여 교육 자료화하는것 등이 추후 실천해야할 과제로 남아있다.

한국 기록관리의 사적 고찰과 그 특징 (Historical Observation and the Characteristics of the Records and Archives Management in Korea)

  • 이영학
    • 기록학연구
    • /
    • 제34호
    • /
    • pp.221-250
    • /
    • 2012
  • 이 글은 조선시기부터 현재까지 한국 기록관리를 역사적으로 고찰하면서 그 특징을 소개한 것이다. 조선시기에 기록관리 제도가 구축되게 된 역사적 배경을 설명하고 1894년 갑오정권에서 근대적 기록관리 제도가 성립하였으며, 1948년 대한민국 정부가 수립되면서 미국의 행정학과 기록관리 방식을 수용하면서 새로운 기록관리제도가 정립되게 된 과정을 소개하였다. 끝으로 1999년 이후 "공공기관의 기록물 관리에 관한 법률"이 제정된 후 현대 기록관리제도가 확립되게 된 과정을 설명하였다. 조선시기에 기록을 잘 관리한 이유는 다음과 같다. 첫째, 관료제를 기반으로 한 조직사회이어서 기록을 잘 관리하는 것이 중요했다. 둘째 조선왕조의 성립과정에서 왕권과 신권이 대립하였는데, 그 대립과정의 타협물로서 "조선왕조실록" 등 기록이 남게 되었다. 셋째 현재의 경험을 기록으로 남겨 후대에 비슷한 일을 치룰 때에 참조하도록 하였다. 넷째 당대의 역사적 사건을 기록으로 남김으로써 후세에 역사적 평가를 받고자 하였다. 그런 측면에서 조선왕조는 역사적으로 중요한 기록을 많이 남겼다. 1894년 갑오정권은 권력을 장악하자 군국기무처를 설치하면서 개혁정책을 실시해갔다. 그것은 기록관리 부문에서도 나타났다. "명령반포식"을 공포하면서 법령의 제정과정을 규정하였고, 공문서 형식을 변화시켰다. 공문서 형식에서는 중국의 연호 대신에 '개국기년'을 사용하였으며, 사용 문자를 한자로부터 한글 혹은 국한문 혼용으로 바꾸었으며, 공문서 양식을 인쇄하여 사용하도록 하였다. 그리하여 정권의 독자성 및 자립성을 드러내도록 하였다. 1910년 일본제국주의가 조선을 식민지로 병탄하면서 조선의 기록관리 전통은 단절되고, 일제는 식민통치를 효율적으로 하기 위한 기록관리제도를 구축하였다. 1945년 한국은 일본제국주의로부터 해방되고, 1948년에 대한민국 정부를 수립하였다. 1950년대에 한국 정부는 일제의 기록관리제도를 그대로 원용하였다가, 1950년대 후반 이후 미국의 행정학과 기록관리 방식을 수용하면서 새로운 문서관리방식을 구축하게 되었다. 그러나 관료들의 기록관리에 대한 인식은 희박하였으며, 대통령기록 등 중요한 역사기록은 많이 파기되거나 유실되는 등 기록관리가 제대로 이루어지지 못하였다. 한국에서 기록관리가 제대로 행해진 것은 1999년 이후였다. 1999년에 "공공기관의 기록물관리에 관한 법률"이 제정되면서 기록관리에 대한 인식이 강화되었고, 2005년 "국가기록관리혁신 로드맵"이 작성되고 추진되면서 한국의 기록관리제도는 비약적으로 발전하였다. 2005년 이후 기록관리 프로세스와 시스템의 정비, 기록관리 표준의 제정, 법과 제도의 정비, 기록물관리 전문요원의 배치 등이 이루어지면서 한국의 기록관리는 한 단계 진전되게 되었다.