통합 검색 | Korea Science

RandomForest와 XGBoost를 활용한 한국어 텍스트 분류: 서울특별시 응답소 민원 데이터를 중심으로 (Korean Text Classification Using Randomforest and XGBoost Focusing on Seoul Metropolitan Civil Complaint Data)

하지은;신현철;이준기
- 한국빅데이터학회지
- /
- 제2권2호
- /
- pp.95-104
- /
- 2017
2014년 서울시는 시민의 목소리에 신속한 응대를 목표로 '서울특별시 응답소' 서비스를 시작하였다. 접수된 민원은 내용을 바탕으로 카테고리 확인 및 담당부서로 분류 되는데, 이 부분을 자동화시킬 수 있다면 시간 및 인력 비용이 감소될 것이다. 본 연구는 2010년 6월 1일부터 2017년 5월 31일까지 7년치 민원 사례 17,700건의 데이터를 수집하여, 최근 화두가 되고 있는 XGBoost 모델을 기존 RandomForest 모델과 비교하여 한국어 텍스트 분류의 적합성을 확인하였다. 그 결과 RandomForest에 대비 XGBoost의 정확도가 전반적으로 높게 나타났다. 동일한 표본을 활용하여 업 샘플링과 다운 샘플링 시행 후에는 RandomForest의 정확도가 불안정하게 나타난 반면, XGBoost는 전반적으로 안정적인 정확도를 보였다.
PDF

Pseudo Inverse를 이용한 악취분류와 악취원 분석 (Odor Classification and Source Analysis using Pseudo Inverse)

유숙현;박상진;구윤서;권희용
- 한국멀티미디어학회논문지
- /
- 제13권8호
- /
- pp.1171-1182
- /
- 2010
본 논문에서는 특정 시점, 특정 장소의 대기 중에 발생하는 악취의 발생원을 추적하기 위한 악취분류 및 악취원 분석 방법을 제안한다. 이를 위해 악취원별 대표패턴의 생성이 필요하다. 이에 주요 악취원에서 측정한 67개의 악취를 악취 대표패턴으로 생성하였다. 또한, 여러 악취가 대기 중에서 섞였을 경우를 고려하여 2~3개의 악취들을 조합하여 복합 악취 대표패턴을 생성하였고, pseudo inverse method를 이용하여 악취에 대한 악취원들의 가중치를 계산하였다. 그 결과 해당 악취를 발생시킨 악취원들과 악취에 대한 기여도를 알아낼 수 있었다. 이러한 본 연구의 성과는 악취 관련 민원해결에 기여할 것으로 전망된다.
PDF KSCI

패싯 기반 민원 다차원 분석을 위한 자동 분류 모델 (A Study on an Automatic Classification Model for Facet-Based Multidimensional Analysis of Civil Complaints)

김나랑
- 한국산업정보학회논문지
- /
- 제29권1호
- /
- pp.135-144
- /
- 2024
시민의 의견인 민원은 다양한 사람들이 여러 주제에 대하여 반복·지속적으로 실시간 쏟아내기 때문에 담당자가 이를 읽고 분석하는데 한계가 있다. 이에 본 연구에서는 빅데이터 분석을 통해 주요 현안에 대한 여론 및 요구 사항을 파악하기 위하여 정성적인 분석에 패싯을 기반으로 한 정량적인 다차원 분석을 위한 자동 분류 모델을 제안하였다. 구체적으로 첫째, 패싯 이론과 정치분석모형을 기반으로 민원 특성을 분석하고 이를 정책 단계에 활용할 수 있는 새로운 분류 프레임워크를 제시하였다. 둘째, 민원 분석 및 처리에 따른 행정 업무를 감소시키고, 시민들의 정책참여를 용이하게 하기 위해 딥러닝을 활용하여 패싯 분석 프레임에 의해 자동으로 속성을 추출하고 분류 하였다. 본 연구결과는 학문적으로 민원 빅데이터의 특성을 이해하고 분석하는데 중요한 단초를 제공하여 향후 많은 후속 연구를 창출할 수 있을 것으로 기대되며, 공공분야를 넘어 교육, 산업, 의료 등 다른 분야에서의 비정형 데이터의 계량화를 위한 가이드 라인과 다차원 분석의 활용에 대한 이론적 근거를 제시할 수 있다. 실무적으로 대용량 전자 민원에 대한 처리체계 개선 및 딥러닝을 통한 자동화로 민원처리 업무의 효율성과 신속성을 높일 수 있으며, 다른 분야의 텍스트 데이터의 처리에 활용될 수 있을 것이다.
https://doi.org/10.9723/jksiis.2024.29.1.135 인용 PDF

A Study on the Classification of Unstructured Data through Morpheme Analysis

Kim, SungJin;Choi, NakJin;Lee, JunDong
- 한국컴퓨터정보학회논문지
- /
- 제26권4호
- /
- pp.105-112
- /
- 2021
빅데이터 시대에 접어들며 데이터에 대한 관심이 폭발적으로 늘어나고 있다. 특히, 인터넷 및 소셜미디어의 발전은 새로운 데이터들의 생성으로 연결되어 빅데이터와 인공지능 시대의 실현과 융합 기술의 새로운 장을 열 수 있게 되었으며, 과거에는 프로그램으로 다루지 못하던 데이터에 대한 분석 요구가 많이 발생하고 있다. 본 논문에서는 빅데이터 시대에서 많이 요구되는 비정형 데이터에 대한 분류를 위하여 분석 모델을 설계하고 이를 검증하였다. 데이터는 디비피아의 논문 요약과 주제어, 그리고 부주제 어를 크롤링하였으며, 코엔엘피의 데이터 사전을 이용해 데이터베이스를 생성하고, 형태소 분석을 통하여 단어의 토큰화 과정을 수행하였다. 또한, 카이스트의 9 품사 분류 체계를 이용해 명사를 추출하고, TF-IDF 값을 생성하였으며, 학습 데이터와 Y 값을 결합하여 분석 데이터 셋을 생성하였다. 이와 같이 생성된 분석 데이터 셋에 랜덤 포레스트와 서포트 벡터 머신 그리고 의사결정트리, 이렇게 세 가지 분석 알고리즘을 적용하여 분류의 적정성을 측정하였다. 본 논문에서 제안한 분류 모델 기법은 논문 분류 외에도 민원 분류 분석 및 텍스트 관련 분석 등 다양한 분야에 유용하게 사용될 수 있다.
https://doi.org/10.9708/jksci.2021.26.04.105 인용 PDF KSCI HTML

검색결과 4건 처리시간 0.019초

RandomForest와 XGBoost를 활용한 한국어 텍스트 분류: 서울특별시 응답소 민원 데이터를 중심으로 (Korean Text Classification Using Randomforest and XGBoost Focusing on Seoul Metropolitan Civil Complaint Data)

Pseudo Inverse를 이용한 악취분류와 악취원 분석 (Odor Classification and Source Analysis using Pseudo Inverse)

패싯 기반 민원 다차원 분석을 위한 자동 분류 모델 (A Study on an Automatic Classification Model for Facet-Based Multidimensional Analysis of Civil Complaints)

A Study on the Classification of Unstructured Data through Morpheme Analysis

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)