• 제목/요약/키워드: 텍스트분류

검색결과 687건 처리시간 0.031초

모바일 환경에서의 챗봇 UX (Chatbot UX in a Mobile Environment)

  • 이영주
    • 디지털융복합연구
    • /
    • 제17권11호
    • /
    • pp.517-522
    • /
    • 2019
  • 많은 비즈니스에서 챗봇은 사용자의 질문에 가장 즉각적이고 직접적인 피드백으로 제공함으로써 사용자 경험을 높여가고 있으며 그 활용 영역이 커져가고 있다. 본 연구에서는 챗봇의 정의를 비롯해 명령방식, 기능, 플랫폼에 따른 세 가지 유형을 구분되는 요소에 따라 분류해 보았다. 그 과정에서 기능적 구분 요소는 패턴인식, 자연어처리, 시멘틱 웹, 텍스트 마이닝, 상황인식 컴퓨팅의 기능적 부분의 핵심 기술 요소가 챗봇 UX를 위해 필요하지만 현재 단계에서의 한계도 알 수 있었다. 이를 바탕으로 더 나은 사용자 경험을 위한 챗봇의 UX요소를 페이스북, 스카이프, 텔레그램, 구글어이스턴트를 대상으로 분석하였으며 카드와 같은 기본 UI요소와 빠른 응답, 명령, 영구 메뉴의 적용이 사용자 경험요소로 필요함을 알 수 있었다.

문장 의도 분류와 개체명 인식을 활용한 개인정보 검출 및 비식별화 시스템 (Personal Information Detection and De-identification System using Sentence Intent Classification and Named Entity Recognition)

  • 서동국;김건우;김재영;이동호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.1018-1021
    • /
    • 2020
  • 최근 개인정보가 포함된 비정형 텍스트 문서들이 유출되거나 무분별하게 공개됨으로써 정보의 주체는 물론 기업들까지 피해를 받고 있다. 데이터를 공개 및 활용하기 위해 개인정보 검출 및 비식별화 과정이 필수적이지만 정형 데이터와는 달리 비정형 데이터의 경우 해당 과정을 자동으로 처리하는 데 한계가 있다. 이를 위해 딥러닝 모델들을 사용하여 자동화하려는 연구들이 있었지만 문장 내 단어의 모호성에 대한 고려 없이 단어 개체명 정보에만 의존하여 개인정보를 검출하는 형태로 진행되었다. 따라서 문장 내 단어들 중 식별 대상인 단어들도 비식별화 되어 데이터에 대한 유용성을 저해할 수 있다는 문제점을 남겼다. 본 논문에서는 문장의 의도 정보를 단어의 개체명 학습 과정에 부가적인 정보로 활용하는 개인정보 검출 모델과 개인정보 데이터의 유용성을 고려한 비식별화 기법을 제안한다.

한글 토크나이징 라이브러리 모듈 분석 (Analysis of the Korean Tokenizing Library Module)

  • 이재경;서진범;조영복
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.78-80
    • /
    • 2021
  • 현재 자연어 처리(NLP)에 대한 연구는 급속히 발전하고 있다. 자연어 처리는 인간이 일상생활에서 사용하는 언어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 기술로 음성인식, 맞춤법 검사, 텍스트 분류 등 여러 분야에 사용하고 있다. 현재 가장 많이 사용되는 자연어처리 라이브러리는 영어를 기준으로 한 NLTK로 한글처리에 단점을 가지고 있다. 따라서 본 논문에서는 한글 토크나이징(Tokenizing) 라이브러리인 KonLPy와 Soynlp를 소개 후 형태소 분석 및 처리 기법을 분석하고, KonLPy의 단점을 보완한 Soynlp와의 모듈을 비교·분석하여 향후 의료분야에 적합한 자연어 처리 모델로 활용하고자 한다.

  • PDF

중국어 텍스트 분류 작업의 개선을 위한 WWMBERT 기반 방식 (A WWMBERT-based Method for Improving Chinese Text Classification Task)

  • 왕흠원;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.408-410
    • /
    • 2021
  • In the NLP field, the pre-training model BERT launched by the Google team in 2018 has shown amazing results in various tasks in the NLP field. Subsequently, many variant models have been derived based on the original BERT, such as RoBERTa, ERNIEBERT and so on. In this paper, the WWMBERT (Whole Word Masking BERT) model suitable for Chinese text tasks was used as the baseline model of our experiment. The experiment is mainly for "Text-level Chinese text classification tasks" are improved, which mainly combines Tapt (Task-Adaptive Pretraining) and "Multi-Sample Dropout method" to improve the model, and compare the experimental results, experimental data sets and model scoring standards Both are consistent with the official WWMBERT model using Accuracy as the scoring standard. The official WWMBERT model uses the maximum and average values of multiple experimental results as the experimental scores. The development set was 97.70% (97.50%) on the "text-level Chinese text classification task". and 97.70% (97.50%) of the test set. After comparing the results of the experiments in this paper, the development set increased by 0.35% (0.5%) and the test set increased by 0.31% (0.48%). The original baseline model has been significantly improved.

국가R&D와 소셜 데이터를 활용한 수소연료전지 기술마이닝과 감성분석 (Technology Mining and Sentiment Analysis on Hydrogen Fuel Cell Using National R&D and Social Data)

  • 이병희;최정우;김태현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.341-343
    • /
    • 2022
  • 온실가스 배출 문제가 세계적인 현안으로 부각되면서 수소를 에너지원으로 사용하는 수소경제가 주목받고 있다. 수소연료전지는 수소경제의 구성요소 중 하나로, 수소를 활용해 열과 전기를 생산하며 에너지 변환 효율이 높이는데 장점이 있다. 본 연구는 세계적인 온라인 커뮤니티인 레딧(Reddit)에서 수집한 수소연료전지와 관련된 소셜 데이터를 텍스트마이닝과 감성분석 기법으로 분석하였다. 분석 결과 9,211건의 댓글을 LDA(Latent Dirichlet Allocation)을 이용해 4개의 토픽 그룹으로 분류할 수 있었다. 이 중 수소연료전지와 관련이 높은 그룹을 선정해 STM(Structural Topic Model) 분석으로 10개 토픽을 추출하였고, 기후 환경, 수소 산업, 수소 차와 관련 있는 토픽 3개를 발견할 수 있었다. 이 연구 결과를 통해 수소연료전지의 세계적으로 실제적인 내용을 빠르고 효과적으로 파악하여 수소연료전지에 대한 예측하고, 우리나라의 수소연료전지 관련 국가R&D의 정책적 방향을 제시하고자 한다.

미디어 창작을 위한 비디오 아카이브 키워드기반 내용 검색 서비스 요구사항 분석 (Analysis of Keyword-based Content Search Service Requirements in Video Archive for Media Creation)

  • 정병희;박완;이윤성;이하주;김산성
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 하계학술대회
    • /
    • pp.1265-1267
    • /
    • 2022
  • 방대한 분량의 콘텐츠 홍수 속에서 원하는 소재를 찾기 위해 콘텐츠 내용을 검색할 수 있는 효과적인 방법이 지원되는 것은 창작을 자유롭게 하고, 콘텐츠 활용도를 높이기 위해 매우 중요하다. KBS 바다 서비스의 경우 분류체계 방법을 사용하고 있으나. 최근 딥러닝을 이용한 인공지능 기술의 발전으로 콘텐츠의 내용을 인공지능 기술로 태깅하고, 태깅된 텍스트 정보를 이용하여 검색할 수 있는 기술 개발이 활발히 수행되고, 국가적으로도 해당 기술을 지원하고 있다. 본 논문에서는 이러한 기술 개발의 선행 요소인 방송사의 제작과정에서 요구되는 동영상 소재 콘텐츠 검색의 요구사항을 KBS 비디오 아카이브 검색 키워드 실제 사용 데이터를 이용하여 분석하였다. 약 1,000여건의 검색 키워드 분석과 이용자와 운영자의 응답 내용을 고찰한 결과, 특정 키워드에 집중하여 검색할 수 있도록 보완하여 주는 것이 필요함을 알아내었다. 또한, 검색 범위를 효과적으로 축소하여 검색을 손쉽고 빠르게 할 수 있는 방법을 고찰하였다. 본 논문에서는 미디어 창작에서 필요한 소재 콘텐츠를 찾기 위해 연구 개발해야 할 미디어 속성 추출 기술의 방향성을 제시하였다.

  • PDF

온라인 범죄 예방을 위한 실시간 조기 위험 감지 시스템 (Real-Time Early Risk Detection in Textual Data Streams for Enhanced Online Safety)

  • 안진명;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.525-530
    • /
    • 2023
  • 최근 소셜 네트워크 서비스(SNS) 및 모바일 서비스가 증가함에 따라 사용자들은 다양한 종류의 위험에 직면하고 있다. 특히 온라인 그루밍과 온라인 루머 같은 위험은 한 개인의 삶을 완전히 망가뜨릴 수 있을 정도로 심각한 문제로 자리 잡았다. 그러나 많은 경우 이러한 위험들을 판단하는 시점은 사건이 일어난 이후이고, 주로 법적인 증거채택을 위한 위험성 판별이 대다수이다. 따라서 본 논문은 이러한 문제를 사전에 예방하는 것에 초점을 맞추었고, 계속적으로 발생하는 대화와 같은 event를 실시간으로 감지하고, 위험을 사전에 탐지할 수 있는 Real-Time Early Risk Detection(RERD) 문제를 정의하고자 한다. 온라인 그루밍과 루머를 실시간 조기 위험 감지(RERD) 문제로 정의하고 해당 데이터셋과 평가지표를 소개한다. 또한 RERD 문제를 정확하고 신속하게 해결할 수 있는 강화학습 기반 새로운 방법론인 RT-ERD 모델을 소개한다. 해당 방법론은 RERD 문제를 이루고 있는 온라인 그루밍, 루머 도메인에 대한 실험에서 각각 기존의 모델들을 뛰어넘는 state-of-the-art의 성능을 달성하였다.

  • PDF

재난안전 사회관심 분석을 위한 언어모델 활용 정보 네트워크 구축 (A Language Model based Knowledge Network for Analyzing Disaster Safety related Social Interest)

  • 최동진;한소희;김경준;배은솔
    • 한국재난정보학회:학술대회논문집
    • /
    • 한국재난정보학회 2022년 정기학술대회 논문집
    • /
    • pp.145-147
    • /
    • 2022
  • 본 논문은 대규모 텍스트 데이터에서 이슈를 발굴할 때 사용되는 기존의 정보 네트워크 또는 지식 그래프 구축 방법의 한계점을 지적하고, 문장 단위로 정보 네트워크를 구축하는 새로운 방법에 대해서 제안한다. 먼저 문장을 구성하는 단어와 캐릭터수의 분포를 측정하며 의성어와 같은 노이즈를 제거하기 위한 역치값을 설정하였다. 다음으로 BERT 기반 언어모델을 이용하여 모든 문장을 벡터화하고, 코사인 유사도를 이용하여 두 문장벡터에 대한 유사성을 측정하였다. 오분류된 유사도 결과를 최소화하기 위하여 명사형 단어의 의미적 연관성을 비교하는 알고리즘을 개발하였다. 제안된 유사문장 비교 알고리즘의 결과를 검토해 보면, 두 문장은 서술되는 형태가 다르지만 동일한 주제와 내용을 다루고 있는 것을 확인할 수 있었다. 본 논문에서 제안하는 방법은 단어 단위 지식 그래프 해석의 어려움을 극복할 수 있는 새로운 방법이다. 향후 이슈 및 트랜드 분석과 같은 미래연구 분야에 적용하면, 데이터 기반으로 특정 주제에 대한 사회적 관심을 수렴하고, 수요를 반영한 정책적 제언을 도출하는데 기여할 수 있을 것이다

  • PDF

미세먼지 저감을 위한 그린인프라 계획요소 도출 - 텍스트 마이닝을 활용하여 - (Derivation of Green Infrastructure Planning Factors for Reducing Particulate Matter - Using Text Mining -)

  • 석영선;송기환;한효주;이정아
    • 한국조경학회지
    • /
    • 제49권5호
    • /
    • pp.79-96
    • /
    • 2021
  • 그린인프라 계획은 미세먼지 저감을 위한 대표적인 조경 계획 방안 중 하나이다. 이에, 본 연구에서는 미세먼지 저감을 위한 그린인프라 계획 시 활용될 수 있는 요소를 텍스트 마이닝 기법을 활용하여 도출하고자 하였다. 미세먼지 저감계획, 그린인프라 계획 요소 등의 키워드를 중심으로 관련 선행연구, 정책보고서 및 법률 등을 수집하여 텍스트 마이닝을 통해 단어 빈도-역 문서 빈도(Term Frequency-Inverse Document Frequency, 이하 TF-IDF) 분석, 중심성 분석, 연관어 분석, 토픽 모델링 분석을 실시하였다. 연구결과, 첫째, TF-IDF 분석을 통해 미세먼지 및 그린인프라와 관련된 주요 주제어는 크게 환경문제(미세먼지, 환경, 탄소, 대기 등), 대상 공간(도시, 공원, 지역, 녹지 등), 그리고 적용 방법(분석, 계획, 평가, 개발, 생태적 측면, 정책적 관리, 기술, 리질리언스 등)으로 구분할 수 있었다. 둘째, 중심성 분석 결과, TF-IDF와 유사한 결과가 도출되었으며, 주요 키워드들을 연결하는 중심단어는 '그린뉴딜', '유휴부지'임을 확인할 수 있었다. 셋째, 연관어 분석 결과, 미세먼지 저감을 위한 그린인프라 계획 시, 숲과 바람길의 계획이 필요하며, 미기후 조절의 측면에서 수분에 대한 고려가 반드시 필요한 것으로 확인되었다. 또한, 유휴공간의 활용 및 혼효림의 조성, 미세먼지 저감 기술의 도입과 시스템의 이해가 그린인프라 계획 시 중요한 요소가 될 수 있음을 확인할 수 있었다. 넷째, 토픽 모델링 분석을 통해 그린인프라의 계획요소를 생태적·기술적·사회적 기능을 중심으로 분류하였다. 생태적 기능의 계획요소는 그린인프라의 형태적 부분(도시림, 녹지, 벽면녹화 등)과 기능적 부분(기후 조절, 탄소저장 및 흡수, 야생동물의 서식처와 생물 다양성 제공 등), 기술적 기능의 계획요소는 그린인프라의 방재 기능, 완충 효과, 우수관리 및 수질정화, 에너지 저감 등, 사회적 기능의 계획요소는 지역사회 커뮤니티 기능, 이용객의 건강성 회복, 경관 향상 등의 기능으로 분류되었다. 이와 같은 결과는 미세먼지 저감을 위한 그린인프라 계획 시 리질리언스 및 지속가능성과 같은 개념적 키워드 중심의 접근이 필요하며, 특히, 미세먼지 노출 저감의 측면에서 그린인프라 계획요소의 적용이 필요함을 시사한다고 볼 수 있다.

양파·마늘 생산성 예측 모델 개발을 위한 텍스트마이닝 기법 활용 생육 및 수량 관련 문헌 분석 (Analysis of Literatures Related to Crop Growth and Yield of Onion and Garlic Using Text-mining Approaches for Develop Productivity Prediction Models)

  • 김진희;김대준;서보훈;김광수
    • 한국농림기상학회지
    • /
    • 제23권4호
    • /
    • pp.374-390
    • /
    • 2021
  • 농산물 중에서도 노지채소는 생육특성상 기상요건의 변화에 민감하게 반응한다. 온난화로 인한 노지 채소류의 급격한 재배적지 및 생산성 변동의 대응 방안으로 작물모형을 활용한 연구가 활발히 진행되어 왔으며 신뢰도 높은 생산성 예측을 위해 관련된 다양한 요인에 대한 분석이 필요한 상황이다. 본 연구에서는 정밀한 작물 생육 모형의 개발에 앞서 대표적인 노지 채소 작물인 마늘과 양파를 대상으로 문헌 조사를 수행하여 생육 및 생산성과 관련된 모형 개발 연구 동향을 분석하였다. 또한, 작물의 생육 또는 생산성을 예측하는 모형에 관한 문헌들을 분류하여 모형 개발을 위한 시사점을 파악하고자 하였다. 이를 위해 문헌이 수록된 데이터베이스를 이용하여 키워드 조합으로 검색하여 얻어진 관련 문헌들을 수집하였으며, 텍스트마이닝 기법 중 워드클라우드와 의미연결망을 활용하여 수집된 논문들에서 나타난 연구 동향을 분석하였다. 또한 각각의 문헌들을 분석하여 양파와 마늘의 생육 및 수량에 영향을 미치는 요소를 탐색하였다. 그 결과 국내외 모두 식량작물인 벼에 비해 노지채소는 문헌 건수가 월등히 적었다. 또한 텍스트마이닝을 통한 분석결과 연구동향의 경우 기후변화와 원격탐사 등이 주로 검색되었으며, 작물생육 관련인자로는 기온, 관수 등이 많은 것으로 조사되었다. 문헌 분석을 통해 확인된 마늘과 양파의 생산성에 영향을 미치는 조건들은 환경 및 재배요인에 따라 다양하게 나타났는데, 토양 조건의 경우 토양 무기 성분, pH 농도 및 토양 수분 등이, 생산성과 관련된 재배관리 조건으로는 파종 시기, 품종, 종자처리 방식, 관수간격, 시비량 및 비료 성분 등이 주요 인자로 분류되었다. 기상 조건의 경우, 기온, 강수량, 일사량 및 습도 등이 다수의 문헌에서 주요 인자로 사용되었다. 본 연구의 결과들은 차후 추가적인 작물모형 개발에 활용할 수 있는 핵심적인 입력 요소를 파악하기 위해 사용될 수 있을 것으로 기대된다.