• 제목/요약/키워드: 텍스트 데이터 분석

검색결과 1,095건 처리시간 0.026초

채팅 메신저 사용자 검증을 위한 그래프 랜덤 워크 분석 (Graph Random Walk Analysis for Chat Messenger User Verification)

  • 이다영;조환규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.79-84
    • /
    • 2021
  • 메신저 사용의 증가와 함께 관련 범죄와 사고가 증가하고 있어 메시지 사용자 검증의 필요성이 대두되고 있다. 본 연구에서는 그래프 기반의 인스턴트 메세지 분석 모델을 제안하여 채팅 사용자를 검증하고자 한다. 사용자 검증은 주어진 두 개의 텍스트의 작성자가 같은지 여부를 판단하는 문제다. 제안 모델에서는 사용자의 이전 대화를 토대로 n-gram 전이 그래프를 구축하고, 작성자를 알 수 없는 메세지를 이용해 전이 그래프를 순회한 랜덤워크의 특성을 추출한다. 사용자의 과거 채팅 습관과 미지의 텍스트에 나타난 특징 사이의 관계를 분석한 모델은 10,000개의 채팅 대화에서 86%의 정확도, 정밀도, 재현율로 사용자를 검증할 수 있었다. 전통적인 통계 기반 모델들이 명시적 feature를 정의하고, 방대한 데이터를 이용해 통계 수치로 접근하는데 반해, 제안 모델은 그래프 기반의 문제로 치환함으로써 제한된 데이터 분량에도 안정적인 성능을 내는 자동화된 분석 기법을 제안했다.

  • PDF

텍스트마이닝을 활용한 도로분야 ITS 정책이슈 탐색기법 정립 (Establishment of ITS Policy Issues Investigation Method in the Road Section applied Textmining)

  • 오창석;이용택;고민수
    • 한국ITS학회 논문지
    • /
    • 제15권6호
    • /
    • pp.10-23
    • /
    • 2016
  • 본 연구는 빅데이터를 활용하여 감사 시 유의해서 살펴보아야 할 ITS 관련 정책이슈 탐색방법 개발 및 적용을 목적으로 한다. 이를 위해 본 연구에서는 William Dunn이 제안한 경계분석을 이론적 토대로 하여, 여기에 감사원 감사실무 프로세스를 접목한 감사이슈 분석 틀을 제안했다. 그리고 이 분석 틀을 전산으로 구현하기 위해 메타문제를 추정하는 개념이 경계분석과 유사한 텍스트마이닝 기법을 응용했다. 텍스트마이닝의 구체적 모형은 David Blei가 제안한 Latent Dirichlet Allocation(LDA) 모형을 기반으로 하는 비대칭-대칭 혼합 어휘소 기반 LDA를 응용했다. 사례분석 결과, 경찰청에서 운영하는 도시교통정보시스템의 교통정보 수집률 저조와 국토교통부의 첨단교통관리시스템과의 중복 문제, 디지털 운행기록계의 주행거리 조작 등이 주요 이슈로 도출됐다.

텍스트 마이닝을 활용한 한국무용 연구주제 동향 분석 (Analysis on the Trends of Research Themes of the Korean Dance Using Text Mining)

  • 김우경;유지영
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제13권5호
    • /
    • pp.215-228
    • /
    • 2019
  • 본 연구는 텍스트 마이닝을 활용하여 최근 20년 한국무용 연구 동향을 분석하는 것에 목적을 두었다. 한국학술정보(RISS)에 구축되어 있는 학술지 DB 중 총 1,468편의 논문제목에서 3,047개의 단어를 분석하였다. 데이터의 정제와 분석은 빅데이터 분석 솔루션인 TEXTOM을 이용하였고, 텍스트 마이닝 중 키워드 분석과 토픽모델링을 적용하여 의미 있는 결과를 도출하였다. 첫째, 한국 기본춤 동작의 구조를 밝히는 연구에서 한국춤의 활용과 전승에 관한 연구로 전환되었다. 둘째, 한국무용 연구의 참여 대상이 중년여성에서 노인여성으로 변화하였다. 셋째, 춤 기록에 대한 연구가 비활성화 되었다. 넷째, 최승희(Choi Seung-hee)에 대한 연구는 지속적인 관심의 대상이다. 다섯째, 한국창작춤에서 한국전통춤에 대한 연구로 집중되었다.

대규모 언어 모델 기반 한국어 휴지 예측 연구 (A Study on Korean Pause Prediction based Large Language Model)

  • 나정호;이정;나승훈;정정범;최맹식;이충희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.14-18
    • /
    • 2023
  • 본 연구는 한국어 음성-텍스트 데이터에서 보편적으로 나타난 휴지의 실현 양상을 분석하고, 이를 토대로 데이터셋을 선별해 보편적이고 규격화된 한국어 휴지 예측을 위한 모델을 제안하였다. 이를 위해 전문적인 발성 훈련을 받은 성우 등의 발화가 녹음된 음성-텍스트 데이터셋을 수집하고 MFA와 같은 음소 정렬기를 사용해 휴지를 라벨링하는 등의 전처리를 하고, 다양한 화자의 발화에서 공통적으로 나타난 휴지를 선별해 학습데이터셋을 구축하였다. 구축된 데이터셋을 바탕으로 LLM 중 하나인 KULLM 모델을 미세 조정하고 제안한 모델의 휴지 예측 성능을 평가하였다.

  • PDF

SNS 데이터 분석을 통한 스마트 충북관광 구축 (Implementation of smart chungbuk tourism based on SNS data analysis)

  • 조완섭;조아;권가은;류관희
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권2호
    • /
    • pp.409-418
    • /
    • 2015
  • SNS 등 온라인에 쏟아지는 고객의 감성분석을 활용하여 마케팅 등 다양한 분야에서 성과를 내고 있다. 고객의 제품사용 후기 데이터를 수집하여 신제품의 마케팅 전략과 제품개선 방안을 도출하고 있으며, 선거철에는 유권자들의 마음을 실시간으로 읽어서 선거 전략을 수립하고 있다. 본 연구에서는 온라인 상에서 충북관광에 관한 글들을 수집하여 텍스트 마이닝 기법을 활용하여 분석함으로써 충북관광을 위한 홍보전략과 관광진흥 정책을 수립하는 방안을 제시한다. 사용된 데이터는 주요 블로그, 뉴스, 관광관련 공공 데이터 등이며, 충북전역의 관광지를 대상으로 한다. 분석결과 충청북도 북부지역의 관광지들이 주요 이슈 관광지로 나타났으며, 관광지별로 연관 관광지와 연관 키워드들이 분석되었다. 또한, 주요 관광지별 감성분석을 통하여 긍/부정 현황과 그 원인을 파악할 수 있도록 하였다. 특히 이들 분석에 다차원 분석 기법을 연계함으로써 관광관련 텍스트 정보를 다각도로 분석하여 전략을 수립하는데 활용할 수 있도록 하였다.

사전학습 언어모델을 활용한 범죄수사 도메인 개체명 인식 (A Named Entity Recognition Model in Criminal Investigation Domain using Pretrained Language Model)

  • 김희두;임희석
    • 한국융합학회논문지
    • /
    • 제13권2호
    • /
    • pp.13-20
    • /
    • 2022
  • 본 연구는 딥러닝 기법을 활용하여 범죄 수사 도메인에 특화된 개체명 인식 모델을 개발하는 연구이다. 본 연구를 통해 비정형의 형사 판결문·수사 문서와 같은 텍스트 기반의 데이터에서 자동으로 범죄 수법과 범죄 관련 정보를 추출하고 유형화하여, 향후 데이터 분석기법을 활용한 범죄 예방 분석과 수사에 기여할 수 있는 시스템을 제안한다. 본 연구에서는 범죄 수사 도메인 텍스트를 수집하고 범죄 분석의 관점에서 필요한 개체명 분류를 새로 정의하였다. 또한 최근 자연어 처리에서 높은 성능을 보이고 있는 사전학습 언어모델인 KoELECTRA를 적용한 제안 모델은 본 연구에서 정의한 범죄 도메인 개체명 실험 데이터의 9종의 메인 카테고리 분류에서 micro average(이하 micro avg) F1-score 99%, macro average(이하 macro avg) F1-score 96%의 성능을 보이고, 56종의 서브 카테고리 분류에서 micro avg F1-score 98%, macro avg F1-score 62%의 성능을 보인다. 제안한 모델을 통해 향후 개선 가능성과 활용 가능성의 관점에서 분석한다.

초등학생 대상 한국어 기반 Python 교육용 프로그램 개발 방안 (Development Plan of Python Education Program for Korean Speaking Elementary Students)

  • 박기령;박소희;김준서;구덕회
    • 한국정보교육학회:학술대회논문집
    • /
    • 한국정보교육학회 2021년도 학술논문집
    • /
    • pp.141-148
    • /
    • 2021
  • 초등학생을 대상으로 하는 소프트웨어 교육에는 주로 교육용 프로그래밍 언어가 사용된다. 고학년 수준에서는 블록형 교육용 프로그래밍 언어를 기반으로 텍스트 기반 프로그래밍 언어로 전환하고, 경험하는 것이 중요하다. 그러나 대부분의 TPL은 어려운 영어 어휘와 문법으로 이루어져 있어 초등 수준에서 학습하기에 어려움이 있다. 대표적인 텍스트 기반 프로그래밍 언어로는 Python이 있다. 본 연구는 한국어가 익숙한 학생들이 Python을 용이하게 학습할 수 있는 교육 프로그램의 개발에 관한 것이다. 데이터 분석에 필요한 개념을 중심으로 Python 예약어를 추출하였다. 데이터 분석에 사용되는 영어 예약어들을 초등 수준에서 이해할 수 있는 한국어로 대체하였다. 대체한 예약어와 Python 예약어를 일대일 매핑하여 한국어를 사용하여 Python 데이터 분석 과정을 체험해 볼 수 있는 프로그램을 구상하였다. 본 연구가 TPL을 학습하기 위한 기초 자료로 유용하게 활용되길 기대한다.

  • PDF

텍스트마이닝을 활용한 웹사이트 FAQ 개선방안: S대학교 사례를 중심으로 (Improvement Plan of Web Site FAQ using Text Mining : Focused on the S University Case)

  • 안수현;조정현;이상준
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2018년도 춘계 종합학술대회 논문집
    • /
    • pp.361-362
    • /
    • 2018
  • 본 연구는 대학 웹페이지의 Q&A(질의응답) 게시판에 게재된 비정형화 된 데이터를 수집한 후 텍스트마이닝과 네트워크 분석을 활용하여 자주 등장하는 키워드 간 연관 패턴을 파악하고자 한다. 분석결과를 바탕으로 FAQ(자주하는 질문) 게시판을 구성한다면 반복적인 질문에 대한 민원을 간소화함으로써 수요자의 편의성과 행정의 효율성 향상에 기여하고 나아가 원활한 양방향 소통이 가능할 것으로 기대한다.

  • PDF

디지털 포렌식을 위한 SHA-256 활용 데이터 수정 감지시스템 제안 (A Proposal on Data Modification Detection System using SHA-256 in Digital Forensics)

  • 장은진;신승중
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권4호
    • /
    • pp.9-13
    • /
    • 2021
  • 통신 기술의 발달과 더불어 다양한 형태의 디지털 범죄가 증가하고 있고, 이에 따라 디지털 포렌식에 대한 필요성이 높아지고 있다. 더욱이 특정인이 중요한 데이터를 담고 있는 텍스트 문서를 고의적으로 삭제하거나 수정할 경우 데이터 수정 감지 여부를 확인하는 시스템을 통해 특정인과 범죄와의 연관성을 입증할 수 있는 중요한 자료가 될 수 있을 것이다. 이에 본 논문은 텍스트 파일을 중심으로 암호화 기법 중 하나인 SHA-256의 hash data, 생성 시간, 수정 시간, 접근 시간 및 파일의 크기 등을 분석하여 대상 텍스트 파일의 수정 여부를 비교할 수 있는 데이터 수정 감지 시스템을 제안한다.

텍스트마이닝 기법을 이용한 소셜커머스와 멀티채널 유통업체 간 성공요인 비교 연구 (A Comparative Analysis of Success Factors Between Social Commerce and Multichannel Distribution Using Text Mining Techniques)

  • 최현승;김예솔;조혁준;강주영
    • 한국빅데이터학회지
    • /
    • 제1권2호
    • /
    • pp.35-44
    • /
    • 2016
  • 국내 전자상거래 시장 내 소셜커머스와 멀티채널 유통업체간 최저가 경쟁이 점점 치열해 지고 있는 가운데 소셜커머스와 멀티채널 유통업체간 성공요인에 대한 실증분석의 필요성이 대두되고 있다. 설문조사 방법론 중심의 기존 선행연구와 달리 본 연구에서는 텍스트마이닝 기법을 이용하여 소셜커머스와 멀티채널 유통업체의 핵심 성공요인 토픽을 도출하고 감성의 차이를 비교 분석하였다. 본 연구의 결과는 유통업체간 경쟁전략에 대한 실무적인 시사점을 제공함과 동시에, 향후 다양한 형태의 확장 연구에 기여할 수 있을 것으로 기대한다.

  • PDF