• 제목/요약/키워드: Lexical Characteristics

검색결과 63건 처리시간 0.146초

부분 단어 토큰화 기법을 이용한 뉴스 기사 정치적 편향성 자동 분류 및 어휘 분석 (Automatic Classification and Vocabulary Analysis of Political Bias in News Articles by Using Subword Tokenization)

  • 조단비;이현영;정원섭;강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권1호
    • /
    • pp.1-8
    • /
    • 2021
  • 뉴스 기사의 정치 분야는 보수, 진보와 같이 양극화된 편향적 특성이 존재하며 이를 정치적 편향성이라고 한다. 뉴스 기사로부터 편향성 문제를 분류하기 위해 키워드 기반의 학습 데이터를 구축하였다. 대부분의 임베딩 연구에서는 미등록어로 인한 문제를 완화시키기 위해 형태소 단위로 문장을 구성한다. 본 논문에서는 문장을 언어 모델에 의해 세부적으로 분할하는 부분 단어로 문장을 구성할 경우 미등록어 수가 감소할 것이라 예상하였다. 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델을 제안하며 이를 SVM과 전방향 뉴럴 네트워크 구조에 적용하여 정치적 편향성 분류 실험을 진행하였다. 형태소 토큰화 기법을 이용한 문서 임베딩 모델과 비교 실험한 결과, 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델이 78.22%로 가장 높은 정확도를 보였으며 부분 단어 토큰화를 통해 미등록어 수가 감소되는 것을 확인하였다. 분류 실험에서 가장 성능이 좋은 임베딩 모델을 이용하여 정치적 인물을 기반한 어휘를 추출하였으며 각 성향의 정치적 인물 벡터와의 평균 유사도를 통해 어휘의 편향성을 검증하였다.

A Research on Paramedic Student Type of Perception for 119 Rescue Workers

  • Lee, Jae-Min
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권8호
    • /
    • pp.127-137
    • /
    • 2021
  • 본 연구는 응급구조과 학생들의 119구조대원에 대한 인식유형 연구이며, 소방공무원 중 119구조대원의 인식 유형을 파악하고 유형별 특성을 알아보기 위한 기초자료를 마련하고자 실시하였다. 27개의 진술문으로 된 Q 표본을 응급구조과 학생 총 54명을 대상으로 Q UANL 프로그램을 실행하여 분석한 결과 분류된 유형은 3개 유형으로, 전체 변량의 45 %로 확인되었다. 각 유형별 설명력을 보면 제I유형은 32 %, 제II유형은 6.7 %, 제III유형은 5.8 % 로 나타났다. 제I유형은 '우리의 슈퍼맨형', 제II유형은 '고통 받은 영웅형', 제III유형은 '구조 전문가형'으로 명명하였다. 전체적으로 119구조대원은 사전적인 구조대원이 있었으며 힘든 상황에서 외상후스트레스장애에 의해 힘들어하고 시민이 감싸주고 보호해 주어야 하는 119구조대원이 있었다. 또한 전문분야로 인정받으며 요구조자를 한 치의 실수 없이 인명 구조를 실시하는 119구조대원의 인식이 있었다. 이에 119구조대원이 구조의 전문분야로 인정받기 위해 다양한 훈련 및 경험을 공유할 수 있는 프로그램이 제공되어야 하고 연구되어져야 한다.

지자체 사이버 공간 안전을 위한 금융사기 탐지 텍스트 마이닝 방법 (Financial Fraud Detection using Text Mining Analysis against Municipal Cybercriminality)

  • 최석재;이중원;권오병
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.119-138
    • /
    • 2017
  • 최근 SNS는 개인의 의사소통뿐 아니라 마케팅의 중요한 채널로도 자리매김하고 있다. 그러나 사이버 범죄 역시 정보와 통신 기술의 발달에 따라 진화하여 불법 광고가 SNS에 다량으로 배포되고 있다. 그 결과 개인정보를 빼앗기거나 금전적인 손해가 빈번하게 일어난다. 본 연구에서는 SNS로 전달되는 홍보글인 비정형 데이터를 분석하여 어떤 글이 금융사기(예: 불법 대부업 및 불법 방문판매)와 관련된 글인지를 분석하는 방법론을 제안하였다. 불법 홍보글 학습 데이터를 만드는 과정과, 데이터의 특성을 고려하여 입력 데이터를 구성하는 방안, 그리고 판별 알고리즘의 선택과 추출할 정보 대상의 선정 등이 프레임워크의 주요 구성 요소이다. 본 연구의 방법은 실제로 모 지방자치단체의 금융사기 방지 프로그램의 파일럿 테스트에 활용되었으며, 실제 데이터를 가지고 분석한 결과 금융사기 글을 판정하는 정확도가 사람들에 의하여 판정하는 것이나 키워드 추출법(Term Frequency), MLE 등에 비하여 월등함을 검증하였다.