• 제목/요약/키워드: 영어 문자

검색결과 78건 처리시간 0.021초

형태소 단위 자질을 이용한 콘텐츠 기반 한국어 SMS 스팸 필터링 (Contents-Based Korean SMS Spam Filtering Using Morpheme Unit Features)

  • 손대능;신중휘;이정태;이승욱;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.195-200
    • /
    • 2008
  • 본 논문에서는 형태소 분석을 이용한 확률 기반 한국어 SMS 스팸 필터링 기법을 제안한다. 기존 연구에서는 단어 및 문자 단위 어휘 정보를 자질로 이용한 영어 및 스페인어 SMS 스팸 필터링 방법들이 있다. 하지만 교착어인 한국어의 경우, 어근과 접사의 조합에 의해서 다양한 어절이 형성될 수 있다. 따라서 어절단위 어휘 정보를 자질로 사용할 경우, 미등록어(out of vocabulary) 문제가 발생한다. 특히, 매우 적은 수의 단어들로 구성된 SMS 메시지의 경우에는 이 문제가 매우 심각하다. 본 논문에서는 형태소 분석을 이용하여 이러한 문제점을 해결하고자 하였다. 실험 결과, 제안하는 방법은 기존 연구와 비교하여 10.6%의 스팸 분류 정확률 향상을 보였다. 또한 미등록어만을 포함하는 SMS 메시지의 수는 약 77% 감소하였다.

  • PDF

단어의 음성학적 특징을 이용한 한국어 기계 번역 데이터 세트 구축 방안 (Proposed Methodology for Building Korean Machine Translation Data sets Considering Phonetic Features)

  • 장칭하오;양홍진;김세린;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.592-595
    • /
    • 2022
  • 한국어에서 한자어와 외래어가 차지하는 비중은 매우 높다. 일상어의 경우 한자어와 외래어의 비중이 약 53%, 전문어의 경우 약 92%에 달한다. 한자어나 외래어는 중국이나 다른 나라로부터 영향을 받아 한국에서 쓰이는 단어들이다. 한국어에서 사용되는 한자어와 외래어의 한글 표기과 원어 표기를 발음해보면, 발음이 상당히 유사하다는 것을 알 수 있다. 한자어인 도서관(图书馆)을 중국어로 발음해보면 thu.ʂu.kwan'로 해당 단어에 대한 한국 사람의 발음과 상당히 유사하다. 본 논문에서는 Source Length, Source IPA Length, Target Length, Target IPA Length, IPA Distance 등 총 5가지의 음성학적 특징을 고려한 한국어-중국어 한국어-영어 단어 기계번역 데이터 세트를 구축하고자 한다.

  • PDF

IP 카메라 보안의 문제점 분석 및 보완 방안 연구 (A Study on IP Camera Security Issues and Mitigation Strategies)

  • 신승진;박정흠;이상진
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제12권3호
    • /
    • pp.111-118
    • /
    • 2023
  • 세계적으로 사이버 공격이 증가하고 있으며 CCTV, IP 카메라 해킹과 같은 개인의 사생활에 대한 공격도 증가하고 있다. 유튜브나 SNS, 다크웹과 같은 공간에서 IP 카메라 해킹 방법에 대해 검색해보면 손쉽게 자료를 구할 수 있고, 해킹 프로그램 또한 판매되고 있다. 해킹 프로그램이 이용하는 취약점이 존재하는 IP 카메라를 사용하면 비밀번호를 주기적으로 변경하거나 특수문자와 영어 대소문자, 숫자를 포함한 복잡한 암호를 사용하더라도 쉽게 해킹 피해를 본다. 뉴스나 언론 매체를 통해 IP 카메라 보안성에 대해 문제를 제기하고 피해 방지를 위한 대책을 제시하였으나 해킹 사건은 꾸준히 발생하고 있다. 이러한 해킹 피해를 막기 위하여 해킹 사건 원인을 파악하고 이에 대한 구체적인 대응 방안이 필요하다. 먼저 IP 카메라 해킹 사건의 원인으로 취약한 계정 설정과 IP 카메라의 웹 서버 취약점을 분석하고 이에 대한 해결 방법을 제시하였다. 그리고 해킹에 대한 구체적인 대응 방안으로 IP 카메라에 접속하면 알림이 오도록 하는 기능과 접속 기록을 저장하는 기능이 추가되어야 한다고 제안하였다. 이와 같은 기능이 있다면 피해 사실을 즉각 알아차릴 수 있고, 범인을 검거하는 데 중요한 자료를 남길 수 있다. 따라서 본 논문에서는 IP 카메라에 접속 알림 기능과 로깅 기능을 사용하여 해킹으로부터 안전성을 높이는 방법을 제시하였다.

특징 분리를 통한 자연 배경을 지닌 글자 기반 CAPTCHA 공격 (Breaking character and natural image based CAPTCHA using feature classification)

  • 김재환;김수아;김형중
    • 정보보호학회논문지
    • /
    • 제25권5호
    • /
    • pp.1011-1019
    • /
    • 2015
  • 컴퓨터 사용자가 사람인지 아닌지를 판별하는 CAPTCHA는 많은 포털 사이트에서 자동 프로그램에 의한 비정상적인 회원가입 또는 다중 로그인 방지 등을 위해 사용되고 있다. 많은 웹 사이트들은 숫자 혹은 영어로 구성된 문자열 기반 캡챠를 대부분 사용하는데, 최근에는 OCR 기술의 발달로 단순한 텍스트 기반 캡챠는 쉽게 무력화 된다. 이에 대한 대안으로 많은 웹 사이트들은 글자 판독을 어렵게 하기 위해 잡음을 첨가하거나 글자를 왜곡시키는 등 다양한 시도를 하고 있다. 본 논문에서 대상으로 하는 국내 한 포털 사이트 역시 공격자들에 의해 많은 공격을 당하였고, 끊임없이 캡챠를 발전시키고 있다. 본 논문에서는 해당 사이트에서 현재 사용되고 있는 다양한 자연 배경을 지닌 캡챠에 대해 분석하고, SVM을 이용한 특징 분리 후 CNN을 이용한 글자 인식을 통해 해당 캡챠의 취약성을 검증하였다. 실험 결과, 총 1000개의 캡챠 이미지 중 368개에 대해 정확히 맞추었고, 이를 통해 해당 포털 사이트에서 현재 사용하고 있는 새로운 버전의 캡챠 역시 안전하지 않음을 입증하였다.

양방향 장단기 메모리 신경망을 이용한 욕설 검출 (Abusive Detection Using Bidirectional Long Short-Term Memory Networks)

  • 나인섭;이신우;이재학;고진광
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.35-45
    • /
    • 2019
  • 욕설과 비속어를 포함한 악성 댓글에 대한 피해는 최근 언론에 나오는 연애인의 자살뿐만 아니라 사회 전반에서 다양한 형태로 증가하고 있다. 이 논문에서는 양방향 장단기 메모리 신경망 모델을 이용하여 욕설을 검출하는 기법을 제시하였다. 웹 크룰러를 통해 웹상의 댓글을 수집하고, 영어나 특수문자 등의 사용하지 않은 글에 대해 불용어 처리를 하였다. 불용어 처리된 댓글에 대해 문장의 전·후 관계를 고려한 양방향 장단기 메모리 신경망 모델을 적용하여 욕설 여부를 판단하고 검출하였다. 양방향 장단기 메모리 신경망을 사용하기 위해 검출된 댓글에 대해 형태소 분석과 벡터화 과정을 거쳤으며 각 단어들에 욕설 해당 여부를 라벨링하여 진행하였다. 실험 결과 정제하고 수집된 총 9,288개의 댓글에 대해 88.79%의 성능을 나타내었다.

  • PDF

학교도서관을 위한 소설장서의 장르 분류 방안에 관한 연구 (A Study on Genre Classification for Fictions in School Libraries)

  • 박은희;이미화
    • 한국비블리아학회지
    • /
    • 제31권1호
    • /
    • pp.115-136
    • /
    • 2020
  • 학교도서관에서 가장 많은 장서를 차지하는 주제는 문학의 소설이며, 소설장서를 접근하기 위한 KDC의 현행 분류체계는 학교도서관에서 소설에 접근하려는 이용자의 정보요구에 부합하지 않으므로 이용자 요구를 반영한 장르 분류 방안이 모색되어야 한다. 이에 본고에서는 국내·외 국립 및 공공도서관의 소설장서 분류 현황을 조사하고, 온라인 및 오프라인 서점의 소설장서 분류체계와 KDC와 DDC의 소설 분류표를 비교하여 이를 바탕으로 학교도서관에서 소설장서의 장르 분류 방안을 모색하였다. 우선, 소설장서를 위한 장르분류표를 개발하기 위해, 소설을 위한 장르 용어를 수집하고, 이중에서 14개의 장르 표목을 도출하여 영어 표목의 두문자를 분류기호로 할당하였다. 새롭게 개발한 장르분류표의 적용 방안으로 중등학교 도서관의 KDC 번호를 대상으로 KDC와 혼합 적용, 장르기호를 선치해 적용, 장르기호만 적용하는 세 가지를 제시하였다. 본 연구는 KDC에서 계층 분류의 한계를 극복하고 이용자의 요구를 반영한 소설장서의 장르 분류 방안을 모색하였다는데 의의가 있다.

한국어 소설에서 주요 인물명 인식 기법 (A Recognition Method for Main Characters Name in Korean Novels)

  • 김서희;박태근;김승훈
    • 한국정보전자통신기술학회논문지
    • /
    • 제9권1호
    • /
    • pp.75-81
    • /
    • 2016
  • 소설에서 주요 인물은 소설의 이야기를 전개하는 아주 중요한 역할을 담당하여 소설에서 없어서는 안 되는 중심인물을 의미한다. 기존의 인물명 인식 연구에서는 구축해놓은 인물명 사전을 통해 인물명을 인식하였고, 영어의 경우 대소문자 구별이 있으며 인물명과 함께 사용되는 단어를 활용하여 인물명을 인식하였다. 본 논문에서는 한국어 소설에서 용언, 규칙 및 가중치를 이용한 주요 인물명 인식 기법에 대해 제안한다. 먼저, 인물이 행할 수 있는 용언을 근거로 인물명 후보를 인식하고, 인식된 인물명 후보 중 인물명으로 사용될 수 없는 규칙에 해당되는 후보들을 제거한다. 문장에 나타나는 인물명 후보의 수에 따라 가중치를 부여하여 중요도를 계산하고, 중요도가 임계치 이상인 경우 주요 인물명으로 판단한다. 소설 300권을 대상으로 실험 결과 평균 85.97%의 정확도를 보였다. 인식된 주요 인물명은 향후 소설내 등장인물 간 연관관계를 파악하거나 등장인물의 행위, 성향 등을 파악하는데 활용될 수 있다.

대형 사전훈련 모델의 파인튜닝을 통한 강건한 한국어 음성인식 모델 구축 (Building robust Korean speech recognition model by fine-tuning large pretrained model)

  • 오창한;김청빈;박기영
    • 말소리와 음성과학
    • /
    • 제15권3호
    • /
    • pp.75-82
    • /
    • 2023
  • 자동 음성 인식(automatic speech recognition, ASR)은 딥러닝 기반 접근 방식으로 혁신되었으며, 그중에서도 자기 지도 학습 방법이 특히 효과적일 수 있음이 입증되고 있다. 본 연구에서는 다국어 ASR 시스템인 OpenAI의 Whisper 모델의 한국어 성능을 향상시키는 것을 목표하여 다국어 음성인식 시스템에서의 비주류 언어의 성능 문제를 개선하고자 한다. Whisper는 대용량 웹 음성 데이터 코퍼스(약 68만 시간)에서 사전 학습되었으며 주요 언어에 대한 강력한 인식 성능을 입증했다. 그러나 훈련 중 주요 언어가 아닌 한국어와 같은 언어를 인식하는 데 어려움을 겪을 수 있다. 우리는 약 1,000시간의 한국어 음성으로 구성된 추가 데이터 세트로 Whisper 모델을 파인튜닝하여 이 문제를 해결한다. 또한 동일한 데이터 세트를 사용하여 전체 훈련된 Transformer 모델을 베이스 라인으로 선정하여 성능을 비교한다. 실험 결과를 통해 Whisper 모델을 파인튜닝하면 문자 오류율(character error rate, CER) 측면에서 한국어 음성 인식 기능이 크게 향상되었음을 확인할 수 있다. 특히 모델 크기가 증가함에 따라 성능이 향상되는 경향을 포착하였다. 그러나 Whisper 모델의 영어 성능은 파인튜닝 후 성능이 저하됨을 확인하여 강력한 다국어 모델을 개발하기 위한 추가 연구의 필요성을 확인할 수 있었다. 추가적으로 우리의 연구는 한국어 음성인식 애플리케이션에 파인튜닝된 Whisper 모델을 활용할 수 있는 가능성을 확인할 수 있다. 향후 연구는 실시간 추론을 위한 다국어 인식과 최적화에 초점을 맞춰 실용적 연구를 이어갈 수 있겠다.