• 제목/요약/키워드: Eojeol Size

검색결과 2건 처리시간 0.018초

말뭉치와 형태소 분석기를 활용한 한국어 자동 띄어쓰기 (Automatic Word Spacing Using Raw Corpus and a Morphological Analyzer)

  • 심광섭
    • 정보과학회 논문지
    • /
    • 제42권1호
    • /
    • pp.68-75
    • /
    • 2015
  • 본 논문에서는 띄어쓰기가 전혀 되어 있지 않은 문자열을 입력 받아 말뭉치에서 추출한 어절 정보를 이용하여 자동 띄어쓰기를 해 주는 방법론을 제안한다. 형태소 분석기도 사용되나 오류 수정이라는 제한적인 용도로만 사용된다. 성능 평가를 위해 1,000만 어절 규모의 세종 말뭉치에서 순수 한글 585만 어절을 발췌하여 10 개의 세트로 나누고 10 배수 교차 검증을 실시한 결과 98.06%의 음절 정확도와 94.15%의 어절 재현율을 얻었다. 또한, 개인용 컴퓨터에서 초당 25만 어절, 1.8 MB의 문서를 처리할 수 있을 정도로 빠르다. 제안된 방법의 정확도나 재현율은 어절 사전의 크기에 영향을 받기 때문에 보다 큰 말뭉치로 어절 사전을 구축하면 성능이 더욱 향상될 것으로 기대된다.

한글 텍스트 스테가노그래피에서 어절을 이용한 정보은닉 기법 (A Techniques to Conceal Information Using Eojeol in Hangul Text Steganography)

  • 지선수
    • 한국산업정보학회논문지
    • /
    • 제22권5호
    • /
    • pp.9-15
    • /
    • 2017
  • 디지털 시대에 인터넷에서 사용되는 모든 데이터는 디지털화되어 통신 네트워크를 통해 송신 및 수신된다. 따라서 디지털 데이터가 불법적인 사용자에 의해 변조되고 조작될 수 있기 때문에 기밀성과 무결성을 갖춘 암호화된 데이터를 전송하는 것이 중요하다. 스테가노그래피는 암호화 기법과 혼합되어 기밀성과 무결성을 함께 보장하기 위한 효율적인 방법이다. 커버 매체에 삽입되는 위치와 변화하는 어절 형태를 기반으로 비밀 메시지를 삽입하는 한글 텍스트 스테가노그래피 방법을 제안한다. 한글 텍스트 스테가노그래피에서 3.35%의 삽입용량과 0.4%의 파일 크기 변화를 고려할 때 실험결과는 Jaro_score 값이 0.946으로 유지할 필요가 있다는 것을 보여준다.