• Title/Summary/Keyword: 한글문서 정보

Search Result 572, Processing Time 0.026 seconds

Plagiarised Reports Detection System using Characteristcs of Korean Language and Local alignment Algorithm (한글 구조특성과 지역정렬 알고리즘을 사용한 표절 판정 시스템의 개발)

  • 전명재;박상돈;박웅;허진영;조환규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.727-729
    • /
    • 2004
  • 최근 논문의 표절 및 저작권과 관련하여 여러 가지 사건들이 일어나 많은 관심과 우려를 불러일으키고 있다. 특히 인터넷 통신의 발달 및 워드프로세서의 기능 향상으로 인해 일선 교육현장에서의 표절에 간한 문제는 더욱 커지고 있다. 하지만 문서의 표절 여부를 가려내는 작업은 쉬운 일이 아니다. 과제로 제출되는 일반 문서의 경우 본문의 내용이나 문서의 개수를 고려해 볼 때 사람이 직접 표절 여부를 검사하는 것은 매우 힘든 작업이다. 그리고 어간, 어미의 변형이 쉽게 일어날 수 있는 한글의 경우에는 영어에서처럼 어절 단위로 두 문서를 비교하여 표절여부를 판정하는 기존의 방법은 적합하지가 않다 본 논문에서는 한글로 작성된 텍스트 문서의 표절 여부를 효과적으로 검출해 내기 위한 새로운 방법들을 제시하고 있다. 그리고 실제로 수집된 다양한 문서 데이터 집합들에 대해 각각의 방법들을 테스트해 보고 실제 데이터에서 가장 효율적인 방범이 어떤 깃인지 제시한다

  • PDF

Implementation of Hangul MG System for Fast Hangul Information Retrieval (고속 한글 정보 검색을 위한 한글 MG 시스템 구현)

  • 박미란;나연묵
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.330-332
    • /
    • 1998
  • 정보의 양의 기하급수적인 증가에 따라 저장 용량과 검색 공간의 크기로 인한 문제를 효율적인 압축기법을 사용함으로써 해결하려는 노력이 계속되고 있다. 국내의 경우 한글 처리가 가능한 정보 검색 엔진에 대한 요구가 크게 증가하고 있다. 본 논문에서는 정보 검색 엔진에 고압축 기법을 적용한 MG(Managing Gigabytes) 1.2 시스템과 한글 형태소 분석기 HAM 4.0을 사용하여 고속 한글 정보 검색이 가능한 한글 MG 시스템을 구현하였다. 또한 인터프리터 방식의 질의 처리기를 수정하여 웹에서 한글 문서를 검색하는 한글 MG 테스트베드를 구축하였다.

Hangul/English Automatic Toggle System for Document Input (문서 입력을 위한 한/영 자동 토글 시스템)

  • Choi, Y.W.;Seo, D.R.;Kim, Y.S.;Park, Y.H.;Lee, K.S.;Kim, C.H.
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.321-328
    • /
    • 1992
  • 컴퓨터의 보급과 활용이 늘어남에 따라 한글과 영문이 혼합된 문서 작성의 필요성이 계속 증대되고 있다. 컴퓨터 하드웨어 및 소프트웨어에서 사용자의 편리성과 효율성을 최대한 배려하는 "사용자 인터페이스"에 대한 연구가 증대되고 있어서 보다 편리한 한/영 혼용문서의 작성 방법이 요구되고 있다. 키보드를 통한 한/영 혼용문 입력시에 입력된 문서의 내용을 입력 오토마타 및 사전 수록 정보를 토대로 분석하여 자동적으로 한글 또는 영문으로 변환하는 자동토글 시스템 개발에 대해 설명하고, 현재의 시스템이 해결하지 못한 문제점 및 개선 방향을 기술한다.

  • PDF

An Analysis of the Hierarchical Agglomerative Clustering based on various Compound Noun Indexing Method (복합명사 분리 색인 방법이 문서 클러스터링에 미치는 영향 분석)

  • 양명석;최성필
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.697-699
    • /
    • 2002
  • 본 논문에서는 복합명사에 대한 색인 방법을 다각적으로 적용하여 계층적 결함 문서 클러스터링 시스템의 결과를 분석하고자 한다. 우선 한글 색인 엔진과 HAC(Hierarchical Agglumerative Clustering) 엔진에 대해서 설명하고 한글 색인엔진에서 제공되는 세가지 복합명사 분석 모드에 대해서 설명한다. 또한 구현된 클러스터링 엔진의 특징과 속도 향상을 위한 기법 등을 설명한다. 실험에서는 다양한 요소를 가지고 클러스터링된 문서 집합에 대한 분석 결과를 보인다. 실험 결과에 대한 분석에서 복합명사에 대한 색인 방법이 문서 클러스터링의 결과에 직접적인 영향을 준다는 것을 보여준다.

  • PDF

An Algorithm for Character Segmentation on the Korean Documents (한글 문서에서의 낱자 분리 알고리즘)

  • Lee, Hyun-Pyo;Yang, Soon-Sung;Hwang, Kyo-Cheul;Lee, Kyoon-Ha
    • Annual Conference on Human and Language Technology
    • /
    • 1989.10a
    • /
    • pp.203-208
    • /
    • 1989
  • 본 논문에서는 한글 문자 인식 시스템을 이용하여 한글 문서를 자동 판독하기 위한 낱자 분리 알고리즘을 제안하였다. 제안된 알고리즘은 문자의 심미성 및 가독성을 높이기 위하여 상호 접촉되고 있는 낱자들의 유형을 조사 분석한 후 문서의 수직 및 수평 투영법에 기본을 두어 행과 열을 분리하고, 분리된 문자군을 이루고 있는 문자획의 기하학적 속성들을 분석하여 낱자를 분리하였다.

  • PDF

A Study of Personalized Retrieval System Evaluation (개인화 검색시스템 평가에 관한 연구)

  • Kim, Kwang-Young;Choe, Ho-Seop;Jin, Du-Suk;Kim, Jin-Suk
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06b
    • /
    • pp.39-42
    • /
    • 2010
  • 본 논문에서는 주제별 분류기반의 개인화 검색시스템의 평가를 위해서 기존의 한글 정보 검색시스템 평가를 위해서 사용하는 한글 테스트 컬렉션(HANTEC v2.0)을 사용하였다. 주제별 분류기반의 개인화 검색 시스템의 평가를 위해서 첫째, 한글 테스트 컬렉션을 한국일보-40075 문서분류 테스트 컬렉션을 이용하여 주제별 분류를 수행 하였다. 둘째, 한국일보-40075 문서분류 테스트 컬렉션의 분류 체계에 다라 한글 테스트 컬렉션의 문서들을 kNN 분류기를 이용하여 분류를 수행하였다. 마지막으로 구축된 컬렉션을 이용하여 주제별 분류기반의 개인화 검색시스템의 성능 평가를 수행하였다.

  • PDF

Extraction Algorithm of Field-Associated Terms for Korean Document Classification (한글문서 분류용 분야연상어의 추출 알고리즘)

  • 김숙영;최창원;이상곤
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.544-546
    • /
    • 2003
  • 인간은 문서에서 대표적인 단어를 보는 것만으로 정치나 스포츠 등의 분야를 정확히 인지할 수 있다. 문서전체를 대상으로 하지 않고 부분적인 덱스트에서 출현하는 소수의 단어정보에서 문서의 분야를 정확히 결정하기 위해 분야연상어의 구축은 중요한 연구과제이다. 인간이 미리 분야체계를 정의하고, 각 분야에 해당하는 문서를 인터넷이나 서적을 통해 수집하고, 수집문서의 분야를 정확히 지시하는 분야연상어를 수집하는 방법을 제안한다. 문서의 분야결정 시정을 고려하여 분야연상어의 수준과 안정성랭크에 대하여 논의한다. 학습데이터에서 분야연상어 후보의 각 수준을 자동으로 결정하고, 컴퓨터가 제시하는 분야연상어의 수준, 안정성랭크, 집중률, 빈도정보를 이용하여 단일어로 된 분야연상어를 추출하는 방법을 제안한다.

  • PDF

HyREX: Universal XML Retrieval Engine for XML (다국어를 지원하는 XML 문서 검색 시스템: HyREX)

  • Han, Ye-Ji;Chae, Jong-Dae;Kim, Su-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11c
    • /
    • pp.1713-1716
    • /
    • 2002
  • HyREX는 연구용 프로토타입 XML 하이퍼미디어 문서 검색시스템으로 다국어를 지원하고 있다. HyREX는 검색을 위한 효율적인 접근 경로들을 처리하는 물리적 계층 HyPath와 질의어를 처리하는 논리적 계층 XIRQL 그리고 사용자 인터페이스인 HyGate 계층으로 이루어져 있다. 이 연구에서는 영어와 독일어 등의 검색을 지원하는 기존의 HyREX 시스템을 한글 XML 문서 검색시스템으로 확장하기 위해 먼저 한글 데이터타입을 위한 클래스를 구현하였다. 앞으로 한글 XML 문서 검색에서 정확율과 재현율을 향상하기 위해 각 문서의 인덱스에 대해 $tf{\cdot}idf$ 공식을 이용하여 가중치를 부여하고 이를 개발하고자 한다.

  • PDF

A Text-Secure Searching Method Using the First Phonemes in Korean Documents (한글 초성을 이용한 원문보호 탐색기법)

  • Kim, Sung-Hwan;Park, Sun-Young;Cho, Hwan-Gue
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.386-389
    • /
    • 2011
  • 인터넷의 발달과 활발한 지적 활동으로 인하여 정보 교류의 속도와 양이 급격하게 증가하였고 이에 따라 다량의 유사한 정보들 가운데 사용자가 원하는 정보를 탐색하기 위한 다양한 기법들이 연구되어 왔다. 하지만 이러한 탐색 기법을 적용하기에 앞서 탐색 대상이 되는 문서의 원문을 확보하여 데이터 베이스를 구축하고 또한 사용자의 질의문을 관리하는 과정에 있어서 사회·법률적인 문제가 방해요소로 작용함에 따라 원문과 질의문의 노출을 최소화하면서도 기존의 정보 탐색 기법들을 적용할 수 있는 공학적 해결 방법이 필요하게 되었다. 본 논문에서는 탐색 대상인 한글 문서의 각 문자를 구성하는 초성만을 추출하여 나열한 문서를 정의하고 이 초성 문서가 원문과 질의문의 노출을 방지하는 동시에 문장 단위 이상의 검색에 있어서 기존의 탐색 방법들이 초성 문서상에서 효과적으로 적용될 수 있음을 실험적으로 입증하였다.

The Recognition of The Korean Characters Using The Weighted Pattern Cluster (가중치 패턴 클러스터를 이용한 한글 문자 인식)

  • 김도형;이선화;차의영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.319-321
    • /
    • 2001
  • 본 논문에서는 스캐너로 입력된 한글 문서 영상에서 한글 문자를 인식하는 방법을 제시한다. 입력된 한글 문자를 한글의 구조적 특징에 따라 6개의 유형으로 분리하고, 각 유형에서의 모음의 형태학적 특징에 근거하여 모음을 인식한다. 각 유형에서의 자음의 인식을 위해서 가중치 패턴 클러스터를 생성하고 생성된 클러스터와 원영상간의 유사도 측정을 통해 자음을 인식하게 된다. 오인식 가능성이 있는 자음은 오인식 교정을 위한 세부 유사도 매칭과정을 통해 최종적으로 인식된다. 제안하는 알고리즘을 바탕으로 실험한 결과 스캐너로 입력받은 상용 한글 문자 14,983자에 대해 최종 95.68%의 인식률을 보였으며, 차후 정형화된 한글 문서 인식 시스템에 응용될 수 있을 것이다.

  • PDF