• Title/Summary/Keyword: 텍스트 연구

Search Result 3,492, Processing Time 0.026 seconds

The Usefulness of Icon and Label Displays (표상방식에 따른 아이콘과 레이블 디스플레이의 유용성 비교)

  • 이주환;한광희
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2002.05a
    • /
    • pp.92-98
    • /
    • 2002
  • 복잡한 기능이나 개념을 제한된 공간에 효과적으로 표현하는데 아이콘이 널리 이용된다. 이러한 아이콘 개발이 디자이너의 미적인 기준이나, 시스템에서 일률적으로 사용에 의해 결정되는 경향이 있다. 본 연구는 동일한 정보를 포함하는 아이콘이나 레이블같이 서로 다른 표상들이 그 표상 방식의 유용성 측면에서 다른 결과를 보일 수 있으며, 기능의 표상 방식이 다르면, 아이콘이나 레이블에 대한 이해가 서로 다른 인지 처리 체계를 거친다는 기본 가정에 근거를 두고 진행되었다. 구체적으로는 아이콘을 기존에 형성된 표상 방식들 가운데서 인지적 특성을 고려한 표상들로 분류한 기준을 이용하여, 실제 컴퓨터 사용자 환경에서 통용되고 있는 아이콘들을 수집, 분류하고, 각각의 표상 방식에 따른 아이콘의 유용성을 알아보고자 각 아이콘에 대응되는 레이블과의 수행을 비교하였다. 결과에 따르면, 새로운 기능을 익혀야하는 초기에는 아이콘보다 레이블과 같은 텍스트가 더욱 효과적이지만, 익숙해진 후 그 수행이 비슷해짐을 확인했다. 그러나 임의적 표상방식으로 디자인된 아이콘은 레이블보다 더 부정확하고 느린 수행을 지속적으로 나타냈고, 기능의 세 가지 표상방식에 따라서 아이콘에 대한 수행이 서로 다른 패턴을 보였다. 이는 아이콘과 같은 컴퓨터 사용자 인터페이스의 설계와 사용 단계에서, 표현하고자 하는 기능과 사용자의 인지적 속성인 표상 방식을 충분히 고려해야 한다는 것을 보여준다.

  • PDF

A Design and Implement of XML Document Storage Management System for Multimedia Data (멀티미디어 데이터에 대한 XML문서 저장관리 시스템 설계 및 구현)

  • An, Young-Hee;Hawang, Bu-Hyun
    • Annual Conference of KIPS
    • /
    • 2002.11c
    • /
    • pp.1875-1878
    • /
    • 2002
  • 인터넷이 정보의 바다가 된 오늘날에 많은 정보를 효과적으로 표현하기 위해 텍스트뿐만 아니라 이미지 동영상등 멀티미디어 데이터의 표현이 많이 사용되고 있다. 이러한 대용량의 멀티미디어 데이터가 증가함에 따라 대용량의 데이터를 효과적으로 처리하고 저장하기 위한 많은 연구개발이 이루어지고 있다. 본 논문에서는 웹의 표준인 XML을 이용하여 비디오 데이터를 XML 문서로 표현하고 관계형 데이터베이스에 XML 문서를 저장할 수 있는 스키마를 생성한다. 그리고 생성된 스키마를 이용하여 관계형 데이터베이스를 기반으로 하는 XML문서 저장관리 시스템을 구현한다.

  • PDF

An Indexing Model for Effective Retrieval of Multimedia Data Based on XML (XML 기반 멀티 미디어 데이터의 효과적인 검색을 위한 색인 모델)

  • Ko, Eun-Kyung;Hwang, Bu-Hyun
    • Annual Conference of KIPS
    • /
    • 2002.11c
    • /
    • pp.1895-1898
    • /
    • 2002
  • 웹 환경에서 처리하는 데이터의 종류가 텍스트에서 비디오, 오디오와 같은 멀티미디어 데이터까지 다양해지면서 데이터를 효율적으로 표현, 저장 및 검색하기 위한 다양한 방법이 연구되고 있다. 이 논문에서는 동영상 데이터의 구조적인 형태를 고려하여 XML 문서로 표현하고 XML 문서를 데이터베이스에 저장하기 위한 데이터베이스 스키마를 설계하였다. 그래서 XML 문서내의 각 노드에 엘리먼트의 고유성을 나타내기 위한 고유식별자와 부모노드와 자식노드들 간의 관계를 표현하여 주기 위한 엘리먼트 식별자와 ETID를 결합하여 멀티미디어 데이터에 대한 XML 문서의 부모와 자식의 관계를 표현하여 준다. 그리고 부모가 같은 형제간의 순서 정보와 형제들 간의 동일한 타입을 구별하고 정보를 표현하기 위한 관계 테이블을 설계하였다.

  • PDF

A PCF-based Mail System for Blocking Adult Mails. (PGP 기반의 성인광고메일 차단용 메일시스템)

  • Kim, Seong-Shig;Ahn, Yang-Jae;Kim, Joong-Hwan;Kim, Sang-Chul
    • Annual Conference of KIPS
    • /
    • 2003.05b
    • /
    • pp.1043-1046
    • /
    • 2003
  • 정보화 사회가 도래하고 우편이나 통신체계도 물리적인 공간에서 인터넷(Internet)이라는 가상 공간으로 점차 옮겨져 광범위하게 사용되고 있다. 전자우편의 중요성이 대두되면서 스팸 메일 (Spam-Mail)로 인한 여러 가지 피해들이 속출하고 있다 특히, 많은 사람들이 성인광고 스팸메일로 인해 상당히 곤혹스러운 경우를 경험을 하고 있다. 본 논문에서는 PGP(Pretty Good Privacy)의 개념을 이용해서 사용자 인증(User Authentication) 기능을 수행하고, 인증되지 않는 사용자가 보낸 메일에 대해서는 텍스트 분석뿐만이 아니라 이미지와 동영상을 처리해서 성인광고 메일 여부를 판단하는 메일 시스템을 제안한다. 우리의 조사에 의하면, 성인광고메일을 차단하는 메일시스템에 관한 연구는 거의 발표되지 않고 있다.

  • PDF

A Study on Effectively Detecting and Correcting POS-Tagged Errors (효율적인 품사부착 오류 검출 및 수정에 관한 연구)

  • Choi, Myung-Gil;Seo, Hyeong-Won;Nam, Yoo-Rim;Kwon, Hong-Seok;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.132-137
    • /
    • 2012
  • 본 논문에서는 세종형태분석 말뭉치에 포함되어 있는 오류를 효율적으로 수정하기 위하여 오류 수정도구를 개발하였다. 세종형태분석 말뭉치에서 오류를 검출하기 위하여 형태소 생성과 자동 띄어쓰기 방법을 이용하였다. 검출된 오류를 수정하기 위하여 철자 오류 수정, 형태소 삭제 수정, 형태소 삽입 수정, 어절 재분석 방법을 사용하였다. 또한 최대한 반복적인 작업은 수행하지 않도록 설계하였다. 구현된 오류 수정 도구를 통하여 세종형태분석 말뭉치를 수정하였을 경우 텍스트 파일 형태의 말뭉치에서 오류를 수정하는 것보다 최소 9배 이상 빠른 작업이 가능하였으며, 사용자가 오류 수정 작업을 진행할수록 수정 속도가 빨라짐을 실험을 통해서 알 수 있었다.

  • PDF

Key Expressions in Editorial Texts: Determining the Unithood and Termhood of Word Sequences based on a 2009 Newspaper Corpus (신문 사설의 특징적 표현들에 대한 연구)

  • Kim, Hye-Young;Kang, Beom-Mo
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.185-190
    • /
    • 2012
  • 본 논문은 동아, 조선, 중앙, 한겨레 신문의 2009년 신문 사설의 제목과 본문에서 나타나는 n-gram에 대한 논의이다. 구체적으로 자주 출현하는 단어들의 연속 단위 3~6개의 형태소를 추출하여 신문 사설에서 나타난 고빈도 형태소 연속체를 살펴본다. 또한 이들을 기사문에서 추출한 패턴과 로그공산비로 비교하여 신문 사설에서 더 특징적인 의미로 사용되는 어휘들을 살펴본다. 그 결과, 사설 본문에서는 3-gram은 '아야 한다'. 4-gram은 'ㄹ 것이다', 5-gram은 'ㄹ 수밖에 없다', 6-gram은 '아야 할 것이다' 등이, 사설 제목은 '것인가, 안 된다'가 하나의 용어처럼 사용되고 있었다. 이러한 형태소 연속체를 살펴봄으로써, 신문사설의 텍스트 특징과 정형적인 표현에 대해서 살펴볼 수 있다.

  • PDF

Concept and Application of Deep learning-based Automatic Spacing (문장 정보를 고려한 딥 러닝 기반 자동 띄어쓰기의 개념 및 활용)

  • Cho, Won Ik;Cheon, Sung Jun;Kim, Ji Won;Kim, Nam Soo
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.181-184
    • /
    • 2018
  • 본 논문에서는, 한국어 활용에 있어 중의성을 해소해 주고 심미적 효과를 줄 수 있는 개념인 띄어쓰기를, 교정이 아닌 입력 보조의 관점에서 접근한다. 사람들에게 자판을 통한 텍스트 입력이 언어활동의 보편적인 수단이 되면서 가독성을 포기하고서라도 편의를 택하는 경우가 증가하게 되었는데, 본 연구에서는 그러한 문장들의 전달력을 높여 줄 수 있는 자동 띄어쓰기 및 그 활용 방안을 제시한다. 전체 시스템은 dense word embedding과 딥 러닝 아키텍쳐를 활용하여 훈련되었으며, 사용된 코퍼스는 비표준어 및 비정형을 포함하는 대화체 문장으로 구성되어 user-generate된 대화형 문장 입력의 처리에 적합하다.

  • PDF

Analysis of Judicial Precedent Information related to Debt Recovery based on Deep-Learning (심층 학습 기반의 채권 회수 판례 분석)

  • Kim, Seon-wu;Ji, Sun-young;Choi, Sung-pil
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.373-377
    • /
    • 2018
  • 판례는 재판에 대한 선례로, 법적 결정에 대한 근거가 되는 핵심 단서 중 하나이다. 본 연구에서는 채권회수를 예측하는 서비스 구축을 위한 단서를 추출하기 위해 채권 회수 판례를 수집하여 이를 분석한다. 먼저 채권 회수 판례에 대한 기초 분석을 위하여, 채권 회수 사례와 비회수 사례를 각 20건씩 수집하여 분석하였으며, 이후 대법원 및 법률 지식베이스의 채권 관련 판례 12,457건을 수집하고 채권 회수 여부에 따라 가공하였다. 채권 회수 사례와 비회수 사례를 분류하기 위한 판례 내의 패턴을 분석하여 레이블링하고, 이를 자동 분류할 수 있는 Bidirectional LSTM 기반 심층학습 모델을 구성하여 학습하였다. 채권 관련 판례 가공 기준에 따라 네 가지의 데이터 셋을 구성하였으며, 각 데이터셋을 8:2의 비율로 나누어 실험한 결과, 검증 데이터에 대하여 F1 점수 89.82%의 우수한 성능을 보였다.

  • PDF

Detection of Soft 404 Errors based on Visual Characteristics of Web Page (웹 문서의 형태적 특징 인식에 기반한 SOFT 404 오류 판별)

  • Im, Jaehyeong;Choo, Seung-Hwa
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.382-385
    • /
    • 2018
  • Dead Link의 노출 최소화는 웹 검색 서비스의 품질 유지에 있어 매우 중요하다. 따라서 색인 내 Soft 404 오류의 정확한 판별은 필수적이지만, 리다이렉션 정보에 의존하거나 텍스트 혹은 HTML 자질 만을 고려하는 기존 방법의 활용만으로는 판별 가능한 Soft 404 오류의 유형이 한정될 수 있다는 문제가 있다. 이에 본 연구에서는 보다 범용성이 높은 Soft 404 오류 판별 기술의 개발을 위해, 404 오류 안내 페이지 고유의 형태적 특성을 오류 판별에 사용할 것을 제안한다. 제안 방법은 오류 안내 문서의 형태적 특성을 이미지 인식 모형에 기반해 학습한 후 이를 Soft 404 오류 판별에 사용하며, 리다이렉션 등 특정 정보에 의존하는 기존 방법에 비해 보다 폭넓게 적용 가능하다는 장점이 있다. 실험에서 제안 방법은 87.6%의 정확률과 92.7%의 재현율을 기록하는 등 높은 인식 성능을 보였다.

  • PDF

Application of Gaussian Mixture Model for Text-based Biomarker Detection (텍스트 기반의 바이오마커 검출을 위한 가우시안 혼합 모델의 응용)

  • Oh, Byoung-Doo;Kim, Ki-Hyun;Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.550-551
    • /
    • 2018
  • 바이오마커는 체내의 상태 및 변화를 파악할 수 있는 지표이다. 이는 암을 비롯한 다양한 질병에 대하여 진단하는데 활용도가 높은 것으로 알려져 있으나, 새로운 바이오마커를 찾아내기 위한 임상 실험은 많은 시간과 비용을 소비되며, 모든 바이오마커가 실제 질병을 진단하는데 유용하게 사용되는 것은 아니다. 따라서 본 연구에서는 자연어처리 기술을 활용해 바이오마커를 발굴할 때 요구되는 많은 시간과 비용을 줄이고자 한다. 이 때 다양한 의미를 가진 어휘들이 해당 질병과 연관성이 높은 것으로 나타나며, 이들을 분류하는 것은 매우 어렵다. 따라서 우리는 Word2Vec과 가우시안 혼합 모델을 사용하여 바이오마커를 분류하고자 한다. 실험 결과, 대다수의 바이오마커 어휘들이 하나의 군집에 나타나는 것을 확인할 수 있었다.

  • PDF