• 제목/요약/키워드: 섭 텍스트

검색결과 54건 처리시간 0.024초

압축된 써픽스 배열 구축 알고리즘의 성능 분석 (Performance Analysis of Construction Algorithms for Compressed Suffix Arrays)

  • 박치성;조준하;심정섭;김동규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (A)
    • /
    • pp.409-411
    • /
    • 2006
  • 써픽스 배열은 사전적 순서로 정렬된 써픽스들의 인덱스를 저장한 인덱스 자료구조로서, 긴 텍스트에서 반복되는 패턴 검색 시 효율적으로 사용 될 수 있다. 하지만 O($n\;log{\Sigma}$) 비트의 텍스트보다 큰 O(n log n) 비트 공간을 차지하기 때문에 대용량의 텍스트에 대해서는 큰 공간을 필요로 하는 문제점이 있다. 이를 해결하기 위해 압축된 써픽스 배열이 제안되었지만, 구축 시 이미 만들어진 써픽스 배열을 이용하기 때문에 실제 사용 공간을 줄이지는 못했다. 최근 써픽스 배열 없이 텍스트에서 직접 압축된 써픽스 배열을 구축할 수 있는 두 가지 알고리즘이 개발되었다. 본 논문에서는 이 두 가지 알고리즘을 구현한 후, 구축 시간과 사용 공간 등의 실험을 통해 기존의 써픽스 배열들과의 성능을 비교하고 분석한다.

  • PDF

TV토크프로그램에서의 행동자 모델 관한 연구 -'힐링캠프'를 중심으로- (A Study on Actant Models in the TV Talk-Show Program -Focus on 'Healing Camp'-)

  • 정태섭
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2012년도 춘계학술논문집 1부
    • /
    • pp.197-200
    • /
    • 2012
  • 본 논문에서는 그래마스의 이론을 적용하여 행동자의 모델을 통해 출연자의 관계와 서로의 행동적 모델을 분석하고자 함이다. 본 연구에서는 텍스트의 분석이 아닌 영상에서 나타난 의미를 텍스트적으로 들여다보고 이를 통하여 영상에 대입하여 분석하였다. '힐링캠프'의 3명의 사회자와 초대손님의 관계에 대하여 분석함으로서 그래마스의 행동자 모델에 적용함으로서 서로의 관계에 대하여 연구해 보았다.

  • PDF

사전 기반의 하이퍼 e-Mail 문서 생성기 (Dictionary Based Hyper e-Mail Document Generator)

  • 최지연;민수홍;조동섭
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 춘계학술발표대회논문집
    • /
    • pp.720-723
    • /
    • 2003
  • E-Mai1 서비스는 현재 가장 많이 쓰이는 WWW 시스템의 가장 기본적인 기능이다. 그러나 현 e-mai1 서비스는 텍스트 기반 구조를 통한 비동기적인 형태의 서비스를 계속 유지하고 있어, 동기적인 표현방법이 요구되는 실정이다 따라서 단순한 정보의 제공을 위한 서비스로서가 아니라, 사용자가 직접 설정하여 서비스를 받는 형태의 e-mai1 을 제안하고자 한다. 사용자가 지정해놓은 사전을 기반으로 HTML 문서가 재생산되어, 색 지정 기능과 하이퍼 텍스트 기능을 제공하는 한편, 사전에 등록된 정보를 바탕으로 개체에 대한 정보가 tooltip으로 표시될 수 있도록 하는 사전기반 하이퍼 문서 생성기능을 지원하도록 한다

  • PDF

빅데이터 환경에서 텍스트마이닝 기법을 활용한 공공문서 분류체계의 적용사례 연구 (Case Study on Public Document Classification System That Utilizes Text-Mining Technique in BigData Environment)

  • 심장섭;이강욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.1085-1089
    • /
    • 2015
  • 과거의 텍스트마이닝기법은 텍스트 자체의 복잡성과 텍스트 내에 산재한 변수의 자유도 때문에 분석 알고리즘을 구현하는데 어려움이 있었다. 의미 있는 정보를 얻기 위하여 어렵게 알고리즘을 구현했다고 하더라도, 기계적으로 텍스트 분석에 소요되는 시간이 텍스트를 사람이 직접 읽어 분석 하는 것보다 많은 시간이 요구 되었다. 그러나 최근 하드웨어와 분석 알고리즘의 발전과 함께 빅데이터라는 기술이 등장하였으며, 앞에서 설명한 제약사항을 극복할 수 있게 되었고, 텍스트마이닝을 통한 분석이 현실세계에서 그 가치를 충분히 인정받고 있다. 만약, 텍스트의 탐색 수준에서 벗어나 마이닝을 통하여 분석이 가능하다면 텍스트 분석에 소비되는 인적, 물적 자원의 비용을 절감할 수 있기 때문에 공공분야에서 절실히 요구되는 창조적인 일에 더 많은 자원을 효과적으로 활용할 수 있을 것이다. 이에 본 논문에서는 인적 자원이 수작업으로 하는 공공분야 문서 분류의 결과값과 빅데이터 환경에서 텍스트마이닝기반의 문서내 단어 빈도수(TF-IDF)와 문서간 코사인 유사도(Cosine Similarity)를 활용한 공공분야 문서분류의 결과값을 비교하여 평가한다.

  • PDF

Web URL Page 의 Image Logging 기법 (Image Logging Technique of a Web URL Page on the Tiny Web Server)

  • 유승희;조동섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 춘계학술발표대회
    • /
    • pp.679-682
    • /
    • 2008
  • 기존의 웹서버는 텍스트형식의 로그파일을 기록한다. 웹 서버에서 로그파일은 클라이언트의 웹서버에 대한 접속정보와 웹서버의 처리상황 등 모든 상황을 기록하고 저장한다. 이 정보를 분석하면 웹 서비스를 하는데 있어서 웹 서비스의 질을 높이는데 좋은 참고자료가 될 뿐 아니라 웹 서버에 이상이 생겼을 경우 발생한 오류를 조기에 발견하는 데에도 사용되는 중요한 자료이다. 현재 이러한 로그파일은 텍스트 파일로 저장되어있기 때문에 조작의 가능성도 있고 오랜 시간이 지나 해당 웹 페이지가 삭제되었을 경우 로그파일에 기록된 그 시각의 웹 페이지를 볼 수 없다. 본 연구에서는 로그파일에 기록된 그 시간의 웹 URL 페이지 이미지를 저장하여 이미지 로그파일을 만드는 시스템을 구현해 봄으로써 텍스트형식 로그파일의 단점을 보안하고 오랜 시간이 지난 후에도 그 웹 페이지를 볼 수 있는 기법을 연구하였다. 이 기법은 로그파일로써의 역할 뿐만 아니라 Digital Forensics 로 범죄 수사에도 많은 도움이 될 수 있고 휴대전화에서 풀 인터넷 브라우징 연구에도 적용될 수 있다.

텍스트의 핑거프린트를 이용한 순위다중패턴매칭 알고리즘 병렬 구현 (A Parallel Implementation of the Order-Preserving Multiple Pattern Matching Algorithm using Fingerprints of Texts)

  • 박소민;김영호;심정섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.57-60
    • /
    • 2020
  • 순위다중패턴매칭문제는 길이가 n인 텍스트 T와 패턴들의 집합 P' = {P1,P2…,Pk}가 주어졌을 때, P'에 속하는 패턴들과 상대적인 순위가 일치하는 T의 모든 부분문자열들의 위치를 찾는 문제이다. P'에서 가장 짧은 패턴의 길이가 m, 가장 긴 패턴의 길이를 $\bar{m}$, 모든 패턴들의 길이의 합을 M, q개의 연속된 문자들을 q-그램이라 할 때, 기존에 텍스트의 핑거프린트를 이용하여 순위다중패턴매칭문제를 $O(q!+nqlogq+Mlog\bar{m}+nM)$ 시간에 해결하는 알고리즘이 제시되었다. 본 논문에서는 텍스트의 핑거프린트를 활용하여 O(max(q!,M,n))개의 스레드를 이용하여 순위다중패턴매칭문제를 평균적으로 $O(\bar{m}+qlogq+n/q!)$ 시간에 해결하는 병렬 구현 방법을 제시한다. 실험 결과, n = 1,000,000, k = 1,000, m = 5, q = 3일 때, 본 논문에서 제시하는 병렬 구현 방법은 기존의 순차 알고리즘보다 약 19.8배 빠르게 수행되었다.

BERT 및 계층 그래프 컨볼루션 신경망 기반 감성분석 모델 (BERT & Hierarchical Graph Convolution Neural Network based Emotion Analysis Model)

  • 장쥔쥔;신종호;안수빈;박태영;노기섭
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.34-36
    • /
    • 2022
  • 기존 텍스트 감성 분석 모델에서는 일반적으로 전체 텍스트를 직접 모델링하고, 텍스트 내용 간의 계층적 관계를 덜 고려한다. 그러나 감정분석의 구현에서는 많은 텍스트가 여러 감정으로 뒤섞여 있다. 전체의 의미론적 모델링을 직접 수행하면 감성분석 모델의 판단 난도가 높아져 혼합 감정 문장의 분류에 적용하기 어려울 수 있다. 따라서 본 논문에서는 텍스트 계층을 고려한 감성 분석 모델 BHGCN을 제안한다. 이 모델에서는 BERT의 각 레이어의 숨겨진 상태의 출력이 노드로 사용되며, 상위 레이어와 하위 레이어 사이에 직접 연결이 이루어져 의미 계층이 있는 그래프 네트워크를 구축한다. BHGCN 모델은 계층별 의미론에 주의를 기울일 뿐만 아니라 계층적 관계에도 주의를 기울이기 때문에 혼합 감성 분류 작업을 처리하는 데 적합하다. 본 논문에서는 비교 실험을 통해 제안하는 BHGCN 모델이 명백한 경쟁 우위를 보인다는 것을 입증하였다.

  • PDF

Packet Mining을 이용한 Gamer의 행위분석시스템 (Design of Gamer's Behavior Analysis System using Packet Mining)

  • 이미란;조동섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.2467-2470
    • /
    • 2002
  • 사용자의 필요를 충족시켜 줄 수 있도록 사용자에 대한 연구가 인터넷 비즈니스에서 활발히 이루어지고 있다. 인터넷 비즈니스와 마찬가지로 컴퓨터 게임 산업 분야에서도 이러한 연구가 필요하다. 하지만 컴퓨터 게임의 특성상 기존의 인터넷 비즈니스 방식과 같은 방법으로는 게이머(Gamer)의 행동을 알기 어렵다. 이러한 문제점을 해결하고자 본 논문에서는 패킷 마이닝(Packet Mining)을 이용한 게이머의 행위 분석 시스템을 제안하고자 한다. 이 시스템은 게이머들과 시스템 사이에 전달된 패킷을 수집하여 프로토콜별 텍스트 형태로 저장하고, 일정 시간이 흐르면 텍스트 형태로 저장된 패킷을 데이터베이스로 생성한다. 게이머 행위 분석 시스템은 이렇게 생성된 데이터베이스를 분석하고, 다양한 정보를 추출해내어 게이머의 행위를 분석한다.

  • PDF

웹 환경에서의 분산 미디어 분석을 위한 Web Media Picker 설계 및 구현 (Design and Implementation of Web Media Picker for Distributed Media Analysis)

  • 이미란;이민수;조동섭
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 춘계학술발표대회논문집
    • /
    • pp.716-719
    • /
    • 2003
  • 웹을 중심으로 인터넷이 발전하면서 웹 기반의 응용 서비스가 계속적으로 개발되고 있고, 사용자의 다양한 욕구가 추진 원동력이 되고 있다. 현재 대부분의 인터넷 서비스는 텍스트뿐만 아니라 그림, 소리, 동영상 등 여러 가지 다양한 미디어를 사용하고 있다. 본 논문에서는 이렇게 다양한 미디어가 어디서, 어떻게 사용되었는지를 분석하기 위하여 웹 환경에서의 분산 미디어 분석을 위한 Web Media Picker를 제안하고자 한다. Web Media Picker를 이용하면 웹 페이지에서 사용된 각각의 태그를 분석할 수 있고, 이렇게 분석한 정보를 통하여 각각의 미디어의 사용 횟수와 미디어가 웹 페이지 상에서 사용된 방법에 대하여 알 수 있다.

  • PDF

Text Embedded JPEG를 이용한 Image Gallery의 설계 및 구현 (Design and Implementation of Image Gallery using Text Embedded JPEG)

  • 천시영;곽미라;조동섭
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 춘계학술발표대회논문집
    • /
    • pp.724-727
    • /
    • 2003
  • 현재 웹상의 이미지 갤러리에는 이미지와 함께 제목이나 설명이 포함되는 경우가 많다. 본 논문에서는 갤러리의 검색, 정렬 등의 기능을 강화하고 이미지와 정보의 통합을 위해서 JPEG 이미지의 헤더를 확장하여 이미지의 저작자, 만든 날짜, 설명, 파일크기 등의 텍스트 정보를 내장한 Text Embedded JPEG를 고안하였다. 이 Text Embedded JPEG를 이용한 웹 갤러리에서 이용자는 이미지에 대한 보다 자세한 정보를 볼 수 있고 이 각각의 정보들에 따라 정렬할 수도 있고 이미지 정보를 변경할 수도 있도록 설계하였다.

  • PDF