• 제목/요약/키워드: 문서처리시스템

검색결과 1,387건 처리시간 0.027초

클라우드 컴퓨팅을 위한 클라우드 스토리지 기술 분석 (Technical analysis of Cloud storage for Cloud Computing)

  • 박정수;정성재;배유미;경지훈;성경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2012년도 추계학술대회
    • /
    • pp.757-760
    • /
    • 2012
  • 클라우드 서비스 공급자가 제공하는 클라우드 스토리지 시스템은 대량의 데이터 저장 및 클라우드 컴퓨팅 처리의 핵심구성요소이다. 구글, 유투브, 페이스북 등과 같은 대형 벤더에서도 클라우드 스토리지를 사용하여 태블릿, 스마트폰 등 이기종 장치에서 사진, 동영상, 문서등을 공유하며, 쉽고 빠르게 네트워크를 통해 데이터의 대량 전송과 접근이 가능하다. 이로 인해 전세계적으로 데이터 성장 발전과 함께 클라우드 스토리지가 비지니스모델로 새롭게 부각받고 있다. 클라우드 스토리지는 네트워크 스토리지의 새로운 서비스 개념이며 데이터 구성, 스토리지 가상화, 데이터 복제와 중복제거, 보안 등을 포함한 클라우드 컴퓨팅 핵심기술이다. 본 논문에서는 클라우드 스토리지에 대해 분석한다.

  • PDF

사전학습 언어모델을 활용한 범죄수사 도메인 개체명 인식 (A Named Entity Recognition Model in Criminal Investigation Domain using Pretrained Language Model)

  • 김희두;임희석
    • 한국융합학회논문지
    • /
    • 제13권2호
    • /
    • pp.13-20
    • /
    • 2022
  • 본 연구는 딥러닝 기법을 활용하여 범죄 수사 도메인에 특화된 개체명 인식 모델을 개발하는 연구이다. 본 연구를 통해 비정형의 형사 판결문·수사 문서와 같은 텍스트 기반의 데이터에서 자동으로 범죄 수법과 범죄 관련 정보를 추출하고 유형화하여, 향후 데이터 분석기법을 활용한 범죄 예방 분석과 수사에 기여할 수 있는 시스템을 제안한다. 본 연구에서는 범죄 수사 도메인 텍스트를 수집하고 범죄 분석의 관점에서 필요한 개체명 분류를 새로 정의하였다. 또한 최근 자연어 처리에서 높은 성능을 보이고 있는 사전학습 언어모델인 KoELECTRA를 적용한 제안 모델은 본 연구에서 정의한 범죄 도메인 개체명 실험 데이터의 9종의 메인 카테고리 분류에서 micro average(이하 micro avg) F1-score 99%, macro average(이하 macro avg) F1-score 96%의 성능을 보이고, 56종의 서브 카테고리 분류에서 micro avg F1-score 98%, macro avg F1-score 62%의 성능을 보인다. 제안한 모델을 통해 향후 개선 가능성과 활용 가능성의 관점에서 분석한다.

개인정보 비식별화를 위한 개체명 유형 재정의와 학습데이터 생성 방법 (Re-defining Named Entity Type for Personal Information De-identification and A Generation method of Training Data)

  • 최재훈;조상현;김민호;권혁철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.206-208
    • /
    • 2022
  • 최근 빅데이터 산업이 큰 폭으로 발전하는 만큼 개인정보 유출로 인한 사생활 침해 문제의 관심도 높아졌다. 자연어 처리 분야에서는 이를 개체명 인식을 통해 자동화하려는 시도들이 있었다. 본 논문에서는 한국어 위키피디아 문서의 본문에서 비식별화 정보를 지닌 문장을 식별해 반자동으로 개체명 인식 데이터를 구축한다. 이는 범용적인 개체명 인식 데이터에 반해 비식별화 대상이 아닌 정보에 대해 학습되는 비용을 줄일 수 있다. 또한, 비식별화 정보를 분류하기 위해 규칙 및 통계 기반의 추가적인 시스템을 최소화할 수 있는 장점을 가진다. 본 논문에서 제안하는 개체명 인식 데이터는 총 12개의 범주로 분류하며 의료 기록, 가족 관계와 같은 비식별화 대상이 되는 정보를 포함한다. 생성된 데이터셋을 이용한 실험에서 KoELECTRA는 0.87796, RoBERTa는 0.88575의 성능을 보였다.

  • PDF

X-tree Diff: 트리 기반 데이터를 위한 효율적인 변화 탐지 알고리즘 (X-tree Diff: An Efficient Change Detection Algorithm for Tree-structured Data)

  • 이석균;김동아
    • 정보처리학회논문지C
    • /
    • 제10C권6호
    • /
    • pp.683-694
    • /
    • 2003
  • 인터넷 사용이 급속도로 증가함에 따라 XML/HTML 문서와 같이 트리 구조로 표현되는 데이터의 변화 탐지가 중요한 연구 분야로 등장하고 있다. 본 논문에서는 효율적인 변화 탐지를 위한 데이터 구조로 X-tree와 이에 기초한 휴리스틱 변화 탐지 알고리즘 X-tree Diff 를 제안한다. X-tree Diff 는 X-tree 의 변화 내용에 대한 최소 비용 편집 스크립트를 찾는 알고리즘과는 달리 휴리스틱 트리 대응 알고리즘을 통해 병화 내용을 확인하는 알고리즘으로, X-tree 에 속한 모든 노드에 대해 각각의 노드를 루트로 하는 서브트리의 구조와 서브트리속에 속한 노드들의 데이터들을 128비트 해시값으로 표현한 값인 트리 MD를 각 노드에 저장하고, 이를 변화 탐지 과정에서 활용하여 신-구 버전의 X-tree들에 속한 서브트리들의 비교을 효율적으로 처리한다. X-tree Diff 는 4단계로 구성되며 1)신-구버넌의 X-tree노드들에 대해, 우선 1:1 대응이 가능한 모든 동등한 서브트리 쌍을 찾고, 2) 이들 서브트리 쌍의 루트로부터 신-구 버전의 X-tree의 루트까지의 경로 상에 존재하는 노드들에 대한 대응관계를 결정한다. 3) 그 후 신-구 버전의 X-tree의 루트들로부터 깊이 우선 탐색으로 노드를 방문하며 대응이 결정되지 않은 노드들에 대한 대응여부를 결정해 나간다. 4) 마지막까지 대응여부가 결정되지 않은 도드들은 삭제나 삽입된 것으로 간주한다. X-tree Diff XML 문서들에 대한 버저닝(Versioning) 을 목적으로 설계된 BUILD Diff 알고리즘과 달리 XML/HTML 에 공통적으로 사용할 수 있을 뿐 아니라, 알고리즘이 명확하고 간결하여 다양한 형태의 확장이 가능하다. 알고리즘의 성능도 개선되어 신-구 X-tree의 노드의 수를 n이라 할 때, O(n)의 시간 복잡도를 갖는다. 제안된 알고리즘은 현재 보안 관련 상용 시스템인 WIDS(Web-Document Instrusion Detection System) 에서 사용되고 있으며, 본 논문에서는 WIDS를 이용하여 20여개 신문-방송 사이트에서 변화가 탐지된 11,000 개 페이지에 대한 성능평가를 보이고 있다.

실시간 해운물류를 위한 능동형 IP-RFID 시스템 (Active IP-RFID System for Maritime Logistics)

  • 김태훈;이병하;박병권;최성필;문영식;정준우;김재중;최형림
    • 한국통신학회논문지
    • /
    • 제40권12호
    • /
    • pp.2511-2519
    • /
    • 2015
  • 해운물류에서 컨테이너의 위치와 봉인 여부, 온도 정보 등 상태 정보를 전송하는 기술은 다수 개발되어 왔으나 전 물류환경에서 사용이 불가능 하거나 단순히 컨테이너의 정보만을 수신하여 전달하기 때문에 태그의 상태를 제어하는 등의 양방향 통신이 지원되지 않았다. 특히, 양방향 통신을 글로벌 해운물류 전 구간에서 지원하기 위해서는 태그를 식별할 수 있는 주소값이 관리되어야 한다. 이를 위해 433MHz 기반의 RFID를 개선하기 위한 연구는 "DASH 7"이라는 프로젝트 명으로 진행되었으나 근래에는 표준화나 개발참조문서 등의 진행이 더딘 상태로 더 이상 진행되지 않고 있는 실정이다. 이 논문에서는 RFID 태그에 가상 주소값을 부여하여 IP의 특징인 양방향 통신을 이용해 글로벌 해운물류에서 실시간 통신을 위한 능동형 IP-RFID 시스템 구성을 소개하고 이를 위한 처리과정 및 기능을 제안한다. 이 논문에서 제안하는 IP-RFID 시스템을 적용하면 해운물류 구간에서 실시간 상태 추적과 함께 태그의 제어에도 적용이 가능하다.

신발산업의 협업적 생산 및 공급계획시스템 설계 (Design of Collaborative Production & Supply Planning System based on ebXML)

  • 최형림;현승용;임호섭;유동열
    • 경영정보학연구
    • /
    • 제8권1호
    • /
    • pp.1-24
    • /
    • 2006
  • 1990년대 후반부터 신발의 패션화 경향, 고객 요구의 다양화 등에 힘입어 국내신발산업이 서서히 부흥하고 있다. 그 동안 국내에서는 신발산업이 사양산업으로 인식되어 생산시설이 해외로 이전하는 추세였지만, 최근에는 신발 소재 및 부품 생산의 핵심역량과 국제적 분업체계를 결합하여 국내 신발제조업의 경쟁력이 회복되고 있다. 이러한 국제적인 분업체계를 효과적으로 활용하기 위해서는 신발산업의 공급망관리가 시스템에 의해 운영되어야 한다. 현재 신발산업은 다양한 고객 요구사항 및 제품 납기일자의 지속적인 단축에 직면하고 있다. 이러한 환경변화에 대처하기 위해 기업내부의 최적화만으로 경쟁우위를 화보하기에는 한계점에 이르렀다. 이제는 신발산업 공급망 전체의 최적화를 통한 기업 상호간의 윈-윈(Win-Win) 전략을 구사할 필요가 있다. 본 연구에서는 신발산업의 효율적인 공급망 관리와 단납기 요구체제 등의 환경변화에 대처하기 위해, 기업간 협업적 비즈니스에 기반한 공급망관리 시스템을 설계하였다. 기업간 정보 전달과 공유를 위해 e-비즈니스 프로세스, 문서 처리방법 및 표현방법 등을 포함하는 정보활동의 총체적 개념의 ebXML(electronic business eXtensible Markup Language) 프레임워크에 기반하였다.

다차원 텍스트 큐브를 이용한 호텔 리뷰 데이터의 다차원 키워드 검색 및 분석 (Multi-Dimensional Keyword Search and Analysis of Hotel Review Data Using Multi-Dimensional Text Cubes)

  • 김남수;이수안;조선화;김진호
    • 정보화연구
    • /
    • 제11권1호
    • /
    • pp.63-73
    • /
    • 2014
  • 웹의 발달로 텍스트 등으로 이루어진 비정형 데이터의 활용에 대한 관심이 높아지고 있다. 웹상에서 사용자들이 작성한 대부분의 비정형 데이터는 사용자의 주관이 담겨져 있어 이를 적절히 분석할 경우 사용자의 취향이나 주관적인 관점 등의 아주 유용한 정보를 얻을 수 있다. 이 논문에서는 이러한 비정형 텍스트 문서를 다양한 차원으로 분석하기 하는데 OLAP(온라인 분석 처리)의 다차원 데이터 큐브 기술을 활용한다. 다차원 데이터 큐브는 간단한 문자나 숫자 형태의 정형적인 데이터에 대해 다차원 분석하는데 널리 사용되었지만, 텍스트 문장으로 이루어진 비정형 데이터에 대해서는 활용되지 않았다. 이러한 텍스트 데이터베이스에 포함된 정보를 다차원으로 분석하기 위한 방법으로 텍스트 큐브 모델이 최근에 제안되었는데, 이 텍스트 큐브는 정보 검색에서 널리 사용하는 용어 빈도수(Term Frequency)와 역 인덱스(Inverted Index)를 측정값으로 이용하여 텍스트 데이터베이스에 대한 다차원 분석을 지원한다. 이 논문에서는 이러한 다차원 텍스트 큐브를 활용하여 실제 서비스되고 있는 호텔 정보 공유 사이트의 리뷰 데이터 분석에 활용하였다. 이를 위해 호텔 리뷰 데이터에 대한 다차원 텍스트 큐브를 생성하였으며, 이를 이용하여 다차원 키워드 검색 기능을 제공하여 사용자 중심의 의미있는 정보 검색이 가능한 시스템을 설계 및 구현하였다. 또한, 본 논문에서 제안하는 시스템에 대해 다양한 실험을 수행하였으며 이를 통해 제안된 시스템의 실효성을 검증하였다.

주식 가격 변동 예측을 위한 다단계 뉴스 분류시스템 (Multi-stage News Classification System for Predicting Stock Price Changes)

  • 백우진;경명현;민경수;오혜란;임차미;신문선
    • 정보관리학회지
    • /
    • 제24권2호
    • /
    • pp.123-141
    • /
    • 2007
  • 주시가격을 예측하는 것은 주식 가격 변동에 영향을 미치는 많은 요인과 요인 간의 상호작용에 기인하여 매우 어렵다고 알려져 있다. 이 연구는 어떤 회사에 대한 좋은 기사는 그 회사의 주식가격을 오르도록 영향을 미칠 것이고 나쁜 기사는 그 반대의 작용을 할 것이라는 가정에서 시작했다. 여러 회사들에 대한 기사와 그 회사의 주식가격이 기사가 공개된 후에 어떻게 변했는가에 대한 분석을 통하여 위 가정이 맞는 것을 확인했다. 즉 기사의 내용을 기사에 나온 회사에 대하여 호의적인지 아닌지 신뢰성 있게 분류하는 방법이 있다면 어느 정도의 주식 가격 예측은 가능할 것이다. 많은 기사를 일관적으로 빨리 처리하기 위하여 상장회사에 대한 기사를 자동 분석하는 다단계 뉴스 분류시스템을 개발한 후 성능을 확인하여 자동 시스템이 무작위로 주가 변동을 예측했을 경우보다 높은 정확률을 보이는 것을 확인했다.

유비쿼터스 시스템을 위한 시맨틱 다중 에이전트 (Semantic Multi-agents Framework for Ubiquitous Systems)

  • 최정화;박영택
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권3호
    • /
    • pp.192-201
    • /
    • 2005
  • 지난 10여년 동안 유비쿼터스 컴퓨팅 연구는 '언제나, 어디에서나, 어느 것이나 컴퓨팅 환경'이라는 신기술 체계의 확립을 목표로 진행되었다. 이를 통하여 칩의 소형화 기술, 장치기술, 네트워킹 기술, 인간 중심의 인터페이스 기술, 응용기술 등의 기술혁신의 필요성을 알게 되었다. 본 논문에서는 인간중심의 인터페이스 기술 측면에서 인간과 에이전트와의 상호작용 및 에이전트 스스로 인간이 원하는 서비스를 처리하고 제공하기 위하여, 다음 네 가지 단계를 제안한다. 첫째, 유비쿼터스 서비스를 사용자 요구에 맞게 서비스하기 위하여 정보자원 간에 의미적 연관성을 고려한 시맨틱 웹 기술을 이용한다. 둘째, 시맨틱 웹 기술 개발에 핵심이 되는 온톨로지를 구축하여 컴퓨터가 웹 문서의 내용을 인식할 수 있도록 한다. 셋째, W3C에서 표준화 작업 중인 차세대 웹 OWL 온톨로지 언어를 이용하여 컴퓨터와 컴퓨터 간에 메시지를 교환한다. 넷째, 컴퓨터로 전송된 메시지 분석 및 정보 수집을 위하여 FIPA의 JADE를 이용하여 다중 에이전트를 기능별로 구축한다. 본 논문에서 제안하는 시맨틱 다중 에이전트는 온톨로지 기반의 시맨틱 웹 기술을 적용하여 시맨틱 상황을 추론한다. 다중 에이전트가 OWL 온톨로지 언어를 이용하여 커뮤니케이션함으로써 같은 상황이더라도 사용자에 따라서 제공되는 서비스가 다르게 추론된다. 따라서 기존의 상황 정보 시스템보다 에이전트에게 보다 의미 있는 정보의 예측을 가능하게 하였다.

정보통신기술 기반 지식정보관리 프레임워크를 통한 한국 정부 조직 혁신에 관한 탐구: 외교부를 중심으로 (Organizational Innovation in the Korean Government via an ICT-based IKM Framework: A focus on the MOFA)

  • 이진경
    • 정보관리학회지
    • /
    • 제40권2호
    • /
    • pp.211-241
    • /
    • 2023
  • 급속히 발전하고 있는 정보통신기술은 기업과 조직의 운영시스템에도 영향을 미치고 있으며, 다수의 산업 분야에서 혁신적인 정보 및 지식관리 전략을 수립하기 위해 많은 연구가 진행되고 있다. 외교부는 지난 20년간 지식정보관리 관련 시스템의 많은 부분에 디지털 기술을 적용하고 있으나, 그에 맞는 전략을 분석하기 위한 기존 연구는 미흡한 실정이다. 본 연구는 인터뷰 및 외교부 내부 혁신 보고서 분석을 통해 현재 한국 외교부의 지식정보관리의 개념과 제약 사항을 진단하고, 외교부가 조직의 양면성 역량과 수용능력을 강화하여, 조직 혁신을 촉진하는 지식정보 관리체계를 제공하는 방법을 평가하는 목적으로 수행되었다. 외교부의 지식정보관리는 디지털 기술 변화에 적응할 수 있는 동적인 역량을 갖추고 있으나, 본질적인 내부의 한계(기밀 문서 처리구조, 지식정보관리 관련 협업체계 부재)와 외부의 한계(국내 정치 상황, 정부 조직의 위계질서)에 직면하고 있다. 이러한 내부적 한계와 외부적 요인으로 인한 영향을 최소화하는 방안을 마련하는 조직의 양면성 역량과 수용능력 증진을 통해 외교부가 조직 혁신을 위한 지식정보관리 체계를 개발해야 하는 것으로 관찰된다. 이를 위해 실질적으로 활용 가능한 IKM 시스템 개발을 위한 이후의 세부 연구에는 변화하는 환경에 대비한 직군 간 대화와 직원 역량 강화 방안이 포함되어야 할 것이다.