• 제목/요약/키워드: 중복수 추출

검색결과 216건 처리시간 0.03초

대용량 RDF 데이터의 효율적인 저장방법과 SPARQL 기반 검색방안 연구 (Efficient Storing and SPARQL Search Scheme for Large Scale RDF Data)

  • 오상윤;박지훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제54차 하계학술대회논문집 24권2호
    • /
    • pp.195-197
    • /
    • 2016
  • 시멘틱웹을 구축하는 표준언어인 RDF (Resource Description Framework)는 언어의 그래프 기반 특성으로 인해 일반적인 방식들로는 효과적인 저장과 추출이 어렵다. 더욱이 대용량 RDF 데이터의 저장과 추출에는 성능문제가 더욱 커지므로 많은 연구들이 이루어지고 있다. 본 논문에서는 SPARQL을 지원하면서 RDF 파일들을 효과적으로 저장하고 검색할 수 있는 저장방식에 대해 연구한 결과를 제시한다. RDF 데이터를 전처리를 통해 RDF의 트리플(주어:subject, 술어:property, 목적어:Object)에서 중복되는 주어(S)나 목적어(O)를 묶고, 사용자가 SPARQL 형식으로 검색했을 때 이용자가 주어부분을 변수로 두었는지 아니면 서술어 부분을 변수로 두어 찾는지에 따라 검색어와 유사한 단어 클러스터를 찾아준다. 동일 단어에 대해 여러 번 검색되던 부분을 한 번 검색으로 처리할 수 있기 때문에 효율이 높아진다.

  • PDF

확률 기반 웹 콘텐츠 마이닝 (Probabilistic based Web Contents Mining)

  • 윤보현;조광문
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 추계 종합학술대회 논문집
    • /
    • pp.16-20
    • /
    • 2006
  • 웹문서에 대한 콘텐츠 마이닝에서 레이블이 없는 엔티티 인식과 하위정보 및 추출결과의 정보통합은 중요하다. 본 논문에서는 레이블이 없는 엔티티를 인식하기 위해 베이지언 모델에 기반한 확률 기반 인식 방법을 제안한다. 또한 웹문서에 존재하는 하위링크정보를 이용하고, 추출한 중복된 결과를 통합할 수 있는 방안을 제시한다. 실험결과, 확률기반 엔티티인식과 정보통합을 수행한 방법이 가장 우수한 성능을 보임을 알 수 있다.

  • PDF

지식검색의 답변 추천 시스템 (Answer Suggestion for Knowledge Search)

  • 이호창;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.201-205
    • /
    • 2012
  • 지식검색은 방대한 지식정보 데이터를 바탕으로 사용자의 질문에 대한 답변을 검색하는 시스템이다. 이러한 사용자 참여로 구축된 지식정보는 잘못된 답변으로 인한 신뢰성 부족과 중복 답변 등의 문제점이 있어, 원하는 답변을 찾기 위해서는 지식검색에서 다수의 답변을 읽고 그 답변의 진위여부를 판단해야만 한다. 만일 정답에 포함되는 단어나 어구가 답변들에서 나타내는 통계적 특성을 활용하여 사용자가 원하는 답변을 제시할 수 있다면, 지식검색의 효용성과 신뢰성이 크게 향상될 수 있다. 본 논문에서는 지식정보 데이터 분석을 통해 사용자의 질문의 유형을 단어, 목록, 도표, 글의 4가지 유형으로 분류하고, 각 분류에 대한 사용자 질의어의 답변을 요약하는 방식을 제안한다. 단어, 목록, 글 유형은 TF와 IDF, 어휘 간의 거리 정보를 통해서 중요 단어를 추출하여 각 유형에 적합한 형식의 답변을 사용자에게 제시한다. 도표형은 답변들에서 사용자의 의견 정보를 추출하여 의견 통계를 도표로서 제시한다.

  • PDF

질의응답서비스를 위한 복수 응답 요약에 관한 연구 (A Study on Summarizing Multi-Answers for Question Answering Service)

  • 최상희
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2006년도 제13회 학술대회 논문집
    • /
    • pp.175-180
    • /
    • 2006
  • 이 연구에서는 질의응답을 기반으로 한 검색 서비스를 이용할 때 이용자가 효율적으로 응답정보를 이용할 수 있도록 검색되는 복수 응답을 요약하는 방안을 제시하였다. 복수 응답을 요약하기 위해서는 질의중심방식과 응답중심방식이 비교되었다. 생성된 요약문을 평가한 결과 응답내용을 중심으로 요약하는 방식이 질의중심으로 요약하는 방식보다 질의에 적합한 문장을 효과적으로 추출하고 중복되는 정보도 줄여주는 것으로 나타났다.

  • PDF

이기종 네트워크 장치를 사용하는 시스템의 효율적인 관리를 위한 로그 수집 방법 (Log Collection Method for Efficient Management of Systems using Heterogeneous Network Devices)

  • 양재호;김영곤
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권3호
    • /
    • pp.119-125
    • /
    • 2023
  • IT 인프라 운영이 고도화하면서 시스템을 관리하는 방식이 널리 보급되어 있으며, 최근에는 Syslog를 활용한 개선방법들이 연구되고 있다. 그러나 이러한 방법으로 수집한 로그 데이터를 활용하여 시스템 관제를 할 경우 다양한 형식으로 추출되는 로그를 전문 인력이 분석해야 하는 어려움이 있다. 본 논문은 엣지 컴퓨팅을 활용하여 Syslog 데이터를 분산 수집하고 중복 데이터를 전처리하여 중앙 데이터베이스에 적재하는 시스템을 구축 방법을 제시하고자 한다. 또한, 데이터사전을 구성하여 실시간으로 데이터를 분류하고 카운팅하는 기능을 제공하며, 데이터사전에 등록된 데이터에 대해서는 중앙 데이터베이스로의 전송을 제한하는 시스템을 구현한다. 이를 통해 데이터 사전의 정의어 패턴을 유지하며, 중복 데이터와 시간 중복을 제어하여 중앙 데이터베이스에 정제된 데이터를 적재함으로써 빅데이터 분석을 위한 기초 자료를 확보할 수 있다. 시뮬레이션결과 제안된 알고리즘과 프로시저를 구체적인 예시와 함께 설명하고, syslog 데이터를 활용하여 그 성능을 검증하였다. syslog 데이터는 실제 로그 데이터에서 추출한 예시를 포함하고 있으며 이를 통해 로그 데이터로부터 필요한 정보를 정확하게 추출하였고, 분류 및 적재 과정에서 정상적인 처리가 이루어지는지를 확인하였다. 이러한 시스템은 엣지 환경에서 로그 데이터를 효율적으로 수집하고 관리하기 위한 솔루션으로 활용하여 기술의 확산 측면에서도 효과를 기대할 수 있다.

온라인 빅 데이터 분석 결과와 상수도 통계 비교를 통한 데이터 가치 추출 (Data value extraction through comparison of online big data analysis results and water supply statistics)

  • 홍성진;유도근
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.431-431
    • /
    • 2021
  • 4차 산업혁명의 도래로 사회기반시설물의 계획 및 운영관리에 있어 데이터 분석을 통한 가치추출에 대한 관심은 매우 높은 상황이다. 데이터의 가용성과 접근성, 정부 지원 등을 평가하는 공공데이터 개방지수에서 한국은 1점 만점에 0.93점을 획득하여 경제협력개발기구 회원국 중 1위(2019년 기준)를 할 정도로 매우 높은 수준(평균 0.60점)이다. 그러나 공식적으로 발표 및 배포되는 사회기반시설물 관련 정보와 심도 있는 연구 분석이 필요한 정보는 접근이 여전히 제한적이라 할 수 있다. 특히 대표적인 사회기반시설물인 상수도시스템은 대부분 국가중요시설로 지정되어 있어 다양한 정보를 획득하고 분석하는데 제약이 존재하며, 관련 국가통계인 상수도통계에서는 누수사고 등과 같은 비정상적 상황에 대한 사고지점, 원인 등과 같은 세부정보는 제공하고 있지 않다. 본 연구에서는 웹크롤링 및 빅데이터 분석기술을 활용하여 과거 일정기간 발생한 지자체의 상수도 누수사고 관련 뉴스를 전수조사하고 도출된 사고건수를 국가 공인 정보인 상수도통계자료와 비교·분석하였다. 독립적인 누수사고 기사를 추출하기 위해서 중복기사의 제거, 누수 관련 키워드 정립, 상수도분야 이외의 관련기사 제거 등의 절차가 필요하며, 이와 같은 기법은 R프로그래밍을 통해 구현되었다. 추가적으로 뉴스기사의 자연어 처리기반 정보추출기법을 통해 누수사고 건수 뿐만 아니라 사고발생일, 위치, 원인, 피해정도, 그리고 대상 관로의 크기 등을 획득하여 상수도 통계에서 제시하고 있는 정보보다 많은 가치를 추출하여 연계할 수 있는 방안을 제시하였다. 제시된 방법론을 국내 A광역시에 적용하여 누수사고 건수를 비교한 결과 상수도통계에서 제시하고 있는 누수발생건수와 유사한 규모의 사고건수를 뉴스기사분석을 통해 도출할 수 있었다. 제안된 방법론은 추가적인 정보의 추출이 가능하다는 점에서 향후 활용성이 높을 것으로 기대된다.

  • PDF

이질적인 GIS 데이타 소스의 상호운용을 지원하는 CORBA기반의 표준 데이타 제공자 설계 (Design of CORBA based Standard Data Provider for Interoperability of heterogeneous GIS Data Sources)

  • 김민석;안경환;홍봉희
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 한국공간정보시스템학회 1999년도 학술회의 논문집 2권2호
    • /
    • pp.35-45
    • /
    • 1999
  • 기존에는 이질적인 GIS 데이타 소스간의 통합을 위해 랩퍼(wrapper)기술을 사용했다. 랩퍼(wrapper)는 외부 클라이언트 응용프로그램에게 이질적인 데이타 소스들의 통합 데이타 모델을 제공함으로써 데이타와 지리정보처리의 공유를 가능하게 한다. 그러나 데이타 소스들의 통합은 표준 서비스를 포함한 상호운용성을 지원하는 것은 아니다. 표준을 따르는 상호운용을 위해서는 표준화된 데이타 모델과 서비스가 필요한데 OGC (OpenGIS Consortium)의 OpenGIS(Open Geodata Interoperability Specification)가 이를 제공하고 있다. 분산환경에서 상호운용을 위한 기존방법은 각 데이타 소스별로 데이타 제공자를 개발하여 상호운용을 지원하였다. 따라서 중복 구현에 대한 문제와 구현에 따른 노력과 비용이 상당 부분 존재하였다. 본 논문에서는 데이타 제공자에서 공통부분을 추출 및 컴포넌트 화하고 데이타 소스에 종속되는 모듈은 CORBA 구현객체로 작성하여 제시하였다. 따라서 각 데이타 소스들은 표준 데이타 제공자를 통해서 기존의 데이타 지원 기능유지와 상호운용성을 달성할 수 있다. 클라이언트는 OpenGIS Feature모델을 기반으로 한 표준 인터페이스로 데이타 소스에 접근한다. 데이타 소스는 표준데이타 제공자와 정의된 인터페이스를 바탕으로 CORBA의 구현 객체 서버를 작성함으로서 중복구현 및 구현부담을 줄일 수 있다.

  • PDF

무선 Ad Hoc 망에서 영역 추정을 통한 ABP 브로드캐스트 기법 (Autonomous Broadcast Pruning Scheme using Coverage Estimation in Wireless Ad Hoc Network)

  • 배기찬;김남기;윤현수
    • 한국통신학회논문지
    • /
    • 제30권4B호
    • /
    • pp.170-177
    • /
    • 2005
  • Ad-Hoc 망에서 브로드캐스트는 중복적인 패킷 재전송에 기인한 오버헤드가 매우 큰 작업이다. 따라서 재전송으로 인한 오버헤드를 줄이기 위한 기존 연구로 암묵적 혹은 명시적으로 주변 노드 정보를 주고 받음으로써 패킷의 중복된 재전송을 최소화하고자 하는 연구가 진행되어져 왔다. 하지만 이 방법들은 주기적으로 주변 정보를 주고 받아야 하는 부가적인 오버헤드를 가진다. 따라서 본 논문에서는 현재 진행되는 브로드캐스트에 의해 획득 가능한 정보만으로 패킷의 전파 영역 (Coverage Area)을 지역적으로 추정함으로써 패킷 재전송을 줄이는 실용적인 브로드캐스트 기법을 제안한다. 제안하는 기법은 현재 전송되고 있는 브로드캐스트 패킷에서 추출할 수 있는 정보만을 사용하기 때문에, 주변 노드 정보를 알기 위해서 전송되는 주기적인 패킷 전송 오버헤드를 제거할 수 있다.

XML 문서 키워드 가중치 분석 기반 문단 추출 모델 (XML Document Keyword Weight Analysis based Paragraph Extraction Model)

  • 이종원;강인식;정회경
    • 한국정보통신학회논문지
    • /
    • 제21권11호
    • /
    • pp.2133-2138
    • /
    • 2017
  • 기존의 XML 문서나 다른 문서는 단어를 중심으로 분석이 진행되었다. 이는 형태소 분석기를 활용하여 구현이 가능하나 문서 내에 기재되어 있는 많은 단어를 분류할 뿐 문서의 핵심 내용을 파악하기에는 어려움이 있다. 사용자가 문서를 효율적으로 이해하기 위해서는 주요 단어가 포함되어 있는 문단을 추출하여 사용자에게 보여주어야 한다. 본 논문에서 제안하는 시스템은 정규화 된 XML 문서 내에 키워드를 검색하고 사용자가 입력한 키워드들이 포함되어 있는 문단을 추출하여 사용자에게 보여준다. 그리고 검색에 사용된 키워드들의 빈도수와 가중치를 사용자에게 알려주고 추출한 문단의 순서와 중복 제거 기능을 통해 사용자가 문서를 이해하는데 발생할 수 있는 오류를 최소화하였다. 제안하는 시스템은 사용자가 문서 전체를 읽지 않고 문서를 이해할 수 있게 하여 문서를 이해하는데 필요한 시간과 노력을 최소화할 수 있을 것으로 사료된다.

간소화된 윈도우 푸리에 위상을 이용한 계층적 접근기반의 3차원 객체 추출 기법 (3D Object Extraction Algorithm Based on Hierarchical Approach Using Reduced Windowed Fourier Phase)

  • 민각;한규필;이기수;하영호
    • 한국통신학회논문지
    • /
    • 제27권8A호
    • /
    • pp.779-785
    • /
    • 2002
  • 본 논문에서는 두 개의 2차원 영상에서 3차원 객체를 효율적으로 추출하기 위해서 위상 기반의 스테레오 정합 알고리즘을 제시한다. 특히, 윈도우 푸리에 위상을 이용하는 기존의 위상 기반 방법들은 기본적으로 다중-해상도 위상 맵을 사용하기 때문에 계층적인 접근 관점에서 좋은 특성을 가지고 있는 반면 높은 계산량을 요구한다. 그러므로 본 논문에서는 다중-해상도 위상 기반전략과 더불어 위상 계산의 중복성을 제거하는 빠른 계층적 접근기반의 3차원 객체 추출 기법을 제안한다. 또한, 정합 성능을 개선시키기 위해 위상 영역에서 형태학적인 정합 알고리즘을 제시한다. 제안된 알고리즘을 실험한 결과 계산량이 대략 8배 정도로 크게 감소되었으며 안정된 결과 값을 획득할 수 있었다.