• 제목/요약/키워드: 정보 수집 및 추출

검색결과 752건 처리시간 0.029초

NLP기반 NER을 이용해 소셜 네트워크의 조직 구조 탐색을 위한 협력 프레임 워크 (A Collaborative Framework for Discovering the Organizational Structure of Social Networks Using NER Based on NLP)

  • 프랭크 엘리호데;양현호;이재완
    • 인터넷정보학회논문지
    • /
    • 제13권2호
    • /
    • pp.99-108
    • /
    • 2012
  • 방대한 양의 데이터로부터 정보추출의 정확도를 향상시키기 위한 많은 방법이 개발되어 왔다. 본 논문에서는NER(named entity recognition), 문장 추출, 스피치 태깅과 같은 여러 가지의 자연어 처리 작업을 통합하여 텍스트를 분석하였다. 데이터는 도메인에 특화된 데이터 추출 에이전트를 사용하여 웹에서 수집한 텍스트로 구성하였고, 위에서 언급한 자연어 처리 작업을 사용하여 비 구조화된 데이터로부터 정보를 추출하는 프레임 워크를 개발하였다. 조직 구조의 탐색을 위한 택스트 추출 및 분석 관점에서 연구의 성능을 시뮬레이션을 통해 분석하였으며, 시뮬레이션 결과, 정보추출에서 MUC 및 CoNLL과 같은 다른 NER 분석기 보다 성능이 우수함을 보였다.

인터넷쇼핑몰에서 웹로그 분석에 대한 개선방안 연구 (A Study on the Improvement of Web-log Analysis in Internet Shopping-Mall)

  • 김남호
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2002년도 춘계학술대회 논문집
    • /
    • pp.134-139
    • /
    • 2002
  • 인터넷쇼핑몰 서버에의 고객의 상품에 대한 접근을 추적하여 고객의 성향을 추출하기 위한 웹마이닝에서는 웹서버가 생성하는 로그에서 필요한 정보를 수집하였다. 그러나 웹서버가 생성하는 로그는 단순 페이지 액세스의 정보만을 포함하고 있어, 현재 데이터베이스와 연동되어 동작하는 CGI 및 서버스크립트(JSP, ASP, PHP)등을 이용한 시스템에서는 CGI나 스크립트 파일명만 로그로 기록되고 분석시 가장 중요한 상품코드 및 상품 카테고리는 포함되지 않는다. 제안한 모델에서는 기존 쇼핑몰 시스템과의 연동 및 성능을 고려하여 웹서버에 분석전용 가상로그를 기존의 로그파일에 발생시키는 방법을 제안하였다. 이 방법으로 기존 사이트에 복잡한 코드를 추가할 필요 없이 간단한 로그발생코드 한 줄을 추가함으로써 해결할 수 있었다. 또한 유효 로그 필터링 및 클리닝에 걸리는 시간은 일반로그 분석대비 30%정도 향상되었으며 일반 로그에서는 불가능한 고객이 접근한 상품정보코드 및 카테고리코드 등의 정보를 쉽게 추출할 수 있었다.

  • PDF

프로세스 마이닝에서의 효율적인 적합성 판단 기법 (Efficient Method of "Conformance Checking" in Process Mining)

  • 김광복;허신
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.66-71
    • /
    • 2010
  • BPMS, ERP, SCM 등 프로세스 인식 정보시스템들이 널리 쓰이게 되면서 프로세스 마이닝에 대한 연구가 활발하게 이루어지고 있다. 프로세스 마이닝은 프로세스가 실행되는 동안 저장된 이벤트 로그로부터 정보를 추출하는 기법이다. 추출된 로그정보는 비즈니스 프로세스의 분석 및 재설계에 사용될 프로세스 모델을 생성하게 된다. 프로세스 마이닝 기법은 프로세스의 자동화 및 기업의 업무정보들을 관리하는 프로세스 기반 정보시스템의 정확성 및 효율성을 위한 중요한 부분을 차지하지만 현재까지의 연구는 생성된 이벤트 로그로부터 프로세스 모델을 재설계하는 프로세스 발견 기법 (Process Discovery Technique)을 적용한 부분에서만 활발히 진행되었다. 프로세스 마이닝은 프로세스 발견 기법 외에도 프로세스 적합성검사 기법 (Process Conformance Checking Technique) 및 프로세스 확장 기법 (Process Extension Technique)이 존재한다. 이들은 많은 프로세스 발견 기법에 대한 연구들이 진행되고 나서야 최근 프로세스 마이닝의 이슈로 떠오르고 있다. 본 논문에서는 프로세스 적합성 검사를 위해 수집된 이벤트 로그와 기존에 나와 있는 여러 가지 프로세스 발견 알고리즘을 통해 생성된 프로세스를 수치적으로 비교할 수 있는 두 가지 애트리뷰트를 제시하였다.

  • PDF

퍼지 데이터로부터 연관 규칙을 추출하기 위한 도구의 개발 (On Developing of a tool for association rule extracting from fuzzy data)

  • 강유경;황석형;김응희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.413-416
    • /
    • 2010
  • 오늘날, 대량의 데이터를 수집, 저장 및 관리하는 데이터베이스 기술의 진보를 기반으로, 의료, 과학, 교육, 비즈니스 등 다양한 분야에서 발생되는 대규모 데이터를 축적하게 되었다. 다양한 분야에서 축적된 대량의 데이터에 내재된 유용한 정보를 수월하게 추출하여 분석하기 위해 널리 사용되고 있는 형식개념분석기법은, 주어진 데이터로부터 정보의 최소단위로써 개념들을 추출하고, 개념들 사이의 관계를 토대로 개념계층구조를 구축하기 위한 정형화된 데이터마이닝 기법을 제공하고 있다. 본 논문에서는, 주어진 퍼지 데이터에 잠재된 유용한 정보를 추출하기 위해, 퍼지 집합 이론을 형식개념분석기법에 접목한 퍼지개념분석기법과 이를 지원하기 위해 본 연구에서 개발된 FFCA-Wizard를 소개한다. 또한, FFCA-Wizard를 사용하여 실세계 데이터를 대상으로 퍼지개념분석을 실시한 실험 결과를 보고한다.

상호참조 정보와 대화 그래프를 활용한 대화 관계추출 모델 (Dialogue Relation Extraction using Dialogue Graph)

  • 임정우;손준영;김진성;허윤아;서재형;장윤나;박정배;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.385-390
    • /
    • 2022
  • 관계추출은 문서 혹은 문장에서 자동으로 엔티티들간의 관계를 추출하는 기술로, 비정형 데이터를 정형데이터로 변환하기에 자연어 처리 중에서도 중요한 분야중 하나이다. 그 중에서도 대화 관계추출은 기존의 문장 단위의 관계추출과는 다르게 긴 길이에 비해 적은 정보의 양, 빈번하게 등장하는 지시대명사 등의 특징을 가지고 있어 주어와 목적어 사이의 관계를 예측하기에 어려움이 있었다. 본 연구에서는 이러한 어려움을 극복하기 위해 대화의 특성을 고려한 대화 그래프를 구축하고 이를 이용한 모델을 제안한다. 제안하는 모델은 상호참조 정보와 문맥정보를 더 반영한 그래프를 통해 산발적으로 퍼져있는 정보를 효율적으로 수집하고, 지시대명사로 인해 어려워진 중요 발화 파악 능력을 증진시켰다. 또한 이를 실험적으로 보이기 위하여 대화 관계추출 데이터셋에 실험해본 결과, 기존 베이스라인 보다 약 10 % 이상의 높은 F1점수를 달성하였다.

  • PDF

시간의 흐름과 위치 변화에 따른 멀티 블록 스트림 데이터의 의미 있는 패턴 추출 방법 (The Method for Extracting Meaningful Patterns Over the Time of Multi Blocks Stream Data)

  • 조경래;김기영
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제3권10호
    • /
    • pp.377-382
    • /
    • 2014
  • 모바일 통신과 사물 인터넷(IoT) 환경에서 시간에 따른 데이터의 분석 기술은 주로 의미 있는 정보를 찾기 위해 수집 된 데이터에서 의미있는 패턴을 추출하기 위해 사용된다. 기존의 데이터 마이닝을 이용한 분석 방법은 데이터 수집이 어렵고 시간의 경과와 관련된 시계열 데이터의 변경을 반영하기 위해 완료 상태에 기초하여 해석되어야 한다. 이러한 패턴의 다양성, 대용량성, 연속성 등의 여러 가지 특성을 가진 데이터 스트림의 분석을 위한 방법으로 멀티 블록 스트리밍 데이터 분석(AM-MBSD) 방법을 제안한다. 의미 있는 데이터 추출을 위해 멀티 블록 스트리밍 데이터의 패턴을 추출하고 추출된 연속적 데이터를 여러 개의 블록으로 정의하고 제안 방법의 검증을 위해 각 데이터 블록의 데이터 패턴 생성 시간, 주파수를 수집하고 시계열 데이터를 분석, 실험하였다.

SVM기반 정보기술 문서분류를 위한 특성 선택 및 추출 기법 (Feature Selection and Extraction for Document Classifier for If documents based on SVM)

  • 강윤희
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2001년도 추계산학기술 심포지엄 및 학술대회 발표논문집
    • /
    • pp.75-78
    • /
    • 2001
  • 본 논문에서는 웹 문서의 자동 분류를 위한 특성 선택 및 추출기법을 기술한다. 최근 인터넷의 급속한 성장과 보급으로 전자우편과 웹을 통해 제공되어지는 정보의 양이 기하급수적으로 증가함에 따라 효율적인 문서 분류의 필요성이 증가하고 있다. 본 논문에서는 웹 디렉토리 내의 문서로부터 추출된 용어 집합을 기반으로 SVM을 사용하여 학습한 후 문서 분류를 수행한다. 본 실험의 문서는 정보통신 분야 디렉토리 서비스 시스템인 itfind로부터 수집된 문서를 대상으로 하였으며 3가지 시나리오에 따라 실험을 수행하여 각 시나리오 별로 재현율/정확율 및 오분류율을 성능 요소로 계산하였다. 본 실험은 학습 벡터 구성과정에서 잡음에 의해 다른 클래스의 문서 분류에 미치는 영향을 평가하여 SVM을 기반으로 한 문서 분류 기법이 강건함을 보였다.

호감도 조사 결과에 따른 음성 파형 및 특징 요소와의 상관성 분석 (Correlativity Analysis of Voice Waveform and Feature Parameter According to a Favorable Impression Research Result)

  • 김봉현;이세환;가민경;조동욱;배영래
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.365-366
    • /
    • 2009
  • 목소리는 사람의 정서, 인격, 성격 및 기타 많은 개인적인 요소를 나타내고 있다. 즉, 사람의 목소리를 통해 자신이 보유하고 있는 모든 내면적, 외면적 정보를 알 수 있는 중요한 부분이다. 따라서 본 논문에서는 매력적이면서 좋은 목소리가 보유하고 있는 음성 분석학적 특징 요소를 추출하여 호감도 좋은 목소리와의 상관성을 분석하고자 한다. 이를 위해 청각적으로 다른 특징을 보유하고 있는 5가지 타입의 남성 및 여성의 목소리를 수집하고 임의의 대상자들을 통해 호감도 좋은 목소리를 선정하였다. 또한 피치, 강도 및 스펙트로그램 분석 요소를 적용하여 호감도 좋은 목소리가 보유하고 있는 음성 정보값을 추출하고 상호간의 연관성을 분석하였다.

양방향 장단기 메모리 네트워크를 활용한 높은 정밀도의 지지 근거 추출 (Extracting Supporting Evidence with High Precision via Bi-LSTM Network)

  • 박채훈;양원석;박종철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.285-290
    • /
    • 2018
  • 논지가 높은 설득력을 갖기 위해서는 충분한 지지 근거가 필요하다. 논지 내의 주장을 논리적으로 지지할 수 있는 근거 자료 추출의 자동화는 자동 토론 시스템, 정책 투표에 대한 의사 결정 보조 등 여러 어플리케이션의 개발 및 상용화를 위해 필수적으로 해결되어야 한다. 하지만 웹문서로부터 지지 근거를 추출하는 시스템을 위해서는 다음과 같은 두 가지 연구가 선행되어야 하고, 이는 높은 성능의 시스템 구현을 어렵게 한다: 1) 논지의 주제와 직접적인 관련성은 낮지만 지지 근거로 사용될 수 있는 정보를 확보하기 위한 넓은 검색 범위, 2) 수집한 정보 내에서 논지의 주장을 명확하게 지지할 수 있는 근거를 식별할 수 있는 인지 능력. 본 연구는 높은 정밀도와 확장 가능성을 가진 지지 근거 추출을 위해 다음과 같은 단계적 지지 근거 추출 시스템을 제안한다: 1) TF-IDF 유사도 기반 관련 문서 선별, 2) 의미적 유사도를 통한 지지 근거 1차 추출, 3) 신경망 분류기를 통한 지지 근거 2차 추출. 제안하는 시스템의 유효성을 검증하기 위해 사설 4008개 내의 주장에 대해 웹 상에 있는 845675개의 뉴스에서 지지 근거를 추출하는 실험을 수행하였다. 주장과 지지 근거를 주석한 정보에 대하여 성능 평가를 진행한 결과 본 연구에서 제안한 단계적 시스템은 1,2차 추출 과정에서 각각 0.41, 0.70의 정밀도를 보였다. 이후 시스템이 추출한 지지 근거를 분석하여, 논지에 대한 적절한 이해를 바탕으로 한 지지 근거 추출이 가능하다는 것을 확인하였다.

  • PDF

원격 지도 학습 데이터 노이즈 제거를 위해 확장된 최단 의존 경로를 이용한 CNN 기반 관계추출 (A CNN-based Relation Extraction with Extended Shortest Dependency Path for Noise Reduction of Distant Supervision)

  • 남상하;한기종;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.50-54
    • /
    • 2018
  • 관계 추출을 위한 원격 지도 학습은 사람의 개입 없이 대규모 데이터를 생성할 수 있는 효율적인 방법이다. 그러나 원격 지도 학습은 노이즈 데이터 문제가 있으며, 노이즈 데이터는 두 가지 유형으로 나눌 수 있다. 첫 번째는 관계 표현 자체가 없는 문장이 연결된 경우이고, 두 번째는 관계 표현은 있는 문장이지만 다른 관계 표현도 함께 가지는 경우이다. 주로 문장의 길이가 길고 복잡한 문장에서 두 번째 노이즈 데이터 유형이 자주 발견된다. 본 연구는 두 번째 경우의 노이즈를 줄임으로써 관계 추출 모델의 성능을 향상시키기 위해 확장된 최단 의존 경로를 사용하는 CNN 기반 관계 추출 모델을 제안한다. 본 논문에서 제안한 방법의 우수성을 입증하기 위해, 한국어 위키피디아와 DBpedia 기반의 원격 지도 학습 데이터를 수집하여 평가한 결과, 본 논문에서 제안한 방법이 위 문제를 해결하는데 효과적이라는 것을 확인하였다.

  • PDF