• 제목/요약/키워드: 정보 수집 및 추출

검색결과 752건 처리시간 0.03초

주변정보 분할을 이용한 주제 중심 웹 문서 수집기 (A Focused Crawler by Segmentation of Context Information)

  • 조창희;이남용;강진범;양재영;최중민
    • 정보처리학회논문지B
    • /
    • 제12B권6호
    • /
    • pp.697-702
    • /
    • 2005
  • 주제 중심 웹 문서 수집기는 검색엔진에서 최신의 웹 문서 색인을 유지하는 대안방안으로 부상하고 있다. 그러나 주제 중심 웹 문서 수집기는 비 관심문서에서 연결된 관심문서들을 수집할 수 없는 문제점을 가지고 있다. 이러한 문제점은 문서의 구조적 특징을 고려하지 않아서 발생한다. 특히 문서분석 방법인 문서의 발생 횟수 및 역문헌 발생빈도는 이러한 문제를 야기하는 주요 원인이 된다 주제 중심 웹 문서 수집기의 성능을 향상하기 위해서 본 논문에서는 국소 정보기반의 문서 분할법을 제안한다. 본 논문에서는 문서를 하이퍼링크 주변의 문맥을 고려한 특징 정보들을 사용하여 여러 소각의 문서로 나눈다. 본 논문에서 제안하는 주제 중심 웹 문서 수집기는 나누어진 문서들을 이용하여 하이퍼링크가 관심문서를 가리키는 것인지를 판단하여 문서를 수집할 것인지를 판단한다.

관계추출 모델 학습을 위한 반자동 패턴 마이닝 (Semiautomatic Pattern Mining for Training a Relation Extraction Model)

  • 최규현;남상하;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.257-262
    • /
    • 2016
  • 본 논문은 비구조적인 자연어 문장으로부터 두 개체 사이의 관계를 표현하는 구조적인 트리플을 밝히는 관계추출에 관한 연구를 기술한다. 사람이 직접 언어적 분석을 통해 트리플이 표현되는 형식을 입력하여 관계를 추출하는 규칙 기반 접근법에 비해 기계가 데이터로부터 표현 형식을 학습하는 기계학습 기반 접근법은 더 다양한 표현 형식을 확보할 수 있다. 기계학습을 이용하려면 모델을 훈련하기 위한 학습 데이터가 필요한데 학습 데이터가 수집되는 방식에 따라 지도 학습, 원격지도 학습 등으로 구분할 수 있다. 지도 학습은 사람이 학습 데이터를 만들어야하므로 사람의 노력이 많이 필요한 단점이 있지만 양질의 데이터를 사용하는 만큼 고성능의 관계추출 모델을 만들기 용이하다. 원격지도 학습은 사람의 노력을 필요로 하지 않고 학습 데이터를 만들 수 있지만 데이터의 질이 떨어지는 만큼 높은 관계추출 모델의 성능을 기대하기 어렵다. 본 연구는 기계학습을 통해 관계추출 모델을 훈련하는데 있어 지도 학습과 원격지도 학습이 가지는 단점을 서로 보완하여 타협점을 제시하는 학습 방법을 제안한다.

  • PDF

상품에 대한 공급자 검색 문제 해결하기 위한 지능형 상품 에이전트 개발

  • 채상용;김경필;김우주;김창욱
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2005년도 공동추계학술대회
    • /
    • pp.475-480
    • /
    • 2005
  • 인터넷상에 존재하는 수 많은 웹 페이지들에는 정형화되지 않은 각종 정보들이 이종의 형태로 산재되어 있다. 현재의 검색 기술을 통하여 필요한 정보를 찾아내는 것은 시간과 비용이 많이 소요되는 비효율적인 방법으로 이뤄지고 있다. 이러한 상황에서 사용자가 원하는 정보를 검색 및 추출해내어 정형화시키는 것은 매우 중요하다. 전자상거래의 폭발적 성장에도 불구하고 전자상거래 표준 활용 및 적용이 미비하여 e- Procurement, e-Marketplace, on-Line Shopping Mall 등에서 소비자가 원하는 상품 정보를 손쉽게 획득하지 못하고 있다. 이는 공급자에게는 보다 많은 매출의 기회를 구매자에게는 보다 좋은 자재 및 상품을 저렴한 가격에 소싱 할 수 있는 기회를 제공하지 못하는 문제점이 발생한다. 본 연구에서 제안하고자 하는 지능형 상품 에이전트는 소비자가 구매하고자 하는 특정 상품에 대한 공급자 검색 문제를 해결하기 위하여, 시스템 내부 정보의 확장 및 지식화 뿐만 아니라 웹 상의 다양한 상품 정보를 자동적으로 수집 및 가공하여 저장하는 역할을 수행한다. 이러한 연구를 위해서 사용한 기술은 우선 database 의 schema 를 읽어 들일 수 있는 DB schema reader, 인터넷 웹 페이지(웹문서)를 방문해서 다양한 정보들의 URL을 수집하는 일을 하는 Meta Search Engine 과 Focused Crawler, 그리고 다른 형태의 데이터 구조를 특정 목적에 따라 표준화된 형태로 바꾸는 Wrapper가 있다. 이러한 기술들을 연동하여 필요한 정보들을 추출 공급자 검색 문제를 해결하고자 하는 것이 연구의 목적이다. 정보추출은 사용자의 관심사에 적합한 문서들로부터 어떤 구체적인 사실이나 관계를 정확히 추출하는 작업을 가리킨다.앞으로 e-메일, 매신저, 전자결재, 지식관리시스템, 인터넷 방송 시스템의 기반 구조 역할을 할 수 있다. 현재 오픈웨어에 적용하기 위한 P2P 기반의 지능형 BPM(Business Process Management)에 관한 연구와 X인터넷 기술을 이용한 RIA (Rich Internet Application) 기반 웹인터페이스 연구를 진행하고 있다.태도와 유아의 창의성간에는 상관이 없는 것으로 나타났고, 일반 유아의 아버지 양육태도와 유아의 창의성간의 상관에서는 아버지 양육태도의 성취-비성취 요인에서와 창의성제목의 추상성요인에서 상관이 있는 것으로 나타났다. 따라서 창의성이 높은 아동의 아버지의 양육태도는 일반 유아의 아버지와 보다 더 애정적이며 자율성이 높지만 창의성이 높은 아동의 집단내에서 창의성에 특별한 영향을 더 미치는 아버지의 양육방식은 발견되지 않았다. 반면 일반 유아의 경우 아버지의 성취지향성이 낮을 때 자녀의 창의성을 향상시킬 수 있는 것으로 나타났다. 이상에서 자녀의 창의성을 향상시키는 중요한 양육차원은 애정성이나 비성취지향성으로 나타나고 있어 정서적인 측면의 지원인 것으로 밝혀졌다.징에서 나타나는 AD-SR맥락의 반성적 탐구가 자주 나타났다. 반성적 탐구 척도 두 그룹을 비교 했을 때 CON 상호작용의 특징이 낮게 나타나는 N그룹이 양적으로 그리고 내용적으로 더 의미 있는 반성적 탐구를 했다용을 지원하는 홈페이지를 만들어 자료 제공 사이트에 대한 메타 자료를 데이터베이스화했으며 이를 통해 학생들이 원하는 실시간 자료를 검색하여 찾을 수 있고 홈페이지를 방분했을 때 이해하기 어려운 그래프나 각 홈페이지가 제공하는 자료들에 대한 처리 방법을 도움말로 제공받을 수 있게 했다. 실시간 자료들을 이용한 학습은 학생들의 학습 의욕과 탐구 능력을 향상시켰으

  • PDF

개인정보보호 관점에서의 웹 트래픽 수집 및 분석 서비스에 대한 타당성 연구 (The Evaluation for Web Mining and Analytics Service from the View of Personal Information Protection and Privacy)

  • 강신범;심미나;방제완;이상진;임종인
    • 정보보호학회논문지
    • /
    • 제19권6호
    • /
    • pp.121-134
    • /
    • 2009
  • 소비자 중심 마케팅 성장과 더불어 확대되고 있는 웹 트래픽 수집 및 분석 서비스 시장에서는 이미 서비스 제공자와 사용자간 정보 활용과 정보보호의 치열한 공방이 시작되었고 보다 상세한 소비자 정보를 마케팅에 활용하고 싶은 욕구가 극대화되고 있다. 기업은 익명화된 개인정보의 마케팅활용을 정당화하고 개인은 잠재적 우려사항을 감수할 수밖에 없는 실정이다. 그러므로 본고에서는 국내의 웹 트래픽 수집 및 분석 서비스 산업에서 개인정보보호에 저해되는 프로세스를 검토하고 잠재적 우려사항을 밝히고자 한다. 국내 주요 상용서비스를 중심으로 개인정보보호정책 분석과 서비스과정의 고의 혹은 우연한 개인정보 수집행위 등 목적 외 범위 타당성을 검토하고, 역공학을 통해 서비스과정에서의 개인정보 수집 및 이용 범위를 분석하였다. 개인정보 추출 범위 확대와 침해 가능성 심화로 인해 현재 국내 서비스의 타당성 평가는 매우 중요하다. 웹 트래픽 수집 및 분석 행위로 인한 개인정보 침해의 잠재요인과 서비스 활용을 위한 개인정보보호의 요건을 명확히 밝히는 것은 웹 트래픽 분석산업과 개인정보보호의 균형 발전을 위해 매우 중요할 것이다.

항공기 및 포병 화력자산 분배 지원 전문가시스템 개발에 관한 연구 (A Study on the Expert System development for Fire Allocation of Aircraft Artillery)

  • 김화수;이기호;최병권
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2000년도 춘계정기학술대회 e-Business를 위한 지능형 정보기술 / 한국지능정보시스템학회
    • /
    • pp.443-453
    • /
    • 2000
  • 장차전의 양상은 고도의 과학전, 타격수단의 다양화 등에 따라 고속이체기동전이 t행될 것이며, 이러한 전쟁양상은 정확하고, 보다 빠른 첩보와 정보의 수집 및 분석을 통하여 아군의 신속한 의사결정 및 대응을 요구한다. 이를 위하여 첩보와 정보 수집 및 분석을 자동화하기 위한 전장정보분석 자동화에 관한 연구가 국방과학연구소 주관으로 실시되고 있다. 따라서 이와 연계된 의사결정 자동화에 관한 연구가 필요하게 되었다. 본 연구는 이러한 요구에 부응할 수 있는 전장정보를 활용한 의사결정의 중요한 한 분야인 화력분배를 자동화하기 위한 전문가시스템의 지식베이스모듈에 대한 분석 및 설계에 관한 연구이다.기존에는 화력분야에 대한 아방책 선정까지를 자동화하는 전문가시스템 개발에 대한 연구가 수행되었으나, 본 연구에서는 자동화의 효율성을 높이기 위해서 아방책 선정에서 나아가 아군 화력자산의 파괴율을 고려하고, 지휘관의 의도에 부합하는 아군 화력자산을 배분하는 전문가시스템 개발에 관한 연구를 수행하였다. 본 연구에서는 화력분배 자동화를 위하여 화력분배와 관련된 현행 업무 관련 지식을 획득 및 분석하고 이를 바탕으로 화력자산 분배를 위한 규칙도출 시 개념설계, 상세설계, 알고리즘제시, 규칙추출예시를 하였으며 본 연구결과의 기대효과는 본문을 참고 바란다.

  • PDF

질의응답 시스템을 위한 술어정보 기반 질의분석 (Predicate-based Question Analysis for Korean Question-Answering System)

  • 김원남;신승은;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.296-300
    • /
    • 2004
  • 질의 응답 시스템이 정확한 정답을 제시하기 위해서는 사용자가 요구하는 정답의 유형을 결정할 필요가 있다. 질의분석의 일반적인 접근법으로는 의문사 정보, 규칙 그리고 통계 정보에 기반한 방법들이 있다. 본 논문에서는 술어정보를 이용한 질의분석을 제안한다. 먼저 의문사 정보를 이용하여 상위정답유형을 결정하고 질의문의 술어 정보와 구문 구조 정보를 이용하여 초점단어(focus word)를 추출한다. 초점단어란 정답유형을 결정하는데 단서가 되는 단어로써, 추출된 초점단어에 의해 75개의 하위정답유형 중 하나가 결정된다. 실험에 앞서 정답 유형별로 6개의 상위범주와 75개의 하위범주를 정의하였으며, 실험에는 학습 데이터의 일부와 일반 Web에서 수집한 테스트 데이터가 사용되었다. 실험결과 상위범주는 97.6%, 하위범주는 77.8%의 정확도를 보였으며 초점단어는 92.5%의 정확도를 보였다.

  • PDF

침입탐지를 위한 최적의 감사기록 축약에 관한 실험적 평가 (Empirical Evaluation on Optimal Audit Data Reduction for Intrusion Detection)

  • 서연규;조성배
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 제13회 춘계학술대회 및 임시총회 학술발표 논문집
    • /
    • pp.680-685
    • /
    • 2000
  • 최근 그 심각성이 커지고 있는 해킹피해를 줄이기 위한 한 방법으로 시스템에 침입한 불법적 사용을 탐지하는 연구가 활발히 진행되고 있다. 침입을 탐지하는 방법으로는 오용탐지와 비정상행위 탐지가 있는데 비정상행위 탐지를 위해서는 정보수집의 정확성, 신속성과 함께 다량의 정보들로부터 필요한 정보를 추출하고 축약하는 것이 중요하다. 본 논문에서는 감사기록 도구인 BSM으로부터 정보를 추출하고 자기조직화 신경망을 이용하여 다차원의 정보를 저차원정보로 축약.변환하는 방법에 대한 실험적인 검증을 시도하였다. 또한 BSM에서 얻을 수 있는 데이터의 유용성을 조사하기 위하여 축약된 감사자료에 의한 탐지성능을 살펴보았다. 실험결과, 시스템 호출 및 파일관련 정보의 축약이 탐지성능향상에 크게 기여하는 중요한 척도임을 알 수 있었으며 각 척도마다 탐지성능이 좋은 맵의 크기가 다름을 알 수 있었다. 이러한 축약된 정보는 여러 정상행위 모델링방법에 의해 유용하게 사용될 수 있을 것이다.

  • PDF

기계가독형사전에서 상위어 판별을 위한 규칙 학습 (Learning Rules for Identifying Hypernyms in Machine Readable Dictionaries)

  • 최선화;박혁로
    • 정보처리학회논문지B
    • /
    • 제13B권2호
    • /
    • pp.171-178
    • /
    • 2006
  • 기계가독형사전(Machine Readable Dictionary)에서 단어의 정의문에 나타나는 항목 단어의 상위개념을 추출하는 대부분의 연구들은 전문가에 의해 작성된 어휘패턴을 사용하였다. 이 방법은 사람이 직접 패턴을 수집하므로 시간과 비용이 많이 소모될 뿐만 아니라, 자연언어에는 같은 의미를 가진 다앙한 표현들이 존재하므로 넓은 커버리지를 갖는 어휘패턴들을 수집하는 것이 매우 어렵다는 단점이 있다. 이런 문제점들을 해결하기 위하여, 본 논문에서는 구문적 특징만을 이용한 상위어 판별 규칙을 기계학습함으로써 기존에 사용되었던 어휘패턴의 지나친 어휘 의존성으로 인한 낮은 커버리지 및 패턴 수집의 문제를 해결하는 방법을 제안한다. 제안한 방법으로 기계학습된 규칙들을 상위어 자동추출과정에적용한 결과 정확도 92.37% 성능을 보였다. 이는 기존 연구들보다 향상된 성능으로 기계학습에 의해 수집된 판별규칙이 상위어 판별에 있어서 어휘패턴의 문제를 해결할 수 있다는 것을 입증하였다.

영유아 건강관리를 위한 보육교사의 건강정보 이용 및 요구 (Utilization of Infant Health Information and Needs of Staffs in Child Daycare Centers)

  • 김지수
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2010년도 춘계 종합학술대회 논문집
    • /
    • pp.601-603
    • /
    • 2010
  • 본 논문은 영유아 건강관리를 위해 보육교사들이 어떠한 경로를 이용해 건강정보를 찾아보고 있는지를 파악하고 영유아 건강관리를 위해 필요한 정보가 무엇인지를 확인하고자 한다. 선행연구에서 사용한 도구를 본 연구 목적에 맞게 수정한 후 전문가 검증과 예비조사를 토대로 설문지를 구성하였으며 지역편중을 배제하기 위해 두 개 시에서 편의추출로 자료를 수집하였다. 연구결과 대다수의 보육교사가 인터넷을 통해 영유아 건강정보를 찾고 있으며 건강정보에 대한 요구가 매우 높고 특히 응급처치와 전염성질환관리에 대한 요구도가 가장 높은 것으로 나타났다.

  • PDF

기계학습을 활용한 소셜 텍스트의 주요 정보 추출 기법 (Extracting Significant Information from Social Text using Machine Learning)

  • 김소현;김한준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.742-745
    • /
    • 2016
  • 빅데이터 시대를 맞이하여 텍스트마이닝과 오피니언마이닝의 활용도가 커지고 있는 시점에서 소셜 네트워크 데이터로부터 유용한 데이터를 추출하는 작업은 매우 중요하다. 이에 본 논문은 블로그 HTML 문서에서 추출한 태그 특징에 로지스틱 회귀 및 앙상블 기법을 적용하여 본문을 포함하는 태그를 분류하는 모델을 구성한 뒤 태그의 깊이 특징을 이용하여 주요 본문을 찾는 방법을 제안한다. 직접 수집한 데이터를 이용한 실험에서 태그 분류 정확도가 0.990, 본문을 찾아낸 문서의 비율이 80.5%로 나왔다.