• 제목/요약/키워드: machine learning patent

검색결과 28건 처리시간 0.021초

특허분석을 위한 빅 데이터학습 (A Big Data Learning for Patent Analysis)

  • 전성해
    • 한국지능시스템학회논문지
    • /
    • 제23권5호
    • /
    • pp.406-411
    • /
    • 2013
  • 빅 데이터는 여러 분야에서 다양한 개념으로 사용된다. 예를 들어, 컴퓨터학과 사회학에서 빅 데이터에 대한 접근방법에 차이가 있지만, 데이터분석 관점에서는 공통적인 부분을 갖는다. 즉, 공학이든 사회과학이든 빅 데이터에 대한 분석은 반드시 필요하다. 통계학과 기계학습은 빅 데이터의 분석을 위한 대표적인 분석도구이다. 본 논문에서는 빅 데이터분석을 위한 학습도구에 대하여 알아보고 검색된 빅 데이터 원천에서부터 분석을 거쳐 최종적으로 분석결과를 사용하는 전체과정에 대하여 효율적인 빅 데이터학습 절차에 대하여 제안한다. 특히, 대표적인 빅 데이터 구조를 갖고 있는 특허문서에 대하여 빅데이터학습을 적용하여 특허분석을 수행하고 이 결과를 기술예측에 적용하는 방법에 대하여 연구한다. 제안방법에 대한 실제적용을 위하여 전 세계 특허청으로부터 빅 데이터 관련 특허문서를 검색하여 텍스트 마이닝의 전처리와 통계학의 다중선형회귀분석을 이용한 구체적인 빅 데이터학습에 대한 사례연구를 수행하였다.

키워드 네트워크의 클릭 분석을 이용한 특허 데이터 분석 (Patent data analysis using clique analysis in a keyword network)

  • 김현;김동건;조진남
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권5호
    • /
    • pp.1273-1284
    • /
    • 2016
  • 본 연구에서는 기계 학습 분야의 특허를 수집하여 키워드 네트워크를 구축하고 클릭 분석을 실시하였다. 먼저 텍스트 마이닝 기법을 적용하여 핵심 키워드들을 선정한 다음, 이 키워드를 기반으로 키워드 네트워크를 구축하였다. 다음으로 네트워크 구조 분석, 중요 키워드 분석 및 클릭 분석을 시행하여 2005년도와 2015년도에 출원된 기계 학습 특허의 동향을 파악하였을 뿐만 아니라 양해년도의 분석 결과를 통해 특허 경향을 파악하였다. 분석 결과 기계 학습 특허의 키워드 네트워크는 밀도와 군집 계수가 낮은 것으로 드러났으며 기계 학습 기법 자체에 대한 특허보다는 다양한 응용 영역에서 기계학습을 적용한 특허들이 다수이기 때문으로 판단된다. 클릭 분석 결과 2005년도 클릭 분석에 의해 발견된 주제는 뉴스메이커 검증, 상품 소비 예측, 바이러스 공격 예방, 바이오마커, 그리고 워크플로우 관리였으며, 2015년도 기계 학습 특허 주제는 디지털 이미지 편집, 직불카드, 수신자 인라이닝 시스템, 유방 촬영 시스템, 재고 관리 시스템, 이미지 편집 시스템, 비행기 티켓 가격 예측, 그리고 문제 예측 시스템으로 나타났다. 2005년도에 비하여 2015년도의 근접 중앙성은 낮아지고 매개 중심성은 높아진 것으로 보아 최근의 특허 경향은 보다 다양한 분야에서 출원되고 있으며 이들 간의 연결이 활발해지고 있음을 알 수 있다. 클릭 분석은 클릭을 형성하는 키워드 집합을 해석하여 주제를 파악하는데 활용될 수 있을 뿐만 아니라 추출된 공유 멤버쉽 키워드 집합은 특허 검색 시스템과 같이 키워드 검색 기반의 시스템에서 검색 키워드로 활용될 수 있을 것으로 기대된다.

기계학습 기술을 활용한 화학분야 특허문서의 조성/물성 정보 자동추출 방법 연구 (A Study on the Automatic Extraction of Fomulation and Properties in Chemical Field Patent Document by Using Machine Learning Technology)

  • 김홍기;이하영;박진우
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제60차 하계학술대회논문집 27권2호
    • /
    • pp.277-280
    • /
    • 2019
  • 본 논문에서는 화학분야 특허 문서에 존재하는 도표(TABLE) 데이터를 인공지능 기술을 활용하여 자동으로 추출하고 정형화된 형태로 가공하는 방법을 제안한다. 특허 문서에서 도표 데이터는 실시예에서 실험결과나 비교결과를 간결하고 가시적으로 표현하기 위하여 주로 사용되나, 셀의 속성을 정의하는 헤더부분과 수치가 표현되는 값 부분의 경계가 모호하여 구조화하는데 어려움이 있다. 본 논문에서 제안하는 방법은 소량의 학습데이터를 구축하고 기계학습을 통해 도표에 존재하는 셀의 속성을 예측하고, 예측된 속성을 토대로 조성과 물성 정보를 자동으로 구분하여 추출하는 방법을 제시한다. 제시된 방법을 활용하여 화학 분야 조성물 특허의 도표데이터에 시뮬레이션 결과 각 항목별 98.17%의 속성 예측 정확도를 나타내었으며 기존 규칙기반 연구보다 작업난이도, 예측정확도에서 우수한 성과를 보인다.

  • PDF

BERT를 이용한 한국어 특허상담 기계독해 (Korean Machine Reading Comprehension for Patent Consultation Using BERT)

  • 민재옥;박진우;조유정;이봉건
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권4호
    • /
    • pp.145-152
    • /
    • 2020
  • 기계독해는(Machine reading comprehension) 사용자 질의와 관련된 문서를 기계가 이해한 후 정답을 추론하는 인공지능 자연어처리 태스크를 말하며, 이러한 기계독해는 챗봇과 같은 자동상담 서비스에 활용될 수 있다. 최근 자연어처리 분야에서 가장 높은 성능을 보이고 있는 BERT 언어모델은 대용량의 데이터를 pre-training 한 후에 각 자연어처리 태스크에 대해 fine-tuning하여 학습된 모델로 추론함으로써 문제를 해결하는 방식이다. 본 논문에서는 BERT기반 특허상담 기계독해 태스크를 위해 특허상담 데이터 셋을 구축하고 그 구축 방법을 소개하며, patent 코퍼스를 pre-training한 Patent-BERT 모델과 특허상담 모델학습에 적합한 언어처리 알고리즘을 추가함으로써 특허상담 기계독해 태스크의 성능을 향상시킬 수 있는 방안을 제안한다. 본 논문에서 제안한 방법을 사용하여 특허상담 질의에 대한 정답 결정에서 성능이 향상됨을 보였다.

Text Classification for Patents: Experiments with Unigrams, Bigrams and Different Weighting Methods

  • Im, ChanJong;Kim, DoWan;Mandl, Thomas
    • International Journal of Contents
    • /
    • 제13권2호
    • /
    • pp.66-74
    • /
    • 2017
  • Patent classification is becoming more critical as patent filings have been increasing over the years. Despite comprehensive studies in the area, there remain several issues in classifying patents on IPC hierarchical levels. Not only structural complexity but also shortage of patents in the lower level of the hierarchy causes the decline in classification performance. Therefore, we propose a new method of classification based on different criteria that are categories defined by the domain's experts mentioned in trend analysis reports, i.e. Patent Landscape Report (PLR). Several experiments were conducted with the purpose of identifying type of features and weighting methods that lead to the best classification performance using Support Vector Machine (SVM). Two types of features (noun and noun phrases) and five different weighting schemes (TF-idf, TF-rf, TF-icf, TF-icf-based, and TF-idcef-based) were experimented on.

기계학습을 이용한 특허 분류의 성능 비교에 대한 연구 (Performance Comparison of Patent Classification Using Machine Learning Models)

  • 이주현;강지호;박아람;박상성;장동식
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.540-541
    • /
    • 2018
  • 최근 특허분석의 중요성이 부각되고 있다. 특허분석을 위해 검색된 특허 중 노이즈 특허를 분류하는 작업은 많은 시간과 비용을 요구한다. 본 논문에서는 효율적인 특허분석을 위한 노이즈 특허 분류 성능의 비교를 진행한다. 그리고 비교한 결과를 통해 노이즈 특허 분류에 최적의 모형을 찾는 것을 목표로 한다. 듀얼 카메라 특허 603건을 이용하여 실제 실험을 실시한 결과, 나이브 베이지안 분류 모형의 분류 성능이 가장 우수하였다.

  • PDF

기술용어 분산표현을 활용한 특허문헌 분류에 관한 연구 (A Study on Patent Literature Classification Using Distributed Representation of Technical Terms)

  • 최윤수;최성필
    • 한국문헌정보학회지
    • /
    • 제53권2호
    • /
    • pp.179-199
    • /
    • 2019
  • 본 연구의 목적은 특허 문헌 분류에 가장 적합한 방법론을 발견하기 위하여 다양한 자질 추출 방법과 기계학습 및 딥러닝 모델을 살펴보고 실험을 통해 최적의 성능을 제공하는 방법론을 분석하는데 있다. 자질 추출 방법으로는 전통적인 BoW 방법과 분산표현 방식인 워드 임베딩 벡터를 비교 실험하고, 문헌 집합 구축 방식으로는 형태소 분석과 멀티그램을 이용하는 방식을 비교 검토하였다. 또한 전통적인 기계학습 모델과 딥러닝 모델을 이용하여 분류 성능을 검증하였다. 실험 결과, 분산표현 방법과 형태소 분석을 이용한 자질추출 방법을 기반으로 딥러닝 모델을 적용하였을 경우에 분류 성능이 가장 우수한 것으로 판명되었으며 섹션, 클래스, 서브클래스 분류 실험에서 전통적인 기계학습 방법에 비해 각각 5.71%, 18.84%, 21.53% 우수한 분류 성능을 보여주었다.

The Role of Digital Technology in Climate Technology Innovation

  • KARAM JO
    • KDI Journal of Economic Policy
    • /
    • 제45권2호
    • /
    • pp.21-50
    • /
    • 2023
  • In this paper, I empirically estimate the relationship between digital technology and climate technology using the United States Patent and Trademark Office's patent database. I find that innovation in digital technology increases the number of patents for climate technology by 17.3% on average, with digital data-processing technology and machine-learning-related technologies especially playing a key role in this relationship. Designing and implementing detailed policies that take into account the relationship between the two technologies will help us reduce the time required to achieve carbon neutrality and shift to the digital economy.

기계학습을 활용한 특허수명 예측 및 영향요인 분석 (Prediction of patent lifespan and analysis of influencing factors using machine learning)

  • 김용우;김민구;김영민
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.147-170
    • /
    • 2022
  • 특허의 사적 가치(private value)를 나타내는 특허수명 추정은 오래전부터 연구되었으나 추정과정에서 선형모델에 의존하는 경우가 대부분이었고, 기계학습 방법을 사용하더라도 변수 간 관계에 대한 해석이나 설명이 부족하였다. 본 연구에서는 특허의 생존 기간이 특허의 가치를 대리한다는 기존 연구결과를 바탕으로 특허 등록 이후의 생존 기간(연장횟수) 예측을 통해 특허의 가치를 추정한다. 이를 위해 1996~2017년까지 미국 특허청(USPTO)에 출원하여 등록된 특허 4,033,414개를 수집하였다. 특허수명을 예측하기 위해 기존 연구에서 특허수명에 영향을 미친다고 밝혀진 특허의 특성, 특허의 소유자 특성, 특허의 발명가 특성을 반영할 수 있는 다양한 변수가 사용되었다. 서로 다른 4개의 모델(Ridge Regression, Random Forest, Feed-forward Neural Network, Gradient Boosting Models)을 생성하고, 모델 학습 과정에서는 5-fold Cross Validation으로 초매개변수 조정이 이루어졌다. 이후 생성된 모델의 성능을 평가하고 특허수명을 추정할 수 있는 예측변수의 상대적 중요도를 제시하였다. 또한, 성능이 우수했던 Gradient Boosting Model을 기반으로 Accumulated Local Effects Plot을 제시하여 예측변수와 특허수명 간 관계를 시각적으로 나타내었다. 마지막으로 모델에 의해서 평가된 개별 특허의 평가 근거를 제시하기 위하여 Kernal SHAP(SHapley Additive exPlanations)을 적용하고 특허평가 시스템에의 적용 가능성을 제시한다. 본 연구는 기존에 특허수명을 추정하는 연구에 누적적으로 기여한다는 점 그리고 선형성을 바탕으로 진행된 기존 특허수명 추정 연구들의 한계를 보완하고 복잡한 비선형 관계를 설명가능한 방식으로 제시하였다는 점에서 학문적 의의가 있다. 또한, 개별 특허의 평가 근거를 도출하는 방법을 소개하고 특허평가 시스템에의 적용 가능성을 제시하였다는 점에서 실무적 의의가 있다.

Patent Keyword Analysis using Gamma Regression Model and Visualization

  • Jun, Sunghae
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권8호
    • /
    • pp.143-149
    • /
    • 2022
  • 특허문서는 연구 개발된 기술에 대한 상세한 결과를 포함하고 있기 때문에 효과적인 기술분석을 위한 다양한 특허분석 방법에 대한 연구가 진행되고 있다. 특히 통계학과 머신러닝 알고리즘에 의한 정량적인 특허분석에 대한 연구가 최근 활발하게 이루어지고 있다. 정량적 특허분석에서 가장 많이 사용되는 특허 데이터는 기술 키워드이다. 기술 키워드 데이터를 분석하는 기존의 방법은 대부분 음의 무한대부터 양의 무한대까지 실수 공간 전체를 확률변수의 값으로 갖는 가우시안 확률분포에 기반한 모형이었다. 본 논문에서는 이론적으로 0부터 양의 무한대까지의 값을 갖는 특허 키워드의 빈도 데이터를 분석하기 위하여 감마 확률분포를 활용한 모형을 제안한다. 또한 감마 회귀모형의 회귀방정식을 결정하기 위하여 키워드 간의 기술 연관성을 시각화하는 2-모드 네트워크를 구축한다. 제안 방법과 기존의 가우시안 기반의 분석모형 간의 성능평가를 위하여 실제 특허 데이터를 수집하여 분석한다.