• 제목/요약/키워드: 개체 기반

검색결과 921건 처리시간 0.028초

위키피디아 기반 개체명 사전 반자동 구축 방법 (A Semi-automatic Construction method of a Named Entity Dictionary Based on Wikipedia)

  • 송영길;정석원;김학수
    • 정보과학회 논문지
    • /
    • 제42권11호
    • /
    • pp.1397-1403
    • /
    • 2015
  • 개체명은 다양한 자연어처리 연구 및 서비스에 중요한 정보로 이용된다. 개체명 인식의 성능을 향상시키기 위한 여러 연구에서 개체명 사전을 이용한 자질이 개체명 인식 성능에 큰 영향을 준다는 것을 보이고 있다. 그러나 개체명 사전을 구축하는 것은 매우 시간 소모적이고, 인력 소모적인 작업이다. 이를 완화하기 위해서 본 논문에서는 개체명 사전을 반자동으로 구축하는 방법을 제안한다. 제안 시스템은 능동학습을 이용하여 위키피디아 분류정보로 구성된 가상 문서를 개체명 범주 당 하나씩 생성한다. 그리고 잘 알려진 정보검색 모델인 BM25를 이용하여 위키피디아 엔트리와 가상문서 사이의 유사도를 계산한다. 마지막으로 유사도를 바탕으로 각 위키피디아 엔트리를 개체명 범주로 분류한다. 서로 다른 3종류의 개체명 범주 집합에서 실험한 결과, 제안 시스템은 매크로 평균 F1-점수 0.9028, 마이크로 평균 F1-점수 0.9554이라는 높은 성능을 보였다.

상대인력 모델에 기반한 자연적 개체 군집화 알고리즘 (A Natural Clustering Algorithm based on the Relative Gravitation Model)

  • 김은주;고재필;변혜란;이일병
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권10호
    • /
    • pp.757-763
    • /
    • 2001
  • 본 논문에서는 상대인력 모델에 기반한 새로운 군집화 알고리즘, G-CLUS를 제안한다. 제한한 방법에서 모든 개체들은 초기에 동일한 질량을 가지고, 개체간의 인력에 의해 인력이 작용하는 방향으로 점진적으로 이동하게 되어, 초기 시작점 선택이나 군집의 개수를 미리 지정하지 않은 상태에서 자연스럽게 군집을 형성한다. 제안한 방법을 인력작용과정에서 군집의 수가 자연스럽게 결정되며, 한 개체가 받는 힘은 개체간의 인력을 합한 합력을 사용하기 때문에 이상치에 대한 민감성을 완화하였다. 본 알고리즘은 계산복잡도를 낮추기 위하여 큐브개념을 적용하여 O(nk)의 계산 복잡도를 유지하도록 하였다. 실험에서는 개체들의 움직임 특성, 군집화 모델에 따른 군집화 과정, 임의의 데이타 집합에 대한 군집화 결과를 보이고, 또한 타 군집화 알고리즘과 제안한 알고리즘 군집화 결화를 비교한다.

  • PDF

생의학 학술 문헌의 불확실성 기반 지식 동향 분석에 관한 연구 (Knowledge Trend Analysis of Uncertainty in Biomedical Scientific Literature)

  • 허고은;송민
    • 정보관리학회지
    • /
    • 제36권2호
    • /
    • pp.175-199
    • /
    • 2019
  • 불확실성이란 정보의 합의나 현존하는 지식 부족으로 인해 명제의 지식이 불완전한 상태를 의미한다. 과학적 지식의 불확실성을 연구하는 학술문헌의 양은 시간이 흐름에 따라 기하급수적으로 증가하고 있으며, 이에 따라 새로운 지식이 발견되고 연구가 발전하고 있다. 이처럼 시간의 흐름은 지식의 불확실성의 패턴을 발견하는데 중요한 요인이 될 수 있음에도 불구하고 기존의 연구들은 불확실성 단어의 단순 출현 빈도를 기반으로 특정 학문 영역에서 불확실성의 특성을 파악해왔다. 따라서, 본 연구에서는 구축한 불확실성 단어를 생의학 영역의 불확실성 연구에 적용하여 시간의 흐름에 따른 불확실성의 변화와 패턴을 파악하고자 한다. 시간의 흐름에 따른 생의학 지식의 패턴을 분석하기 위해 대표 개체 페어, 동사 유형, 대표 개체의 패턴을 살펴보았으며 선형회귀 분석을 통해 유의성 검증을 수행했다. 개체 페어 분석에서는 17건 중 7건의 개체 페어가 유의하게 감소하는 패턴을 보였다. 10개의 대표적인 동사 유형은 모두 시간이 흐름에 따라 유의하게 감소했다. 대표 개체의 연도별 상대적 중요도 분석에서는 유의하게 상승과 하강 패턴을 보이는 개체들의 불확실성 증감을 분석했다.

동영상에서의 모델기반 특징추출을 이용한 얼굴 표정인식 (Facial Expression Recognition using Model-based Feature Extraction in Image Sequence)

  • 박미애;최성인;임동악;고재필
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.343-345
    • /
    • 2006
  • 본 논문에서는 ASM(Active Shape Model)과 상태 기반 모델을 사용하여 동영상으로부터 얼굴 표정을 인식하는 방법을 제안한다. ASM을 이용하여 하나의 입력영상에 대한 얼굴요소 특징점들을 정합하고 그 과정에서 생성되는 모양 파라미터 벡터를 추출한다. 동영상에 대해 추출되는 모양 파라미터 벡터 집합을 세 가지상태 중 한 가지를 가지는 상태 벡터로 변환하고 분류기를 통해 얼굴의 표정을 인식한다. 분류단계에서는 분류성능을 높이기 위해 새로운 개체 기반 학습 방법을 제안한다. 실험에서는 새로이 제안한 개체 기반 학습 방법이 KNN 분류기보다 더 좋은 인식률을 나타내는 것을 보인다.

  • PDF

위치 기반 DBpedia 모바일 브라우저 개발 (Development of Location-based DBpedia Mobile Browser)

  • 이수형;단홍주;정은미;선위시앙;이용주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.1047-1048
    • /
    • 2017
  • 본 논문은 위치 기반 DBpedia 모바일 브라우저 개발에 관한 내용으로 사용자의 현재 위치를 중심으로 Google Map과 DBpedia를 매쉬업하여 주변의 DBpedia 개체를 표시하고, 링크를 통해 추가적인 RDF 시맨틱 정보를 탐색할 수 있는 기능을 제공한다. DBpedia는 Wikipedia로부터 구조화된 데이터를 추출하여 RDF 형식으로 저장한 지식베이스로서 오늘날 엄청난 규모의 빅데이터로 발전되고 있는 링크드 오픈 데이터(Linked Open Data)에서 가장 핵심으로 부각되고 있다. DBpedia는 약 73만개의 장소 및 지역에 관한 정보를 포함하여 약 4백 58만 가지의 다양한 개체들에 관한 정보를 가지고 있으며 여러 종류의 위치기반 데이터 세트도 보유하고 있다. 본 연구에서 개발된 브라우저는 이러한 데이터 세트 내용을 스마트폰의 위치정보서비스를 활용하여 주변에 있는 장소나 건물 등을 지도에 표시하고, 해당 개체에 대한 간단한 요약 정보와 추가적인 시맨틱 정보 검색을 위한 링크를 제공한다.

긴급 신고 접수 지원을 위한 대화 상태 추적 및 요약 기반 실시간 텍스트 분석 (Real-time Text Analysis with Dialogue State Tracking and Summarizing to Assist Emergency Call Reporting)

  • 오교중;김진원;김일훈;임채균;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.16-21
    • /
    • 2021
  • 소방 본부의 119 종합상황실에서는 24시간 국민의 안전을 위해 긴급 신고를 접수한다. 수보사 분들은 24시간 교대 근무를 하며 신고 전화에 접수 및 응대 뿐만 아니라 출동, 지휘, 관제 업무를 함께 수행한다. 이 논문에서는 이 같은 수보사의 업무 지원을 위해 우리가 구축한 음성 인식과 결합된 실시간 텍스트 분석 시스템에 대해서 소개하고, 출동 지령서 자동 작성을 위한 키워드 검출 및 대화 요약 및 개체명 인식에 기반한 대화 상태 추척 방법에 대해 설명하고자 한다. 대화 요약 기술은 음성 인식 결과를 실시간으로 분석하여 중요한 키워드의 검출 및 지령서 자동 작성을 위한 후처리를 수행하며, 문장 수준에서 개체명 인식 및 관계 분석을 통한 목적 대화의 대화 상태 추적을 수행한다. 이 같은 응용 시스템은 딥러닝 및 기계학습 기반의 자연어 처리 시스템이 실시간으로 텍스트 분석을 수행할 수 있는 기술 수준이 되었음을 보여주며, 긴급한 상황에서 많은 신고 전화를 접수하는 수보사의 업무 효율 증진 뿐만 아니라, 정확하고 신속한 위치 파악으로 신고자를 도와주어 국민안전 증진에 도움을 줄 수 있을 것으로 기대된다.

  • PDF

생의학 분야 학술 논문에서의 개체명 인식 및 관계 추출을 위한 언어 자원 수집 및 통합적 구조화 방안 연구 (A Study on Collecting and Structuring Language Resource for Named Entity Recognition and Relation Extraction from Biomedical Abstracts)

  • 강슬기;최윤수;최성필
    • 한국문헌정보학회지
    • /
    • 제51권4호
    • /
    • pp.227-248
    • /
    • 2017
  • 본 논문에서는 급격히 증가하는 생의학 분야 비정형 텍스트에서 핵심적 내용을 추출할 수 있는 기계학습 기반 정보 추출시스템을 구축하기 위한 언어자원 수집 및 통합적 구조화 방안을 제안한다. 제안된 방법은 정보 추출 시스템을 크게 개체명 인식과 개체명 간 관계 추출 시스템으로 구분하고, 각각의 시스템에 적합한 학습데이터를 구성하기 위해 생의학 분야 개체명 사전과 학습 집합을 수집한다. 그리고 수집된 해당 자원들의 특성을 분석하여 개체 구별을 위해 필수적으로 포함시켜야 할 항목들을 도출하고 이를 통해 시스템 학습과정에서 사용될 학습 데이터를 구성하기 위한 항목을 선정한다. 이와 같이 선정된 학습데이터의 구성 내용에 따라 수집된 자원들을 가공하여 학습 데이터를 구축한다. 본 연구에서는 생의학 분야의 하위 분야인 유전자, 단백질, 질병, 약물 4개 분야에 대한 개체명 사전과 학습 집합을 수집하여 각각을 학습 데이터로 구축하였으며, 개체명 사전을 통해 구축된 개체명 인식용 학습 데이터를 대상으로 개체명 수용 범위를 측정하기 위한 검증 과정을 수행하였다.

제한된 언어 자원 환경에서의 다국어 개체명 인식 (Multilingual Named Entity Recognition with Limited Language Resources)

  • 천민아;김창현;박호민;노경목;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.143-146
    • /
    • 2017
  • 심층학습 모델 중 LSTM-CRF는 개체명 인식, 품사 태깅과 같은 sequence labeling에서 우수한 성능을 보이고 있다. 한국어 개체명 인식에 대해서도 LSTM-CRF 모델을 기본 골격으로 단어, 형태소, 자모음, 품사, 기구축 사전 정보 등 다양한 정보와 외부 자원을 활용하여 성능을 높이는 연구가 진행되고 있다. 그러나 이런 방법은 언어 자원과 성능이 좋은 자연어 처리 모듈(형태소 세그먼트, 품사 태거 등)이 없으면 사용할 수 없다. 본 논문에서는 LSTM-CRF와 최소한의 언어 자원을 사용하여 다국어에 대한 개체명 인식에 대한 성능을 평가한다. LSTM-CRF의 입력은 문자 기반의 n-gram 표상으로, 성능 평가에는 unigram 표상과 bigram 표상을 사용했다. 한국어, 일본어, 중국어에 대해 개체명 인식 성능 평가를 한 결과 한국어의 경우 bigram을 사용했을 때 78.54%의 성능을, 일본어와 중국어는 unigram을 사용했을 때 각 63.2%, 26.65%의 성능을 보였다.

  • PDF

제한된 언어 자원 환경에서의 다국어 개체명 인식 (Multilingual Named Entity Recognition with Limited Language Resources)

  • 천민아;김창현;박호민;노경목;김재훈
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.143-146
    • /
    • 2017
  • 심층학습 모델 중 LSTM-CRF는 개체명 인식, 품사 태깅과 같은 sequence labeling에서 우수한 성능을 보이고 있다. 한국어 개체명 인식에 대해서도 LSTM-CRF 모델을 기본 골격으로 단어, 형태소, 자모음, 품사, 기구축 사전 정보 등 다양한 정보와 외부 자원을 활용하여 성능을 높이는 연구가 진행되고 있다. 그러나 이런 방법은 언어 자원과 성능이 좋은 자연어 처리 모듈(형태소 세그먼트, 품사 태거 등)이 없으면 사용할 수 없다. 본 논문에서는 LSTM-CRF와 최소한의 언어 자원을 사용하여 다국어에 대한 개체명 인식에 대한 성능을 평가한다. LSTM-CRF의 입력은 문자 기반의 n-gram 표상으로, 성능 평가에는 unigram 표상과 bigram 표상을 사용했다. 한국어, 일본어, 중국어에 대해 개체명 인식 성능 평가를 한 결과 한국어의 경우 bigram을 사용했을 때 78.54%의 성능을, 일본어와 중국어는 unigram을 사용했을 때 각 63.2%, 26.65%의 성능을 보였다.

  • PDF

술어-논항 구조의 어휘 패턴을 이용한 스트링 커널 기반 관계 추출 (String Kernel-based Relation Extraction using Lexical Patterns of Predicate-Argument Structure)

  • 정창후;최성필;전홍우;홍순찬;정한민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.327-329
    • /
    • 2012
  • 문서 내에 존재하는 중요한 개체들 간의 관계를 자동으로 추출할 때 개체와 개체 사이의 상호작용 표현에 중요하게 관여하는 핵심자질을 잘 선택할수록 빠르고 정확하게 관계 추출을 수행할 수 있다. 본 논문에서는 개체 쌍 사이에 존재하는 술어-논항 구조의 어휘 패턴 문자열을 정규화해서 스트링 커널에 적용하는 관계 추출 방법을 제안한다. 제안된 시스템의 성능 평가를 위해서 과학기술문헌에 존재하는 중요한 개체들 간의 연관관계 추출 성능 평가를 수행하는 테스트컬렉션을 자체적으로 구축하였으며 실험을 통하여 제안된 방법의 성능을 측정하였다. 정확도 실험 결과, 스트링 커널의 입력으로 문장 전체를 사용한 경우에는 55.0693%, 개체 쌍 사이의 문자열을 사용한 경우에는 61.0331%, 그리고 술어-논항 구조의 어휘 패턴 문자열을 사용한 경우에는 69.14%로, 술어-논항 구조의 어휘 패턴 문자열을 사용했을 때 성능이 가장 좋게 나타났다. 결론적으로 문장 내의 술어-논항 구조를 분석하여 정규화된 어휘 패턴을 생성하고 이렇게 생성된 문자열을 스트링 커널에 적용하는 방법이 관계 추출에 유용한 방법임을 알 수 있었다.