• 제목/요약/키워드: 표현명

검색결과 1,286건 처리시간 0.037초

개체명 인식을 이용한 소셜 미디어에서의 약물 부작용 표현 추출 및 분류 (Detecting and classification ADRs using Named Entity Recognition on social media)

  • 정현정;김현희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.443-446
    • /
    • 2021
  • 의약품에 대한 안전성 정보 수집과 관리는 온라인, 오프라인을 통해 약물 이상 사례를 보고받는 형태로 진행되고 있다. 하지만 소비자들의 자발적인 참여로 이루어지므로 실제 발생하는 약물 부작용보다 데이터가 현저히 적다는 단점이 존재한다. 본 논문에서는 약물 이상 데이터 희소성 문제를 해결 할 수 있도록 소셜 미디어에서 약물 부작용 표현을 찾을 수 있도록 하였다. 소셜 미디어의 경우에는 표준 약물 부작용 용어를 사용하기보다는 일반인들이 자연어로 표현한 경우가 많으므로 개체명 인식 기법을 이용해 부작용을 추출할 수 있는 모델을 개발하였다. 또한 추출된 부작용 표현을 표준용어로 분류할 수 있는 모델을 제시하였다. 실험 결과 제안한 두 가지 모델은 0.9 이상의 정확도를 얻을 수 있었으며, 일반 사용자들이 자연어로 표현한 약물 부작용 표현을 효과적으로 찾아내고 표준 부작용 용어로 매핑할 수 있음을 보여준다.

위키피디아 링크 데이터를 이용한 Neural Network Model 기반 한국어 개체명 연결 (Neural Network Model for Named Entitiy Linking using Wikipedia Link Data)

  • 이영훈;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.163-166
    • /
    • 2018
  • 개체명 연결이란 주어진 문장에 출현한 단어를 위키피디아와 같은 지식 기반 상의 하나의 개체와 연결하여 특정 개체가 무엇인지 식별하여 모호성을 해결하는 작업이다. 본 연구에서는 위키피디아의 링크를 이용하여 개체 표현(Entity mention)과 학습 데이터, 지식 기반을 구축한다. 또한, Mention/Context 쌍의 표현과 Entity 표현의 코사인 유사도를 이용하여 Score를 구하고, 이를 통해 개체명 연결 문제를 랭킹 문제로 변환한다. 개체의 이름과 분류뿐만 아니라 개체의 설명, 개체 임베딩 등의 자질을 이용하여 모델을 확장하고 결과를 비교한다. 확장된 모델의 개체 링킹 성능은 89.63%의 정확도를 보였다.

  • PDF

저자 식별에 기반한 저자 그래프 생성 (Author Graph Generation based on Author Disambiguation)

  • 강인수
    • 정보관리연구
    • /
    • 제42권1호
    • /
    • pp.47-62
    • /
    • 2011
  • 이상적 저자-망은 그 노드가 저자를 표현하도록 정의된다. 그러나 실제 자동 생성되는 대부분 저자망의 노드는 저자명을 저자 식별자로 사상시키는 어려움으로 인해 단순히 저자명으로 표현된다. 실 세계 저자를 표현하기 위해 이처럼 저자명을 사용하여 저자망을 구성하는 것은 서로 다른 동명 저자들이 하나의 저자명 노드로 병합됨으로 인해 저자망의 특성을 왜곡하는 문제가 발생한다. 이 연구는 공저 관계에 의존하여 저자명이 갖는 중의성을 해소하고 저자 노드로 구성된 저자망을 자동 생성하는 알고리즘을 제시한다. 공저자 자질의 특성상 이 알고리즘은 과소군집오류를 희생하면서 과다군집오류를 최소화하는 군집 결과를 만든다. 실험에서는 한글 동명 저자명이 출현한 실제 서지레코드 집합을 대상으로 알고리즘의 적용 결과를 제시한다.