• 제목/요약/키워드: 약어

검색결과 72건 처리시간 0.025초

웹 검색을 이용한 한글대역어에 대한 영어약어의 중의성 해소 (Web-based disambiguation of English Abbreviation for Korean Term)

  • 구희관;정한민;강인수;성원경
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 춘계학술발표대회
    • /
    • pp.611-614
    • /
    • 2006
  • 특정 신문은 해당 도메인의 언어자원을 구축하는데 필요한 자원이며, 한글과 영어의 괄호를 통해 표현되는 대역어구는 다국어 정보로 언어자원 구축에 이용된다. 그러나, 실제로 신문에서 사용되는 한영대역어의 구성은 한글대역어와 영어약어로 구성된 비율이 80%이상을 보인다. 신문을 대상으로 대역어사전 등을 구축하기 위해서는, 영어양어의 완전한 형태인 영어비약어 정보가 필요하다. 본 논문은 영어비약어 정보를 획득하기 웹검색을 통해 영어비약어를 획득하고, 영어약어를 이용해 영어약어와 영어비약어의 관계를 이용하는 방법을 제안한다.

  • PDF

Sequence-to-sequence 학습을 이용한 한국어 약어 생성 (Korean Abbreviation Generation using Sequence to Sequence Learning)

  • 최수정;박성배;김권양
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권3호
    • /
    • pp.183-187
    • /
    • 2017
  • 스마트폰 사용자들은 텍스트를 쉽게 읽고 빠르게 입력하기를 원한다. 이런 흐름에 따라 사용자들은 채팅 용어에서부터 전문 분야, 뉴스 기사에 이르기까지 여러 단어로 이루어진 어휘를 축약한 약어를 많이 사용한다. 그러므로 약어를 모아 데이터를 구축한다면 정보 검색과 추천 시스템 등에 유용하게 사용될 수 있다. 하지만 약어는 새로운 콘텐츠가 등장할 때마다 계속해서 생겨나기 때문에 수동으로 모으는 일은 쉽지 않으므로, 약어를 자동으로 생성하는 방법이 필요하다. 기존 연구들은 약어를 자동으로 생성하기 위해 규칙 기반 방법을 사용하였으나, 불규칙한 약어들은 생성할 수 없다는 한계점이 있다. 또한 규칙에 의해 생성된 후보 약어들 중에서 올바른 약어를 결정해야하는 문제도 발생한다. 따라서 본 논문에서는 이런 한계점을 극복하기 위해 시퀀스 투 시퀀스 학습 방법을 사용하여 약어를 자동으로 생성한다. 시퀀스투 시퀀스 학습 방법은 심층 신경망으로 기존의 규칙 기반 방법으로 생성할 수 없던 불규칙한 약어들을 생성할 수 있다. 게다가 후보 약어들 중 올바른 약어를 결정할 문제가 발생하지 않기 때문에 자동으로 약어를 생성하는 문제에 적합하다. 본 논문에서는 제안한 방법을 평가한 결과, 기존의 연구에서 생성할 수 없던 불규칙적인 약어를 생성하여 제안한 모델이 효과적임을 증명하였다.

약어 생성 유형을 고려한 한국어 약어 사전 자동 구축 (Construction of Korean acronym dictionary by considering ways of making acronym from definition)

  • 윤여찬;송영인;이주영;임해창
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2006년도 춘계학술대회
    • /
    • pp.81-85
    • /
    • 2006
  • 본 논문에서는 한국어 고유명사 약어 사전을 자동으로 구축하기 위한 방법론을 제안한다. 본 논문은 원어로부터 약어가 생성되는 방식을 네 가지 유형으로 분류 한 후 각 유형에 따라 가능한 약어의 후보들을 생성하여 원어, 약어 후보 쌍을 수집하고, 수집 된 각 쌍에 대하여 확률적모형에 근거, 실제 사용되는 원어, 약어 쌍을 선별하여 사전에 등재함으로써 자동으로 사전을 구축 할 수 있도록 한다.

  • PDF

생의학 도메인에서 약어 중의성 해결을 위한 최적 자질의 규명 (Identifying Optimum Features for Abbreviation Disambiguation in Biomedical Domain)

  • 임호건;서희철;김선호;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.173-180
    • /
    • 2004
  • 생의학 도메인에서 약어 중의성 해결이란 생의학 문서에 나타난 약어의 원래 형태(long form)를 판별하는 작업이다. 본 논문은 생의학 도메인에서 약어 중의성 해결에 적합한 자질들을 실험적으로 탐색하는데 목적이 있다. 이를 위해서 약어 중의성 해결에 사용할 문맥을 전역 문맥(topical context)과 지역 문맥(local context)으로 구분하고, 각각의 문맥에서 스테밍(stemming), 불용어 제거, 품사 부착 등의 과정을 통해서 다양한 자질들을 고려하도록 한다. 생의학 도메인에서 약어 중의성 해결을 위한 실험 자료의 부족을 해결하기 위해서, 학습 자료와 평가 자료를 자동으로 구축했으며, 평가를 위한 약어로는 기존 연구에서 사용된 두 가지 약어 목록을 사용했다. 또한 단순 베이지언 모델(Naive Bayesian Model)을 이용해서 각 자질들의 유용성을 평가하였다 실험 결과, 전역 문맥이 지역 문맥보다 더 좋은 성능을 보였으며, 전역 문맥에서는 불용어만을 제거한 경우가 각각의 평가 자료에서 94.2%와 96.2%로 가장 좋은 결과를 보였으며, 전역 문맥과 지역 문맥을 함께 사용하는 경우에 각각의 평가 자료에서 1.8%와 0.3%의 성능 향상이 있었다.

  • PDF

음성출력/학습기능을 지원하는 컴퓨터용어 약어 전자사전 설계 (A Design of Electronic Dictionary for Computer English Abbreviation Supporting Voice and Study Functions)

  • 김홍섭;이현걸;김철호;이금석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.347-357
    • /
    • 1992
  • 컴퓨터용어에 대한 약어들을 기존 사건관리 방법에서 벗어나 컴퓨터에 수록하여, 음성을 포함한 한글 및 영문풀이 조회, 추가등록, 삭제, 수정을 가능케 하여 어휘변화 및 의미파악에 신속히 대처하고, 영문, 한글 단어를 이용한 약어검색 기능과 시스템에서 임의로 문제를 출제, 학습자 수준을 측정해볼 수 있는 컴퓨터 보조학습(CAI)과 knowledge base 교체시 타분야에서 활용이 가능하도록 DB화한 약어 전문가체제로, 업무 활용자(학습자)와 컴퓨터 상호작용에 의한 개인차를 극복할 수 있도록 컴퓨터용어 약어 전자사전을 설계하였다.

  • PDF

의미적 의존 링크 토픽 모델을 이용한 생물학 약어 중의성 해소 (Semantic Dependency Link Topic Model for Biomedical Acronym Disambiguation)

  • 김선호;윤준태;서정연
    • 정보과학회 논문지
    • /
    • 제41권9호
    • /
    • pp.652-665
    • /
    • 2014
  • 생물학 도메인은 약어 표현이 빈번하며, 실제로 문서에서 중요한 의미를 지니는 개체명들이 약어로 표현되는 경우가 많다. 본 연구에서는 토픽과 링크 정보를 이용하여 약어 중의성을 해결하고 동일한 의미를 가지는 다양한 형태의 약어 원형들(variant forms)에 대한 그룹핑을 시도한다. 이를 위하여 LDA(latent Dirichlet allocation) 기반 의미적 의존 링크 토픽 모델(semantic dependency topic model)을 제안한다. 해당 모델은 생성 모델(generative model)의 일종으로 문서 집합의 각 문서에 등장하는 단어들은 문서에서 발생하는 토픽 분포와 토픽 당 단어 분포에 의해 생성되어 있는 것으로 가정하고, 관측 가능한 문서 집합의 단어들로부터 문서에 내재된 숨어있는 토픽 구조를 추론하여 단어 생성과 토픽 파라미터를 연결시킨다. 본 연구에서는 토픽 정보 외에 단어들 사이에 존재하는 의미적 의존성(semantic dependency)을 링크로 정의하고, 단어 간에 존재하는 링크 정보, 특히 원형과 문장에서 공기하는 단어들 사이의 링크를 파라미터화하여 중의성 해결에 이용하였다. 결과적으로 주어진 문서에 등장하는 약어에 대해 가장 가능성 있는 원형은 해당 모델을 이용하여 추론된 단어-토픽, 문서-토픽, 단어-링크 확률에 의해서 결정된다. 제안하는 모델은 MEDLINE 초록으로부터 Entrez 인터페이스를 이용해 22개의 약어 집합과 186개의 가능한 약어 원형을 이용하여 질의를 생성하고, 이를 이용해 검색된 문서들을 대상으로 학습과 테스트에 이용하였다. 실험은, 주어진 문서에 등장하는 해당 약어에 대한 원형이 무엇인지 예측하는 방식으로 98.3%의 정확률의 높은 성능을 보였다.

단위 또는 약어의 의미에 맞는 풀 네임(fulI name) 음성 출력 방법에 관한 연구 (A Study on Smart Text Reader for converting Text through TTS)

  • 박안나;손병준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.806-808
    • /
    • 2014
  • 현재까지의 음성 출력 시스템은 텍스트를 있는 그대로 읽어 주는 것에 불과했다. 단위, 약어의 경우 알파벳을 그대로 읽어 주게 되어 그 본래의 의미를 제대로 파악하기 어려웠다. 본 연구에서는 단위나 약어의 본래의 의미를 찾아서 풀어서 음성 변환해 주는 방법을 제안함으로써 시각 장애인에게도 텍스트의 정확한 정보를 전달할 수 있다는 장점이 있다.

토픽모델링을 이용한 약어 중의성 해소 (Abbreviation Disambiguation using Topic Modeling)

  • 이운교;김자희;양준기
    • 한국시뮬레이션학회논문지
    • /
    • 제32권1호
    • /
    • pp.35-44
    • /
    • 2023
  • 최근 텍스트 분석으로 트렌드 분석이나 연구 동향 분석을 하는 연구 사례가 많다. 텍스트 분석을 위한 자료 수집에 사용되는 검색어가 약어일 때 약어의 특성상 의미 중의성 해소가 필요하다. 다수의 연구에서는 연구에 필요한 자료를 찾기 위해 수작업으로 자료를 하나씩 읽어 문서를 분류하고 있다. 약어의 의미 중의성 해소를 위한 연구는 단어의 의미를 명확화하는 연구가 대부분이고 지도학습을 이용하고 있다. 약어 중의성 해소를 위한 선행 방법은 약어로 검색된 자료에서 연구 대상 자료를 찾는 문서 분류에는 적합하지 않으며 관련 연구도 부족하다. 본 연구에서는 데이터 전처리 단계에서 비지도 학습 방법인 비음수 행렬 분해 방법으로 토픽 모델링을 진행하여 약어로 수집된 문서를 반자동으로 분류하는 방법을 제시한다. 이를 검증하기 위해 'MSA'라는 약어 검색어로 학술 데이터베이스에서 논문 자료를 수집했다. 수집된 논문 1,401편에서 제안된 방법으로 316편의 Micro Services Architecture와 관련된 논문을 찾았다. 제안된 방법의 문서 분류 정확도는 92.36%로 측정되었다. 제안된 방법이 수작업에 따른 연구자의 시간과 비용을 줄일 수 있기를 기대한다.

약어와 두문자어의 모호성 해결을 통한 임상 의무기록의 정규화 (Normalization of Clinical Medical Records by Disambiguating Abbreviations and Acronyms)

  • 배인호;김진상;김윤년
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.676-678
    • /
    • 2008
  • 임상 의무기록에 나타나는 많은 두문자어들은 기계적인 처리과정에서 의무기록의 모호성을 크게 증가시키기 때문에, 정보추출이나 텍스트 마이닝을 하기 전에 전처리 과정으로 의무기록이 정규화 되어야 한다. 본 연구에서는 임상 의무기록 중 하나인 퇴원요약지에 사용된 약어와 두문자어들의 모호성을 제거하기 위한 정규화 시스템을 설계하고 구현했다. 정규화를 위해 문맥정보를 이용하여 의무기록의 종류와 기록내 위치정보를 파악하였고 이를 이용하여 약어와 두문자어의 의미를 학습하고 분류하였다. 본 연구에서 구현한 정규화 시스템은 실험에서 6가지 두문자어들이 가지는 16가지 의미들에 대해 94.7%의 정확률을 얻었다.

우리나라 잡초이름의 약어 제안 (Suggestion of Abbreviation for Korean Weeds Name)

  • 이인용;김창석;문병철;박재읍;오세문
    • 한국잡초학회지
    • /
    • 제30권3호
    • /
    • pp.308-321
    • /
    • 2010
  • 우리나라 농경지에서 발생하는 잡초 68과 433종에 대한 공통적인 약어(가칭 KSWS code, the Korean Society Weed Science code)를 만들어 잡초연구자의 연구효율성을 증진시키고자 한다. 이들 약어는 이미 미국잡초학회에서 널리 사용되고 있는 Bayer code를 인용하여 한국 잡초 현황에 맞게 재구성하였다. KSWS code는 알파펫 5자로 구성되며, 속명에서 3자, 종소명에서 2자를 떼어내어 조합을 만들었다. 그리고 변이종이 있을 경우에는 속명의 1자, 변이종명의 1자로 KSWS code를 조합하였다.