• 제목/요약/키워드: 한글문서

검색결과 625건 처리시간 0.02초

한국어 문서의 통계적 정보를 이용한 문서 요약 시스템 구현 (Implementation of the Text Abstraction System using the Statistical Information of Korean Documents)

  • 강상배;조혁규;권혁철;박재득;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.28-33
    • /
    • 1997
  • 이 논문에서는 문장 유사도 측정 기법과 말뭉치 정보를 이용한 문서요약 시스템을 구현하였다. 문서 요약은 문서에서 문장 단위로 단어를 추출하여 문장을 단어의 벡터로 표현하고, 문서 내 단어의 출현빈도와 말뭉치 내 단어의 사용빈도를 이용하여 각 문장의 중요도를 계산한다. 그리고 중요도가 높은 상위 몇 위의 문장을 요약문장으로 추출한다. 실험 결과, 문서내 단어빈도의 중요도를 낮추고, 말뭉치내 일반 사용빈도를 단어의 가중치에 추가했을 때 가장 좋은 효율을 보였다. 또 요약하고자 하는 문서와 유사한 말뭉치를 사용 했을 때 높은 효율을 보였다.

  • PDF

자동분류를 이용한 정답문서집합 구축 (Construction of Answer Sets using Automatic Categorization)

  • 장문수;오효정;장명길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.494-499
    • /
    • 2001
  • 최근의 인터넷 정보검색은 방대한 정보의 수용과 지능적이고 개인화된 검색 결과 요구라는 사뭇 상반된 요구를 만족시켜야 한다. 기계적으로 키워드를 매칭시켜 나오는 문서를 사용자에게 맡기는 식의 검색은 더 이상 환영을 받지 못한다. 우리는 이러한 추세에 맞추어 의미기반 정보검색에 필요한 개념망과 정답문서집합으로 구성된 지식베이스를 제안한 바 있다. 본 논문에서는 방대한 구조의 개념망과 연결되는 정답문서집합을 유동적인 인터넷 환경에 적용하기 위해 자동으로 구축하는 시스템을 제시한다. 자동구축은 문서분류(document categorization) 기술을 활용하여 개념어에 문서를 할당하는 방법과 속성에 문서를 할당하는 방법으로 나누어 이루어진다. 제시한 방법은 실험을 통하여 기본적인 속성 할당에는 상당한 효과가 있는 것으로 판단되었고, 일부 미할당 문서에 대해서는 클러스터링과 같은 다른 알고리즘이 필요하다.

  • PDF

도합유사도를 이용한 한국어 추출문서 요약 (Korean Indicative Summarization Using Aggregate Similarity)

  • 김재훈;김준홍
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.238-244
    • /
    • 2000
  • 본 논문에서 문서는 문서관계도라고 하는 그래프로 표현된다. 노드는 문서의 구성요소인 문장을 표현하고, 링크는 노드들 간의 의미적인 관계를 나타낸다 의미적 관계는 유사도에 의해서 결정되며, 문장의 중요도는 도합유사도로 나타낸다. 도합유사도는 한 노드와 인접한 노드들 사이의 유사도 합을 말한다. 본 논문에서는 도합유사도를 이용한 한국어 문서 기법을 제안한다. 실험에 사용된 평가용 요약문서는 정보처리 관련 분야에서 수집된 논문 100편과 KORDIC에서 구축한 신문기사 105건을 이용하였다. 문서 시스템에 의해서 생성된 문서의 크기가 본문의 20%이고, 본문이 논문(서론과 결론)일 경우, 재현율과 정확률은 각각 46.6%와 76.9%를 보였으며, 또한 본문이 신문기사일 경우, 재현율과 정확률은 각각 30.5%과 42.3%를 보였다. 또한 제안된 방법은 상용시스템보다 좋은 성능을 보였다.

  • PDF

길이 정보와 유사도 정보를 이용한 한영 문장 정렬 (Korean-English Sentence Alignment using Length and Similarity Information)

  • 홍진표;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.130-135
    • /
    • 2010
  • 문장 정렬은 두 개의 문서 간의 대응이 되는 문장을 찾는 작업이다. 이 방법은 통계적 기계 번역의 학습 문서인 병렬 말뭉치를 자동으로 구축하는데 필수적인 방법이다. 본 연구에서는 길이 정보에 추가적으로 유사도 정보를 반영하는 한영 문장 정렬 방법을 제안한다. 먼저 한국어로 된 문서를 기계번역 시스템에 적용하여 영어 문서로 변환한다. 그리고 번역된 영어로 된 문서 결과와 영어로 된 대상 문서 간의 정렬 작업을 수행한다. 정렬 완료된 결과와 원시 문서, 대상 문서로부터 최종적인 결과를 생성해낸다. 본 논문에서는 기계 번역을 이용하는 방법과 더불어 기존의 길이 기반 문장 정렬 프로그램에 문장 유사도 정보를 추가하여 단어 정렬의 성능 향상을 꾀하였다. 그 결과 "21세기 세종기획"의 최종 배포본 내에 포함된 한영 병렬 말뭉치에 대해 한영 문장 정렬 F-1 자질의 결과가 89.39%를 보였다. 이 수치는 기존의 길이 기반의 단어 정렬의 성능 평가 결과와 비교했을 때 약 8.5% 가량 성능이 향상되었다.

  • PDF

문서 수준 관계 추출을 위한 개체 중심 문장 추출 및 Relation-Context Co-attention 방법 (Entity-oriented Sentence Extraction and Relation-Context Co-attention for Document-level Relation Extraction)

  • 박성식;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.9-13
    • /
    • 2020
  • 관계 추출은 주어진 문장이나 문서에 존재하는 개체들 간의 의미적 관계를 찾아내는 작업을 말한다. 최근 문서 수준 관계 추출 말뭉치인 DocRED가 공개되면서 문서 수준 관계 추출에 대한 연구가 활발히 진행되고 있다. 또한 사전 학습된 Masked Language Model(MLM)이 자연어처리 분야 전체에 영향력을 보이면서 관계 추출에서도 MLM을 사용하는 연구가 진행되고 있다. 그러나 문서 수준의 관계 추출은 문서의 단위가 길기 때문에 Self-attention을 기반으로 하는 MLM을 사용하면 모델의 계산량이 증가하는 문제가 있다. 본 논문은 이 점을 보완하기 위해 관계 추출에 필요한 문장을 선별하는 간단한 전처리 방법을 제안한다. 또한 문서의 길이에 상관없이 관계 추출에 필요한 어휘 정보를 자동으로 습득 할 수 있는 Relation-Context Co-attention 방법을 제안한다. 제안 모델은 DocRED 말뭉치에서 Dev F1 62.01%, Test F1 59.90%로 높은 성능을 보였다.

  • PDF

점진적으로 계산되는 분류정보와 링크정보를 이용한 하이퍼텍스트 문서 분류 모델 (A Hypertext Categorization Model Exploiting Link and Incrementally Available Category Information)

  • 오효정;임정묵;이만호;맹성현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.89-96
    • /
    • 1999
  • 본 논문은 하이퍼텍스트가 갖는 중요한 특성인 링크 정보를 활용한 문서 분류 모델을 제안한다. 하이퍼링크는 문서간의 관계를 나타내는 유용한 정보로서 링크를 통해 연결된 두 문서는 내용적으로 관련이 있어 검색에 도움을 준다는 것은 이미 밝혀진바 있다. 본 논문에서는 이러한 과거 연구를 바탕으로 새로운 문서 분류 모델을 제안하는데, 이 모델의 주안점은 대상 문서와 링크로 연결된 이웃 문서의 내용 및 범주를 분석하여 대상 문서 벡터를 조정하고, 이를 근거로 문서의 범주를 결정한다. 이웃 문서에 포함된 용어를 반영함으로써 대상 문서의 내용을 확장 해석하고, 이웃 문서의 가용 분류 정보가 있는 경우 이를 참조함으로써 정확도 향상을 기한다. 이 모델은 이웃한 문서의 범주가 미리 할당되어 있지 않은 경우 용어 기반 분류 방법으로 가용 범주를 할당하고, 이렇게 할당된 분류 정보가 다시 새로운 문서의 범주를 결정할 때 사용됨으로써, 문서 집합 전체의 분류가 점진적으로 이루어지며 그 정확도를 더해 나가는 효과를 가져올 수 있다. 이러한 접근 방법은 일반 웹 환경에 적용할 수 있는데, 특히 하이퍼텍스트를 주제별로 분류하여 관리하는 검색 엔진의 경우 매일 쏟아져 나오는 새로운 문서와 기존 문서간의 링크를 활용함으로써 전체 시스템의 점진적인 분류에 매우 유용하다. 제안된 모델을 검증하기 위하여 Reuter-21578과 계몽사(ETRI-Kyemong) 자료를 대상으로 실험한 결과 18.5%의 성능 향상을 얻었다.

  • PDF

한글문서 분류용으로 이용할 복합어로 구성된 분야연상어의 추출법 (An Extraction Algorithm of Compound Field-associated Terms for Korean Document Classifications)

  • 이상곤
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권7호
    • /
    • pp.636-649
    • /
    • 2005
  • 분야연상어는 어휘자체가 분야정보를 가지므로 인간이 분야를 인지할 때와 유사하게 문서의 분야를 판단한다. 한국어의 경우 180분야로 분류된 약 IS,000개의 문서뱅크를 수집하여 구축 $\cdot$실험한 결과 88,782개의 단일 분야연상어가 8,405개로 전체의 약 9$\%$로 압축되며, 재현율 0.77 이상(평균 0.85), 정확률 0.90 이상(평균 0.94)의 높은 추출 정밀도를 얻었다. 구축한 분야연상어를 문서분류의 초기결정에 적용하여 인간에 의한 분야결정과 비교한 결과 약 90$\%$이상의 정답률을 얻었다. 연구결과를 문서분류의 초기단계에 관한 기초연구로 이용하고, 다언어(multilingual) 간의 문서검색에 적용하여 다국어 정보검색에 대한 기초 연구로 이용할 수 있다.

구조화 문서 작성/편집 시스템의 설계 및 구현 (The Design and Implementation of a Structured Document Author/Editor)

  • 장명길;이혜란;이재성;주종철;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.80-85
    • /
    • 1995
  • 본 논문은 문서 작성시 해당 문서의 구조적 제한 조건을 명시한 DTD(Document Type Definition) 문법 및 SGML 태깅 방법에 익숙치 않은 사용자가 문서 템플리트를 통해 오류없는 SGML문서를 작성할 수 있도록 하는 구조화 문서 작성/편집 시스템을 소개한다. 본 시스템은 크게 DTD 해석기와 문서편집기로 구성되며 현재 오브젝트 지향 방법론에 따라 구현 중이다.

  • PDF

교차 언어 문서 검색에서 질의어의 중의성 해소 방법 (Word Sense Disambiguation in Query Translation of CLTR)

  • 강인수;이종혁;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.52-58
    • /
    • 1997
  • 정보 검색에서는 질의문과 문서를 동일한 표현으로 변환시켜 관련성을 비교하게 된다. 특히 질의문과 문서의 언어가 서로 다른 교차 언어 문서 검색 (CLTR : Cross-Language Text Retrieval) 에서 이러한 변환 과정은 언어 변환을 수반하게 된다. 교차 언어 문서 검색의 기존 연구에는 사전, 말뭉치, 기계 번역 등을 이용한 방법들이 있다. 일반적으로 언어간 변환에는 필연적으로 의미의 중의성이 발생되며 사전에 기반한 기존 연구에서는 다의어의 중의성 의미해소를 고려치 않고 있다. 본 연구에서는 질의어의 언어 변환시 한-일 대역어 사전 및 카도가와 시소러스 (각천(角川) 시소러스) 에 기반한 질의어 중의성 해소 방법과 공기하는 대역어를 갖는 문서에 가중치를 부여하는 방법을 제안한다. 제안된 방법들은 일본어 특허 문서를 대상으로 실험하였으며 5 %의 정확도 향상을 얻을 수 있었다.

  • PDF

Nearest Neighbor 방법을 이용한 문서 범주화에서 범주 자질의 평가 (An Evaluation of Category Features in Text Categorization Using Nearest Neighbor Method)

  • 권오욱;이종혁;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.7-14
    • /
    • 1997
  • 문서 범주화에서 문서의 내용에 따라 적합한 범주의 종류와 수를 찾는 문제를 해결하기 위해서는 문서 당 하나의 범주를 할당할 경우에 가장 좋은 성능을 보이는 모델이 효과적일 것이다. 그러므로, 본 논문에서는 문서 당 하나의 범주를 할당할 경우에 좋은 결과를 보이는 k-nearest neighbor 방법을 이용한다. 그리고 k-nearest neighbor 방법을 이용한 문서 범주화의 성능을 향상시키기 위해서, 문서 표현에 사용하는 단어들을 범주 자질의 성격을 갖는 단어들로 제한하는 방법을 제안한다. 제안한 방법은 Router 신문 일년치로 구성된 Router-21578 테스트 집합에서 breakeven point 82%라는 좋은 결과를 보였다.

  • PDF