통합 검색 | Korea Science

웹문서의 테이블 객체 모델링을 통한 제목 추출 방법 (An Object Model of Korean Web Pages for Title Identification)

윤주형;박세종;이승욱;한영석
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
- /
- pp.18-21
- /
- 2003
한국어 웹 문서에는 일반적으로 제목이 명시가 되어 있음으로 텍스트를 요약하는 방식의 제목추출과는 달리 여러 테이블 형태로 이루어진 웹 문서의 특성을 고려하여 제목에 해당하는 테이블 객체를 찾아내야 한다. 웹 문서를 테이블 객체의 리스트로 보고, 이들을 휴리스틱 규칙에 의해서 본문 후보와 이를 기준으로 하는 제목 후보 객체들로 구분하는 단계와 제목 후보들 간의 확률적 분포 값과 본문과의 언어적 유사도를 이용하여 제목 객체를 결정하는 단계를 통하여 제목을 인식한다. 인식의 정확성에 기여하는 것은 제목과 본문 객체를 구분하는 규칙 그리고 제목의 확률분포 및 언어적 유사 정도 등이며 이들 각 정보가 정확성에 기여하는 정도를 실험하였다. 무작위로 추출된 500개의 다양한 양식의 웹 문서를 대상으로 실험한 결과 제목인식 정확성은 95.1%였다.
PDF

테이블 객체 모델링을 이용한 웹 문서의 제목추출 (An Object Model of Korean Web Pages for Title Identification)

박세종;윤주형;이승욱;한영석
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
- /
- pp.541-543
- /
- 2003
한국어 웹 문서에는 일반적으로 제목이 명시가 되어 있음으로 텍스트를 하는 방식의 제목추출과는 달리 여러 테이블 형태로 이루어진 웹 문서의 특성을 고려하여 제목에 해당하는 테이블 객체를 찾아내야 한다. 웹 문서를 테이블 객체의 리스트로 보고, 이들을 휴리스틱 규칙에 의해서 본문 후보와 이를 기준으로 하는 제목 후보 객체들로 구분하는 단계와 제목 후보들 간의 확률적 분포 값과 본문과의 언어적 유사도를 이용하여 제목 개체를 결정하는 단계를 통하여 제목을 인식한다. 인식의 정확성에 기여하는 것은 제목과 본문 객체를 구분하는 규칙 그리고 제목의 확률분포 및 언어적 유사정도 등이며 이들 각 정보가 정확성에 기여하는 정도를 실험하였다. 무작위로 추출된 500개의 다양한 양식의 웹 문서를 대상으로 실험한 결과 제목인식 정확성은 95.1%였다.
PDF

논문 제목상의 문화적 흔적: 한국과 미국의 사회과학분야 비교 (Remnants of Culture in Journal Article Titles: A Comparison between the United States and Korea in the Field of Social Sciences)

Kim, Eungi
- 한국도서관정보학회지
- /
- 제46권1호
- /
- pp.345-372
- /
- 2015
국내 대다수의 학술지는 논문 제출시 한글로 쓴 논문 제목과 함께 영어로 된 논문 제목을 제출할 것을 요구한다. 그러나 일반적으로 논문작성자나 논문 심사자들 조차도 영문 논문 제목에 큰 비중을 두지 않는다. 본 논문은 미국과 한국에서 출판된 학술지의 논문제목에서 국가간 문화적 특성과 차이를 알아보기 위한 연구이다. Scopus와 RISS 데이터베이스를 이용하여 사회과학분야와 관련된 논문제목들을 발췌하여 이 연구를 진행하였다. 연구 대상이 된 논문의 제목은 제목의 길이, 종류 및 n-gram 문구 등의 여러 유형을 사용하여 분석 및 비교하였고, 샘플 논문 제목을 분석한 결과, 한글로 작성된 학술지 논문의 제목에서는 특별히 선호되는 단어와 구문의 유형을 발견하였다. 이러한 유형들의 관습적 사용들로써 논문의 제목에서 국가간의 문화적 차이가 나타난다는 결과를 도출하였다. 이 연구는 영문 제목을 붙일 때에 국내 논문에서 보여주는 전형적인 양상을 지적하고 국가간의 문화적 차이에 대해 좀더 인식하고 염두 해야 한다는 점을 주장한다.
https://doi.org/10.16981/kliss.46.201503.345 인용 PDF KSCI

단어 관련성 추정과 바이트 페어 인코딩(Byte Pair Encoding)을 이용한 요약 기반 다중 뉴스 기사 제목 추출 (Summarization Based Multi-news Title Extraction Using Term Relevance Estimation and Byte Pair Encoding)

유홍연;이승우;고영중
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
- /
- pp.115-119
- /
- 2018
다중 문서 제목 추출은 하나의 주제를 가지는 다중 문서에 대한 제목을 추출하는 것을 말한다. 일반적으로 다중 문서 제목 추출에서는 다중 문서 집합을 단일 문서로 본 다음 키워드를 제목 후보군으로 추출하고, 추출된 후보를 나열하는 형식의 연구가 많이 진행되어져 왔다. 하지만 이러한 방법은 크게 두 가지의 한계점을 가지고 있다. 먼저, 다중 문서를 단순히 하나의 문서로 보는 방법은 전체적인 주제를 반영한 제목을 추출하기 어렵다는 문제점이 있다. 다음으로, 키워드를 조합하는 형식의 방법은 키워드의 단위를 찾는 방법에 따라 추출된 제목이 자연스럽지 못하다는 한계점이 있다. 따라서 본 논문에서는 이 한계점들을 보완하기 위하여 단어 관련성 추정과 Byte Pair Encoding을 이용한 요약 기반의 다중 뉴스 기사 제목 추출 방법을 제안한다. 평가를 위해서는 자동으로 군집된 총 12개의 주제에 대한 다중 뉴스 기사 집합을 사용하였으며 전문 교육을 받은 연구원들이 정성평가를 진행하여 5점 만점 기준 평균 3.68점을 얻었다.
PDF

계층구조를 이용한 문서 클러스터 제목의 자동생성 (Automatic Naming of Document Clusters by Using their Hierarchical Structure)

김태현;맹성현
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
- /
- pp.163-170
- /
- 2001
웹에서 정보를 찾고자 하는 사용자들을 돕기 위해서는 조직화된 방법으로 검색 결과들을 제시하는 것이 바람직하다. 이러한 목적을 위해, 문서 클러스터링 기법들이 제안되었다. 문서 클러스터링은 사용자들이 관심의 대상이 되는 문서들을 더욱 쉽게 배치할 수 있게 하고, 검색된 문서집합에 대한 개관을 손쉽게 얻을 수 있게 한다. 클러스터링 결과로 주어지는 각 클러스터의 주제를 사용자들이 빠르게 파악할 수 있게 하려면 클러스터 제목을 표현하는 문제가 중요시 된다. 본 연구에서는, 웹 디렉토리의 계층적 구조를 사용하여 자동으로 클러스터 제목을 생성하는 방법을 제안한다. 이 방법은 대상이 되는 클러스터에 있는 문서들의 내용과 부합되는 계층상의 노드를 계층구조 상에서 찾아내어, 계층구조의 루트로부터 그 노드에 이르는 경로명을 클러스터의 제목으로 사용자에게 제시하도록 한다. 본 연구에서 제안한 모델은 '야후' 디렉토리를 사용하여 실험되었다. 실험 결과, 실험대상 클러스터의 본래 제목과 정확하게 일치하는 제목을 찾을 수 있는 경우의 정확률이 57.5% 의미적으로 본래 제목에 부합되는 제목을 찾을 수 있는 경우의 정확률이 대략 90%에 이른다는 것을 알 수 있었다.
PDF

자동 구축된 문맥 패턴과 개체명 사전에 기반한 제목 개체명 인식 (Title Named Entity Recognition based on Automatically Constructed Context Patterns and Entity Dictionary)

이주영;송영인;임해창
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
- /
- pp.40-45
- /
- 2004
본 논문에서는 영화명, 도서명, 음악명 등의 제목 개체명 인식을 위한 새로운 방법에 대해 기술한다. 제목 개체명은 개체명 내부에 기존 MUC에서 분류한 인명, 지명, 기관명 등과 같은 일반적인 개체명과는 달리, 철자 자질 등 내부 자질을 사용하기 어려우며, 제목 개체명 부착 말뭉치가 없기 때문에 기존 연구에서 좋은 성능을 보인 방법들을 적용하기는 힘들다. 이러한 문제를 해결하기 위해 본 논문에서는 원시 말뭉치에서 자동으로 구축한 문맥 패턴 정보와 개체명 사전을 사용하여 제목 개체명을 인식하는 방법을 제안한다. 패턴과 제목 개체명 사전 구축을 위해, 사전 정보를 이용한 패턴 확장과 이렇게 구축된 패턴 정보를 사용한 사전 확장 단계를 반복 수행하여 문맥 패턴과 제목 개체명 사진을 점진적으로 증가시키는 방법을 사용하였으며, 이러한 정보가 제목 개체명 인식에 도움이 됨을 실험적으로 입증하였다.
PDF

딥러닝 기법을 이용한 낚시성 기사 제목 분류에 대한 연구 (A study on classification of hooking headlines using deep learning techniques)

최용석;최한나;신지혜;정창민;안정연;유채영;임채은;이공주
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
- /
- pp.15-17
- /
- 2015
본 논문은 낚시성 기사 제목과 비낚시성 기사 제목을 판별하기 위한 시스템을 제시한다. 서포트 벡터 머신(SVM)을 이용하여 기사 제목을 분류하며, 분류하는 기준은 딥러닝 기법중의 하나인 워드임베딩(Word Embedding), 군집화 알고리즘 중 하나인 K 평균 알고리즘(K-means)을 이용한다. 자질로서 기사 제목의 단어를 사용하였으며, 정확도가 83.78%이다. 결론적으로 낚시성 기사 제목에는 낚시를 유도하는 특별한 단어들이 존재함을 알 수 있다.
PDF

무제의 효과: 미술품 제목의 유형이 관람자 반응에 미치는 영향 (Untitled Effect: Effect of Type of Artwork Title on Audience Reaction)

박주연;신형덕
- 한국콘텐츠학회논문지
- /
- 제16권9호
- /
- pp.600-611
- /
- 2016
본 연구에서는 미술품 제목의 유형, 특히 무제가 관람자 반응에 미치는 영향에 대하여 실증 분석하였다. 일반적으로 네이밍은 그 대상의 속성을 표현하는 기능을 하는데 제품이나 콘텐츠 산출물의 평가 및 가격에 영향을 미친다. 미술 작품에 있어서는 무제라는 네이밍이 적지 않게 이용되고 있는데 본 연구는 무제라는 제목이 관람자의 미술품 평가에 어떠한 영향을 미치는지에 대하여 분석하는 것에 목적이 있다. 국내미술시장의 확대로 미술품에 대한 소비자 구매행동을 밝히기 위한 요구들이 이어짐에 따라 잠재적 소비자인 관람자의 작품에 대한 평가는 중요하다. 본 연구에서는 제품의 평가에 있어서 이름이 영향을 미치듯이 미술품에 있어서도 제목이 작품 평가에 영향을 미칠 수 있는지에 대하여 알아보고자 하였다. 이를 통해 관람자가 미술품을 평가하는 하나의 요인으로서 제목의 중요성을 밝히고자 하였다. 본 연구에서는 선행 연구들에 기초하여 관람자들은 동일 작품에 대해서도 정보를 제공하는 제목과 정보를 제공하지 않는 제목에 대해 이해도, 주목도, 매력도, 그리고 호기심의 정도를 상이하게 가질 것이라는 가정을 설정하였다. 최종적으로 이용된 305명의 설문 응답을 다항회귀분석으로 분석한 결과 작품의 제목이 무제일 때 설명적 또는 연상적 제목일 때에 비해 관람자는 작품에 대해 낮은 이해도와 주목도를 보였으며, 특히 작품의 장르가 추상화일 때에 관람자는 무제인 작품에 대해 더 높은 호기심을 보였다. 본 연구결과는 미술작품에 있어서 제목의 중요성에 대하여 언급했던 기존의 연구들을 실증적으로 확인했다는 것에 의의가 있다. 또한 관람자가 미술품을 평가하는 데에는 이미지뿐만 아니라 제목의 영향을 받기 때문에 미술작가는 작품에 대한 상이한 반응을 유발하는 제목을 정하는 것에 있어서 신중해야 함을 시사한다.
https://doi.org/10.5392/JKCA.2016.16.09.600 인용 PDF KSCI

공간 정보와 투영 프로파일을 이용한 문서 영상에서의 타이틀 영역 추출 (Automatic Title Detection by Spatial Feature and Projection Profile for Document Images)

박효진;김보람;김욱현
- 융합신호처리학회논문지
- /
- 제11권3호
- /
- pp.209-214
- /
- 2010
본 논문은 형태 처리기법과 연결요소 분석을 이용한 문서 영상의 분할과 구조적인 특징과 투영 프로파일 분석을 이용하여 문서영상에서 제목영역 추출방안을 제안한다. 문서 영상의 처리는 영상 분할과 제목 추출, 두 단계로 이루어진다. 영상 분할의 단계에서는 문서 영상을 구성요소 영역들로 나눈다. 영상 분할이 끝나면 분할된 영역들을 대상으로 구조적인 정보를 이용하여 제목이 될 후보 영역을 추출한다. 제목이 아닌 영역을 제거하여 제목 후보영역을 추출하고 난 후 투영 프로파일을 분석하여 제목 영역을 최종적으로 추출한다. 본 논문에서 제시된 투영 프로파일 분석을 이용한 제목 추출 방법은 다양한 문서 영상의 분할 및 제목 추출 결과를 보였으며, 문서 제목 인식, 멀티미디어 데이터 검색, 실시간 영상처리와 같은 다양한 응용분야에 활용될 것으로 기대된다.
PDF KSCI

다중 어댑터를 이용한 교차 언어 및 스타일 기반의 제목 생성 (Cross-Lingual Style-Based Title Generation Using Multiple Adapters)

박요한;최용석;이공주
- 정보처리학회논문지:소프트웨어 및 데이터공학
- /
- 제12권8호
- /
- pp.341-354
- /
- 2023
문서의 제목은 문서의 내용을 가장 효율적으로 요약하여 제공해 준다. 이때 독자들이 선호하는 스타일과 언어에 따라 문서의 제목을 다르게 제공해 준다면, 독자들은 문서의 내용을 좀 더 쉽게 예측할 수 있다. 본 연구에서는 문서가 주어졌을 때 언어와 스타일에 따라 제목을 자동 생성하는'교차 언어 및 스타일 기반의 제목 생성 모델을 제안한다. 모델을 학습하기 위해서는 같은 내용을 다른 언어와 다른 스타일로 작성한 병렬데이터가 필요하다. 그러나 이러한 종류의 병렬데이터는 구축하기 매우 어렵다. 반면, 단일 언어와 단일 스타일로 구축된 제목 생성 데이터는 많으므로 본 연구에서는 제로샷(zero-shot) 학습으로 제목 생성을 수행하고자 한다. 교차 언어 및 스타일 기반의 제목 생성을 학습하기 위해 다중 언어로 사전 학습된 트랜스포머 모델에 각 언어, 스타일, 기계번역을 위한 어댑터를 추가하였다. 기계 번역용 병렬데이터를 이용하여 기계번역을 먼저 학습한 후, 동일 스타일의 제목 생성을 학습하였다. 이때, 필요한 어댑터만을 학습하고 다른 부분의 파라미터는 모두 고정시킨다. 교차 언어 및 스타일 기반의 제목을 생성할 때에는 목적 언어와 목적 스타일에 해당하는 어댑터만을 활성화시킨다. 실험 결과로는 각 모델을 따로 학습시켜 파이프라인으로 연결시킨 베이스라인에 비해 본 연구에서 제안한 제로샷 제목 생성의 성능이 크게 떨어지지 않았다. 최근 대규모 언어 모델의 등장으로 인한 자연어 생성에서의 많은 변화가 있다. 그러나 제한된 자원과 제한된 데이터만을 이용하여 자연어 생성의 성능을 개선하는 연구는 계속되어야 하며, 그런 점에서 본 연구의 의의를 모색한다.
https://doi.org/10.3745/KTSDE.2023.12.8.341 인용 PDF

검색결과 660건 처리시간 0.024초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)