• 제목/요약/키워드: 제목

검색결과 660건 처리시간 0.032초

엔지니어링 문서의 문장 자동 계층정의 방법론 (A Methodology for Automatic Hierarchy Definition of Sentences in Engineering Documents)

  • 박상일;김봉근;김경환;이상호
    • 한국전산구조공학회논문집
    • /
    • 제22권4호
    • /
    • pp.323-330
    • /
    • 2009
  • 본 논문은 엔지니어링 문서에서 각 제목의 머리기호가 그 문서의 논리적 계층 구조를 표현한다는 점을 이용하여 문서 내 각 제목의 계층을 자동으로 분류하는 방법론을 제시하였다. 제시한 방법론은 일반 텍스트 문서에서 세부 제목을 추출하는 방법과 추출된 제목의 계층을 정의하는 방법으로 구성된다. 문서의 세부 제목은 문장의 맨 앞에 위치한 머리기호의 형태를 미리 정의된 머리기호 그룹과 비교하여 추출하며, 추출된 제목의 계층은 머리기호 형태의 변화에 따라 각 제목간의 상대적 위치를 파악함으로써 정한다. 제시된 방법론을 이용하여 일반 텍스트 문서를 세부 제목에 따라 구조화된 XML 문서로 변환하는 시범 모듈을 개발하였으며, 20개의 엔지니어링 문서를 대상으로 그 성능을 분석하였다.

광고성 메일을 자동으로 구별해내는 Text Mining 기법 연구 (Detecting spam mails using Text Mining Techniques)

  • 이종호
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2002년도 춘계학술대회
    • /
    • pp.35-39
    • /
    • 2002
  • 광고성 메일이 개인 당 하루 평균 10통 내외로 오며, 그 제목만으로는 광고메일을 효율적으로 제거하기 어려운 현실이다. 이러한 어려움은 주로 광고 제목을 교묘히 인사말이나 답신처럼 변경하는 데에서 오는 것이며, 이처럼 제목으로 광고를 삭제할 수 없도록 은폐하는 노력은 계속될 추세이다. 그래서 제목을 통한 변화에 적응하면서, 제목뿐만 아니라 내용에 대한 의미 파악을 자동으로 수행하여 스팸 메일을 차단하는 방법이 필요하다. 본 연구에서는 정상 메일과 스팸 메일의 범주화(classification) 방식으로 접근하였다. 이러한 범주화 방식에 대한 기준을 자동으로 알기 위해서는 사람처럼 문장 해독을 통한 의미파악이 필요하지만, 기계가 문장 해독을 통해서 의미파악을 하는 비용이 막대하므로, 의미파악을 단어수준 등에서 효율적으로 대신하는 text mining과 web contents mining 기법들에 대한 적용 및 비교 연구를 수행하였다. 약 500 통에 달하는 광고메일을 표본으로 하였으며, 정상적인 편지군(500 통)에 대해서 동일한 기법을 적용시켜 false alarm도 측정하였다. 비교 연구 결과에 의하면, 메일 패턴의 가변성이 너무 커서 wrapper generation 방법으로는 해결하기 힘들었고, association rule analysis와 link analysis 기법이 보다 우수한 것으로 평가되었다.

  • PDF

브라우징 행동 시 정보의 제목이 이용자의 정보 선택 및 결정에 미치는 영향에 관한 연구 (When browsing behavior, Research information about this title impact on users of information selection and decision)

  • 김광성;김장중
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2015년도 제22회 학술대회 논문집
    • /
    • pp.115-120
    • /
    • 2015
  • 이 연구는 20대 대학생들의 브라우징 행동 시 정보의 제목이 이용자의 정보 선택 및 결정에 미치는 영향에 관한 연구이다. 분석을 위해 20대 대학생 37명을 대상으로 온라인 설문을 통해 데이터를 수집, 분석하였으며, 본 연구의 결과 제목의 정확도가 정보 선택에 미치는 영향이 높고, 목적의 유무에 관계없이 제목은 정보 선택 및 결정에 매우 큰 영향을 미치지만 목적의 유무에 따라 제목을 통하여 선택한 정보의 만족도의 차이는 큰 것을 알 수 있었다.

  • PDF

저작권 보호를 위한 변형된 파일 제목 정규화 기법 (Modified File Title Normalization Techniques for Copyright Protection)

  • 황찬웅;하지희;이태진
    • 융합보안논문지
    • /
    • 제19권4호
    • /
    • pp.133-142
    • /
    • 2019
  • 토렌트 및 P2P 사이트나 웹 하드는 쉽고 편리하게 무료로 다운로드 받거나 가격을 저렴하게 이용할 수 있다는 이유만으로 사용자들은 자주 이용하지만 국내 토렌트 및 P2P 사이트나 웹 하드는 저작권과 관련되어 매우 민감하기 때문에 저작권 보호를 위한 기술들이 연구되고 적용 되어지고 있다. 이 중에서 파일의 제목이나 주요 단어의 조합 등 경우의 수를 금칙어로 설정하여 차단하는 제목 및 문자열 비교방식 필터링 기술은 제목 변경, 띄어쓰기 등을 통해 우회가 용이하다. 저작권 보호를 위한 불법저작물을 검색하고 차단하기 위해서는 변형된 파일 제목을 정규화 하는 기술이 필수적이다. 본 논문에서는 불법저작물의 변형된 파일 제목을 정규화 하는 기법과 파일 제목을 정규화를 진행 전과 후에 따른 검색에 의한 탐지율을 비교하였다. 정규화를 진행하기 전 탐지율은 77.72%로 아쉬운 탐지율이 보인 반면에 정규화를 진행한 후 90.23%로 정규화가 필수적이라고 말할 수 있다. 향후, 공통으로 나타나는 날짜와 화질 표시 같은 무의미한 용어들을 처리하면, 더욱 좋은 결과가 산출될 것으로 기대한다. 국문 요약입니다.

한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램 (Named Entity Recognition and Dictionary Construction for Korean Title: Books, Movies, Music and TV Programs)

  • 박용민;이재성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권7호
    • /
    • pp.285-292
    • /
    • 2014
  • 개체명 인식은 정보검색 시스템, 질의응답 시스템, 기계번역 시스템 등의 성능을 향상시키기 위하여 사용된다. 개체명 인식은 일반적으로 PLOs(인명, 지명, 기관명)을 대상으로 하며, 주로 미등록어와 고유명사로 이루어져 있기 때문에 고유명사나 미등록어는 중요한 개체명 후보로 쓰일 수 있다. 하지만 도서명, 영화명, 음악명, TV프로그램명과 같은 제목 개체명은 PLO와는 달리 단어부터 문장까지 매우 다양한 형태를 지니고 있어서 개체명 인식이 쉽지 않다. 본 논문에서는 뉴스 기사문을 이용하여 제목 개체명을 빠르게 인식하고 자동으로 사전을 구축하는 방법을 제안한다. 먼저 특수기호로 묶인 어절을 추출하고, 주변 문맥 단어 및 단어 거리를 이용하여 SVM으로 제목 후보들을 추출하였다. 이렇게 추출된 제목 후보들은 상호 정보량을 가중치로 SVM을 이용해 제목 유형을 분류하였다.

한국 근대신문 기사제목의 형성과 발전: "독립신문", "대한매일신보", "동아일보"를 중심으로 (The Formation and Development of Article Titles in the Beginning Period of Korean Newspapers: Focused on The Independent, The Korea Daily News and The Dong-A Ilbo)

  • 최창식;채백
    • 한국언론정보학보
    • /
    • 제43권
    • /
    • pp.209-246
    • /
    • 2008
  • 본 연구는 한국 근대신문의 기사제목이 형성, 정착되는 과정을 고찰함으로써 그 변화의 양상과 의미를 규명해보고자 하였다. 1890년대의 "독립신문", 1900년대의 "대한매일신보", 1920년대와 1930년대의 "동아일보"를 대상으로 이들 신문 기사제목 체제의 변화와 그 표현의 변화를 살펴보았다. 그 결과 "독립신문"은 창간 초기 "한성순보"와 마찬가지로 제목 없이 유목만으로 지면을 구분하다가 1898년 7월에 처음으로 제목을 사용하였다. "대한매일신보"의 경우 1910년부터 제목을 별행 처리하여 본문과 확연히 구분하였다. 하지만 이 시기까지 "독립신문"과 "대한매일신보"는 본문의 서체와 제목의 서체를 구분하지 않았으며 제목 크기는 1단만 사용하여 기사의 중요도를 가늠하는 기능은 찾아볼 수 없었다. 1920년대의 "동아일보"는 다단과 다행, 본문과 확연히 구별되는 크기의 제목활자 등을 사용하며, 지면 레이아웃을 도입하는 등 오늘날의 신문과 유사한 모습을 보이기 시작하였다. 1930년대에 오면 제목의 크기가 더욱 커지면서 지면에서 차지하는 비중이 이전에 비해 확연하게 늘어났다. 이는 1930년대 민간지의 선정주의로도 해석할 수 있을 것이며 또한 신문에서 제목이 차지하는 비중이 매우 중대해진 것으로 볼 수 있겠다. "독립신문"과 "대한매일신보"에서는 편집진의 시각이 개입된 주관형 제목이 각각 44.4%, 28.3% 정도 나타나고 있는 데 반해 1920년대의 "동아일보"는 주관형이 4.2%로 크게 감소하는 경향을 보인다. 이는 당시 신문들에서도 객관 저널리즘이 정착되어가는 것으로 볼 수 있을 것이다.

  • PDF

어휘 클러스터링을 이용한 자동 문서 요약 (Automatic Text Summarization with Lexical Clustering)

  • 김건오;고영중;서정연
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.463-465
    • /
    • 2002
  • 자동 문서 요약 시스템은 문서내 담겨있는 정보를 최대만 표현하면서 문서의 크기를 줄이는 시스템이다. 본 논문에서는 어휘를 자동으로 클러스터링하여 문서 대표어를 찾고, 이를 제목과 조합하여 요약을 수행하는 시스템을 제안한다. 특히 이 시스템은 제목이 없는 문서도 요약을 수행할 수 있는 장점이 있다. 비교시스템으로는 제목, 위치, 빈도를 이용만 시스템을 구축하여 사용하였으며 30%, 10%, 그리고 4문장 요약에서 제안한 시스템은 모두 우수한 성능을 보였다.

  • PDF

연구 보고서의 공기관계 정보에 제목 및 요약의 가중치를 적용한 유사도 계산 (Calculation of similarity by weighting title and summary in word co-occurrence of research reports)

  • 김남훈;주종민;박혁로;양형정
    • 한국컴퓨터교육학회 학술대회
    • /
    • 한국컴퓨터교육학회 2017년도 하계학술대회
    • /
    • pp.37-40
    • /
    • 2017
  • 본 논문에서는 국가 연구 보고서의 공기 관계 정보와 제목, 요약 등에 가중치를 적용한 유사도 계산방법을 제안한다. 이를 위해 국가 연구개발 보고서에서 텍스트를 추출하여 한 문장 단위로 문서를 분할하고, 기본 불용어와 보고서에서 특징적으로 나타나는 불용어를 처리하고 형태소 분석을 한 뒤 공기관계를 추출하였다. 또한 문서의 유사도 계산시 정확성을 높이기 위해 제목과 요약 부분에 가중치를 부여하였다. 이를 통해 본 논문에서 제안하는 방법이 문서 검색 라이브러인 루씬(Lucene)을 이용한 방법보다 2.5%의 검색성능 향상을 그리고 Knn-휴리스틱 방법보다는 1.1%의 검색성능 향상을 보였다. 이러한 결과를 통해 문서의 요약과 제목 그리고 공기관계 정보가 연구보고서의 유사도를 계산 하는데 영향을 미친다는 것을 보였다.

  • PDF

Suffix Tree를 이용한 웹 문서 클러스터의 제목 생성 방법 성능 비교 (Performance Comparison of Keyword Extraction Methods for Web Document Cluster using Suffix Tree Clustering)

  • 염기종;권영식
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2002년도 추계정기학술대회
    • /
    • pp.328-335
    • /
    • 2002
  • 최근 들어 인터넷 기술의 발달로 웹 상에 많은 자료들이 산재해 있습니다. 사용자가 원하는 정보를 검색하기 위해서 키워드 검색을 이용하고 있는데 이러한 키워드 검색은 사용자들이 입력한 단편적인 정보에 바탕하여 검색하고 검색된 결과들을 자체적인 기준으로 순위를 매겨 나열식으로 제시하고 있다. 이러한 경우 사용자들의 생각과는 다르게 결과가 제시될 수 있다. 따라서 사용자들의 검색 시간을 줄이고 편리하게 검색하기 위한 환경의 필요성이 높아지고 있다. 본 논문에서는 Suffix Tree 알고리즘을 사용하여 관련있는 문서들을 분류하고 각각의 분류된 클러스터에 제목을 생성하기 위하여 문서 빈도수, 단어 빈도수와 역문서 빈도수, 카이 검정, 공통 정보, 엔트로피 방법을 비교 평가하여 제목을 생성하는데 어떠한 방법이 가장 효과적인지 알아보기 위해 비교 평가해본 결과 문서빈도수가 TF-IDF보다 약 10%정도 성능이 좋은 결과를 보여주었다.

  • PDF

한글의 감성공학 분석에 관한 연구 -제목용 글자 24point를 중심으로- (A Study on the Gamsung Engineering Analysis of the Korean Character - Focused on the 24 point Display Type Korean Character -)

  • 최동찬;박영택
    • 한국감성과학회:학술대회논문집
    • /
    • 한국감성과학회 2000년도 추계학술대회 논문집
    • /
    • pp.13-19
    • /
    • 2000
  • 본 연구에서는 시각 표시정보 중에서 제목용 한글에 대하여 감성어휘들을 조사하고, 의미분별법을 이용하여 한글의 설계요소들과 감성어휘들간의 관계를 다변량 통계방법을 통하여 분석하였다. 제목용 글자는 가로와 세로의 크기가 동일한 정체 중 크기가 24poin1인 낱 글자와 두 글자 단어를 이용하였다. 한글의 설계요소는 네모 형태이면서 글자 줄기에 세리프가 있는 명조 설계요소, 직각 형태인 고딕 설계요소, 둥근 형태인 굴림 설계요소와 탈 네모 형태이면서 세리프가 있는 공한 설계요소로 한정하였다. 총 420명(남자 210명, 여자 210명)의 피실험자를 대상으로 하여, 각 설계요소별로 요인분석을 통한 의미공간과 요인과 감성어휘 간의 관계를 파악하였다. 그리고 설계요소별로 23개의 감성어휘에 대한 감성차이와 남녀 간의 감성차이를 파악하기 위하여 ANOVA와 T-TEST 분석을 하였다.

  • PDF