• 제목/요약/키워드: 요약문

검색결과 256건 처리시간 0.032초

담화 성분을 활용한 지시 발화의 키프레이즈 추출: 한국어 병렬 코퍼스 구축 및 데이터 증강 방법론 (Keyphrase Extraction of Directive Utterances via Discourse Component: Construction and Data Augmentation of Korean Parallel Corpus)

  • 조원익;문영기;김종인;김남수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.241-245
    • /
    • 2019
  • 문서 요약, 키프레이즈 추출과 패러프레이징은 인간이, 혹은 기계가 문서를 보다 원활히 이해하는 데에 도움을 주는 방법론들이다. 우리는 본 연구에서 질문/요구 등의 지시성 발화를 대상으로, 핵심 내용을 추출하는 간단한 방법론을 통해 한국어 병렬 코퍼스를 구축한다. 또한, 우리는 인적 자원을 활용한 효율적인 데이터 증강 전략을 통해 부족하거나 필수적인 유형의 발화의 양을 보강하고, 약 5만 쌍 크기의 코퍼스를 제작하여 이를 공개한다.

  • PDF

데이터 웨어하우스 성능 관리를 위한 DBMax의 확장 (An Extension of the DBMax for Data Warehouse Performance Administration)

  • 김은주;용환승;이상원
    • 정보처리학회논문지D
    • /
    • 제10D권3호
    • /
    • pp.407-416
    • /
    • 2003
  • 데이터베이스의 사용이 증가하고 다루어야 하는 데이터의 양이 방대해지면서 데이터베이스 시스템을 효율적으로 사용하기 위한 성능 관리 기술이 중요해지고 있다. 특히 데이터 웨어하우스는 대용량의 데이터를 대상으로 복잡한 분석을 수행하거나 전략적 의사 결정을 위해 사용하기 때문에 신속한 질의 응답을 위한 성능 관리가 무엇보다 중요하다. 데이터 웨어하우스는 일반 운영계 시스템과는 다른 목적과 특성을 가지기 때문에 그에 적합한 성능 모니터링 방법 및 튜닝 기술이 필요하다. 본 연구에서는 OLTP(On-Line Transaction Processing)용 오라클 데이터베이스를 위한 국산 성능 관리 도구인 DBMax를 데이터 웨어하우스 환경에 적합하도록 기능을 확장한다. 우선 데이터 웨어하우스 응용 분야를 지원하기 위한 오라클 9i의 요약 관리(summary management) 기능과 ETL(Data Extraction, Transformation and Loading) 기능을 중심으로 데이터 웨어하우스 시스템의 성능 관리시 고려해야 할 요구 사항을 분석하고 이를 지원하는 DBMax의 확장 아키텍처를 설계 및 구현한다. 구체적으로 요약 관리와 ETL 작업을 지원하기 위한 오라클 9i의 다양한 스키마 객체에 대한 정보와 성능 관련 지표를 제시하여 데이터 웨어하우스 환경에서 수행되는 질의에 대한 SQL 튜닝 기능을 강화한다. 또한 사후 분석을 위한 BBMax의 로그 파일에서 의미 있는 SQL 문을 추출하여 잠재적으로 유용한 실체화된 뷰를 추천하는 요약 권고 기능을 추가한다.

스팸 메일 차단을 위한 RBL개념의 확장에 관한 연구 (Studying on Expansion of Realtime Blocking List Conception for Spam E-mail Filtering)

  • 김종민;김형근;김봉기
    • 한국정보통신학회논문지
    • /
    • 제12권10호
    • /
    • pp.1808-1814
    • /
    • 2008
  • 본 논문에서는 스팸 차단을 위해서 사용되고 있는 RBL의 기능에 더하여, 최근 유행하는 스팸 형태에 효과적으로 대응할 수 있는 방법으로 메일원문에 포함된 URL을 추출하여 RBL에 적용하여 확장할 수 있는 방법을 제안한다. 최근 스팸메일발송에 많이 사용되고 있는 봇넷은 이메일 스팸에서 메일 발송 주소분포로 해결할 수 없는 문제점을 가지고 있다. 일반적으로 이러한 스팸 메일은 각 개인의 감염된 좀비 PC에서 발송되므로, 발송 주소 자체가 RBL에서 사용하기에 효율성이 떨어지고 무의미 하다. 따라서 봇넷에 의해 발송되는 스팸메 일을 효과적으로 차단하기 위한 방법으로써, 스팸메일의 원문에 포함된 URL을 분석하고, 사용자를 유인하는 URL 사이트에 대한 분포자료를 바탕으로 효과적으로 차단률을 향상시킬 수 있는 방법을 제안한다. 본 논문에서는 봇넷에서의 스팸메일 발송 메커니즘과, 이러한 유형의 스팸메일을 판단하기 위하여 사용할 수 있는 방법을 제안하고 분석 가능한 스팸메 일의 수집을 위하여 이메일스팸 트랩 시스템을 구성하여 실험한다. 일정한 실험기간 동안 수신된 스팸메일의 분석을 통하여 스팸메일에 포함된 URL을 이용한 확장된 RBL기법이 스팸메일의 검출 분포를 높이는데 효과적임을 보여준다.은 요약문입니다.

도시광장 설계요소 및 공간이용 만족도 분석 - 광화문광장과 금빛공원광장을 중심으로 - (An Analysis of Design Elements and Satisfaction on the Usability of City Squares - Focused on Gwanghwamun Square and Geumbit Square -)

  • 최윤의;전진형;이정아
    • 한국조경학회지
    • /
    • 제42권6호
    • /
    • pp.111-123
    • /
    • 2014
  • 도시광장은 지역사회 모임이나 시장, 공연, 정치집회 및 기타 이벤트 등 다양한 활동이 행해지는 곳으로, 도시 내에서 다양한 유형으로 나타난다. 그럼에도 불구하고 대부분의 도시광장은 광장 유형별로 다르게 나타나는 방문객의 이용행태 및 이용만족에 대한 고려가 미비한 채 획일적으로 계획되어왔다. 본 연구에서는 서울에 위치한 일반광장 중 중심대광장을 대표하는 광화문광장과 근린광장을 대표하는 금빛공원광장을 중심으로 방문객 만족도에 영향을 미치는 설계요인과 세부 요소를 분석하여 도시광장 유형별 설계 시 중점적으로 고려해야 하는 방안을 제안하였다. 각 광장에서 수집한 설문조사 결과는 요인분석, 회귀분석, 퍼지이론 등을 이용하여 분석하였다. 연구결과를 요약하면, 첫째, 도시광장 설계요소 만족요인은 어메니티, 이용성, 공간특성, 문화성, 쾌적성요인으로 구분되었다. 둘째, 광화문광장의 공간이용 만족도에 영향을 미치는 요인은 어메니티요인, 쾌적성요인, 공간특성요인 순으로 나타났으며, 금빛공원광장의 공간이용 만족도에 영향을 미치는 요인 쾌적성요인, 어메니티요인, 이용성요인, 공간특성요인 순으로 나타났다. 셋째, 도시광장의 설계요소에 대한 만족요인별 만족순위를 퍼지이론을 통해 비교한 결과, 광화문광장은 어메니티요인 중 광장의 청결도에 대한 만족도가 가장 높게 나타났다. 금빛공원광장은 쾌적성요인 중 광장의 수목에 대한 만족도가 가장 높게 나타났다. 이와 같이 본 연구에서는 중심대광장과 근린광장의 이용객 만족도에 영향을 미치는 설계요소를 비교하였다. 연구의 결과는 이용객 만족을 고려한 도시광장 설계 및 계획에 기초자료로 사용될 수 있을 것으로 기대된다.

독석(獨石) 황혁(黃赫)의 생애(生涯)와 시세계(詩世界) - '소무(蘇武)'와 '굴원(屈原)'의 이미지 - (Hwang Hyok's life and poetry)

  • 권혁명
    • 동양고전연구
    • /
    • 제70호
    • /
    • pp.33-58
    • /
    • 2018
  • 본고는 독석(獨石) 황혁(黃赫)의 생애와 시세계를 밝히는 데 목적을 두었다. 본고가 황혁을 연구의 대상으로 삼은 이유는 다음 두 가지이다. 첫째, 황혁이 문학적으로 상당한 재능이 있었음에도 우리 문학사에서 조명을 받지 못하고 있다는 것이다. 둘째 황혁의 시세계를 탐색하는 일은 유배시의 외연을 넓힌다는 측면에서 의미가 있기 때문이다. 이를 위해 2장에서 황혁의 생애를 검토하였다. 황혁의 생애에서 주목되는 점은 황혁이 해동강서시파로 평가받는 부친 황정욱의 문재를 이어받았다는 것이다. 그가 문과에 장원급제를 한 후 10년간 빠르게 진급하여 통정대부까지 오른 사실은 황혁의 뛰어난 문재를 방증하는 것이라 하겠다. 황혁의 생애에서 또 하나 주목해야 할 점은 그가 임진왜란 때 작성한 항복권유문으로 인해서 20여 년의 긴 유배생활을 하게 되었다는 것이다. 이는 유배의 배경으로서 기존의 그것과 변별되는 지점이고, 이는 황혁의 독특한 시세계로 나타났다고 할 수 있다. 3장에서는 2장을 바탕으로 황혁의 시세계를 살펴보았다. 이를 요약하면 다음과 같다. 첫째, '시호(豺虎)의 현실(現實), 소무(蘇武)의 이미지'이다. 임진왜란은 황혁의 뇌리 속에 강하게 자리 잡은 나쁜 기억이었다. 왜냐하면 황혁이 긴 유배에 처하게 된 발단이 임진왜란 때 항복권유문을 썼기 때문이다. 이로 인해 황혁은 임진왜란 때의 현실을 '시호(豺虎)가 우글거리는 혐오스런 현실로 인식했으며, 결백한 자기 자신을 흉노에게 사신 갔다가 억류된 소무(蘇武)로 비유하였다. 둘째, '장사(長沙)의 현실(現實), 굴원(屈原)의 이미지'이다. 황혁은 암담한 유배지에 놓인 자신을 굴원으로 비유하였다. 이는 항복권유문을 모함한 북인에 의해 유배를 가게 된 자신을, 간신들의 모함을 받고 배척된 굴원(屈原)과 동일시하려 했기 때문이다. 독특한 점은, 황혁이 굴원의 이미지를 가져오되, 장사(長沙)라는 공간으로 한정했다는 것이다. 장사(長沙)는 굴원이 투신자살한 멱라수가 있는 곳이다. 황혁은 굴원이 최후를 맞이한 장사를 통해 항복권유문이라는 치명적인 죄에서 벗어날 수 없었던 자신의 암담한 처지를 보여주고자 했던 것이다.

물리탐사 요소기술의 특허 동향분석 (Patent Analysis on Geophysical Prospecting Technologies)

  • 이재욱;조성준;손정술;김창렬;박삼규;김정호
    • 자원환경지질
    • /
    • 제41권5호
    • /
    • pp.635-644
    • /
    • 2008
  • 물리탐사는 측정점에 대한 정보에만 국한하는 다른 조사방법과는 달리 지반내부에 대한 영상 및 정보를 제공할 수 있으므로 환경오염부지 평가 및 감시, 지반조사, 지질재해 등에서 중요한 기술로 활용되고 있다. 본 연구에서는 상기물리탐사 요소기술에 관한 특허분석을 실시하였다. 1976년부터 2005년까지 출원된 특허의 요약문, 청구항, 도면 검색 등을 통해 총 904건의 관련 특허를 추출하였다. 추출된 특허를 대상으로 국가별, 연도별, 출원인별, 그리고 기술 분야별 출원동향을 분석하였다. 또한 미국특허 분석을 통해 국가별 기술수준을 비교 분석하였다. 상위 5위의 출원국가는 미국, 영국, 일본, 노르웨이 그리고 프랑스 순이었으며, 특히 미국과 영국 출원인의 특허건수가 663건(73.3%)으로 이 분야 기술개발을 주도하고 있는 것으로 파악되었다.

군집 중심 기반 문헌 검색 결과의 시각화 (Visualization Method of Document Retrieval Result based on Centers of Clusters)

  • 지태창;이현진;이일병
    • 한국콘텐츠학회논문지
    • /
    • 제7권5호
    • /
    • pp.16-26
    • /
    • 2007
  • 기존의 문헌검색시스템은 검색 결과를 시각화하기 어렵기 때문에 문헌 제목과 검색어가 존재하는 부분에 대한 요약문을 보여주는 형태가 대부분이다. 이러한 방식은 문헌 검색 결과가 많은 경우 한 번에 문헌들을 살펴보는데 어려움이 있고, 문헌들간의 연관성을 알아보기 어렵다. 따라서, 본 논문에서는 웹 환경에 적합하도록 실시간으로 문헌 검색 결과를 시각화하는 방법을 제안하였다. 이를 위하여, 군집의 중심을 다차원 척도에 의해 저 차원 평면에 투사하는 단계와 오비탈 모형에 기반하여 개별 문헌들을 군집 중심을 기준으로 저 차원 평면에 표현하는 2단계 시각화 알고리즘을 제안하여, 문헌 군집의 관계를 쉽게 알아보고 개별 문헌들 사이의 유사성을 쉽게 확인할 수 있도록 하였다. 벤치마크 데이터와 실 데이터에 적용하여 실험하였으며, 실시간으로 검색 결과를 시각화 할 수 있다는 것을 실험을 통해 확인할 수 있었다.

특허검색(特許檢索)에 의한 폐전기(廢電氣).전자기기(電子器機) 재활용(再活用) 기술(技術) 동향(動向) (Trend on the Recycling Technologies for Waste Electric and Electronic Equipment by the Patent Analysis)

  • 유경근;이재천;정진기;강경석
    • 자원리싸이클링
    • /
    • 제18권4호
    • /
    • pp.70-81
    • /
    • 2009
  • 폐전기 전자기기 재활용 관련 기술의 추이 및 동향을 조사하기 위하여 출원된 특허의 검색을 실시하였다. 특허 검색 데이터베이스는 국내 WIPS사의 특허검색 사이트를 이용하였으며, 검색된 특허의 요약문을 분석하여 최종적으로 223건을 선정하였다. 1986년부터 2007년까지의 특허를 주요 국가별, IPC 분류별, 주요 출원인(회사)별, 관련 기술별, 대상물질별로 분류하여 분석하였다. 특허출원국 및 출원인 국적 분석에서 일본이 가장 많은 특허를 출원하였으며, 물리적 전처리 기술에 관한 특허출원이 가장 많았다. 대상물질 중 인쇄회로기판에 대한 출원이 가장 많았으며 이는 인쇄회로기판이 유가금속 함유량이 높아 부가가치가 높기 때문이다.

특허 및 뉴스 기사 텍스트 마이닝을 활용한 정책의제 제안 (Policy agenda proposals from text mining analysis of patents and news articles)

  • 이새미;홍순구
    • 디지털융복합연구
    • /
    • 제18권3호
    • /
    • pp.1-12
    • /
    • 2020
  • 본 연구의 목적은 텍스트 마이닝을 활용하여 특허와 뉴스 기사 분석을 통해 블록체인 기술 동향을 탐색하고 사회적 관심을 파악하여 블록체인 정책의제를 제안하는 것이다. 이를 위해 국내 블록체인 특허 요약문 327건과 온라인 뉴스기사 전문 5,941건을 수집하고 전처리 과정을 거쳐 LDA 토픽모델링 방법을 사용하여 특허 토픽 12개와 뉴스 토픽 19개를 추출하였다. 특허 분석을 통해 인증과 거래 관련 토픽이 높은 비중을 차지하였다. 뉴스 기사 분석 결과, 사회적 관심은 암호화폐에 치중되어 있는 것으로 나타났다. 이러한 분석 결과와 의제설정이론에 근거하여 블록체인 관련 정책의제를 도출하였다. 본 연구는 대용량 텍스트 문서 분석의 자동화된 기법을 활용하여 분석을 효율적·객관적으로 수행하였으며, 블록체인 기술 동향과 사회적 관심도를 파악한 실증된 기초 분석 자료를 기반으로 정책의제를 제안하였다. 본 연구에서 제시된 정책의제는 향후 정책 결정과정에의 기초자료로 활용될 수 있을 것이다.

문자 인식 기술을 이용한 데이터베이스 구축 (Building Database using Character Recognition Technology)

  • 한선화;이충식;이준호;김진형
    • 한국정보처리학회논문지
    • /
    • 제6권7호
    • /
    • pp.1713-1723
    • /
    • 1999
  • 문자 인식 기술은 인쇄도니 형태로 존재하는 수많은 정보를 데이터베이스화 할 수 있는 가장 유용한 대안이다. 본 논문에서는 문자 인식 기술을 사용한 데이터베이스 구축의 타당성을 조사하기 위하여, 문자인식기를 사용한 데이터베이스를 시범적으로 구축하였다. 우선 데이터베이스를 구축할 때 문자 인식기의 선택 시 고려하여야 할 사항들을 살펴보고, 이를 기준으로 4가지의 상용 문자 인식기에 대한 인식 실험을 거친 후 그 중 인식 성능이 가장 좋은 것을 선택하였다. 대상 문서로는 다양한 인쇄 품질 및 특성을 갖는 실제 논문집의 초록을 대상으로 삼았으며, 대량 데이터에 대한 인식률 계산을 위해 수작업된 데이터베이스가 있는 KT 테스트 컬렉션[1]을 선택하였다. 실험은 실제 대용량 데이터베이스 구축과 유사한 환경을 만들기 위해, 문서별 학습이나 기울기 보정 등의 사전 작업을 생략하였다. 실험 결과 970편의 논문 요약문에 대해 평균 문자 인식률 90.5%를 보여, 한글 문자 인식 기술이 아직 데이터베이스 구축에 활용되기에는 이르다는 것을 보였다. 문자 인식에 의한 인식 오류에서는 수작업 한 문서에서 발견되는 오류와는 상이한 유형이 많이 발견된다. 본 논문에서는 추후의 연구를 위하여 문자 인식 텍스트에서 나타나는 오류의 유형을 분류하였다.

  • PDF