• 제목/요약/키워드: 불 용어

검색결과 93건 처리시간 0.022초

서울시 일부 지하공간에서의 실내공기질 평가에 관한 연구 (A Study on Assessment of IAQ(Indoor Air Quality) for Underground Environments in Seoul)

  • 정진원;김윤신;윤동원;권성안
    • 한국대기환경학회:학술대회논문집
    • /
    • 한국대기환경학회 2000년도 춘계학술대회 논문집
    • /
    • pp.304-306
    • /
    • 2000
  • 오늘날 경제적 생활 환경의 개선으로 인하여 현대인의 생활에 많은 변화를 가져오고 있다 제한된 공간에서 인간 활동은 지하생활공간이라는 새로운 활동영역을 창출하였고, 이에 따라 실내에서의 거주 시간은 더욱 증가하고 있다. 지하생활공간이라는 용어가 일반인들에게는 다소 생소하게 받아들여질 수 있지만 여기서 말하는 지하생활공간이라 함은 불특정 다수인이 이용하는 지하철, 지하상가, 지하주차장, 지하 보·차도, 지하터널 등을 말하며 개인의 생활 양식에 따라 단시간 이용하거나 또는 생활터전으로 장시간 거주할 수 있는 공간이라고 할 수 있다. (중략)

  • PDF

U-learning 환경의 대용량 학습문서 판리를 위한 효율적인 점진적 문서 (An Effective Increment리 Content Clustering Method for the Large Documents in U-learning Environment)

  • 주길홍;최진탁
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권9호
    • /
    • pp.859-872
    • /
    • 2004
  • 컴퓨터와 통신 기술이 발전함에 따라 최근의 교육 환경은 학습자 스스로 학습 내용, 학습 시간 및 학습 순서를 선택하고 조직하는 유비쿼터스 학습 방향으로 나아가고 있다. 방대한 양의 학습정보들은 대부분 문서 형태로 관리되고 있기 때문에 문서 단위로 표현된 많은 정도들을 효과적으로 관리하고 검색하기 위한 방법의 연구가 필요하게 되었다. 문서 클러스터링은 문서간의 유사도를 바탕으로 서로 연관된 문서들을 군집화하여 문서틀을 주제별로 통합하는 방법으로 대용량의 문서들을 자통으로 분류하고, 검색하는 데 있어서 검색의 정확성을 증대시킬 수 있다. 따라서 본 논문에서는 새로운 학습 문서의 추가나 기존문서의 삭제로 인하여 군집화 대상이 되는 학습 문서 집합이 점진적으로 변화하는 환경을 위한 점진적 문서 클러스터링 알고리즘을 제안한다. 점진적 문서 클러스터링 알고리즘은 새로운 문서가 추가되었을 경우 문서 전체를 다시 클러스터링하지 않고. 이미 생성된 클러스터들의 구조를 적응적으로 변화시킴으로써 높은 효율성을 제공할 수 있다. 또한, 문서 글러스터링의 정확도극 높이기 위하여 통계적인 기법으로 불용어를 판별하여 제거하는 알고리즘을 제안한다.

  • PDF

문서 군집화의 정확률 향상을 위한 범용어 수집과 문서 재분류 알고리즘 (Gathering Common-word and Document Reclassification to improve Accuracy of Document Clustering)

  • 신준철;옥철영;이응봉
    • 정보처리학회논문지B
    • /
    • 제19B권1호
    • /
    • pp.53-62
    • /
    • 2012
  • 정보검색에서 많은 검색 결과 문서들을 효율적으로 다루기 위해 군집화 기술을 사용하고 있지만, 대체로 군집화의 정확률은 일부 영역에서만 요구 사항을 만족시키고 있다. 본 논문에서는 검색 결과 문서들의 군집화 정확률을 향상시키기 위한 두 가지 방법을 제안한다. 첫째는 군집화 과정에서 흔히 쓰이지만 낮은 가중치를 가진 범용어를 정의하고, 검색 결과들을 비교하여 범용어를 자동 수집하고 그의 가중치를 계산하는 방법을 제안한다. 실험 결과 불용어에 비해 범용어를 사용했을 때 군집화 오류의 34%가 개선되었다. 둘째는 집단평균연결 방식의 군집화 알고리즘으로 일차 군집들을 생성 후, 문서와 군집 간의 유사도를 측정하여 가장 유사도가 높은 군집으로 문서를 재분류하는 알고리즘을 제안한다. 네이버 지식인 카테고리를 이용한 군집 결과의 비교 실험을 통해 일차 군집보다 재분류된 군집의 정확률이 1.81% 향상되는 것을 확인하였다.

대용량 문서 데이터베이스를 위한 효율적인 점진적 문서 클러스터링 기법 (An Effective Incremental Text Clustering Method for the Large Document Database)

  • 강동혁;주길홍;이원석
    • 정보처리학회논문지D
    • /
    • 제10D권1호
    • /
    • pp.57-66
    • /
    • 2003
  • 컴퓨터의 발전과 인터넷의 급속한 발전으로 정보의 양이 폭발적으로 증가하게 되었고 이러한 방대한 양의 정보들은 대부분 문서 형태로 관리되고 있으며, 문서 단위별 표현된 많은 정보들을 효과적으로 관리하고 검색하기 위한 방법의 연구가 필요하게 되었다. 문서 클러스터링은 문서간의 유사도를 바탕으로 서로 연관된 문서들을 군집화하여 문서들을 주제별로 통합하는 방법으로 대용량의 문서들을 자동으로 분류하고, 검색하는 데 있어서 검색의 정확성을 증대시킬 수 있다. 본 논문에서는 새로운 문서의 추가나 기존문서의 삭제로 인하여 군집화 대상이 되는 문서 집합이 점진적으로 변화하는 환경을 위한 점진적 문서 클러스터링 알고리즘을 제안한다. 점진적 문서 클러스터링 알고리즘은 새로운 문서가 추가되었을 경우 문서 전체를 다시 클러스터링하지 않고, 이미 생성된 클러스터들의 구조를 적극적으로 변화시킴으로써 높은 효율성을 제공할 수 있다. 또한, 문서 클러스터링의 정확도를 높이기 위하여 통계적인 기법으로 불용어를 판별하여 제거하는 알고리즘을 제안하고, 문서 클러스터링에서 정확한 단어가중치 산출을 위해 TF$\times$IDF 공식을 수정한 TF$\times$NIDF 공식을 제안한다.

시소러스를 기반으로 하는 자동색인 시스템에 관한 연구 (The Development of an Automatic Indexing System based on a Thesaurus)

  • 임형묵;정상철
    • 인지과학
    • /
    • 제4권1호
    • /
    • pp.213-242
    • /
    • 1993
  • 그동안 자동색인 기법에 대해서는 단일어 색인,구색인,시소러스 기반 색인 등의 연구가 이루어져 왔는데,단일어 색인 기법이 단일어에 기초한 단순한 색인 방법 임에도 불구하고 다른 두가지 기법보다 일반적으로 우수하다고 알려져왔다. 시소러스 기반 색인은 이중에서도 검색효율이 낮은 것으로 알려져 왔는데,이는 일반적으로 시소러스가 포함하고 있는 색인용어들이 한정되어 있어 색인하려는 자료들이 이색인 용어에 부합(match)되지 않을 경우 색인 자체가 이루어 지지 않기 때문이다. 본 연구에서는 시소러스 기반 색인이 지금까지 기법으로는 검색효율이 좋지 않지만 실제 전문 색인들이 하는 색인과 매우 유사하다는 장범에 기초하여,입력 자료를 구문분석하고,분석된 자료들과 색인용어들을 정확부합(exact match)이 아닌 부분부합(partial match)을 통하여 색인 함으로써 검색효율이 우수한 시소러스기반 자동 색인 시스템을 개발하고자 한다. 본 연구에서 개발된 색인 시스템이 THINS는 우선 시소러스를 트리형태로 구성하고 입력자료들을 KAIST에서 개발한 언어번역기 MATES/EK를 통하여 구문분석한 후 명사구들만 뽑아낸다.그다음 명사구에 있는 용어들중 불용어를 제거하고 스테밍작업을 진행한후 생기는 형태를 색인 용어들과 부분부합 과정을 반복하여,유사한 색인 용어들과 가능하면 색인이 되도록 한다. 본 연구에서는 CACM 데이타 집합을 가지고 본 시소러스 기반 색인 시스템과 단일어 색인방식을 혼성지식기반 시스템인 HYKIS에서 성능을 평가하였다.이 성능평가에서 시소러스를 기반으로 하는 색인 시스템이 단일어 색인방식보다 회상도에서는 8-9%떨어지지만 정확도에서는 10%정도 높은 결과를 나타내었다.그러나 이는 기존의 시소러스 기반시스템이 단일어 색인 방식보다 정확도가 25%-30%정도 떨어진다는 것을 비추어 볼때 기존의 방식보다 우수한 것이라 평가된다.또한 CACM 에서 제공하는 시소러스인 CRCS 가 1000여개의 색인어밖에 포함하고 있어 매우 불완전한 것이라는 것을 고려하면,THINS가 최근에 개발되고 있는 시소러스와 접속된다면 매우 우수한 검색효율을 내리라 사료된다.

정보검색을 위한 자연언어 질의어의 불리언 질의로의 변환 (A System for converting natural language queries Into boolean queries for Information Retrieval)

  • 서광준;최기선;나동열
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.258-261
    • /
    • 1994
  • 자연언어 인터페이스는 초보자나 비숙련가의 입장에서는 새로운 시스템의 적응에 있어서 어떤 학습도 필요하지 않다는 장점이 있다. 이 연구에서는 불리언 질의를 처리하는 정보검색 시스템의 자연언어 인터페이스를 구혐하였다. 즉, 한국어 자연언어 질의를 불리언 질의로 변환해주는 시스템이다. 접근 방법은 먼저 자연언어 질의를 구문 해석한 후에, 그 결과인 문자의 의존 구조와 불용어 정보를 사용하여 기본적인 불리언 질의를 만든다음, 시소러스를 이용하여 불리언 질의를 확장한다. 여기에서 사용한 구문 해석 방법은 기존 문법에 기반한 방법이다. 변환 시스템은 SPARC-II 호환기종에서 구현되었으며, 약 5만 단어의 사전을 사용한다. 가공된 120 개의 질의를 대상으로 실험한 결과, 전체 소요시간은 13.5초가 걸렸다. 그리고, 변환된 불리언 연산식중에 110개가 적절하게 변환된 것으로 조사되었다.

  • PDF

단어의 의미와 순서를 고려하는 문서색인방법을 이용한 CNN 기반 한글문서분류 (Classification of Korean Documents Based on CNN Using Document Indexing Method based on Word Meaning and Order)

  • 김남훈;양형정
    • 한국컴퓨터교육학회 학술대회
    • /
    • 한국컴퓨터교육학회 2017년도 하계학술대회
    • /
    • pp.41-45
    • /
    • 2017
  • 본 논문에서는 컨볼루션 신경망 네트워크(CNN:Convolution Neural Network)을 기반으로 단어의 의미와 순서를 고려하는 문서 색인 방법을 이용하여 한글 문서 분류 방법을 제안한다. 먼저 문서를 형태소 분석하여 어절 단위로 분리 한 후, 불용어를 처리 하고, 문서의 단어 의미를 고려하는 문서 표현하고, 문서의 단어 순서까지 고려하여 CNN의 입력으로 사용하였다. 실험결과 CNN 분류기를 기반으로 본 논문에서 제안하는 문서 색인 방법은 TF-IDF를 이용하는 방법보다 4.2%, Word2vec만 단독으로 사용하는 것보다 1.4%의 성능 상승을 이루었다. 이러한 결과를 통해 본 논문에서 제안하는 방법이 문서범주화 데이터 셋에서 문서 분류 성능향상에 영향을 미친다는 것을 확인하였다.

  • PDF

서울시 일부 지하공간에서의 실내공기질에 관한 연구 (A Study on IAQ(Indoor Air Quality) for Underground Environments in Seoul)

  • 정진원;김윤신;권성안;홍승철;박원석;이상복;이홍석
    • 한국대기환경학회:학술대회논문집
    • /
    • 한국대기환경학회 1999년도 추계학술대회 논문집
    • /
    • pp.374-375
    • /
    • 1999
  • 오늘날 경제적 생활 환경의 개선으로 인하여 현대인의 생활에 많은 변화를 가져오고 있다. 제한된 공간에서 인간 활동은 지하생활공간이라는 새로운 활동영역을 창출하였고, 이에 따라 실내에서의 거주 시간은 더욱 증가하고 있다. 지하생활공간이라는 용어가 일반인들에게는 다소 생소하게 받아들여질 수 있지만 여기서 말하는 지하생활공간이라 함은 불특정 다수인이 이용하는 지하철, 지하상가, 지하주차장, 지하 보ㆍ차도, 지하터널 등을 말하며 개인의 생활 양식에 따라 단시간 이용하거나 또는 생활터전으로 장시간 거주할 수 있는 공간이라고 할 수 있다.(중략)

  • PDF

WWW환경에서 데이터 전송량 절감을 위한 가상인덱스 시스템 (Virtural Index System to Reduce Amount of Data Transmission in WWW Environment)

  • 강재철;김창화
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제26권6호
    • /
    • pp.693-705
    • /
    • 1999
  • 최근에 사용중인 검색엔진은 증가하는 지역사이트의 정보를 로봇사이트에 인덱스하는데 많은 문제점이 있다. 첫째, 지역사이트의 문서 전체를 로봇사이트로 전송하므로 네트워크의 트래픽을 증가시킨다. 왜냐하면 인덱스 하는데 불필요한 불용어와 특수문자, 중복된 키워드 전체를 전송하기 때문이다. 둘째 지역사이트의증가로 인해 로봇의 방문주기가 길어지므로 최근의 정보를 유지하는데 어려움이 있다. 마지막으로 문서를 로봇사이트에서 파싱하므로 파싱 시간이 길다. 이러한 문제점을 해결하기 위해 본 논문에서는 VITAR 방식을 제안하고 중앙집중식 인덱스방식과 성능을 비교분석한다. 이 방식은 지역사이트에서 문서를 생성,갱신, 삭제하고 지역 인덱스에이전트에 의해 파싱한후 푸싱기법을 이용하여 가상인덱스에 키워드 메시지만을 전송한다. VITAR방식의 장점은 키워드메시지만을 전송하므로 네트워크 트래픽을 줄일 수 있고 지역사이트에서 미리 파싱하므로 파싱 시간을 줄일 수 있으며 , 각 지역사이트의 문서가 변경되는 즉시 가상인덱스가 변경되므로 인해 최근의 자료를 유지할 수있다. 특히 중앙집중식 인덱스방식과 성능을 비교분석한 결과 생성타입인 경우 80.3%의 전송절감효과를 얻을 수있었다.

한국어 형태소 분석기 CBKMA와 색인어 추출기 CBKMA/IX (A Korean Morphological Analyzer CBKMA and A Index Word Extractor CBKMA/IX)

  • 김남철;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.50-59
    • /
    • 1999
  • 본 논문은 한국어 형태소 분석기 CBKMA와 이 CBKMA를 이용한 색인어 추출기 CBKMA/IX를 소개하고, 각각의 특징들에 대해서 설명한다. CBKMA는 음절 정보를 이용하는 분석 알고리즘과, 효율적인 사전구성을 이용한 형태소 분석기로서, 과다한 분석 후보의 생성을 줄임으로써 처리 속도를 향상시켰다. 수행시 필요로 하는 컴퓨터 자원은 Main Memory 약 4Mb정도로, 작은 규모의 시스템에서도 수행이 가능한 특징을 갖는다. CBKMA/IX는 CBKMA의 형태소 분석 기능을 이용하는 색인어 자동 추출기로서, 처리 속도 향상을 위하여 대분류 수준의 품사 태그만을 이용한다. 또한 CBKMA의 분석 기능에 색인어 추출을 위해 불용어 사전, 사용자 키워드 사전 처리 부분과, 복합명사와 미등록어 분석 부분 및 한자어, 일본어 등에 대한 처리를 강화시켰다. 특히 비소설류 자료의 분석시 좋은 성능을 발휘한다.

  • PDF