• 제목/요약/키워드: 형식 분류

검색결과 540건 처리시간 0.03초

웹 문서 수집을 위한 효율적인 문서 분류 (Efficient Document Classification for Web Document Collection)

  • 이정훈;전서현;김선희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.397-401
    • /
    • 2006
  • 최근 다양한 형식의 웹 문서에서 사용자가 원하는 정보만을 검색 하기위해 웹 문서를 주제별로 분류하여 수집하고, 관리하는 것은 필수적인 요소이다. 즉, 정확하고 빠른 정보 검색을 위한 웹 문서 수집은 문서 형식에 따라 분류되어 수집 되어야 한다. 따라서 웹 환경에서 문서를 구성하는 형식을 텍스트나 이미지 데이터로 구분하고 그 형식에 맞는 분류기법을 사용한다면 정확한 정보 검색이 이루어 질수 있다. 본 논문에서는 텍스트와 URL을 이용한 주제 중심의 하이브리드 웹 문서 분류 방법을 제안한다. 텍스트와 URL을 이용한 분류 방법은 텍스트 형식은 주제 중심의 문서 분류방식을 사용하며, 텍스트 정보의 효용성이 낮은 경우 URL의 주제 분포도를 이용하여 분류하며 수집한다. 이를 통해 여러 가지 형식의 웹 문서가 분류 가능하며, 주제에 따른 문서 분류의 정확도가 높아진다.

  • PDF

형식적 및 비형식적 어휘 정보를 반영한 문장 감정 분류 (A Sentence Sentiment Classification reflecting Formal and Informal Vocabulary Information)

  • 조상현;강행봉
    • 정보처리학회논문지B
    • /
    • 제18B권5호
    • /
    • pp.325-332
    • /
    • 2011
  • 최근 트위터, 페이스북과 같은 소셜 네트워크 서비스(Social Network Service : SNS)가 활성화됨에 따라 서비스 사용자들에 의해 작성된 막대한 텍스트들로부터 의미 있는 정보를 찾기 위한 연구가 많은 주목을 받고 있다. 특히 문장에 담겨 있는 감정은 활용 범위가 매우 넓은 정보로서 문장에 대한 감정을 분류하는 일은 매우 유용한 일이라고 할 수 있다. 본 논문에서는 문장의 감정을 분류하기 위해 문장에 포함되어 있는 형식적 어휘 정보와 이모티콘이나 인터넷 용어와 같은 온라인상에서 많이 이용되는 다양한 형태의 비형식적 어휘 정보를 이용한 새로운 문장 감정 분류 방법을 제안한다. 기존에는 문장의 감정을 분류하기 위해 사전을 기반으로 한 형식적 어휘 정보를 이용했지만, 최근 인터넷 사용자들은 인터넷 용어나 이모티콘과 같은 비형식적 어휘를 많이 사용해 기존의 형식적 어휘 정보만으로는 정확한 감정 분류가 어렵다. 제안한 방법은 형식적 어휘 정보와 비형식적 어휘 정보를 이용해 다양한 형태의 어휘를 포함하는 인터넷 상의 문장들에 대해 보다 정확한 감정 분류 결과를 보여준다. 또한, 같은 어휘라도 도메인별로 다른 감정을 나타내는 경우가 많으므로 제안한 방법에서는 도메인별로 다른 감정 어휘정보를 이용했다. 각 감정 어휘 정보를 통해 특징벡터로 표현된 문장은 Support Vector Machine(SVM) 분류 방법을 통해 감정을 분류하고 그 성능을 평가했다.

한글 인쇄체 문자의 형식 분류 및 비선형적 자소 분리에 관한 연구 (A Study on Korean Printed Character Type Classification And Nonlinear Grapheme Segmentation)

  • 박용민;김도현;차의영
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2006년도 춘계종합학술대회
    • /
    • pp.784-787
    • /
    • 2006
  • 본 논문에서는 한글 인쇄체 문자의 자소를 비선형적으로 분리하는 방법을 제안한다. 자소 분리 대상 문자는 자소의 조합 방식에 따라 6개의 형식으로 분류한다. 인쇄체 한글의 6형식 분류를 위해 그레이 레벨의 문자 이미지로부터 망 특성과 수직 수평 투영 기법을 이용해 특징을 추출하고, 오류 역전파 기법을 이용하여 분류를 시도한다. 분류된 문자 형식을 기반으로 분리 후보 영역을 지정하고, 이 영역을 기반으로 다단식 그래프 탐색 알고리즘을 이용하여 최적의 비선형적 자소 분리 경로를 찾아낸다. 실험 결과, 제안한 방법은 한글의 6형식 분류에 적합하였으며, 자소가 서로 붙어 선형적으로 분리가 어려운 문자의 자소 분리에 좋은 성능을 나타내었다.

  • PDF

형식별 블럭분할에 기초한 다중신경망과 퍼지추론에 의한 한글 형식분류 (Classification of Korean Character Type using Multi Neural Network and Fuzzy Inference based on Block Partition for Each Type)

  • 편석범;박종안
    • 한국음향학회지
    • /
    • 제13권4호
    • /
    • pp.5-11
    • /
    • 1994
  • 본 논문에서는 형식별 블럭분할에 기초한 다중신경망과 퍼지추론에 의한 한글 형식분류에 대해 연구하였다. 효과적인 자모분류를 위해 입력문자에 대해서 한글의 각 형식을 구성하는 자모의 영역으로 분할하는 블럭분할방법을 제한하였으며, 분할된 블럭이 형식에 따라 적응적으로 변화할 수 있도록 하였다. 또한 분류율의 향상을 위해 전체신경망과 부분신경망으로 이루어진 다중신경망을 구성하였으며, 퍼지추론에 의해 한글 형식을 판정하였다. 비교, 실험을 통하여 제안된 방법의 타당성을 검증하였으며, $92.6\%$의 분류율을 나타내므로서 유효성을 확인하였다.

  • PDF

ART 신경회로망을 이용한 한글 유형 분류에 관한 연구 (A Study on the Hangeul Pattern Classification by Using Adaptive Resonance Theory Neural Network)

  • 장재혁;박장한;남궁재찬
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.603-606
    • /
    • 2003
  • 본 논문에서는 ART(Adaptive Resonance Theory) 신경회로망을 이용하여 한글 모음을 인식하고, 그 유형을 분류하는 방법을 제안하였다. 기존의 연구들은 단순히 문자의 선분, 획 등의 정합만을 이용하여 한글의 자소 분류에 중점을 두었다. 그러나 인식 대상 운자의 특성이 각각 다르므로 효율적인 인식을 위해서는 먼저 포괄적인 특정적 유형 분류가 필요하다. 제안된 한글 유형 분류 시스템에서는 먼저 ART 신경회로망의 문제점인 증가분류 알고리즘의 단점을 최소화할 수 있도록 비교층에 최초 활성화패턴의 크기를 기억하는 메모리를 두고 각 층간 하향틀 변화를 경계인수 값을 "1" 이내로 제한하여 이미 입력된 패턴을 다시 입력할 때, 새로운 노드의 활성화를 방지하여 비교적 입력순서에 둔감한 분류가 가능하였다. 실험 결과 제안된 시스템에서는 한글의 6형식 중 1, 3, 4, 5형식 분류는 평균 97.3% 의 분류율을 보였으나, 나머지 2, 6형식 분류는 다소 떨어지는 평균 94.9% 분류율를 보였다.

  • PDF

E-Mail 시스템의 첨부파일 형식별 자동분류 및 스팸 제거 에이전트 설계 (Agent for File Format based Classification of the Attached File in E-Mail System)

  • 현영순;정옥란;조동섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (중)
    • /
    • pp.801-804
    • /
    • 2003
  • 인터넷과 E-mail 의 사용자가 증가하게 되면서 대량의 메일을 송수신하는 경우, 메일에 대한 효율적 관리의 문제와 불필요한 메일에 대한 관리의 중요성이 부각되고 있다. 본 논문에서는 -mail 시스템의 첨부파일 형식별 자동분류 에이전트는 메일의 내용을 읽어 Keyword 를 검색, 추출한 뒤 불필요한 메일로 판단되는 경우 자동삭제 시키고 그렇지 않은 경우 카테고리별로 폴더를 생성하여 첨부파일 들을 형식별로 분류 시켜주는 E-mail 시스템의 첨부파일 형식별 자동분류 에이전트를 제안하였다. 수신된 메일을 일일이 확인하고 분류해야만 했던 기존의 시스템과는 달리 본 논문에서 제안하고자 하는 시스템을 이용했을 경우 노력과 시간을 절감하고 불필요한 메일에 의한 저장공간의 낭비감소와 첨부파일을 효과적으로 관리할 수 있다는 장점이 있다.

  • PDF

형식승인 대상 전기통신 단말장치의 적용현황 분석 (Analysis on the Application of Telecommunication Terminal Equipment for type Approval)

  • 김영태;박기식;이선화
    • 전자통신동향분석
    • /
    • 제10권2호통권36호
    • /
    • pp.125-135
    • /
    • 1995
  • 형식승인제도는 몇년 전까지만 해도 전기통신 단말장치에 대한 정부의 고유한 통제와 권한의 영역이라고 생각할 만큼 규제 일변도의 정책 차원으로 다루어졌으나, 최근 통신시장 개방화 및 세계화 등과 같은 국제적인 통신환경을 반영한 단말장치의 통신망 접속 자유화가 실현됨에 따라 새로운 대내.외의 경쟁적 환경 위에서 운영하게 되었다. 특히, 최근에 각국은 다른 국가와의 형식승인 상호인정을 고려하면서 전기통신기술의 급격한 발전에 능동적 및 포괄적으로 대처하기 위한 전기통신 단말장치의 형식승인 적용 분류체계를 재조명하는 흐름을 보이고 있다. 이에, 본 고에서는 선진국의 형식승인 적용 대상 단말장치의 범위와 기능 및 용도별의 분류체계를 분석하여 항목별로 선정되고 있는 국내 형식승인 적용 대상 단말 장치의 분류체계를 선진국 수준의 기능 및 용도별로 개선하기 위한 방향을 모색해 보았다.

인쇄체 한자에서 Radical의 구조적 정보를 이용한 형식분류 및 부분패턴 추출에 관한 연구 (A Study on Type Classification and Subpattern Extraction Using Structural Information of Radical in Printed Hanja)

  • 김정한;조용주;남궁재찬
    • 한국통신학회논문지
    • /
    • 제16권3호
    • /
    • pp.232-247
    • /
    • 1991
  • 본 논문에서는 한자인식을 위한 전단계로서 인쇄체 한자를 대상으로 한자의 특성과 구조적 정보를 이용한 새로운 분류 알고리즘을 제안하였다. 한자는 자종이 많고 구조가 복잡하여 인식은 물론이고 분류하는 데에도 많은 어려움이 따른다. 이러한 문제점을 해결하기 위해, 본 연구에서는 한자패턴을 형식분류한 후 분류된 패턴에서 공통으로 존재하는 부분패턴을 추출하는 실험을 행하였다. 먼저 입력한 문자 패턴에 대해 전처리를 행한 후, 방향 세그먼트를 추출하여 4방향화면상에서 레이블링을 하고, 문자패턴의 부분패턴 존재 영역에 기초한 구조적 정보를 이용하여 12가지 형식으로 분류한 다음 그 부분패턴을 추출하였다. 중, 고교 교육용한자 1800자에 대해서 실험을 행한 결과 93.07%의 형식분류율을 얻었고, KS C5601표준 삼보 LBP 한자 폰트 4,888자에 대해서는 90.12%의 형식분류율을 얻었으며, 분류된 데이타로 부터 부분패턴을 추출하여 인식에의 적용가능성을 보였다.

  • PDF

한반도 선사시대 굽다리토기 연구

  • 강병학
    • 고문화
    • /
    • 66호
    • /
    • pp.5-35
    • /
    • 2005
  • 본 고는 매우 복잡 다양하게 출토되고 있는 선사시대 토기 중 굽다리토기에 대한 연구이다. 특수한 기형의 이 토기는 분류조차 제대로 이루어지지 않은 채 의례용으로 인식되어져 왔으며, 그 명칭 또한 무분별하게 사용되어져 왔다. 따라서 충분히 객관적이고도 적절한 정립이 필요한 상황이다. 이 토기는 저부와 신부의 상대크기에 따라 대부형(Ⅰ형)과 대각형(Ⅱ)으로의 세부기종 설정이 가능하고 세부기종별 속성분석을 통하여 6형식의 형식분류가 이루어졌다. 무문토기시대 전기 주거지유적에서 공렬 및 각형토기와 공반하는 1·2·3·4형식의 토기(북한→강원영동→경기중부·충청서해안지역)는 점토대토기문화가 도래하면서 생활, 분묘, 생산, 폐기 그리고 의례관련유구에서 출토되는 5·6형식 토기(경기중부·충청서해안→호남·영남지역)로의 변화를 보이면서 전개된다. 즉 점토대토기문화가 도래하는 시점에서 굽다리토기의 형식도 변화·확대되고 있다. 또한 출토맥락, 형식조합, 제작기술 등의 관점에서 공렬 및 각형토기와 공반하는 1·2·3·4형식은 일상 생활용기로의 상정이 가능한 반면 점토대토기와 조합을 이루는 5·6형식 토기는 의례관련유구와 분묘유구에서 다량 출토되고 있어 기원이나 소원과 관련된 의례용기, 그리고 부장용으로의 기능분화가 관찰된다. 〔주제어〕: 굽다리토기, 공렬토기, 각형토기, 점토대토기문화, 기술유형, 시공적 전개, 기능분화

  • PDF

Hough Transform을 이용한 한글 필기체 형식 분류에 관한 연구 (A Study on the Classification of Hand-written Korean Character Types using Hough Transform)

  • 구하성;고경화
    • 한국통신학회논문지
    • /
    • 제19권10호
    • /
    • pp.1991-2000
    • /
    • 1994
  • 본 논문에서는 필기체 문자 인식 시스템을 위하여 6형식 분류 알고리즘을 제안하였다. 입력 영상은 세선화 과정을 거친 후 잡음을 제거하는 절단화 과정을 거친 후 $64\times64$ 크기로 정규화하여 이용하였다. 6형식 분류는 신경회로망의 모델 중 다층 퍼셉트론의 학습알고리즘을 이용하여 대분류와 상세분류 과정에서 이루어진다. 특징값 추출은 부분적인 특정값으로는 Subblock Hough transform을 이용하였으며 전체적인 특징값으로는 표본화 Hough transfrom을 이용하였다. 실험은 10사람이 한 형식당 30번씩 쓴 1800자를 대상으로 하였으며 받침의 유무로 대분류한 후 각기 종모음과 횡모음의 유무로 상세분류하여 90%의 분류 성공율을 얻었다.

  • PDF