• 제목/요약/키워드: 파일명 추출

검색결과 39건 처리시간 0.024초

파일명 자동 부착 서비스를 위한 비지도 학습 기반 파일명 추출방법 (For Automatic File Name Attachment Service Unsupervised Learning-based File Name Extraction Method)

  • 선주오;장영진;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.596-599
    • /
    • 2022
  • 심층 학습은 지속적으로 발전하고 있으며, 최근에는 실제 사용자에게 제공되는 애플리케이션까지 확장되고 있다. 특히 자연어처리 분야에서는 대용량 언어 말뭉치를 기반으로 한 언어모델이 등장하면서 사람보다 높은 성능을 보이는 시스템이 개발되었다. 그러나 언어모델은 높은 컴퓨팅 파워를 요구하기 때문에 독립적인 소형 디바이스에서 제공할 수 있는 서비스에 적용하기 힘들다. 예를 들어 스캐너에서 제공할 수 있는 파일명 자동 부착 서비스는 하드웨어의 컴퓨팅 파워가 제한적이기 때문에 언어모델을 적용하기 힘들다. 또한, 활용할 수 있는 공개 데이터가 많지 않기 때문에, 데이터 구축에도 높은 비용이 요구된다. 따라서 본 논문에서는 컴퓨팅 파워에 비교적 독립적이고 학습 데이터가 필요하지 않은 비지도 학습을 활용하여 파일명 자동 부착 서비스를 위한 파일명 추출 방법을 제안한다. 실험은 681건의 문서 OCR 결과에 정답을 부착하여 수행했으며, ROUGE-L 기준 0.3352의 성능을 보였다.

  • PDF

Density Profile 추출 방법에 따른 염색체 분류정확도 비교분석 (Comparison of Accuracy for Chromosome Classification using Different Feature Extraction Methods based on Density Profile)

  • 최광원;송혜정;김종대;김유섭;이완연;박찬영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.226-229
    • /
    • 2010
  • 본 연구에서는 다양한 density profile 특징추출에 기반한 염색체 자동분류방법들의 성능을 비교분석하였다. density profile은 염색체의 밴드패턴을 가장 잘 표현한 특징으로 염색체의 중심축을 구성하는 화소들의 밝기 값을 추출하는 방법이다. 염색체의 밴드패턴은 염색체의 끝단까지를 잘 표현해주어야만 정확한 염색체번호를 확인할 수 있다. 따라서 염색체의 중심축을 추출하여 염색체 끝단까지 확장 처리한 방법에 대한 성능을 확인하였다. 염색체 중심축에 위치한 화소만을 이용한 프로파일은 잡음에 민감할 수 있으므로 이를 해결하기 위하여 염색체의 중심축에 대한 화소 값 대신 주변 밝기 값들에 대한 평균을 이용한 국소평균방법과 중심축의 수직라인 상에 존재하는 화소 값들에 대한 평균을 구한 수직평균방법을 비교하였다. 분류알고리즘은 k-NN을 사용하였고, 실험데이터는 (주)Gendix 로부터 제공받은 임상적으로 정상인 100명(남자 50명, 여자 50명)으로부터 추출한 4600개의 염색체 영상을 훈련데이터와 테스트데이터로 각각 50%씩 랜덤하게 분리하여 실험하였다. 실험결과 중심축을 확장하고 수직평균에 대한 프로파일을 특징으로 추출하여 분류한 경우가 가장 좋은 성능을 보였다.

  • PDF

개념 규칙을 이용한 키워드 도출방법 (The Method of Deriving Keywords Using Concept Rules)

  • 이태헌;박기홍
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.685-687
    • /
    • 2002
  • 일반적으로 인간이 사용하는 몇 개의 주요단어를 이용하여, 문서의 분야나 주제어가 되는 일본어 키워드를 추출하는 점에 주목한다. 먼저, 학술논문에서 저자 자신이 부여한 키워드 중 분야 명이나 주제어가 문서 중에 출현하지 않는 경우를 분석하고, 단어의 개념정보를 기초로 복합어 생성규칙을 구축한다. 문서 의미와 상관없는 키워드의 추출을 억제하기 위해 중요도 결정법을 새롭게 제안한다. 추출된 키워드의 타당성 검사를 위해 자연.음성언어에 관한 일본어 논문 65파일의 타이틀과 초록부분을 이용하여 추출된 키워드의 타당성에 대한 실험을 한 결과 추출 정밀도는 중요도의 상위 1개를 출력한 경우 75%가 되어 제안방법의 유효성을 확인할 수 있었다.

  • PDF

인터넷쇼핑몰에서 웹로그 분석에 대한 개선방안 연구 (A Study on the Improvement of Web-log Analysis in Internet Shopping-Mall)

  • 김남호
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2002년도 춘계학술대회 논문집
    • /
    • pp.134-139
    • /
    • 2002
  • 인터넷쇼핑몰 서버에의 고객의 상품에 대한 접근을 추적하여 고객의 성향을 추출하기 위한 웹마이닝에서는 웹서버가 생성하는 로그에서 필요한 정보를 수집하였다. 그러나 웹서버가 생성하는 로그는 단순 페이지 액세스의 정보만을 포함하고 있어, 현재 데이터베이스와 연동되어 동작하는 CGI 및 서버스크립트(JSP, ASP, PHP)등을 이용한 시스템에서는 CGI나 스크립트 파일명만 로그로 기록되고 분석시 가장 중요한 상품코드 및 상품 카테고리는 포함되지 않는다. 제안한 모델에서는 기존 쇼핑몰 시스템과의 연동 및 성능을 고려하여 웹서버에 분석전용 가상로그를 기존의 로그파일에 발생시키는 방법을 제안하였다. 이 방법으로 기존 사이트에 복잡한 코드를 추가할 필요 없이 간단한 로그발생코드 한 줄을 추가함으로써 해결할 수 있었다. 또한 유효 로그 필터링 및 클리닝에 걸리는 시간은 일반로그 분석대비 30%정도 향상되었으며 일반 로그에서는 불가능한 고객이 접근한 상품정보코드 및 카테고리코드 등의 정보를 쉽게 추출할 수 있었다.

  • PDF

< a href > 태그 추출을 이용한 웹 문서 구조화 (Web site construction using tag extraction)

개념지도 기반 P2P 콘텐츠 공유 시스템 (Concept Map based P2P contents sharing system)

  • 나고운;차재혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.223-225
    • /
    • 2004
  • 현재의 P2P 시스템은 특정한 분야에서는 성공을 거두고 있지만 지식과 정보 공유의 목적으로서는 활용되지 못하고 있다. 사용자가 웹에서 수집한 자료와 새로 생성한 지식 및 정보 콘텐츠들은 기존의 P2P시스템으로는 공유하기 힘든 몇 가지 이유가 있다. 그 이유 중 하나는 대부분의 P2P시스템은 사용자가 콘텐츠 각각에 대한 메타데이터를 작성하도록 하거나 키워드가 나타나도록 파일명을 수정하도록 요구하기 때문이다. 본 논문에서 제안하는 CONCEPT P2P는 P2P 환경에서 콘텐츠를 공유하는데 개념지도를 사용한다. 개념지도는 시간 소모적인 메타데이터 작성 작업에 대한 대안이 될 수 있기 때문이다 CONCEPT P2P는 로컬 파일 시스템에 수집하고 있는 관심 콘텐츠의 공유를 목적으로 한다. 사용자의 개념지도를 추출하여 개념지도로부터 콘텐츠 묶음을 검색하므로 무리한 수작업이 없이도 다양한 분야의 콘텐츠를 효과적으로 공유할 수 있도록 설계하였다. 또한 다른 사용자와 개념 네트워크를 형성하여 관심 개념에 의해서 클러스터링 되고 있는 복수개의 콘텐츠를 지속적으로 수집하고 배포하는 접근을 취하였다. 개념 지도를 기술하고 검색하는 부분에서는 RDF 기반의 시맨틱 웹 언어와 RDF 질의 언어인 QEL을 사용하였다.

  • PDF

웹 기반의 자동화된 로그 분석 시스템 (Web-based Automated Log Analysis System)

  • 임문희;정태명
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (하)
    • /
    • pp.927-930
    • /
    • 2001
  • 정보 시스템의 눈부신 발전과 인터넷의 급속한 보급으로 인하여 누구나 웹상에서 그들의 정보 요구를 충족할 수 있게 되었다. 그러나 웹상에서의 정보 교환의 폭발적 증가로 인한 시스템의 중요 정보 및 자원 유출이 심각한 문제로 대두 되고 있다. 그러므로 관리자가 시스템에서 보유하고 있는 자원의 유출을 방지하고 시스템의 사용 원칙에 위배되는 해킹 행위를 추적하기 위한 감사 기능이 제공되어야 한다. 이에 본 논문에서는 감사 추적의 중요한 정보가 되는 유닉스 시스템의 로그 파일을 자동적으로 분석하는 시스템(WALAS)을 설계하였다. WALAS 는 UNIX 시스템 내의 방대한 로그정보의 최적화를 통해 관리자가 해킹이나 사용자의 잘못된 시스템 사용 등을 효율적으로 감시하고 조사, 분석하는데 있어서의 자동화된 로그 파일 분석 시스템이다. WALAS는 관리 대상 호스트의 로그 정보로부터 보안 정보를 추출하여 침입을 판단하며 침입으로 판정되면, 이를 웹 기반의 관리자 인터페이스로 전달하게 된다. 또한 방대한 양의 로그 정보를 적절히 분류하고 분석하며, 실시간으로 호스트 로그 파일을 모니터링하여 침입 발견 시 관리자의 즉각적 대응이라는 이점을 제공한다.

  • PDF

트위터에서 팔로워의 행태분석 모델 (Modeling Twitter Follower's Behavior Analysis)

  • 정광용;설재욱;이경순
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.604-607
    • /
    • 2012
  • 소셜 네트워크 서비스의 하나인 트위터는 팔로우를 통하여 사용자 간의 관계를 맺을 수 있다. 트위터 사용자들은 다양한 팔로워들이 존재한다. 이 팔로워들은 사용자에 대한 호감을 가지고 팔로우 하거나, 맹목적으로 추종하거나, 부정적인 의견을 지니고 사용자의 행동과 글을 관찰하기 위해 팔로우할 수도 있다. 본 논문에서 사용자에게 팔로워들이 어떠한 목적으로 그 사용자를 팔로워의 행태를 분석하는 모델을 제안한다. 대상사용자의 영향력 있는 팔로워를 추출하고, 팔로워의 리트윗 정보, 프로파일, 최신 트윗의 감정분석을 통해 지지자, 중립, 비지지자로 분류한다. 제안 방법의 유효성을 검증하기 위해 트윗 데이터에서 정치인과 언론인 5 명의 팔로워들 중 무작위로 3 만명을 추출하여 실험하였다. 실험 결과 영향력 있는 사용자 추출을 통한 지지 팔로워 추출이 효과적임을 알 수 있다.

건축물 에너지 분석 자동화를 위한 건축 자재명 온톨로지 구축 (Development of Construction Material Naming Ontology for Automated Building Energy Analysis)

  • 김가람;김건우;유동희;유정호
    • 한국건설관리학회논문집
    • /
    • 제12권5호
    • /
    • pp.137-145
    • /
    • 2011
  • 다양한 이해관계자들이 참여하게 되는 현재 건설산업에서 표준 포맷을 사용한 Building Information Model (BIM) 데이터 교환은 건물 전 생애주기에 걸쳐 관련 실무자들에게 보다 효율적인 업무 환경을 제공해 줄 수 있다. 하지만, 설계 프로그램에서 Industry Foundation Class (IFC) 포맷의 파일을 사용하여 건축물 에너지 분석으로 데이터 교환 시 BIM 정보에서 추출된 자재 정보를 에너지 분석 도구에서 직접 사용할 수 없어 추가적인 데이터 입력 작업이 필요한 실정이다. 이에 따라 본 연구에서는 건축물 자재에 관련하여 에너지 분석 엔진인 DOE-2 의 기본 라이브러리에서 사용하고 있는 자재 라이브러리와 매칭될 수 있도록. IFC 파일에서 추출된 건축물 자재 표기명을 에너지 분석 프로그램의 자재 라이브러리 표기명과 자동으로 매칭 시키는 온톨로지를 구축하였다. 본 연구는 에너지 분석 시 분석 과정의 효율성 및 분석 결과에 대한 객관적인 신뢰도를 향상시키고, 건설사업에서 온톨로지 활용에 대한 개념연구로서 그 의의가 있다고 할 수 있다.

ASP 용의 데이터베이스와 고객 데이터베이스 연동에 관한 연구 (A Study of Integrating ASP Databases with Customer Databases)

  • 김호윤;이재원
    • 정보처리학회논문지D
    • /
    • 제11D권5호
    • /
    • pp.1063-1072
    • /
    • 2004
  • ASP(Application Service Provider) 사업에서 응용프로그램이 데이터베이스를 사용해야 하고 이 데이터베이스가 ASP 고객의 데이터베이스로부터 일련의 데이터를 제공받아야 하는 경우가 점점 더 증가하고 있다. 이를 위한 방법으로 엑셀(EXCEL)과 같은 파일 형태가 이용되는데 고객의 데이터베이스로부터 수작업으로 추출되어진 데이터가 엑셀 파일로 ASP사업자에게 전달된다. 이는 다시 애플리케이션이 이용하는 데이터베이스의 테이터내로 수작업 처리되어 저장된다. 본 연구는 두 데이터베이스 연동 시에 이러한 엑셀 파일 등을 이용하여 발생하는 데이터 추출과 저장시의 데이터베이스 수작업 조작의 비효율성을 극복하는데 있다. 이 때 두 데이터베이스 상의 속성명은 상이한 경우를 일반적인 경우로 전제하였으며 또한 웹 상에서 두 데이터베이스의 연동 시에 피할 수 없는 고객 데이터베이스의 경로 정보를 ASP 사업자에게 노출을 피하도록 한다. 제안된 방법은 두 단계로 걸쳐 데이터 프로세싱이 이루어지는데 먼저, ASP 사이트로부터 다운로드받은 프로그램을 이용하여, 고객데이터베이스를 접속한 후 프로그램의 유저 인터페이스를 이용하여 용이하게 속성 매칭하고 속성치를 XML 파일 형태로 자동 추출하는 단계와 추출된 XML 파일을 웹 상에서 ASP 서버에 접속하여 전송하고 ASP 데이터베이스에 자동 저장하는 후처리 프로세싱 단계로 구성된다. 본 연구에서는 이러한 방법에 맞는 프로토타입 시스템을 구현하여 데이터베이스 연동의 타당성을 검증하였으며, 제안된 방법은 ASP 고객의 데이터베이스를 이용해야 하는 ASP사업의 활성화에 기여할 수 있다.