• 제목/요약/키워드: document classification

검색결과 451건 처리시간 0.024초

광고 글 필터링 모델 적용 및 성능 향상 방안 (Application of Advertisement Filtering Model and Method for its Performance Improvement)

  • 박래근;윤혁진;신의철;안영진;정승도
    • 한국산학기술학회논문지
    • /
    • 제21권11호
    • /
    • pp.1-8
    • /
    • 2020
  • 최근 기하급수적인 인터넷 데이터의 증가로 딥러닝 등의 많은 분야가 발전하였지만 바이럴 마케팅(viral marketing)과 같은 상업적 목적의 광고가 발견되면서 정보증가의 부작용이 발생하고 있다. 이는 양질의 정보를 공유하고자 하는 인터넷의 본질을 훼손하고 있을 뿐만 아니라 사용자는 양질의 정보를 습득하기 위해 검색시간이 증가하는 문제가 야기된다. 이에 본 연구에서는 광고(Ad: Advertisement, 이하 Ad) 글을 정보 전달의 본질을 흐리는 내용의 글이라 정의하였으며 본 정의에 부합하는 정보로 필터링하는 모델을 제안하였다. 제안하는 모델은 광고 필터링 경로와 광고 필터링 성능 개선경로로 구성되었으며 지속적으로 성능이 개선되도록 설계하였다. 광고 글 필터링을 위해 데이터를 수집하고 KorBERT를 사용하여 문서분류를 학습하였다. 본 모델의 성능을 검증하기 위해 실험을 진행하였으며 5개의 주제를 통합한 데이터에 대한 정확도(Accuracy), 정밀도(Precision)는 각각 89.2%, 84.3%의 결과를 나타냈고 광고의 비정형적 특성을 고려하더라도 높은 성능이 보임을 확인하였다. 본 모델을 통해 바이럴 마케팅으로 구성된 문서에서 광고 문단을 판단하고 필터링하여 사용자에게 양질의 정보를 효과적으로 전달하며 검색하는 과정에서 낭비되는 시간과 피로가 감소할 것으로 기대된다.

최근 5년간 연령에 따른 근시 유병률 진행에 관한 연구 : 2008년에서 2012년 중심으로 (A Study on the Progression and Prevalence of Myopia according to Age for the Last Five Years : from 2008 to 2012)

  • 이완석;예기훈;신범주
    • 한국안광학회지
    • /
    • 제19권1호
    • /
    • pp.121-133
    • /
    • 2014
  • 목적: 본 연구는 최근 5년간 연령에 따른 근시 유병률 진행을 비교 분석하였다. 방법: 보건복지부 산하 질병관리 본부에서 시행한 2008에서 2012년까지의 국민건강영양조사 자료를 통해 근시 유병률 진행을 비교 분석하였다. 결과: 최근 5년간 자료를 통해 근시를 분류하였고, 연령별 분석결과 약도근시 중 5-11세는 25.5%, 12-18세는 25.1%, 19-29세는 27.3%, 30-39세는 30.7%, 40-49세는 29.6%, 50-59세는 19.2%, 60-69세는 11.8%, 그리고 70세 이상에서는 20.2%의 근시유병률이 각각 나타났다. 중도근시 중 5-11세는 21.7%, 12-18세는 43.6%, 19-29세는 36.2%, 30-39세는 30.0%, 40-49세는 20.4%, 50-59세는 9.9%, 60-69세는 5.2%, 그리고 70세 이상에서는 7.6%의 근시 유병률이 각각 나타났다. 고도근시 중 5-11세는 2.1%, 12-18세는 11.7%, 19-29세는 11.5%, 30-39세는 6.9%, 40-49세는 5.6%, 50-59세는 1.9%, 60-69세는 1.5%, 그리고 70세 이상에서는 1.0%의 근시 유병률이 각각 나타났다. 결론: 근시 유병률 진행 증가에 대한 중요성을 인식하여 국민의 안보건복지와 시력저하 방지를 위한 제도적 장치와 사회적 관심이 더욱 필요할 것을 판단된다.

Impact of Word Embedding Methods on Performance of Sentiment Analysis with Machine Learning Techniques

  • Park, Hoyeon;Kim, Kyoung-jae
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권8호
    • /
    • pp.181-188
    • /
    • 2020
  • 본 연구에서는 다양한 워드 임베딩 기법이 감성분석의 성과에 미치는 영향을 확인하기 위한 비교연구를 제안한다. 감성분석은 자연어 처리를 사용하여 텍스트 문서에서 주관적인 정보를 식별하고 추출하는 오피니언 마이닝 기법 중 하나이며, 상품평이나 댓글의 감성을 분류하는데 사용될 수 있다. 감성은 긍정적이거나 부정적인 것으로 분류될 수 있기 때문에 일반적인 분류문제 중 하나로 생각할 수 있으며, 이의 분류를 위해서는 텍스트를 컴퓨터가 인식할 수 있는 언어로 변환하여야 한다. 따라서 단어나 문서와 같은 텍스트를 자연어 처리에서 벡터로 변형하여 진행하는데 이를 워드 임베딩이라고 한다. 워드 임베딩 기법은 Bag of Words, TF-IDF, Word2Vec 등 다양한 기법이 사용되고 있는데 지금까지 감성분석에 적합한 워드 임베딩 기법에 대한 연구는 많이 진행되지 않았다. 본 연구에서는 영화 리뷰의 감성분석을 위해 다양한 워드 임베딩 기법 중 Bag of Words, TF-IDF, Word2Vec을 사용하여 그 성과를 비교 분석한다. 분석에 사용할 연구용 데이터 셋은 텍스트 마이닝에서 많이 활용되고 있는 IMDB 데이터 셋을 사용하였다. 분석 결과, TF-IDF와 Bag of Words의 성과가 Word2Vec보다 우수한 것으로 나타났으며 TF-IDF는 Bag of Words보다 성과가 우수하였으나 그 차이가 매우 크지는 않았다.

관심 지점 명칭의 단어와 문맥 정보를 활용한 관심 지점의 분류 (Categorization of POIs Using Word and Context information)

  • 최수정;박성배
    • 한국지능시스템학회논문지
    • /
    • 제24권5호
    • /
    • pp.470-476
    • /
    • 2014
  • 관심 지점이란 상점이나 공원, 음식점 등과 같이 사람들이 관심을 가지거나 유용하다고 생각하는 특정한 지리적 위치를 의미한다. 관심 지점은 명칭과 제공 서비스, 카테고리 등과 같은 여러 정보들로 구성되어 있다. 이와 같은 정보들은 위치기반 어플리케이션에서 필수적인 정보이고, 그 중에서도 카테고리 정보는 위치기반 서비스에서 가장 핵심적인 역할을 한다. 그러나 관심 지점의 카테고리 정보를 직접 모으는 것은 많은 비용과 노력이 들기 때문에 자동으로 수집되어야 한다. 본 논문에서는 카테고리를 자동으로 추정하기 위해서 관심 지점 명칭의 단어 정보와 제한적 주변 문맥 정보를 결합하여 사용하는 방법을 제안한다. 관심 지점 명칭의 단어에는 카테고리를 반영하는 단어들을 포함하고 있어 카테고리를 추정하는데 있어서 중요한 단서가 된다. 제한적 주변 문맥 정보는 관심 지점의 명칭이 언급된 문서에서 명칭이 언급된 주변의 문맥을 의미한다. 명칭이 언급된 주변의 문맥에는 관심 지점의 카테고리를 추정할 정보들을 포함하고 있어 카테고리를 추정하는 것에 있어서 가치있는 정보를 제공한다. 우리는 제안한 모델의 성능을 측정하기 위해 두 가지 데이터셋에서 성능을 평가한 결과, 각 정보를 따로 사용하여 카테고리를 추정한 성능보다 결합하여 사용한 모델의 성능이 더 높게 나타났다.

오아시스(전통의학정보포털)의 미래모형 설계를 위한 정보화전략계획 연구 (The Study of Information Strategy Plan to Design OASIS' Future Model)

  • 예상준;김철;김진현;김상균;장현철;김익태;장윤지;성보석;송미영
    • 한국한의학연구원논문집
    • /
    • 제17권2호
    • /
    • pp.63-71
    • /
    • 2011
  • Objectives : We studied the ISP(information strategy plan) of oasis spanning 5 years. From this study we aimed at total road map to upgrade the service systematically and to carry out the related projects. If we do it as road map, oasis will be the core infra service contributing to the improvement of TKM(traditional korean medicine) research capability. Methods : We carried out 3 step ISP method composed of environmental analysis, current status analysis and future plan. We used paper, report and trend analysis document as base materials and did the survey to get opinions from users and TKM experts. We limited this study to drawing the conceptual design of oasis. Results : From environmental analysis we knew that China and USA built up the largest TM databases. We did the survey to get the activation ways of oasis. And we did the benchmarking on the advanced services through current status analysis. Finally we determined 'maximize the research value based the open TKM knowledge infra' as oasis' vision. And we designed oasis' future system which is composed of service layer, application layer and contents layer. Conclusion : First TKM related documents, research materials, researcher information and standards are merged to elevate the TKM information level. Concretely large scale TKM information infra project such as TKM information classification code development, TKM library network building and CAM research information offering are carried out at the same time.

공공기관의 이메일기록 관리 방안 연구 (A Study On Managing Electronic Mail Messages as Records of Public Institutions)

  • 송지현
    • 기록학연구
    • /
    • 제15호
    • /
    • pp.141-183
    • /
    • 2007
  • 조직의 업무와 관련되어 주고받는 이메일은 기록화하고 보존해야하는 조직의 자산이다. 그러나 현재 대부분의 공공기관에서 이메일기록에 관한 정책이나 지침이 마련되어 있지 않고, 이메일관리의 당위성에 대한 인식조차 부족한 실정이다. 이에 본 연구는 이메일기록 관리의 당위성을 설명하고 우리나라 공공기관에서 효과적인 이메일기록 관리 방안을 기록관리학적 측면에서 모색하는 데 그 목적을 두고 있다. 이메일기록의 특성을 파악하기 위한 문헌연구와 함께 기록관리 선진국의 이메일기록관리 정책 및 지침을 분석하였다. 이러한 지침들은 형태가 구성요소와 다르기 때문에 공통적인 구성요소를 추출하여 주요 범주화하여 나누고, 세부사항을 비교해 볼 수 있도록 해체하여 분석하였다. 분석으로 도출된 이메일 관리 필수 요소를 중심으로 공공기관에서 실무 지침으로 삼을 수 있는 이메일기록 관리 방안을 모색하였다. 그리고 전자정부 시대에 적합한 이메일기록 관리 모형을 제시하고자 하였다.

자연어 처리 및 기계학습을 활용한 제조업 현장의 품질 불량 예측 방법론 (A Method for Prediction of Quality Defects in Manufacturing Using Natural Language Processing and Machine Learning)

  • 노정민;김용성
    • Journal of Platform Technology
    • /
    • 제9권3호
    • /
    • pp.52-62
    • /
    • 2021
  • 제조업 현장에서 제작 공정 수행 전 품질 불량 위험 공정을 예측하여 사전품질관리를 수행하는 것은 매우 중요한 일이다. 하지만 기존 엔지니어의 역량에 의존하는 방법은 그 제작공정의 종류와 수가 다양할수록 인적, 물리적 한계에 부딪힌다. 특히 원자력 주요기기 제작과 같이 제작공정이 매우 광범위한 도메인 영역에서는 그 한계가 더욱 명확하다. 본 논문은 제조업 현장에서 자연어 처리 및 기계학습을 활용하여 품질 불량 위험 공정을 예측하는 방법을 제시하였다. 이를 위해 실제 원자력발전소에 설치되는 주기기를 제작하는 공장에서 6년 동안 수집된 제작 기록의 텍스트 데이터를 활용하였다. 텍스트 데이터의 전처리 단계에서는 도메인 지식이 잘 반영될 수 있도록 단어사전에 Mapping 하는 방식을 적용하였고, 문장 벡터화 과정에서는 N-gram, TF-IDF, SVD를 결합한 하이브리드 알고리즘을 구성하였다. 다음으로 품질 불량 위험 공정을 분류해내는 실험에서는 k-fold 교차 검증을 적용하고 Unigram에서 누적 Trigram까지 여러 케이스로 나누어 데이터셋에 대한 객관성을 확보하였다. 또한, 분류 알고리즘으로 나이브 베이즈(NB)와 서포트 벡터 머신(SVM)을 사용하여 유의미한 결과를 확보하였다. 실험결과 최대 accuracy와 F1-score가 각각 0.7685와 0.8641로서 상당히 유효한 수준으로 나타났다. 또한, 수행해본 적이 없는 새로운 공정을 예측하여 현장 엔지니어들의 투표와의 비교를 통해서 실제 현장에 자연스럽게 적용할 수 있음을 보여주었다.

딥러닝 중심의 자연어 처리 기술 현황 분석 (Analysis of the Status of Natural Language Processing Technology Based on Deep Learning)

  • 박상언
    • 한국빅데이터학회지
    • /
    • 제6권1호
    • /
    • pp.63-81
    • /
    • 2021
  • 자연어 처리는 최근 기계학습 및 딥러닝 기술의 발전과 적용으로 성능이 빠르게 향상되고 있으며, 이로 인해 활용 분야도 넓어지고 있다. 특히 비정형 텍스트 데이터에 대한 분석 요구가 증가함에 따라 자연어 처리에 대한 관심도 더욱 높아지고 있다. 그러나 자연어 전처리 과정 및 기계학습과 딥러닝 이론의 복잡함과 어려움으로 인해 아직도 자연어 처리 활용의 장벽이 높은 편이다. 본 논문에서는 자연어 처리의 전반적인 이해를 위해 현재 활발히 연구되고 있는 자연어 처리의 주요 분야와 기계학습 및 딥러닝을 중심으로 한 주요 기술의 현황에 대해 살펴봄으로써, 보다 쉽게 자연어 처리에 대해 이해하고 활용할 수 있는 기반을 제공하고자 한다. 이를 위해 인공지능 기술 분류체계의 변화를 통해 자연어 처리의 비중 및 변화 과정을 살펴보았으며, 기계학습과 딥러닝을 기반으로 한 자연어 처리 주요 분야를 언어 모델, 문서 분류, 문서 생성, 문서 요약, 질의응답, 기계번역으로 나누어 정리하고 각 분야에서 가장 뛰어난 성능을 보이는 모형들을 살펴보았다. 그리고, 자연어 처리에서 활용되고 있는 주요 딥러닝 모형들에 대해 정리하고 자연어 처리 분야에서 사용되는 데이터셋과 성능평가를 위한 평가지표에 대해 정리하였다. 본 논문을 통해, 자연어 처리를 자신의 분야에서 다양한 목적으로 활용하고자 하는 연구자들이 자연어 처리의 전반적인 기술 현황에 대해 이해하고, 자연어 처리의 주요 기술 분야와 주로 사용되는 딥러닝 모형 및 데이터셋과 평가지표에 대해 보다 쉽게 파악할 수 있기를 기대한다.

환경영향평가서 내 건강영향 항목 추가·평가의 방법론적 현황과 개선 (Methodological Status and Improvement of Additional Evaluation of Health Impact Items in Environmental Impact Assessment)

  • 하종식
    • 환경영향평가
    • /
    • 제29권6호
    • /
    • pp.453-466
    • /
    • 2020
  • 환경영향평가서 내 건강영향 항목 추가·평가는 특정 개발사업에 한하여 위생·공중보건 항목에 작성되어 검토되고 있다. 하지만 2011년 건강영향 항목 추가·평가 관련한 평가 매뉴얼이 발간된 이후에 부분적인 개선에도 불구하고 지속적인 방법론의 구체화 및 개선방안 마련을 요구하는 실정이다. 이에 본 기술논문은 평가 매뉴얼의 방법론적 개선방안을 제안하고자 위생·공중보건 항목의 협의의견을 바탕으로 세부적인 개선요구 사항을 파악하고 그간 연구내용을 고찰하여 이를 해결하기 위한 방안을 조사·제시하였다. 개선요구 사항으로는 저감방안, 사후관리, 영향예측, 평가, 현황조사 순서로 관련한 내용들이 전체 개발사업의 평가서에서 각각 93%, 85%, 80%, 74%, 67% 빈도로 제시되었다. 특히 저감방안 관련한 세부적인 개선요구 사항은 저감방안의 수립방향 설정과 금회 개발사업의 관리방안에 대한 내용이 대부분이었다. 현행 평가 매뉴얼 및 개선 요구사항의 빈도를 고려하여 위생·공중보건 항목의 구분별 주요 방법론에 대한 구체화 또는 개선방안을 제안하였다. 나아가 현행 평가 매뉴얼에는 제시되어 있지 않은 사업시행여부 관련한 종합적인 평가 방법론도 제안하였다.

영구기록물관리기관의 재평가체계 설계 연구 서울기록원을 중심으로 (A Study on the Design of the Appraisal System of Permanent Archival Institutions : Focused on the Seoul Metropolitan Archives)

  • 이은정;김다빈;김선유;김희진;류한조
    • 기록학연구
    • /
    • 제76호
    • /
    • pp.5-37
    • /
    • 2023
  • 본 연구는 영구기록물관리기관의 재평가 이행을 위해 서울기록원을 중심으로 영구기록물관리기관에 적용 가능한 평가체계 설계를 목표로 하였다. 이를 위한 과정으로 증거적·행정적·역사적 가치를 평가하기 위한 영역을 설정하고 세부평가요소들을 도출하였다. 설정된 평가요소들을 효과적으로 적용하기 위해 3개 단계로 구분하여 평가절차를 설계하였다. 1단계 법규기반 평가 단계에서는 분명한 기준에 의해 즉각적으로 평가할 수 있는 정책 결정권자의 직책, 법정 서식 식별 등을 통해 장기보존 여부를 판단하였다. 장기보존으로 결정되지 않은 기록물은 다시 2단계 업무기능기반 평가 단계인 기록관리기준표, 공문서분류표, 공약·정책 등을 평가요소로 재구성한 후 종합적으로 적용하여 보유기록물의 장기보존 타당성을 검토하였다. 2단계 평가에서도 장기보존으로 판단되지 않는 기록은 3단계 평가인 주제기반 평가단계에서 역사적사건, 문화재, 수집 정책 등을 적용하여 기록의 역사적 가치 판단을 수행하였다. 설계된 평가체계는 평가에 반영되는 자의성을 최소화하고 평가의 효율성을 높였다는데 의의를 찾을 수 있으며, 기록물이 가진 다양한 맥락과 가치를 종합적으로 반영한 평가가 가능함을 확인하였다. 또한, 균형 잡힌 거시평가와 미시평가를 결합하여 영구기록물관리 기관에 적합한 재평가체계를 수립하였다.