• 제목/요약/키워드: 산업/직업 자동코딩

검색결과 4건 처리시간 0.017초

딥러닝 기법을 활용한 산업/직업 자동코딩 시스템 (An Automated Industry and Occupation Coding System using Deep Learning)

  • 임정우;문현석;이찬희;우찬균;임희석
    • 한국융합학회논문지
    • /
    • 제12권4호
    • /
    • pp.23-30
    • /
    • 2021
  • 본 산업/직업 자동코딩 시스템은 조사 대상자들이 응답한 방대한 양의 산업/직업을 설명하는 자연어 데이터에 통계 분류 코드를 자동으로 부여하는 시스템이다. 본 연구는 기존의 정보검색 기반의 산업/직업 자동코딩시스템과 다르게 딥러닝을 이용하여 색인 DB가 필요하지 않고 분류 수준에 상관없이 코드를 부여할 수 있는 시스템을 제안한다. 또한, 자연어 처리에 특화된 딥러닝 기법인 KoBERT를 적용한 제안 모델은 인구주택총조사 산업/직업 코드 분류, 그리고 사업체기초조사 산업 코드 분류에서 각각 95.65%, 91.45%, 97.66%의 Top 10 정확도를 보인다. 제안한 모델 실험 후 향후 개선 가능성을 데이터/모델링 관점으로 분석한다.

예제기반의 학습을 이용한 한국어 표준 산업/직업 자동 코딩 시스템 (An Automatic Coding System of Korean Standard Industry/Occupation Code Using Example-based Learning)

  • 임희석
    • 한국콘텐츠학회논문지
    • /
    • 제5권4호
    • /
    • pp.169-179
    • /
    • 2005
  • 통계청에서 실시하는 사업체 기초 조사와 인구주택총조사 과정에 업체와 개인에 대한 정보를 기술한 자연어를 표준 산업/직업 코드를 할당하는 수동 코딩 작업이 필요하다. 수동 코딩 작업은 막대한 인건비와 비용을 초래하고 수동 코딩 전문가의 능력과 기분에 따른 작업 결과의 비일관성이 매우 큰 문제로 지적되고 있다. 본 논문은 수작업으로 구축한 규칙베이스를 사용하는 규칙 기반 방법과 수작업으로 분류한 데이터를 이용하는 자동 학습 방법을 통합한 한국어 산업/직업 표준 코드 자동 생성 시스템을 제안한다. 제안하는 시스템은 인구주택총조사 40만 레코드, 사업체기초조사 40만 레코드를 이용하여 학습되었고, 실험데이터를 이용하여 평가되었다. 10-best 성능 평가 결과 제안된 시스템은 인구주택총조사 직업분류 데이터에 대해서 76.63%, 인구주택총조사 산업분류 데이터에 대해서 82.249%의 성능을 보였으며, 사업체기초 조사 산업분류 데이터에 대해서는 99.68%의 정확도를 보였다.

  • PDF

산업/직업 분류 자동코딩 시스템

  • 강유경
    • 한국조사연구학회:학술대회논문집
    • /
    • 한국조사연구학회 2001년도 추계학술대회 발표논문집
    • /
    • pp.33-45
    • /
    • 2001
  • 많은 통계조사에서 사용되고 있는 산업/직업분류코드가 기존에는 사람에 의해 수동으로 부호화되어 왔는데, 이러한 작업은 시간과 인력면에서 고비용을 요구할 뿐 아니라 개인별 시각, 이해도의 차이 등으로 정확성에 많은 문제가 제기되어 왔다. 본 논문에서는 이러한 수동코딩 작업의 문제점을 해결하기 위하여 자동코딩 시스템을 개발, 이를 인구 주택총조사와 사업체기초통계조사에 시험 적용하여 본 바를 바탕으로 향후 자동시스템으로의 전환 방향 등을 제시하고 있다.

  • PDF

기계학습 기반 단문에서의 문장 분류 방법을 이용한 한국표준산업분류 (Standard Industrial Classification in Short Sentence Based on Machine Learning Approach)

  • 오교중;최호진;안현각
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.394-398
    • /
    • 2020
  • 산업/직업분류 자동코딩시스템은 고용조사 등을 함에 있어 사업체 정보, 업무, 직급, 부서명 등 사용자의 다양한 입력을 표준 산업/직업분류에 맞춰 코드 정보를 제공해주는 시스템이다. 입력 데이터로부터 비지도학습 기반의 색인어 추출 모델을 학습하고, 부분단어 임베딩이 적용된 색인어 임베딩 모델을 통해 입력 벡터를 추출 후, 출력 분류 코드를 인코딩하여 지도학습 모델에서 학습하는 방법을 적용하였다. 기존 시스템의 분류 결과 데이터를 통해 대, 중, 소, 세분류에서 높은 정확도의 모델을 구축할 수 있으며, 기계학습 기술의 적용이 가능한 시스템임을 알 수 있다.

  • PDF