• 제목/요약/키워드: 정보처리 지표

검색결과 576건 처리시간 0.035초

조기 위험 검출을 위한 점진적 조기 텍스트 분류 시스템 (Incremental Early Text Classification system for Early Risk Detection)

  • 배소현;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.91-96
    • /
    • 2021
  • 조기 위험 검출은 실시간으로 들어오는 텍스트를 순차적으로 처리하면서 해당 대화에 위험이 있는지 조기에 분류하는 작업으로, 정확도 저하를 최소화하는 동시에 가능한 한 빨리 대화를 분류하는 것을 목적으로 한다. 이러한, 조기 위험 검출은 온라인 그루밍 검출, 보이스 피싱 검출과 같은 다양한 영역에 활용될 수 있다. 이에, 본 논문에서는 조기 위험 검출 문제를 정의하고, 이를 평가할 수 있는 데이터 셋과 Latency F1 평가 지표를 소개한다. 또한, 점진적 문장 분류 모듈과 위험 검출 결정 모듈로 구성된 점진적 조기 텍스트 분류 시스템을 제안한다. 점진적 문장 분류 모듈은 이전 문장들에 대한 메모리 벡터와 현재 문장 벡터를 통해 현재까지의 대화를 분류한다. 위험 검출 결정 모듈은 softmax 분류 점수와 강화학습을 기반으로 하여 Read 또는 Stop 판단을 내린다. 결정 모듈이 Stop 판단을 내리면, 현재까지의 대화에 대한 분류 결과를 전체 대화의 분류 결과로 간주하고 작업을 종료한다. 해당 시스템은 micro F1과 Latency F1 지표 각각에서 0.9684와 0.8918로 높은 검출 정확성 및 검출 신속성을 달성하였다.

  • PDF

한국어 텍스트 데이터의 품질 평가 요소 및 방법 (Methods of Korean Text Data Quality Assessment)

  • 김정욱;홍초희;이새벽
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.619-622
    • /
    • 2018
  • 최근 데이터의 형태는 점점 다양화되고 증가하고 있기 때문에 데이터의 체계적 분류 및 관리의 필요성이 증대되고 있다. 이러한 목적을 위하여 데이터에 대한 품질 평가는 중요한 요소가 된다. 최근 데이터는 기존의 정형화된 데이터보다 비정형 데이터가 대부분을 차지하고 있다. 그러나 기존의 데이터 품질 평가는 정형 데이터에 편중되어 왔다. 따라서 다양한 형태와 의미를 가지고 있는 비정형 데이터는 기존의 평가 기술로는 품질을 측정하기 어렵다. 이와 같은 문제로 본 논문은 텍스트기반의 비정형 데이터에 적용 가능한 영역별 평가 지표를 구축하고, 신문기사와 커뮤니티(질의응답)데이터를 사용하여 각 요소별 품질을 측정하여 그 결과에 대해서 고찰하였다.

  • PDF

점진적 빅데이터 학습기반의 전자저널 구독가치 큐레이션 서비스 (Journal Subscription Value Curation Service Based on Incremental Big Data Learning)

  • 이정원;진성일
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2019년도 춘계종합학술대회
    • /
    • pp.409-410
    • /
    • 2019
  • 점진적 빅데이터 학습 기반의 전자저널 구독가치 큐레이션 서비스는 대용량의 학술정보 처리환경을 하드웨어 기반에서 소프트웨어 기반으로 데이터를 학습함에 있어 학습 소요시간 및 메모리 부족 문제 등을 해결하기 위해 널리 사용하는 자질축소 기법에 의존하지 않고 대량의 데이터를 자유롭게 학습하고 증분 데이터 변경요소만을 추가 반영할 수 있는 범용적이고 일반적인 분류기의 구조설계 방법이다. 학술정보의 논문요약과 참고문헌의 데이터 수집 정제 분류 저장 분석을 통해 활용할 수 있는 지표를 생성하여 도서관 학교 공공기관 연구기관 등에 제공하여 기관에서 구독하고 있는 학술지가 연구에 얼마나 활용되고 있는지를 판단하는 정보 가용성을 활용한 양질의 정보원을 확보하여 불필요한 저널 구독을 중단하고 연구자가 요구하는 품질 좋은 학술정보를 제공할 수 있는 서비스로 일반적인 학술문헌 이용도 평가방법과 달리 구독 가치에 대한 지표를 제공하는 큐레이팅 방법이다.

  • PDF

한국어 텍스트 결속성 측정 도구: KorCAT (KorCAT: Cohesion Analysis Tool for Korean Text)

  • 김동현;김현정;김철희;서영덕
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.582-587
    • /
    • 2022
  • 결속성은 텍스트의 의미 관계 분석에서 주요하게 고려되는 요인 중 하나이다. 결속성이 높을 수록 텍스트 내 언어적 의미 관계가 긴밀한 것으로 볼 수 있기 때문이다. 사람에 의한 텍스트 결속성 분석은 주관이 개입되는 문제를 배제할 수 없는데, 영어에는 TAACO라고 불리는 결속성 자동 측정 도구가 있어 다양한 지표들로 텍스트의 결속성을 측정하고 있다. 그러나 한국어에는 이와 같은 텍스트 결속성 자동 측정 도구가 거의 없으며, 관련 연구도 상당히 부족한 실정이다. 따라서 본 논문에서는 한국어 텍스트의 의미 관계 분석을 위한 결속성 지표를 정의하고, 한국어의 특성에 맞는 결속성 측정 도구인 KorCAT을 제안한다.

  • PDF

한국어 언어모델의 속성 및 정량적 편향 분석: 영어 언어모델과의 비교 및 개선 제안 (Properties and Quantitative Analysis of Bias in Korean Language Models: A Comparison with English Language Models and Improvement Suggestions)

  • 김재민;채동규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.558-562
    • /
    • 2023
  • 최근 ChatGPT의 등장으로 텍스트 생성 모델에 대한 관심이 높아지면서, 텍스트 생성 태스크의 성능평가를 위한 지표에 대한 연구가 활발히 이뤄지고 있다. 전통적인 단어 빈도수 기반의 성능 지표는 의미적인 유사도를 고려하지 못하기 때문에, 사전학습 언어모델을 활용한 지표인 BERTScore를 주로 활용해왔다. 하지만 이러한 방법은 사전학습 언어모델이 학습한 데이터에 존재하는 편향으로 인해 공정성에 대한 문제가 우려된다. 이에 따라 한국어 사전학습 언어모델의 편향에 대한 분석 연구가 필요한데, 기존의 한국어 사전학습 언어모델의 편향 분석 연구들은 사회에서 생성되는 다양한 속성 별 편향을 고려하지 못했다는 한계가 있다. 또한 서로 다른 언어를 기반으로 하는 사전학습 언어모델들의 속성 별 편향을 비교 분석하는 연구 또한 미비하였다. 이에 따라 본 논문에서는 한국어 사전학습 언어모델의 속성 별 편향을 비교 분석하며, 영어 사전학습 언어모델이 갖고 있는 속성 별 편향과 비교 분석하였고, 비교 가능한 데이터셋을 구축하였다. 더불어 한국어 사전학습 언어모델의 종류 및 크기 별 편향 분석을 통해 적합한 모델을 선택할 수 있도록 가이드를 제시한다.

  • PDF

청각자극을 받은 두뇌에서의 상호정보이동 (mutual Information Flow in Brain by Auditory Stimuli)

  • 조덕연;이유정;김응수
    • 한국감성과학회:학술대회논문집
    • /
    • 한국감성과학회 1999년도 춘계학술발표논문집 논문집
    • /
    • pp.285-289
    • /
    • 1999
  • 본 논문에서는 고차 뇌 정보처리연구의 일환으로서, 통신 및 정보이론 분야에서 신호간의 확률적 상관성을 나타내는 지표로 많이 활용되는 상호정보(mutual information)를 이용하여 청각자극을 받은 뇌파의 정보이동(information flow)을 분석하였다. 청각자극에 따른 뇌파의 정보이동을 분석한 결과, 자극에 따른 각 상태에서의 확률적 관계의 흐름에 차이가 있음을 볼 수 있었다.

  • PDF

나라장터 생산성 및 효과 실증 연구 (An Empirical Study of the Effects and Productivity of KONEPS)

  • 김훈희;이원천;오연칠;양인학
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.387-389
    • /
    • 2016
  • 본 연구에서는 국가종합전자조달 시스템(이하, 나라장터)에 대한 생산성과 효과를 업무처리량을 기준으로 실증하였다. 기존의 연구방법은 인력 및 자본의 투입에 따른 부가가치를 생산성으로 산정하고 설문자료 및 지표 등으로 효과를 산정해 왔다. 본 연구에서는 정량적인 요인을 측정하기 위해 실제 정보시스템에 기록되는 문서량을 기준으로 업무모델 및 가설을 선정하였다. 생산성에 영향을 주는 계약건수, 문서처리, 통화시간 등을 행정업무에 소요되는 수기 또는 법적인 소요일수 등을 비교대상으로 하여 생산성을 산정하였다. 마지막으로 결과를 검증하기 위해 요인의 기술통계적 검정과 회귀분석으로 모델을 실증하였다.

빅데이터 기반 대용량 시계열 에너지 데이터 처리 시스템 (Time-series big data analytics software on IoT streaming data)

  • 강정훈;유준재
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.52-53
    • /
    • 2018
  • 본 논문은 에너지 빅데이터를 분석하기 위해 대용량의 시계열 데이터를 처리하는 시스템의 설계, 구축 방법을 제시한다. 이미 사용 중인 건물이나 공장의 에너지 효율화를 위해서 정부는 효율자원 시장 지원 사업을 수행하고 있다, 에너지 소비 설비에 따라 고효율 자원으로 변경 설치하는 데 필요한 자금의 일부를 지원하고 있다. 정부지원으로 고효율 설비로 변경함에 따라 실증 사이트에서는 측정 데이터를 수집하여, 효율화 정도를 파악하기 위한 에너지 데이터 분석 시스템을 구축하여 운영하였다. 해당 측정 정보는 IoT 전력량계를 통해 수집되며, 수집된 데이터는 클라우드 시스템에서 다양한 머신러닝 알고리즘에 적용되어, 에너지 소비 효율 평가에 필요한 성능 지표를 연산한다. 구현된 진단 시스템은 기축 건물의 에너지 효율향상 상황을 분석하는데 기여할 수 있다. 빅데이터 기반의 에너지 분석 기능을 사용하여 에너지 고효율 장비의 운영시간, 부하율 등의 효율성과 성능통계를 연산할 수 있다.

보건의료정보 보호관리 모델 개발 (Information Security Management in Healthcare Area)

  • 정혜정;김남현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.953-956
    • /
    • 2005
  • 보건의료정보는 개인의 가장 민감한 정보로 최상의 보호가 이뤄져야하는 한편, 국민 건강과 복지 향상을 위한 공익의 성격도 강하여 관리와 책임에 대한 명확한 지침이 반드시 필요하다. 본 연구에서는 보건의료 부문의 특성과 정보화 현황을 반영하고 선행연구의 한계점을 보완하여 국내 보건의료 환경에 적합한 정보보호관리 모델을 개발하였다. BS7799, HIPAA Security Rule, HL7 EHR SIG 기능명세 등을 참고하여 필요성, 정보보호 목적/전략 수립, 위험분석/평가, 정보보호관리 정책수립, 정보보호관리 프레임워크 설계, 관리적 보안, 물리적 보안, 기술적 보안, 정보보호관리 평가,운영관리의 총 10개 세부 프로세스와 111개의 이행지표로 구성된 본 모델은 보건의료정보 취급자에게 실행 지침을 제공하여 보건의료정보시스템의 안정성 향상과 국민 보건복지 수준 향상에 이바지할 수 있을 것으로 기대된다.

  • PDF

효율적인 A/S작업 배정을 위한 CSP기반의 스케줄링 시스템 (Scheduling System using CSP leer Effective Assignment of Repair Warrant Job)

  • 심명수;조근식
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2000년도 추계정기학술대회:지능형기술과 CRM
    • /
    • pp.247-256
    • /
    • 2000
  • 오늘날의 기업은 상품을 판매하는 것 뿐만 아니라 기업의 신용과 이미지를 위해 그 상품에 대한 사후처리(After Service) 업무에 많은 투자를 하고 있다. 이러한 양질의 사후서비스를 고객에게 공급하기 위해서는 많은 인력을 합리적으로 관리해야 하고 요청되는 고장수리 서비스 업무를 빠르게 해결하기 위해서는 업무를 인력들에게 합리적으로 배정을 하고 회사의 비용을 최소화하면서 정해진 시간에 요청된 작업을 처리하기 위해서는 인력들에게 작업을 배정하고 스케줄링하는 문제가 발생된다. 본 논문에서는 이러한 문제를 해결하기 위해 화학계기의 A/S 작업을 인력에게 합리적으로 배정하는 스케줄링 시스템에 관한 연구이다. 먼저 스케줄링 모델을 HP 사의 화학분석 및 시스템을 판매, 유지보수 해 주는 "영진과학(주)"회사의 작업 스케줄을 분석하여 필요한 도메인과 고객서비스전략과 인력관리전략에서 제약조건을 추출하였고 여기에 스케줄링 문제를 해결하기 위한 방법으로 제약만족문제(CSP) 해결기법인 도메인 여과기법을 적용하였다. 도메인 여과기법은 제약조건에 의해 변수가 갖는 도메인의 불필요한 부분을 여과하는 것으로 제약조건과 관련되어 있는 변수의 도메인이 축소되는 것이다. 또한, 스케줄링을 하는데에 있어서 비용적인 측면에서의 스케줄링방법과 고객 만족도에서의 스케줄링 방법을 비교하여 가장 이상적인 해를 찾는데 트래이드오프(Trade-off)를 이용하여 최적의 해를 구했으며 실험을 통해 인력에게 더욱 효율적으로 작업들을 배정 할 수 있었고 또한, 정해진 시간에 많은 작업을 처리 할 수 있었으며 작업을 처리하는데 있어 소요되는 비용을 감소하는 결과를 얻을 수 있었다. 검증하였다.를, 지지도(support), 신뢰도(confidence), 리프트(lift), 컨빅션(conviction)등의 관계를 통해 다양한 방법으로 모색해본다. 이 연구에서 제안하는 이러한 개념계층상의 흥미로운 부분의 탐색은, 전자 상거래에서의 CRM(Customer Relationship Management)나 틈새시장(niche market) 마케팅 등에 적용가능하리라 여겨진다.선의 효과가 나타났다. 표본기업들을 훈련과 시험용으로 구분하여 분석한 결과는 전체적으로 재무/비재무적 지표를 고려한 인공신경망기법의 예측적중률이 높은 것으로 나타났다. 즉, 로지스틱회귀 분석의 재무적 지표모형은 훈련, 시험용이 84.45%, 85.10%인 반면, 재무/비재무적 지표모형은 84.45%, 85.08%로서 거의 동일한 예측적중률을 가졌으나 인공신경망기법 분석에서는 재무적 지표모형이 92.23%, 85.10%인 반면, 재무/비재무적 지표모형에서는 91.12%, 88.06%로서 향상된 예측적중률을 나타내었다.ting LMS according to increasing the step-size parameter $\mu$ in the experimentally computed. learning curve. Also we find that convergence speed of proposed algorithm is increased by (B+1) time proportional to B which B is the number of recycled data buffer without complexity

  • PDF