통합 검색 | Korea Science

BERT-Based Logits Ensemble Model for Gender Bias and Hate Speech Detection

Sanggeon Yun;Seungshik Kang;Hyeokman Kim
- Journal of Information Processing Systems
- /
- 제19권5호
- /
- pp.641-651
- /
- 2023
Malicious hate speech and gender bias comments are common in online communities, causing social problems in our society. Gender bias and hate speech detection has been investigated. However, it is difficult because there are diverse ways to express them in words. To solve this problem, we attempted to detect malicious comments in a Korean hate speech dataset constructed in 2020. We explored bidirectional encoder representations from transformers (BERT)-based deep learning models utilizing hyperparameter tuning, data sampling, and logits ensembles with a label distribution. We evaluated our model in Kaggle competitions for gender bias, general bias, and hate speech detection. For gender bias detection, an F1-score of 0.7711 was achieved using an ensemble of the Soongsil-BERT and KcELECTRA models. The general bias task included the gender bias task, and the ensemble model achieved the best F1-score of 0.7166.
https://doi.org/10.3745/JIPS.04.0287 인용 PDF

HVDC 해저케이블 장기과통전 신뢰성 시험평가 방법 (Evaluation on Long-Term Reliability of HVDC Submarine Cable)

양병모;박준우;문경희;노태형;김양상;강지원
- 대한전기학회:학술대회논문집
- /
- 대한전기학회 2009년도 제40회 하계학술대회
- /
- pp.377_378
- /
- 2009
HVDC 케이블은 장거리 전력전송, 국가간 계통연계, 비동기 전력계통연계, 전력의 시장화에 따른 전력공급 제어 필요에 따라 세계적으로 널리 사용되고 있다. 국내에서는 현재 유일하게 제주-해남간 180kV HVDC 해저케이블이 운영 중에 있으며, 향후 제주도의 안정적인 전력공급을 위하여 2011년에 제주-육지간 250kV HVDC 해저케이블이 추가로 건설될 예정이다. 그래서 HVDC 해저케이블의 신속 정확하게 안정적이고 신뢰성 있는 운영을 위해서 국내에서 자체 개발한 HVDC 해저케이블에 대한 장기과통전 시험에 대한 평가 및 절차가 필요하게 되었다. 본 논문에서는 HVDC 해저케이블의 장기과통전 시험평가를 위하여 전기적 시험은 CIGRE에서 권고하고 있는 Electra 189, 219에 근거하고 기계적 시험은 IEC 60055-1, Elecrta 171에 근거하여 기술하고자 한다.
PDF

Electra-Optic and Ionic Properties of Twisted Nematic Cells With Different Chiral Pitch

Kim, Sung-Woon;Park, Hee-Do;Kim, Hee-Cheol;Park, Young-Il;Suh, Dong-Hae;Lee, Won-Geon;Park, Hae-Sung
- 한국정보디스플레이학회:학술대회논문집
- /
- 한국정보디스플레이학회 2002년도 International Meeting on Information Display
- /
- pp.504-507
- /
- 2002
We investigated electro-optic and ionic properties of twisted nematic cells by using control of chiral pitch. These properties are observed in practical experiment and simulations. C-V and V-T curve characteristics were obtained from three types of cells with d/p. It is shown that d/p ratio of short cells exhibit faster response time improved by 20% than normal cell. Also, inter-gray response time is improved each rise time and decay time. And, the increase of saturation voltage is happened because of the small twist angel change from initial state at high voltage near 5V. To compensate for longer black level tail, gamma curve index was varied from g = 2.2 to g = 2.7 in module status. Additionally, adding chiral dopant into TN cells improved ionic characteristics such as increasing VHR, Ion density and DC Hysteresis were decreased..
PDF

Maleimide계 폴리머를 이용한 액정배향특성 (Liquid Crystal Aligning Capabilities on the Photopolymer Based Maleimide)

이윤건;황정연;서대식;김준영;이재호;김태호
- 한국전기전자재료학회:학술대회논문집
- /
- 한국전기전자재료학회 2001년도 추계학술대회 논문집 Vol.14 No.1
- /
- pp.358-361
- /
- 2001
A new photoalignment material PMI5CA, poly{N-(phenyl)maleimide-co-3-[4-(pentyloxy) cinnamate]propyl-2-hydroxy-1-methacrylate}, was synthesized and the electra-optical (EO) characteristics in the vertical-aligned (VA) liquid crystal display (LCD) photo-aligned on the photopolymer surface were studied. Excellent voltage-transmittance(V-T) characteristics in the VA-LCD photoaligned with polarized UV exposure of oblique direction on the pohotopolymer surfaces for 1 min can be achieved. The transmittance of the VA-LCD photoaligned on the photopolymer surface decreased with increasing UV exposure time. We suggest that the decrease of transmittance in the VA-LCD photoaligned on the photopolymer surface is attributed to the dissociation of the ester linkage in the photodimerized cinnamate structure with increasing UV exposure time
PDF

전문용어 탐지와 해석 모델: 한국어 의학용어 중심으로 (Detecting and Interpreting Terms: Focusing Korean Medical Terms)

염하람;김재훈
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
- /
- pp.407-411
- /
- 2022
최근 COVID-19로 인해 대중의 의학 분야 관심이 증가하고 있다. 대부분의 의학문서는 전문용어인 의학용어로 구성되어 있어 대중이 이를 보고 이해하기에 어려움이 있다. 의학용어를 쉬운 뜻으로 풀이하는 모델을 이용한다면 대중이 의학 문서를 쉽게 이해할 수 있을 것이다. 이런 문제를 완화하기 위해서 본 논문에서는 Transformer 기반 번역 모델을 이용한 의학용어 탐지 및 해석 모델을 제안한다. 번역 모델에 적용하기 위해 병렬말뭉치가 필요하다. 본 논문에서는 다음과 같은 방법으로 병렬말뭉치를 구축한다: 1) 의학용어 사전을 구축한다. 2) 의학 드라마의 자막으로부터 의학용어를 찾아서 그 뜻풀이로 대체한다. 3) 원자막과 뜻풀이가 포함된 자막을 나란히 배열한다. 구축된 병렬말뭉치를 이용해서 Transformer 번역모델에 적용하여 전문용어를 찾아서 해석하는 모델을 구축한다. 각 문장은 음절 단위로 나뉘어 사전학습 된 KoCharELECTRA를 이용해서 임베딩한다. 제안된 모델은 약 69.3%의 어절단위 BLEU 점수를 보였다. 제안된 의학용어 해석기를 통해 대중이 의학문서를 좀 더 쉽게 접근할 수 있을 것이다.
PDF

개인정보 탐지를 위한 특화 개체명 주석 데이터셋 구축 및 분류 실험 (A Study on the Construction of Specialized NER Dataset for Personal Information Detection)

강혜린;비립;강예지;박서윤;조예슬;성현민;장성순;김한샘
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
- /
- pp.185-191
- /
- 2022
개인정보에 대한 경각심 및 중요성 증대에 따라 텍스트 내 개인정보를 탐지하는 태스크가 주목받고 있다. 본 연구에서는 개인정보 탐지 및 비식별화를 위한 개인정보 특화 개체명 태그셋 7개를 고안하는 한편 이를 바탕으로 비식별화된 원천 데이터에 가상의 데이터를 대치하고 개체명을 주석함으로써 개인정보 특화 개체명 데이터셋을 구축하였다. 개인정보 분류 실험에는 KR-ELECTRA를 사용하였으며, 실험 결과 일반 개체명 및 정규식 바탕의 규칙 기반 개인정보 탐지 성능과 비교하여 특화 개체명을 활용한 딥러닝 기반의 개인정보 탐지가 더 높은 성능을 보임을 확인하였다.
PDF

단락에 대한 이산 추론을 요구하는 한국어 기계 독해 (Reading Comprehension requiring Discrete Reasoning Over Paragraphs for Korean)

김경민;서재형;이수민;임희석
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
- /
- pp.439-443
- /
- 2021
기계 독해는 단락과 질의가 주어졌을 때 단락 내 정답을 찾는 자연어 처리 태스크이다. 최근 벤치마킹 데이터셋에서 사전학습 언어모델을 기반으로 빠른 발전을 보이며 특정 데이터셋에서 인간의 성능을 뛰어넘는 성과를 거두고 있다. 그러나 이는 단락 내 범위(span)에서 추출된 정보에 관한 것으로, 실제 연산을 요구하는 질의에 대한 응답에는 한계가 있다. 본 논문에서는 기존 범위 내에서 응답이 가능할 뿐만이 아니라, 연산에 관한 이산 추론을 요구하는 단락 및 질의에 대해서도 응답이 가능한 기계 독해 모델의 효과성을 검증하고자 한다. 이를 위해 영어 DROP (Discrete Reasoning Over the content of Paragraphs, DROP) 데이터셋으로부터 1,794개의 질의응답 쌍을 Google Translator API v2를 사용하여 한국어로 번역 및 정제하여 KoDROP (Korean DROP, KoDROP) 데이터셋을 구축하였다. 단락 및 질의를 참조하여 연산을 수행하기 위한 의미 태그를 한국어 KoBERT 및 KoELECTRA에 접목하여, 숫자 인식이 가능한 KoNABERT, KoNAELECTRA 모델을 생성하였다. 실험 결과, KoDROP 데이터셋은 기존 기계 독해 데이터셋과 비교하여 단락에 대한 더욱 포괄적인 이해와 연산 정보를 요구하였으며, 가장 높은 성능을 기록한 KoNAELECTRA는 KoBERT과 비교하여 F1, EM에서 모두 19.20의 월등한 성능 향상을 보였다.
PDF

CORRECT? CORECT!: Classification of ESG Ratings with Earnings Call Transcript

Haein Lee;Hae Sun Jung;Heungju Park;Jang Hyun Kim
- KSII Transactions on Internet and Information Systems (TIIS)
- /
- 제18권4호
- /
- pp.1090-1100
- /
- 2024
While the incorporating ESG indicator is recognized as crucial for sustainability and increased firm value, inconsistent disclosure of ESG data and vague assessment standards have been key challenges. To address these issues, this study proposes an ambiguous text-based automated ESG rating strategy. Earnings Call Transcript data were classified as E, S, or G using the Refinitiv-Sustainable Leadership Monitor's over 450 metrics. The study employed advanced natural language processing techniques such as BERT, RoBERTa, ALBERT, FinBERT, and ELECTRA models to precisely classify ESG documents. In addition, the authors computed the average predicted probabilities for each label, providing a means to identify the relative significance of different ESG factors. The results of experiments demonstrated the capability of the proposed methodology in enhancing ESG assessment criteria established by various rating agencies and highlighted that companies primarily focus on governance factors. In other words, companies were making efforts to strengthen their governance framework. In conclusion, this framework enables sustainable and responsible business by providing insight into the ESG information contained in Earnings Call Transcript data.
https://doi.org/10.3837/tiis.2024.04.015 인용 PDF HTML

사용자 입력 문장에서 우울 관련 감정 탐지 (Detects depression-related emotions in user input sentences)

오재동;오하영
- 한국정보통신학회논문지
- /
- 제26권12호
- /
- pp.1759-1768
- /
- 2022
본 논문은 AI Hub에서 제공하는 웰니스 대화 스크립트, 주제별 일상 대화 데이터세트와 Github에 공개된 챗봇 데이터세트를 활용하여 사용자의 발화에서 우울 관련 감정을 탐지하는 모델을 제안한다. 우울 관련 감정에는 우울감, 무기력을 비롯한 18가지 감정이 존재하며, 언어 모델에서 높은 성능을 보이는 KoBERT와 KoELECTRA 모델을 사용하여 감정 분류 작업을 수행한다. 모델별 성능 비교를 위해 우리는 데이터세트를 다양하게 구축하고, 좋은 성능을 보이는 모델에 대해 배치 크기와 학습률을 조정하면서 분류 결과를 비교한다. 더 나아가, 사람은 동시에 여러 감정을 느끼는 것을 반영하기 위해, 모델의 출력값이 특정 임계치보다 높은 레이블들을 모두 정답으로 선정함으로써, 다중 분류 작업을 수행한다. 이러한 과정을 통해 도출한 성능이 가장 좋은 모델을 Depression model이라 부르며, 이후 사용자 발화에 대해 우울 관련 감정을 분류할 때 해당 모델을 사용한다.
https://doi.org/10.6109/jkiice.2022.26.12.1759 인용 PDF KSCI

BERTopic을 활용한 불면증 소셜 데이터 토픽 모델링 및 불면증 경향 문헌 딥러닝 자동분류 모델 구축 (Topic Modeling Insomnia Social Media Corpus using BERTopic and Building Automatic Deep Learning Classification Model)

고영수;이수빈;차민정;김성덕;이주희;한지영;송민
- 정보관리학회지
- /
- 제39권2호
- /
- pp.111-129
- /
- 2022
불면증은 최근 5년 새 환자가 20% 이상 증가하고 있는 현대 사회의 만성적인 질병이다. 수면이 부족할 경우 나타나는 개인 및 사회적 문제가 심각하고 불면증의 유발 요인이 복합적으로 작용하고 있어서 진단 및 치료가 중요한 질환이다. 본 연구는 자유롭게 의견을 표출하는 소셜 미디어 'Reddit'의 불면증 커뮤니티인 'insomnia'를 대상으로 5,699개의 데이터를 수집하였고 이를 국제수면장애분류 ICSD-3 기준과 정신의학과 전문의의 자문을 받은 가이드라인을 바탕으로 불면증 경향 문헌과 비경향 문헌으로 태깅하여 불면증 말뭉치를 구축하였다. 구축된 불면증 말뭉치를 학습데이터로 하여 5개의 딥러닝 언어모델(BERT, RoBERTa, ALBERT, ELECTRA, XLNet)을 훈련시켰고 성능 평가 결과 RoBERTa가 정확도, 정밀도, 재현율, F1점수에서 가장 높은 성능을 보였다. 불면증 소셜 데이터를 심층적으로 분석하기 위해 기존에 많이 사용되었던 LDA의 약점을 보완하며 새롭게 등장한 BERTopic 방법을 사용하여 토픽 모델링을 진행하였다. 계층적 클러스터링 분석 결과 8개의 주제군('부정적 감정', '조언 및 도움과 감사', '불면증 관련 질병', '수면제', '운동 및 식습관', '신체적 특징', '활동적 특징', '환경적 특징')을 확인할 수 있었다. 이용자들은 불면증 커뮤니티에서 부정 감정을 표현하고 도움과 조언을 구하는 모습을 보였다. 또한, 불면증과 관련된 질병들을 언급하고 수면제 사용에 대한 담론을 나누며 운동 및 식습관에 관한 관심을 표현하고 있었다. 발견된 불면증 관련 특징으로는 호흡, 임신, 심장 등의 신체적 특징과 좀비, 수면 경련, 그로기상태 등의 활동적 특징, 햇빛, 담요, 온도, 낮잠 등의 환경적 특징이 확인되었다.
https://doi.org/10.3743/KOSIM.2022.39.2.111 인용 PDF KSCI

검색결과 61건 처리시간 0.027초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)