Search | Korea Science

Analyzing the Language Usage Characteristics of Korean Dark Web Users (국내 다크웹 사용자들의 언어 사용 특성 분석)

Youjin Lee;Dayeon Yim;Yongjae Lee
- Annual Conference on Human and Language Technology
- /
- 2022.10a
- /
- pp.397-402
- /
- 2022
익명 네트워크 기술에 기반한 다크웹은 일반 표면웹보다 더 강화된 익명성을 제공한다. 최근 이 익명성을 악용하여 다수의 다크웹 사용자들이 다크웹 내에서 범죄 행위를 모의하는 행위가 꾸준히 발생하고 있다. 특히, 국내 다크웹 사용자들은 마약 유포를 위한 방법을 공유하거나 성착취물 유포 행위 등에 직간접적으로 가담하고 있다. 이와 같은 범죄 행위들은 수사 기관의 눈을 피해 현재까지도 계속해서 발생하고 있어 국내 다크웹 범죄 동향 파악의 필요성이 증대되고 있다. 그러나 다크웹 특성상 범죄 행위를 논의하는 게시글을 수집하기가 어렵고, 다크웹 내에서의 언어 사용 특성에 대한 이해 부족으로 그동안 다크웹 사용자들이 어떤 내용의 범죄를 모의하는지 파악하기가 어려웠다. 본 논문에서는 국내 사용자들이 활동하는 다크웹 포럼들을 중심으로 사용자들의 언어 사용 특성을 연구하고, 이를 통해 다크웹에서 다뤄지는 범죄 유형들을 분석한다. 이를 위해, 자연어처리 기반의 분석 방법론을 적용하여 다크웹에서 공유되는 게시글을 수집하고 다크웹 사용자들의 은어와 특정 범죄군에서 선호되는 언어 특성을 파악한다. 특히 현재 다크웹 내에서 사용자들 사이에 관측되는 어휘들에 대한 기술통계 분석과 유의어 관계 분석을 수행하였고, 실제 다크웹 내에서 사용자들이 어떠한 범죄에 관심이 많은지를 분석하였으며, 더 나아가 수사의 효율성을 증대시키기 위한 소셜미디어, URL 인용 빈도에 대한 연구를 진행하였다.
PDF

French-Korean Computer-Assisted Translation Workbench, TransFranCo (불-한 전문분야 기계보조번역 워크벤치 TransFranCo)

Jeong, Hwi-Woong;Lim, Yong-Seok;Yoon, Ae-Sun
- Proceedings of the Korean Society for Cognitive Science Conference
- /
- 2005.05a
- /
- pp.255-260
- /
- 2005
번역 메모리(Translation Memory)는 오늘날 기계번역에 있어 통계기반 접근법이나 형태-통사적 접근법 모두에 있어 가장 중요한 요소로 평가되고 있다. 그러나 번역 메모리는 언어의 자질 및 각 용례를 통합적으로 관리해야 하며, 이를 기계가 자동으로 처리해주어야 하는 어려움이 있다. 최근에는 이러한 문제점을 해결하기 위해 다국적 기업을 중심으로 기계보조번역(Computer Aided Translation) 환경에 대한 연구가 활발히 이루어지고 있으나, 언어적인 특성 보다는 번역 메모리의 저장/대치적 측면에서 주요 연구가 이루어지고 있다. 이 논문에서는 번역 메모리 정보가 보다 높은 재사용성을 보이기 위해서는 다양한 언어자질값을 담을 수 있어야 한다고 보고, 이를 효율적으로 관리/구축할 수 있는 기계보조번역 워크벤치의 framework을 제시한다. 언어분석을 위한 대상언어로는 교역 및 기술 측면에서 영어, 일어, 중국어 다음으로 영향력이 높은 불어를 채택하며, 기존 기계보조번역 방식에 대한 고찰을 통해 개선된 번역 메모리 관리, 자동분석/번역 모듈 및 협업(collaboration) 방안에 대해 소개하고, 향후 발전방향에 대해 논의한다.
PDF

음성연구와 음성데이타베이스

이용주;김봉완
- Proceedings of the KSPS conference
- /
- 1996.02a
- /
- pp.115-124
- /
- 1996
우리말의 음성언어학적, 공학적, 의학적 연구를 위해서는 체계적으로 수집, 정리 된 다양한 음성자료가 필수적이다. 본고에서는 음성언어의 연구대상자료인 음성데이타베이스에 관하여 관련분야에서의 구축필요성, 체계적인 구축을 위한 기술적인 고려사항 등에 대하여 논한다. 또한 공학적인 응용을 위해 각 기관별로 구축된 음성DB의 현황을 정리하고, 특히 공동이용을 목적으로 하여 국어공학센터에서 추진중인 음성데이타베이스의 구축현황을 상세히 소개한다.
PDF

A Noun Extractor based on Dictionaries and Heuristic Rules Obtained from Training Data (학습데이터를 이용하여 생성한 규칙과 사전을 이용한 명사 추출기)

Jang, Dong-Hyun;Myaeng, Sung-Hyon
- Annual Conference on Human and Language Technology
- /
- 1999.10d
- /
- pp.151-156
- /
- 1999
텍스트로부터 명사를 추출하기 위해서 다양한 기법이 이용될 수 있는데, 본 논문에서는 학습 데이터를 이용하여 생성한 규칙과 사전을 이용하는 단순한 모델을 통해 명사를 효과적으로 추출할 수 있는 기법에 대하여 기술한다. 사용한 모델은 기본적으로 명사, 어미, 술어 사전을 사용하고 있으며 명사 추정은 학습 데이터를 통해 생성한 규칙을 통해 이루어진다. 제안한 방법은 복잡한 언어학적 분석 없이 명사 추정이 가능하며, 복합명사 사전을 이용하지 않고 복합 명사를 추정할 수 있는 장점을 지니고 있다. 또한, 명사추정의 주 요소인 규칙이나 사전 등록어의 추가, 갱신 등이 용이하며, 필요한 경우에는 특정 분야의 텍스트 분석을 위한 새로운 사전의 추가가 가능하다. 제안한 방법을 이용해 "제1회 형태소 분석기 및 품사 태거 평가대회(MATEC '99')"의 명사 추출기 분야에 참가하였으며, 본 논문에서는 성능평가 결과를 제시하고 평가결과에 대한 분석을 기술하고 있다. 또한, 현재의 평가기준 중에서 적합하지 않은 부분을 규정하고 이를 기준으로 삼아 자체적으로 재평가한 평가결과를 제시하였다.
PDF

Efficient RDQL Query Processing based on RDQL2SQL (RDQL2SQL 기반의 효율적인 RDQL 질의 처리)

Kim, Hak-Soo;Son, Jin-Hyun
- Proceedings of the Korean Information Science Society Conference
- /
- 2005.11b
- /
- pp.43-45
- /
- 2005
최근 시맨틱 웹에 대한 관심이 증가하면서 W3C표준으로 규정된 시맨틱 웹 온톨로지 언어(RDF, RDFS, OWL 등) 기반의 관련 기술에 대한 연구가 활발히 진행되고 일다. 그 중에서 시맨틱 웹 온톨로지 언어로 기술된 문서의 저장, 관리, 질의처리 기법에 대한 연구가 주목을 받고 있다. 이에 본 논문에서는 온톨로지 데이터에 대한 표준 질의 언어인 RDQL 을 기반으로 RDQL 질의를 효율적으로 처리하는 고성능 RDQL 질의 처리 엔진을 개발한다. 본 논문에서 제안하는 RDQL 질의 처리 엔진은 RDQL 질의를 대응하는 SQL 질의로 변환함으로써 기존의 관계형 데이터베이스 질의 처리 엔진(SQL 질의 처리 엔진)을 그대로 사용할 수 있다. 이 과정에서 메모리 사용량과 데이터베이스 접근을 최소화하는 고성능 RDQL 질의 처리 엔진을 개발한다. 궁극적으로 이러한 RDQL 질의 처리는 실시간 처리가 요구되는 로봇 환경뿐만 아니라 시맨틱 웹 애플리케이션에서 널리 활용될 수 있다.
PDF

Specification of S/Key System Using Object-Oriented Fo Specification Language (객체 지향 정형 명세 언어를 사용한 S/Key 시스템 명세)

유희준;최진영;노병규
- Proceedings of the Korean Information Science Society Conference
- /
- 2001.04a
- /
- pp.778-780
- /
- 2001
컴퓨터 기술의 발전으로 정보화 시대를 맞이한 현대에 있어서 “보안 기능의 정형화 설계 방법 연구”는 정보 보호와 완벽한 보안 때문에 매우 중요하다. 이러한 추세에서 전 세계적으로 보안 시스템에 대한 등급을 나누고 있고, 국내에서도 한국정보보호센터에서 침입차단시스템에 대해 K1에서 K7까지의 등급을 매기고 있다. 이 등급을 살펴보면 정형 언어를 사용하여 시스템 명세를 수행하여야만 K5이상의 고 등급을 획득할 수 있다. 또한 최근에 들어서 소프트웨어 개발 방법에 객체지향 방법론이 많이 사용되고 있는 시점에서 이러한 방법론으로 개발되는 시스템에 대한 정형적인 설계방법이 필요하다. 본 논문은 실제 간단한 규모의 보안 시스템 설계에 직접 적용될 수 있는 수준의 정형기법을 제시하는 것을 목표로 한다. 여기서는 passive attack에 대해 사용자의 패스워드를 보호하기 위한 간단한 스킴이 S/KEY 인증 시스템에 객체지향 정형명세언어인 ZEST와 UML을적용해 본 결과를 기반으로 보안 시스템을 정형 명세한 경험을 기술한다.
PDF

Gender Bias Mitigation in Gender Prediction Using Zero-shot Classification (제로샷 분류를 활용한 성별 편향 완화 성별 예측 방법)

Yeonhee Kim;Byoungju Choi;Jongkil Kim
- Proceedings of the Korea Information Processing Society Conference
- /
- 2024.05a
- /
- pp.509-512
- /
- 2024
자연어 처리 기술은 인간 언어의 이해와 처리에서 큰 진전을 이루었으나, 학습 데이터에 내재한 성별 편향이 모델의 예측 정확도와 신뢰성을 저하하는 주요한 문제로 남아 있다. 특히 성별 예측에서 이러한 편향은 더욱 두드러진다. 제로샷 분류 기법은 기존에 학습되지 않은 새로운 클래스를 효과적으로 예측할 수 있는 기술로, 학습 데이터의 제한적인 의존성을 극복하고 다양한 언어 및 데이터 제한 상황에서도 효율적으로 작동한다. 본 논문은 성별 클래스 확장과 데이터 구조 개선을 통해 성별 편향을 최소화한 새로운 데이터셋을 구축하고, 이를 제로샷 분류 기법을 통해 학습시켜 성별 편향성이 완화된 새로운 성별 예측 모델을 제안한다. 이 연구는 다양한 언어로 구성된 자연어 데이터를 추가 학습하여 성별 예측에 최적화된 모델을 개발하고, 제한된 데이터 환경에서도 모델의 유연성과 범용성을 입증한다.
https://doi.org/10.3745/PKIPS.y2024m05a.509 인용 PDF

The Computational Extraction of Semantic Hierarchies for Korean Adjectives (한국어 형용사 의미계층의 전산적 추출)

Song, Sang-Houn;Choe, Jae-Woong
- Annual Conference on Human and Language Technology
- /
- 2006.10e
- /
- pp.109-116
- /
- 2006
자연 언어의 각 어휘는 서로 관계를 가지고 계층적 입체적 모델로 존재한다. 이러한 전제에서 출발한 연구 가운데 대표적인 것이 의미 계층이다. 본고에서는 한국어 형용사의 의미 계층을 추출하는 것을 목표로 하여, 형식적 객관적 방법론을 정립하고, 결과를 비교적 신속하고 정확하게 이끌어 낼 수 있는 전산적 처리 도입하였다. 우선 전체 구축에 필요한 절차를 세우고 각 단계에서 필요한 방법과 휴리스틱을 정리하였다. 이를 바탕으로 사전 뜻풀이말을 이용하여 반자동으로 작업하였으며, 일부 코퍼스를 활용하였다 최종 알고리즘으로는 Top-Down 방식을 택하였다. 이렇게 추출된 한국어 형용사 의미 계층은 226개의 최상위어에서 시작하여 총 3,792개의 표제어를 망라한다. 또한 수직적 계열 관계만을 명시했을 경우 나타날 수 있는 한계를 보완하기 위해, 동의어 반의어와 같은 수평적 의미 관계와 공기 명사와 같은 결합 관계 등을 함께 기술하였다. 한편 표제항을 뜻풀이말의 공기 명사를 이용하여 의미별로 분류하고 각 분류마다 별도의 의미 계층을 수립하였다.
PDF

A Design and Implementation of the Unit Testing Tool based on a XML Test Script (XML 테스트 스크립트 기반 단위 테스팅 도구의 설계 및 구현)

Kim, Jae-Hyun;Cho, Yong-Yoon;Yoo, Chae-Woo
- Proceedings of the Korean Information Science Society Conference
- /
- 2005.07b
- /
- pp.316-318
- /
- 2005
소프트웨어 개발 생산성물 높이고 신뢰성 있는 프로그램을 개발하기 위하여 수많은 테스트 기법 및 도구들이 연구되고 있다. 본 논문은 효율적인 소프트웨어의 단위 테스팅을 위해 XML 기반의 테스트 스크립트 언어를 설계하고 테스팅 도구를 제안한다. 제안하는 테스팅 도구는 테스트 대상 소스를 기반으로 테스트 스크립트를 생성해주는 테스트 스크립트 생성기와 테스트 스크립트를 대상 언어로 작성된 테스트 드라이버로 변환해 주는 테스트 드라이버 변환기를 제공함으로서 보다 간편한 테스트 환경을 제공한다. 테스트 스크립트를 XML 형태로 기술함으로서 개발자들은 새로운 스크립트 언어의 학습이 불필요하며 대상 언어에 독립적인 테스트 스크립트를 작성 할 수 있다. 또한 테스트 실행 후 테스트 평가 결과를 XML로 제공함으로서 다양한 형태의 리포트 뷰(View)를 가능하게 한다. 본 XML 기반의 테스트 스크립트 언어와 테스팅 도구는 프로그래밍 언어에 독립적인 부분과 종속적인 부분을 분리하여 여러 가지 프로그래밍 언어의 단위 테스트 환경을 하나로 통합 할 수 있게 해주어 관련 소프트웨어 테스팅 분야의 발전에 크게 기여할 것으로 기대된다.
PDF

Automatic Evaluation of Speech and Machine Translation Systems by Linguistic Test Points (자동통번역 시스템의 언어 현상별 자동 평가)

Choi, Sung-Kwon;Choi, Gyu-Hyun;Kim, Young-Gil
- Proceedings of the Korea Information Processing Society Conference
- /
- 2019.10a
- /
- pp.1041-1044
- /
- 2019
자동통번역의 성능을 평가하는데 가장 잘 알려진 자동평가 기술은 BLEU이다. 그러나 BLEU로는 자동통번역 결과의 어느 부분이 강점이고 약점인지를 파악할 수 없다. 본 논문에서는 자동통번역 시스템의 언어 현상별 자동평가 방법을 소개하고자 한다. 언어 현상별 자동평가 방법은 BLEU가 제시하지 못하는 언어 현상별 자동평가가 가능하며 개발자로 하여금 해당 자동통번역 시스템의 언어 현상별 강점과 약점을 직관적으로 파악할 수 있도록 한다. 언어 현상별 정확도 측정은 Google 과 Naver Papago 를 대상으로 실시하였다. 정확률이 40%이하를 약점이라고 간주할 때, Google 영한 자동번역기의 약점은 스타일(32.50%)번역이었으며, Google 영한 자동통역기의 약점은 음성(30.00%)인식, 담화(30.00%)처리였다. Google 한영 자동번역기 약점은 구문(34.00%)분석, 모호성(27.50%)해소, 스타일(20.00%)번역이었으며, Google 한영 자동통역기 약점은 담화(30.00%)처리였다. Papago 영한 자동번역기는 대부분 정확률이 55% 이상이었으며 Papago 영한 자동통역기의 약점은 담화(30.00%)처리였다. 또한 Papago 한영 자동번역기의 약점은 구문(38.00%)분석, 모호성(32.50%)해소, 스타일(20.00%)번역이었으며, Google 한영 자동통역기 약점은 담화(20.00%)처리였다. 언어 현상별 자동평가의 궁극적인 목표는 자동통번역기의 다양한 약점을 찾아내어 약점과 관련된 targeted corpus 를 반자동 수집 및 구축하고 재학습을 하여 자동통번역기의 성능을 점증적으로 향상시키는 것이다.
https://doi.org/10.3745/PKIPS.y2019m10a.1041 인용 PDF

Search Result 1,984, Processing Time 0.031 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)