• 제목/요약/키워드: syntax analysis

검색결과 309건 처리시간 0.025초

Hate Speech Detection Using Modified Principal Component Analysis and Enhanced Convolution Neural Network on Twitter Dataset

  • Majed, Alowaidi
    • International Journal of Computer Science & Network Security
    • /
    • 제23권1호
    • /
    • pp.112-119
    • /
    • 2023
  • Traditionally used for networking computers and communications, the Internet has been evolving from the beginning. Internet is the backbone for many things on the web including social media. The concept of social networking which started in the early 1990s has also been growing with the internet. Social Networking Sites (SNSs) sprung and stayed back to an important element of internet usage mainly due to the services or provisions they allow on the web. Twitter and Facebook have become the primary means by which most individuals keep in touch with others and carry on substantive conversations. These sites allow the posting of photos, videos and support audio and video storage on the sites which can be shared amongst users. Although an attractive option, these provisions have also culminated in issues for these sites like posting offensive material. Though not always, users of SNSs have their share in promoting hate by their words or speeches which is difficult to be curtailed after being uploaded in the media. Hence, this article outlines a process for extracting user reviews from the Twitter corpus in order to identify instances of hate speech. Through the use of MPCA (Modified Principal Component Analysis) and ECNN, we are able to identify instances of hate speech in the text (Enhanced Convolutional Neural Network). With the use of NLP, a fully autonomous system for assessing syntax and meaning can be established (NLP). There is a strong emphasis on pre-processing, feature extraction, and classification. Cleansing the text by removing extra spaces, punctuation, and stop words is what normalization is all about. In the process of extracting features, these features that have already been processed are used. During the feature extraction process, the MPCA algorithm is used. It takes a set of related features and pulls out the ones that tell us the most about the dataset we give itThe proposed categorization method is then put forth as a means of detecting instances of hate speech or abusive language. It is argued that ECNN is superior to other methods for identifying hateful content online. It can take in massive amounts of data and quickly return accurate results, especially for larger datasets. As a result, the proposed MPCA+ECNN algorithm improves not only the F-measure values, but also the accuracy, precision, and recall.

한국어의 양태 표현 교육 연구 : 한국어 '-(으)ㄹ 수 있다'와 중국어 '능(能)'의 대조를 중심으로 (A Study on the Teaching and Learning of Korean Modality Expressions)

  • 강비
    • 한국교육논총
    • /
    • 제40권1호
    • /
    • pp.17-42
    • /
    • 2019
  • 양태는 화자의 심리적 태도이다. 언어마다 사용된 문장은 양태를 포함한다고 할 수 있다. 전통적으로 양태는 인식양태와 의무양태로 분류할 수 있다. 본 연구는 한국어 양태 이론을 개관하고 이를 토대로 양태의 개념과 하위분류를 선정하였다. 아울러 본격적인 양태 표현의 의미, 기능 대조를 위해 한국어와 중국어의 양태 실현 양상을 밝혔다. 또한, 한국어의 양태 표현 '-(으)ㄹ 수 있다'와 이에 대응되는 중국어의 양태 조동사 '능(能)'을 통사적, 의미적, 화용적 측면에서 대조 분석하고 이를 바탕으로 양태 표현의 효과적인 교수·학습 방안을 마련하는 것을 목적으로 한다. 한국어 양태 표현은 화자의 주관적 태도를 나타내는 문법 요소로서 한국어 교재에서 매우 중요하게 다루고 있으며 많은 문법 항목이 이 양태에 속한다. 한국어의 양태 표현은 유사점이 많고 의미와 기능이 다양하기 때문에 중국인 학습자들이 학습했더라도 사용하기 어려운 문법이다. 따라서 본고는 대조 분석을 통해 중국인 학습자를 위한 효과적인 교수·학습 방안을 제시하고, 이를 활용한 한국어 양태 표현의 실제 교수·학습 모형을 구안하였다. 따라서 한국어 교육에서 양태 표현의 문법 교육 내용을 구성하는 데 도움이 될 것으로 기대한다.

  • PDF

한국어 서사 텍스트 처리의 다중 표상과 구성 통합 이론: 주제어 연속성에 대한 양태 어미의 형태 통사적, 담화 화용적 기능 (A Multi-level Representation of the Korean Narrative Text Processing and Construction-Integration Theory: Morpho- syntactic and Discourse-Pragmatic Effects of Verb Modality on Topic Continuity)

  • 조숙환;김세영
    • 인지과학
    • /
    • 제17권2호
    • /
    • pp.103-118
    • /
    • 2006
  • 본 논문은 구성 통합 이론(Kintsch, 1988, Singer & Kintsch 2001, Graesser, Gernsbacher, & Goldman, 2003)을 토대로 주제어 연속성의 강도와 양태 어미 단서가 이야기 서사 텍스트에 쓰인 공주어 해석에 어떻게 이용되는지 검토했다. 실험 연구에는 명시적 조건과 중립적 조건 등 두 조건이 생성되었는데, 명시적 조건에는, 중립적 조건과는 달리, 주제어가 일관성 있게 유지되었고 또한 동사 어미의 형태 통사적 특징이 인칭과 일치되었다. 이 실험에는 59명의 대학생들이 다음 세 가지 과제에 참여했다. 실험은 첫째, 주어가 생략된 경우 피험자가 시험 문장(target sentence)을 읽는데 소요되는 시간을 측정했고, 둘째, 공주어의 해석, 즉, 선행사 (참조대상) 선택에 소요되는 반응 시간을 측정했으며, 셋째, 선행사 선정의 정답율을 분석했다. 실험 결과, 텍스트 처리과정에서 인칭과 같은 형태 통사적 조건이 유의미한 결과를 낳았으며, 또한, 주제어 연속성 조건의 효과가 형태 통사 조건에 따라 선택적인 양상을 보였다. 즉, 주제어가 지속적으로 연결되는 동안 화용적 맥락, 담화자의 사전 정보, 추론 등과 같은 총체적 정보와 주어, 동사 어미의 인칭과 같은 어휘적, 지엽적인 형태 통사적인 정보가 선행사 해석에 핵심적인 역할을 했다. 따라서, 이 실험 결과는 최소주의 가설 보다 공명 기반 모델을 지지한다.

  • PDF

자전거 도로의 물리적 환경에 대한 등급화 연구 -창원시 사례를 중심으로- (Classification Analysis of the Physical Environment of Bicycle Road -Focused on Chang Won City, Kyung Nam Province, S. Korea-)

  • 문호경;김동필;최송현;권진오
    • 한국환경생태학회지
    • /
    • 제28권3호
    • /
    • pp.365-373
    • /
    • 2014
  • 본 연구는 자전거도로 시스템이 활성화되어 있는 창원시를 대상으로 자전거 도로의 물리적 환경에 대한 공간 데이터를 구축하여 자전거도로 환경을 분석하고자 하였다. 물리적 환경을 평가하기 위한 지표는 문헌분석을 통하여 도출하였으며 각 평가 지표의 중요도 평가 및 가중치 설정을 위하여 전문가조사를 실시하였다. 최종적으로 도출된 8개의 물리적 환경 평가지표를 활용하여 현장 조사를 실시하였으며 수집된 자료는 ArcGIS Program을 이용하여 등급화 하였다. 평가지표별로 높은 점수를 획득한 구간의 면적비율은 녹시율(40%이상, 9.3%), 연결성(1.8이상, 9.8%), 자전거도로 유형(자전거 전용도로, 25.4%), 포장유형(아스팔트, 72.5%), 불법주차(무, 93.9%), 노면표시(유, 46.8%), 제한속도(30km 이하, 48.5%), 교통량(500/hr 이하, 44.3%)으로 나타났다. 8개의 평가지표를 중첩한 결과 1등급의 구간은 31-35점으로 대상지의 전체 도로 면적에서 12.4%로 나타났으며 득점요인은 도로의 유형과 녹시율로 나타났다. 또한 평균 녹시율이 35% 이상으로 나타나 자전거 이용에 있어 안전성과 쾌적성이 높은 것으로 분석되었다. 15점 미만을 획득한 5등급 구간의 경우 전체 도로면적의 24.5%를 차지하며 주요 요인은 불법 주정차, 노면표시 미비, 낮은 녹시율로 나타났다.

A Study on the Improvement Scheme of University's Software Education

  • Lee, Won Joo
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권3호
    • /
    • pp.243-250
    • /
    • 2020
  • 본 논문에서는 대학의 효과적인 SW교육 방법을 제안한다. 해외 Top 10 대학과 SW중심대학, 거점 국립대학의 SW교육과정을 비교 분석하고, 그 결과를 기반으로 대학의 효과적인 SW교육 방법을 위해 5가지 개선할 점을 제안한다. 첫째는 교육과정 개발과정에서 SW 개발자의 직무 분석을 기반으로 교과목을 개발함으로써 산업체 현장 적응력을 높이는 것이다. 둘째는 4차 산업혁명 핵심기술(클라우드컴퓨팅, 빅데이터, 가상/증강현실, 사물인터넷 등)의 교과목을 강화하여 의료, 바이오, 센서, 인간, 인지과학 등의 다양한 분야와 융합하는 것이 필요하다. 셋째는 프로그래밍 언어 교육은 기본적인 문법 교육 후, SW융합 교과목에 포함하여 다양한 분야의 프로젝트를 구현해 보도록 해야 한다. 또한, 응용프로그램 개발자보다는 시스템프로그래밍 개발자, Back-End(서버단) 개발자 양성을 위한 교과목을 강화해야 한다. 넷째는 Product 기반의 자기 주도적 학습이 가능한 캡스톤디자인, 종합설계 등의 교과목을 강화하여 산업체 프로젝트에 참여할 기회를 제공한다. 다섯째는 지역 기반의 산업체 현장에서 기술을 습득할 수 있는 인턴십 또는 산학연계 프로그램을 강화함으로써 각 지역산업 기반의 대학 특성화 교육과정 개발이 필요하다.

XML-GDM을 기반으로 한 UML 클래스 다이어그램으로 사상을 위한 XML문서와 질의의 객체 모델링 (Object Modeling for Mapping from XML Document and Query to UML Class Diagram based on XML-GDM)

  • 박대현;김용성
    • 정보처리학회논문지D
    • /
    • 제17D권2호
    • /
    • pp.129-146
    • /
    • 2010
  • 최근 다양한 분야에서 폭넓게 활용되고 있는 XML 문서는 유연하고도 개방적인 특성으로 인해 정보교환이나 전송을 위한 수단으로 널리 이용되고 있다. 한편 XML 문서를 위한 시각적, 직관적 질의 언어인 XML-GL은 질의에 대한 의미와 결과 문서의 구조를 시각적으로 표현할 수 있기 때문에 XML 문서에 대한 구조 검색과 정보의 공유가 용이하다. 그리고 UML은 정해진 표기법과 다양한 다이어그램을 이용하여 객체지향 분석과 설계를 위한 도구로 사용되고 있다. 따라서 본 논문은 XML-GL의 데이터 모델인 XML-GDM을 기반으로 표현된 XML 문서를 UML 클래스 다이어그램으로 사상하기 위한 새로운 객체 모델링 방안을 제안한다. 이를 통해서 XML 문서를 직관적인 방법으로 객체지향데이터로 변환하고 저장/관리할 수 있다. 또한 객체지향 검색방법을 적용하면 보다 효율적으로 XML 문서를 검색할 수가 있다.

한국과 일본의 교육기본법 비교분석 (A Comparative Study on the Fundamental Act of Education in Korea and Japan)

  • 정기오
    • 비교교육연구
    • /
    • 제28권3호
    • /
    • pp.161-183
    • /
    • 2018
  • 이 논문은 1997년 한국교육기본법과 2006 전면개정 일본교육기본법을 비교 교육 비교법 측면에서 비교분석한다. 두 법률을 그 문장론, 법개념과 법리, 교육철학과 교육풍토의 세 측면에서 비교하였다. 이러한 비교분석의 결과 다음과 같은 한 일 약국 교육기본법의 특징을 도출하고 있다. 첫째, 한국교육기본법은 교육당사자들을 권리 권능의 주체로 명시하나 일본교육기본법은 권리 권능의 주체에 대해 불분명하다. 둘째, 한국교육기본법은 시민적 권리와 법질서를 지향하나 일본교육기본법은 공법적 질서를 지향한다. 셋째, 한국교육기본법은 당사자주의 일본교육기본법은 직권주의를 지향한다. 넷째, 한국교육기본법은 교사수권 교육과정을 지향하나 일본교육기본법은 행정수권교육과 정을 지향한다. 다섯째, 학교의 공공성을 한국교육기본법은 공식교육과정으로 예상하나 일본교육기본법은 국가독점성으로 상정한다. 여섯째, 한국교육기본법은 교직 전문직관에 기초해 있으나 일본교육기본법은 교직 성직관에 입각해 있다. 일곱째, 한국교육기본법은 종교적으로 세속화된 교육을 지향하나 일본교육기본법은 일본 전통종교와 조화된 교육을 지향한다. 여덟째, 한국교육기본법은 발전도상 시기의 발전교육관을 유지하고 있으나 일본교육기본법은 지속가능발전교육을 강조한다. 종합적으로 볼 때 한국교육기본법은 시민적 교육법제를 위한 기본법을 지향하며 일본교육기본법 공법적 교육법제를 지향하고 있다.

다국어 범용 의존관계 주석체계(Universal Dependencies) 적용 연구 - 한국어와 일본어의 비교를 중심으로 (A Case Study on Universal Dependency Tagsets)

  • 한지윤;이진;이찬영;김한샘
    • 비교문화연구
    • /
    • 제53권
    • /
    • pp.163-192
    • /
    • 2018
  • 이 논문은 형태통사적 특성이 유사한 한국어와 일본어의 다국어 범용 의존관계 주석체계(Universal Dependencies, 이하 UD) 적용 사례를 살펴보고 비교 분석을 통해서 한국어의 UD 적용 및 개선 방안을 고찰하는 것을 목적으로 한다. 한국어와 일본어는 교착어적 특성으로 인하여 어미와 조사가 매우 발달되어 있다. 그러므로 영어와 같은 굴절어를 중심으로 설계된 UD를 적용하는 데에 많은 어려움이 있다. 이에 본고에서는 UD를 구성하는 범용 품사 주석(Universal POS, 이하 UPOS)과 범용 의존관계 주석(Universal Dependency Relations, 이하 DEPREL)의 적용과 그에 따른 논의들을 검토하였다. UPOS의 경우 AUX(조동사 표지), ADJ(형용사 표지), VERB(동사 표지)처럼 서술어와 관련된 주석 표지의 처리와 조사, 어미와 같은 기능어의 처리 방안을 살펴보았으며 접속사 및 이와 관련된 단위를 어떻게 처리하고 있는지 검토하였다. DEPREL과 관련해서는, 구문 표지를 주석하는 기본 단위의 문제에서 출발하여 통사적 문제를 어떻게 반영하고 있는지 살펴보았다. 지배소 설정 방식과 병렬 구조의 주석 방식, case(격 관계 표지)와 aux(조동사 관계 표지) 주석 방식을 검토하였다. 다양한 관계 주석 표지 중에서 특히 case와 aux에 집중하여 논의한 것은 한국어와의 주석 표지 적용 양상을 비교했을 때 분포 상 가장 두드러지는 차이를 나타내기 때문이다. case는 한국어와 일본어 모두 조사와 관련이 있고, aux는 한국어에서는 보조용언, 일본어에서는 조동사와 관련이 있는 표지이다. 구체적인 주석 양상을 살펴본 결과 일본어의 aux는 서법 조동사뿐만 아니라 동사에 문법적 의미를 더하는 요소, 한국어의 어미에 해당하는 형태에도 aux를 할당하기 때문에 주석이 차지하는 비율이 크게 차이가 나는 것으로 밝혀졌다. iobj(간접목적어 관계 표지)와 관련해서는 일본어에서 간접목적어를 인정하는 데에 반해 한국어에서는 간접목적어를 인정하지 않는 경우가 더 많았다. 일본어의 UD 주석에서 형태 분석 기본 단위인 '단단위'를 기본 구문 주석 단위로 하되 '장단위'와 문절 정보를 이용하는 것처럼, 한국어에서도 형태 분석 단위를 의존관계 주석의 정보로 활용하는 방안에 대해서 고려할 필요가 있다.

의존 구문 분석을 이용한 질의 기반 정답 추출 (Query-based Answer Extraction using Korean Dependency Parsing)

  • 이도경;김민태;김우주
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.161-177
    • /
    • 2019
  • 질의응답 시스템은 크게 사용자의 질의를 분석하는 방법인 질의 분석과 문서 내에서 적합한 정답을 추출하는 방법인 정답 추출로 이루어지며, 두 방법에 대한 다양한 연구들이 진행되고 있다. 본 연구에서는 문장의 의존 구문 분석 결과를 이용하여 질의응답 시스템 내 정답 추출의 성능 향상을 위한 연구를 진행한다. 정답 추출의 성능을 높이기 위해서는 문장의 문법적인 정보를 정확하게 반영할 필요가 있다. 한국어의 경우 어순 구조가 자유롭고 문장의 구성 성분 생략이 빈번하기 때문에 의존 문법에 기반한 의존 구문 분석이 적합하다. 기존에 의존 구문 분석을 질의응답 시스템에 반영했던 연구들은 구문 관계 정보나 구문 형식의 유사도를 정의하는 메트릭을 사전에 정의해야 한다는 한계점이 있었다. 또 문장의 의존 구문 분석 결과를 트리 형태로 표현한 후 트리 편집 거리를 계산하여 문장의 유사도를 계산한 연구도 있었는데 이는 알고리즘의 연산량이 크다는 한계점이 존재한다. 본 연구에서는 구문 패턴에 대한 정보를 사전에 정의하지 않고 정답 후보 문장을 그래프로 나타낸 후 그래프 정보를 효과적으로 반영할 수 있는 Graph2Vec을 활용하여 입력 자질을 생성하였고, 이를 정답 추출모델의 입력에 추가하여 정답 추출 성능 개선을 시도하였다. 의존 그래프를 생성하는 단계에서 의존 관계의 방향성 고려 여부와 노드 간 최대 경로의 길이를 다양하게 설정하며 자질을 생성하였고, 각각의 경우에 따른 정답추출 성능을 비교하였다. 본 연구에서는 정답 후보 문장들의 신뢰성을 위하여 웹 검색 소스를 한국어 위키백과, 네이버 지식백과, 네이버 뉴스로 제한하여 해당 문서에서 기존의 정답 추출 모델보다 성능이 향상함을 입증하였다. 본 연구의 실험을 통하여 의존 구문 분석 결과로 생성한 자질이 정답 추출 시스템 성능 향상에 기여한다는 것을 확인하였고 해당 자질을 정답 추출 시스템뿐만 아니라 감성 분석이나 개체명 인식과 같은 다양한 자연어 처리 분야에 활용 될 수 있을 것으로 기대한다.