• 제목/요약/키워드: Analysis Lexical Meaning

검색결과 19건 처리시간 0.021초

문서의 의미론적 분석에 기반한 키워드 추출에 관한 연구 (A Study on Keywords Extraction based on Semantic Analysis of Document)

  • 송민규;배일주;이수홍;박지형
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2007년도 추계학술대회
    • /
    • pp.586-591
    • /
    • 2007
  • 지식 관리 시스템, 정보 검색 시스템, 그리고 전자 도서관 시스템 등의 문서를 다루는 시스템에서는 문서의 구조화 및 문서의 저장이 필요하다. 문서에 담겨있는 정보를 추출하기 위해 가장 우선시되어야 하는 것은 키워드의 선별이다. 기존 연구에서 가장 널리 사용된 알고리즘은 단어의 사용 빈도를 체크하는 TF(Term Frequency)와 IDF(Inverted Document Frequency)를 활용하는 TF-IDF 방법이다. 그러나 TF-IDF 방법은 문서의 의미를 반영하지 못하는 한계가 존재한다. 이를 보완하기 위하여 본 연구에서는 세 가지 방법을 활용한다. 첫 번째는 문헌 속에서의 단어의 위치 및 서론, 결론 등의 특정 부분에 사용된 단어의 활용도를 체크하는 문헌구조적 기법이고, 두 번째는 강조 표현, 비교 표현 등의 특정 사용 문구를 통제 어휘로 지정하여 활용하는 방법이다. 마지막으로 어휘의 사전적 의미를 분석하여 이를 메타데이터로 활용하는 방법인 언어학적 기법이 해당된다. 이를 통하여 키워드 추출 과정에서 문서의 의미 분석도 수행하여 키워드 추출의 효율을 높일 수 있다.

  • PDF

한국 초등학교 가정통신문의 어휘 특성 연구 -부산·울산·경남 지역을 중심으로- (Analysis on Vocabulary Used in School Newsletters of Korean elementary Schools: Focus on the areas of Busan, Ulsan and Gyeongnam)

  • 강현주
    • 한국어교육
    • /
    • 제29권2호
    • /
    • pp.1-23
    • /
    • 2018
  • This study aims to analyze words and phrases which are frequently used in newsletters from Korean elementary schools. In order to achieve this goal, high frequent words from school newsletters were selected and classified into content and function words, and the domains of the words were looked up. For this study 1,000 school newsletters were collected in the areas of Busan, Ulsan and Gyeongnam. In terms of parts of speech, nouns, especially common nouns, most frequently appeared in the school newsletters followed by verbs and adjectives. This result shows that for immigrant women who have basic knowledge on Korean language, it is useful to give translated words to get the message of school letters. Furthermore, school related terms such as facilities, regulations and activities of school and Chinese-based vocabularies are found in school newsletters. In case of verbs, the words which contain the meaning of requests and suggestions are used the most. Adjectives which are related to positive value and evaluation, and describing weather and season is frequently used as well.

영한 기계번역의 자연어 생성 연구 (A Study on the Natural Language Generation by Machine Translation)

  • 홍성룡
    • 디지털콘텐츠학회 논문지
    • /
    • 제6권1호
    • /
    • pp.89-94
    • /
    • 2005
  • 기계번역에서 자연어 생성의 목적은 입력언어의 어구 분석을 이용하여 그 문장의 의미를 변환해주는 목적 언어를 생성하는 것이다. 그것은 언어적 구조 낱말 전사. 대화체 언어, 어휘적 정보 등을 포함해야 한다. 본 연구에서는 대화체 자동 기계번역 시스템 구현계획의 일부인 음성, 음운 분야에서 담당하게 될 음성인식과 음성합성 알고리듬을 확립하기 위한 한국어 특질에 대한 기초조사를 하고자 한다. 또한 기계번역의 단계를 분석하여 형태소 분석 단계와 구문 분석 단계, 의미 분석 단계로 구분한다. 형태소 분석은 입력 문장을 받아 분리된 형태소를 사전 내에서 검색하여·품사 정보를 얻고 이웃하는 단어와의 접속 관계가 문법적으로 올바르게 되었는지를 점검한다. 본 연구의 결과가 대화체 기계번역 시스템 구현계획의 종합적 입장에서는 단순한 기초조사일 수 있지만, 한국어의 교육 및 기계번역 이해의 측면에서는 그 자체로 가치를 지닌다고 할 수 있겠다. 따라서 교육적 측면에서의 직접적 활용을 여러 측면에서 고려할 수 있을 것이다.

  • PDF

Word2Vec과 WordNet 기반 불확실성 단어 간의 네트워크 분석에 관한 연구 (Network Analysis between Uncertainty Words based on Word2Vec and WordNet)

  • 허고은
    • 한국문헌정보학회지
    • /
    • 제53권3호
    • /
    • pp.247-271
    • /
    • 2019
  • 과학에서 지식의 불확실성은 명제가 현재 상태로는 참도 거짓도 아닌 불확실한 상태를 의미한다. 기존의 연구들은 학술 문헌에 표현된 명제를 분석하여 불확실성을 의미하는 단어를 수동적으로 구축하고 구축한 코퍼스를 대상으로 규칙 기반, 기계 학습 기반의 성능평가를 수행해왔다. 불확실성 단어 구축의 중요성은 인지하고 있지만 단어의 의미를 분석하여 자동적으로 확장하고자 하는 시도들은 부족했다. 한편, 계량정보학이나 텍스트 마이닝 기법을 이용하여 네트워크의 구조를 파악하는 연구들은 다양한 학문분야에서 지적 구조와 관계성을 파악하기 위한 방법으로 널리 활용되고 있다. 따라서, 본 연구에서는 기존의 불확실성 단어를 대상으로 Word2Vec을 적용하여 의미적 관계성을 분석하였고, 영어 어휘 데이터베이스이자 시소러스인 WordNet을 적용하여 불확실성 단어와 연결된 상위어, 하위어 관계와 동의어 기반 네트워크 분석을 수행하였다. 이를 통해 불확실성 단어의 의미적, 어휘적 관계성을 구조적으로 파악하였으며, 향후 불확실성 단어의 자동 구축의 확장 가능성을 제시하였다.

한·중 피동 표현 대조 연구 - 한국어 행위주 표지와 중국어 피동 표지 대비 중심으로 - (A Contrastive Study on Korean and Chinese Passive Expression: Centered on Korean Act Subject Marks and Chinese Passive Marks)

  • 우동동;김인균
    • 비교문화연구
    • /
    • 제47권
    • /
    • pp.217-240
    • /
    • 2017
  • 본고는 피동 표현에서의 한국어 행위주 표지 '-에게(한테)', '-에, -로'와 중국어 피동 표지 '피(被)[$b{\grave{e}}i$]/양(?)[$r{\grave{a}}ng$]/규(叫)[$ji{\grave{a}}o$]/급(?)[$g{\check{e}}i$]'를 연구 대상으로 삼아 그 분포양상 및 특징을 살피고 이들 형태를 비교 대조를 통하여 그 대응 관계를 면밀히 고찰해 보고자 하였다. 대조 분석 시 두 언어의 유형적 특징, 피동 표현에서의 행위주, 피동주에 대한 선택 제약, 그리고 '받다'류 피동 표현에서 행위주(피동) 표지의 사용 제약과 같은 3가지 측면에 중점을 두었다. 본 대조 분석을 통해 확인한바, 한 중 피동 표현에서 한국어 행위주 표지 '-에게(한테)', '-에, -로'와 중국어 피동 표지 '피(被)/양(?)/규(叫)/급(?)'는 각각 행위주와 결합하여 부사어 역할을 하고 있는 공통점에도 불구하고 용법에 있어 차이점을 보였다. 먼저 두 언어 유형적 특징에 따라 피동 표현에서 행위주와의 결합 방식이 각각 달리 나타남을 확인하였다. 그리고 한국어 행위주 표지는 오로지 조사 역할을 하여 '행위주 유정성 유무'에 대한 제약만 받는 반면, 중국어 피동 표지 '피(被)/양(?)/규(叫)/급(?)'는 각각 문법화 정도에 따라 행위주 유무뿐만 아니라 피동주 유정성 유무 그리고 문장에 나타나는 어휘의 의미에 따른 제약 등을 보인다. 특히 한국어 '받다'류 피동 표현에서 한국어의 행위주 표지 '에게(한테), -에, -로'는 그대로 사용되지만 대응하는 중국어에서는 피동 표지 사용에 여러 제약이 있음을 확인하였다.

Out-of-Vocabulary 단어에 강건한 병렬 Tri-LSTM 문장 임베딩을 이용한 감정분석 (Sentiment Analysis using Robust Parallel Tri-LSTM Sentence Embedding in Out-of-Vocabulary Word)

  • 이현영;강승식
    • 스마트미디어저널
    • /
    • 제10권1호
    • /
    • pp.16-24
    • /
    • 2021
  • word2vec 등 기존의 단어 임베딩 기법은 원시 말뭉치에 출현한 단어들만을 대상으로 각 단어를 다차원 실수 벡터 공간에 고정된 길이의 벡터로 표현하기 때문에 형태론적으로 풍부한 표현체계를 가진 언어에 대한 단어 임베딩 기법에서는 말뭉치에 출현하지 않은 단어들에 대한 단어 벡터를 표현할 때 OOV(out-of-vocabulary) 문제가 빈번하게 발생한다. 문장을 구성하는 단어 벡터들로부터 문장 벡터를 구성하는 문장 임베딩의 경우에도 OOV 단어가 포함되었을 때 문장 벡터를 정교하게 구성하지 못하는 문제점이 있다. 특히, 교착어인 한국어는 어휘형태소와 문법형태소가 결합되는 형태론적 특성 때문에 미등록어의 임베딩 기법은 성능 향상의 중요한 요인이다. 본 연구에서는 단어의 형태학적인 정보를 이용하는 방식을 문장 수준으로 확장하고 OOV 단어 문제에 강건한 병렬 Tri-LSTM 문장 임베딩을 제안한다. 한국어 감정 분석 말뭉치에 대해 성능 평가를 수행한 결과 한국어 문장 임베딩을 위한 임베딩 단위는 형태소 단위보다 문자 단위가 우수한 성능을 보였으며, 병렬 양방향 Tri-LSTM 문장 인코더는 86.17%의 감정 분석 정확도를 달성하였다.

사랑과 정의, 양립 가능한가 - 폴 리쾨르 이론을 중심으로 - (Love and Justice are Compatible ? - In Theory of Paul Ricœur)

  • 이경래
    • 비교문화연구
    • /
    • 제52권
    • /
    • pp.53-78
    • /
    • 2018
  • 서구의 도덕 문화에서 사랑과 정의는 고대로부터 내려온 두드러진 두 개의 명령이다. 하나는 헤브라이즘의 유산이고, 다른 하나는 헤브라이즘과 헬레니즘의 전통에 속한다. 그만큼 두 개념은 인간 공동체 사회를 안정되게 유지하는 데 필요한 가장 중요한 덕목이자 개념이다. 그런데 서로 배타적 관계로 보이는 이 두 명령은 양립 가능할까? 그들의 화해를 궁극적으로 모색하기 위해서는 그 두 개념이 함의하고 있는 의미의 다층성으로 인해 그들 각각에 대한 정확한 개념 분석과 다각도의 이해가 전제되어야 할 것이다. 이를 위해 우리는 먼저 사전적 의미에서부터 출발하여 이 두 개념이 무얼 말하는지 개념 분석 작업을 했으며, 그리고 사랑과 정의의 담론이 어떻게 해석되고 있는지 폴 리쾨르를 중심으로 살펴보았으며, 끝으로 이 두 개념이 과연 문학 작품에서는 어떻게 이야기되고 있는지, 그 문학적 형상화의 사례들(스탕달, 알베르 카뮈, 도스토예프스키의 작품들)을 통해 허구적이나마 삶 속에 구현된 모습들을 살펴보았다. 이처럼 두 개념에 대한 개념 분석, 담론 분석, 이야기 분석을 차례로 살펴본 결과, 우리는 다음과 같은 결론을 도출해낼 수 있었다. 사랑과 정의는 어느 한쪽을 선택할 문제는 아니었다. 부정한 사랑의 문제점이나 사랑이 결여된 정의사회의 냉정함과 비현실성 등은 스탕달과 알베르 카뮈의 소설적 형상화나 그들의 실제 논쟁을 통해 충분히 확인할 수 있었다. 뿐만 아니라 부정한 온정주의에서는 사랑의 힘이 정의의 손길을 일정부분 차단할 수 있는 위험성 또한 확인할 수 있었다. 따라서 차라리 사랑과 정의, 그 양자를 함께 보듬어 양립의 가능성을 모색하는 것이 건강한 미래 사회를 위해 더 필요하다고 여겨졌다. 여기서 우리는 폴 리쾨르의 표현처럼 '상황에 맞는 도덕적 판단'이 요구되는 '사려 깊은 균형'에서 그 양립 가능성을 확인했다. 이러한 이상적인 상황은 차원 높은 시민의식이 발휘되는 연대의식과 상호 배려, 도스토예프스키처럼 고통을 함께 하는 연민 등이 개입된 사랑의 형태가 분배적 정의 원리와 결합되었을 때 실현될 수 있을 것이다. 알베르 카뮈가 정의만을 추구하다 결국 현실을 직시하고 자비의 필요성을 언급할 때 이미 그는 이러한 상황에 따른 도덕적 판단을 내렸다고 할 수 있겠다. 결국 사랑은 정의를 지켜주고, 정의는 사랑을 현실화하는 데 기여한다. 정의는 초윤리적 사랑을 도덕 범주로 환원하는 데 일조하며, 사랑은 정의가 한껏 힘을 발휘할 수 있도록 도와주는 역할을 한다.

영한 기계번역 시스템의 영한 변환사전 확장 도구 (English-Korean Transfer Dictionary Extension Tool in English-Korean Machine Translation System)

  • 김성동
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권1호
    • /
    • pp.35-42
    • /
    • 2013
  • 영한 기계번역 시스템을 개발하기 위해서는 언어에 대한 다양한 정보를 필요로 하며, 특히 영어 단어에 대한 의미 정보를 포함하는 영한 변환사전의 풍부한 정보량은 번역품질에 중요한 요소이다. 지속적으로 생성되는 새로운 단어들은 사전에 등록되어 있지 않아 번역문에 영어 단어가 그대로 출력되어 번역품질을 저하시킨다. 또한 복합명사는 어휘분석, 구문분석을 복잡하게 하고 사전에 의미가 등록되지 않은 경우가 많아 올바르게 번역하기 어렵다. 따라서 영한 기계번역의 번역품질 향상을 위해서는 사전에 등록되어 있지 않은 단어들과 자주 사용되는 복합명사들을 수집하고 의미 정보를 추가하여 영한 변환사전을 지속적으로 확장하는 것이 필요하다. 본 논문에서는 인터넷 신문기사로부터 말뭉치를 추출하고, 사전 미등록 단어와 자주 나타나는 복합명사를 찾은 후, 이들에 대해 의미를 부착하여 영한 변환사전에 추가하는 일련의 과정으로 구성되는 영한 변환사전의 확장 방안을 제안하고 이를 지원하는 도구를 개발하였다. 사전 정보의 확대는 많은 사람의 노력을 필요로 하는 일이지만, 영한 기계번역 시스템의 개선을 위해서는 필수적이다. 본 논문에서 개발한 도구는 사람의 노력을 최소화 하면서, 영한 변환사전의 정보량 지속적인 확대를 위해 유용하게 활용되어 영한 기계번역 시스템의 번역품질 개선에 기여할 것으로 기대된다.

A Research on Paramedic Student Type of Perception for 119 Rescue Workers

  • Lee, Jae-Min
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권8호
    • /
    • pp.127-137
    • /
    • 2021
  • 본 연구는 응급구조과 학생들의 119구조대원에 대한 인식유형 연구이며, 소방공무원 중 119구조대원의 인식 유형을 파악하고 유형별 특성을 알아보기 위한 기초자료를 마련하고자 실시하였다. 27개의 진술문으로 된 Q 표본을 응급구조과 학생 총 54명을 대상으로 Q UANL 프로그램을 실행하여 분석한 결과 분류된 유형은 3개 유형으로, 전체 변량의 45 %로 확인되었다. 각 유형별 설명력을 보면 제I유형은 32 %, 제II유형은 6.7 %, 제III유형은 5.8 % 로 나타났다. 제I유형은 '우리의 슈퍼맨형', 제II유형은 '고통 받은 영웅형', 제III유형은 '구조 전문가형'으로 명명하였다. 전체적으로 119구조대원은 사전적인 구조대원이 있었으며 힘든 상황에서 외상후스트레스장애에 의해 힘들어하고 시민이 감싸주고 보호해 주어야 하는 119구조대원이 있었다. 또한 전문분야로 인정받으며 요구조자를 한 치의 실수 없이 인명 구조를 실시하는 119구조대원의 인식이 있었다. 이에 119구조대원이 구조의 전문분야로 인정받기 위해 다양한 훈련 및 경험을 공유할 수 있는 프로그램이 제공되어야 하고 연구되어져야 한다.