• Title/Summary/Keyword: Semantic word network

검색결과 115건 처리시간 0.025초

분산 메모리 다중프로세서 환경에서의 병렬 음성인식 모델 (A Parallel Speech Recognition Model on Distributed Memory Multiprocessors)

  • 정상화;김형순;박민욱;황병한
    • 한국음향학회지
    • /
    • 제18권5호
    • /
    • pp.44-51
    • /
    • 1999
  • 본 논문에서는 음성과 자연언어의 통합처리를 위한 효과적인 병렬계산모델을 제안한다. 음소모델은 연속 Hidden Markov Model(HMM)에 기반을 둔 문맥종속형 음소를 사용하며, 언어모델은 지식베이스를 기반으로 한다. 또한 지식베이스를 구성하기 위해 계층구조의 semantic network과 병렬 marker-passing을 추론 메카니즘으로 쓰는 memory-based parsing 기술을 사용한다. 본 연구의 병렬 음성인식 알고리즘은 분산메모리 MIMD(Multiple Instruction Multiple Data) 구조의 다중 Transputer 시스템을 이용하여 구현되었다. 실험결과, 본 연구의 지식베이스 기반 음성인식 시스템의 인식률이 word network 기반 음성인식 시스템보다 높게 나타났으며 code-phoneme 통계정보를 활용하여 인식성능의 향상도 얻을 수 있었다. 또한, 성능향상도(speedup) 관련 실험들을 통하여 병렬 음성인식 시스템의 실시간 구현 가능성을 확인하였다.

  • PDF

단어 의미와 자질 거울 모델을 이용한 단어 임베딩 (A Word Embedding used Word Sense and Feature Mirror Model)

  • 이주상;신준철;옥철영
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권4호
    • /
    • pp.226-231
    • /
    • 2017
  • 단어 표현은 기계학습을 사용하는 자연어 처리 분야에서 중요하다. 단어 표현은 단어를 텍스트가 아닌 컴퓨터가 분별할 수 있는 심볼로 표현하는 방법이다. 기존 단어 임베딩은 대량의 말뭉치를 이용하여 문장에서 학습할 단어의 주변 단어를 이용하여 학습한다. 하지만 말뭉치 기반의 단어 임베딩은 단어의 등장 빈도수나 학습할 단어의 수를 늘리기 위해서는 많은 양의 말뭉치를 필요로 한다. 본 논문에서는 말뭉치 기반이 아닌 단어의 뜻풀이와 단어의 의미 관계(상위어, 반의어)를 이용하며 기존 Word2Vec의 Skip-Gram을 변형한 자질거울모델을 사용하여 단어를 벡터로 표현하는 방법을 제시한다. 기존 Word2Vec에 비해 적은 데이터로 많은 단어들을 벡터로 표현 가능하였으며 의미적으로 유사한 단어들이 비슷한 벡터를 형성하는 것을 확인할 수 있다. 그리고 반의어 관계에 있는 두 단어의 벡터가 구분되는 것을 확인할 수 있다.

Visualization of movie recommendation system using the sentimental vocabulary distribution map

  • Ha, Hyoji;Han, Hyunwoo;Mun, Seongmin;Bae, Sungyun;Lee, Jihye;Lee, Kyungwon
    • 한국컴퓨터정보학회논문지
    • /
    • 제21권5호
    • /
    • pp.19-29
    • /
    • 2016
  • This paper suggests a method to refine a massive collective intelligence data, and visualize with multilevel sentiment network, in order to understand information in an intuitive and semantic way. For this study, we first calculated a frequency of sentiment words from each movie review. Second, we designed a Heatmap visualization to effectively discover the main emotions on each online movie review. Third, we formed a Sentiment-Movie Network combining the MDS Map and Social Network in order to fix the movie network topology, while creating a network graph to enable the clustering of similar nodes. Finally, we evaluated our progress to verify if it is actually helpful to improve user cognition for multilevel analysis experience compared to the existing network system, thus concluded that our method provides improved user experience in terms of cognition, being appropriate as an alternative method for semantic understanding.

정제된 의미정보와 시소러스를 이용한 동형이의어 분별 시스템 (A Korean Homonym Disambiguation System Using Refined Semantic Information and Thesaurus)

  • 김준수;옥철영
    • 정보처리학회논문지B
    • /
    • 제12B권7호
    • /
    • pp.829-840
    • /
    • 2005
  • 단어 의미 중의성 해소는 자연언어처리 분야에 매우 중요한 부분이다. 본 논문에서는 사전 뜻풀이 특성을 이용해 기존의 의미정보를 정제하고 유용한 정보인 확률정보, 거리정보 및 격정보 등을 추가한 WSD 모델을 제안하였으며, 사전을 기반으로 구축된 "울산대학교 어휘 지능망(UOU-Word Intelligent Network: U-WIN)" 상의 단어 계층적 구조(시소러스)를 이용하여 의미정보의 자료 부족 문제를 해소하는 모델을 제시하였"다. "21세기 세종 계획"에서 제공하는 150만 어절 규모의 의미 태그 말뭉치를 대상으로 한 실험에서 최다 빈도 의미 결정(Maximum Frequence Class, MFC, 정확률 베이스라인)에 비해 $18.97\%$(명사 $21.73\%$, 동사 $17.11\%$) 정확률 향상을 보였으며, 기존의 확률 가중치와 어절 거리 가중치를 이용한 모델에 비해서는 $10.49\%$(명사 $8.84\%$, 동사 $11.51\%$)의 정확률 향상되었다. 또한 시소러스를 사용하지 않고 확률정보, 거리정보, 격정보 만을 이용한 모델에 비해 $6.12\%$(명사 $5.29\%$, 동사 $6.64\%$) 높은 정확률을 보였다.

网络流行语"X+人"探析 - 从"打工人", "尾款人", "工具人"等谈起

  • 유철
    • 중국학논총
    • /
    • 제71호
    • /
    • pp.41-59
    • /
    • 2021
  • With the progress of social economy and science and technology, network media technology has developed rapidly, China has ushered in the network information age, and the network buzzwords emerged to reflect the interaction and influence between language and society. The network buzzwords of "X+ ren "indirectly show the social psychology and value orientation of modern people with their unique structural characteristics, semantic connotation and cultural deposits, and so on. Based on this, we have conducted a multi-angle investigation on the network buzzwords "X+ ren". This paper first analyzes the structure types and syntactic functions of the lexical model of "X+ ren ", then makes a semantic analysis of the lexical model of "X+ Ren ", and finally investigates the causes and influences of the popularity of "X+ ren ". Through the investigation, we believe that "X+ ren "will continue to grow, and "X+ ren" will continue to attract the attention of the academic community.

Improved Character-Based Neural Network for POS Tagging on Morphologically Rich Languages

  • Samat Ali;Alim Murat
    • Journal of Information Processing Systems
    • /
    • 제19권3호
    • /
    • pp.355-369
    • /
    • 2023
  • Since the widespread adoption of deep-learning and related distributed representation, there have been substantial advancements in part-of-speech (POS) tagging for many languages. When training word representations, morphology and shape are typically ignored, as these representations rely primarily on collecting syntactic and semantic aspects of words. However, for tasks like POS tagging, notably in morphologically rich and resource-limited language environments, the intra-word information is essential. In this study, we introduce a deep neural network (DNN) for POS tagging that learns character-level word representations and combines them with general word representations. Using the proposed approach and omitting hand-crafted features, we achieve 90.47%, 80.16%, and 79.32% accuracy on our own dataset for three morphologically rich languages: Uyghur, Uzbek, and Kyrgyz. The experimental results reveal that the presented character-based strategy greatly improves POS tagging performance for several morphologically rich languages (MRL) where character information is significant. Furthermore, when compared to the previously reported state-of-the-art POS tagging results for Turkish on the METU Turkish Treebank dataset, the proposed approach improved on the prior work slightly. As a result, the experimental results indicate that character-based representations outperform word-level representations for MRL performance. Our technique is also robust towards the-out-of-vocabulary issues and performs better on manually edited text.

U-WIN 기반의 의미적 정보검색 기술 (Semantic Information Retrieval Based on User-Word Intelligent Network)

  • 임지희;최호섭;옥철영
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 추계 종합학술대회 논문집
    • /
    • pp.547-550
    • /
    • 2006
  • 사용자가 원하는 정보를 얼마나 정확하게 제시하느냐가 정보검색시스템 성능을 판단하는 기준이 된다. 그러나 동형이의어만을 질의어로 이용한 검색 결과는 동형이의어 각 의미에 관련된 문서가 혼재되어 있거나, 특정 의미에 관련된 문서만 집중적으로 나타나는 현상을 볼 수 있다. 그래서 본 논문에서는 한국어 사용자 어휘지능망(U-WIN)의 관계정보를 이용하여, 질의어의 모호성을 해결하는 의미적 정보검색의 기반이 되는 기술을 제안한다. 실험에서 질의어는 전문분야에 주로 사용되는 동형이의어와 보편적으로 사용하는 동형이의로 구분하고, '질의어+상위어' 형태의 확장 질의어를 설정한다 그래서 포탈사이트의 웹 문서만을 대상으로 한 정확률은 73.5%, 통합검색의 정확률은 68.7%로 나타났다. 이것은 U-WIN 기반의 의미적 정보검색 기술이 정보검색 시스템에서 효율적임을 알 수 있다.

  • PDF

한국어 어휘의미망 "KorLex 1.5"의 구축 (Construction of Korean Wordnet "KorLex 1.5")

  • 윤애선;황순희;이은령;권혁철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권1호
    • /
    • pp.92-108
    • /
    • 2009
  • 1980년대 중반부터 지난 20여 년간 구축해 온 영어 워드넷(PWN)은 인간의 심상어휘집을 재현하려는 목적으로 개발되기 시작하였으나, 그 활용 가능성에 주목한 것은 자연언어처리와 지식공학 분야다. 컴퓨터 매개 의사소통(CMC), 인간-컴퓨터 상호작용(HCI)에서 인간 언어를 자연스럽게 사용하여 필요한 정보를 획득하기 위해서는 의미와 지식의 처리가 필수적인데, 그 해결의 실마리를 어휘라는 실체를 가진 언어단위에서 찾을 수 있기 때문이다. 이후 전 세계적으로 약 50개 언어의 어휘의미망이 PWN을 참조모델로 구축되어 다국어처리의 기반을 제공할 뿐 아니라, 시맨틱 웹 이후 더욱 주목받고 다양한 방식으로 활용되고 있다. 이 논문은 PWN을 참조 모텔로 2004년부터 2007년까지 구축한 한국어 어휘의미망 KorLex 1.5를 소개하는 데 있다. 현재 KorLex는 명사, 동사, 형용사, 부사 및 분류사로 구성되며, 약 13만 개의 신셋과 약 15만 개의 어의를 포함하고 있다.

고등학생들의 원자력 인식구조에 대한 언어 연결망 분석 (Semantic Network Analysis on Teen's Perceptual Construct about Nuclear Power)

  • 김봉철;정운관;최명일
    • 한국콘텐츠학회논문지
    • /
    • 제15권7호
    • /
    • pp.578-590
    • /
    • 2015
  • 이 연구는 언어 연결망 분석을 통해 고등학교 학생들이 원자력에 대해 어떤 인식구조를 갖고 있는가를 파악하기 위한 것이다. 6대 광역도시에 소재하는 고등학생 250명을 대상으로 설문조사를 실시한 결과, 출현빈도가 높은 단어들은 발전소(87회), 일본(71회), 위험(59회), 후쿠시마(59회), 방사능(56회), 에너지(47회), 영광(37회), 전기(30회), 체르노빌(29회), 폭발(25회) 등인 것으로 나타났다. 한편, 원자력 수용성이 높은 집단과 낮은 집단으로 구분하여 차이를 분석한 결과, 수용성이 높은 집단은 방사능(25회), 후쿠시마(23회), 에너지(21회), 일본(21회), 발전소(20회), 위험(17회), 영광(16회), 핵(14회) 등이, 수용성이 낮은 집단은 발전소(40회), 일본(31회), 위험(29회), 후쿠시마(23회), 방사능(17회), 에너지(16회), 영광(16회), 체르노빌(15회) 등의 출현빈도가 높은 것으로 나타났다. 이러한 결과를 바탕으로, 원자력과 관련한 대국민 커뮤니케이션은 공중 세분화와 이에 따른 적절한 접근이 필요하다는 사실을 확인할 수 있었다.

영상콘텐츠분야의 정권별 의미연결망 연구 (A Study on the Semantic Network Structure of the Regime in the Image Contents)

  • 황고은;문신정
    • 한국비블리아학회지
    • /
    • 제28권3호
    • /
    • pp.217-240
    • /
    • 2017
  • 이 연구는 영상콘텐츠분야 연구의 의제설정 경향을 분석하여, 정권별 정책과 연결되는 의미화 과정을 제시했다. 이를 위해 문화산업의 도입시점인 <문민정부(1993년)>부터 <박근혜정부(2016년)>까지의 영상콘텐츠 석박사학위논문 총 2,624편의 초록에서 43,991개의 단어를 추출하고 의미연결망 분석을 실시하였다. 분석방법은 R프로그램의 다양한 패키지를 활용하였으며, 이를 통해, 텍스트 분석과 시각화를 도출하였다. 연구 결과는, 첫째, 영상콘텐츠분야 연구는 출현빈도별, 정권순서별로 '영상', '미디어', '콘텐츠'의 순위와 순서로 진화되었다. 둘째, 정권별로는 3단계 연구흐름을 볼 수 있다. <문민정부>는 '교육'과 '표현', <국민의정부>와 <참여정부>에서는 '미디어', <이명박정부>와 <박근혜정부>에서는 '콘텐츠'관련 연구들이 중심이 되었다. 셋째, 연구대상 기간 또는 정권별 기간 내내 지속적으로 꾸준하게 진행되는 연구주제는 '방송', '디지털', '기술', '제작' 등이며, 향후에도 계속 진행될 것으로 보인다. 마지막으로 각 정권마다 새롭게 등장한 연구대상이 있었다. <문민정부>는 '콤팩트디스크기억장치(CD-ROM)', <국민의정부>는 '워터마크', '고화질', '3D', '가상현실', <참여정부>는 '플랫폼', <이명박정부>는 '모바일', '애플리케이션', <박근혜정부>는 '스마트'이며, '콤팩트디스크기억장치'와 '워터마크' 등은 단기에 소멸되었다. 연구의 의제설정과 산업화 과정에서 트렌드와 미래예측이 필요하다고 보여 진다.