• 제목/요약/키워드: 비정형데이터분석

검색결과 405건 처리시간 0.021초

언어네트워크분석을 활용한 한국농수산대학 신입생 자기소개서 분석 - TF-IDF 분석을 기초로 - (Analyzing Self-Introduction Letter of Freshmen at Korea National College of Agricultural and Fisheries by Using Semantic Network Analysis : Based on TF-IDF Analysis)

  • 주진수;이소영;김종숙;김승희;박노복
    • 현장농수산연구지
    • /
    • 제23권1호
    • /
    • pp.89-104
    • /
    • 2021
  • 비정형 데이터인 한국농수산대학 신입생 자기소개서에서 의미 있는 정보를 추출하기 위하여 핵심적인 역할을 하는 단어의 중요도를 평가하는 TF-IDF 가중치를 기초로 한 언어네트워크분석을 하였다. TF-IDF 가중치에 의한 핵심단어는 문항 1에서는 '농업', '수학', '공부', '문제', '친구', 문항 2에서는 '동아리', '식물', '친구', '농업', '작물', 문항 3에서는 '친구', '동아리', '의견', '갈등', '관리', 문항 4에서는 '버섯', '곤충', '아버지', '농업', '농장' 등으로 나타났다. 또한 빈도수는 낮은 단어이지만 핵심단어로 나타난 단어를 보면 문항 1에서는 '수학', '자격증', '성적', '영어', '과학', 문항 2에서는 '식물', '작물', '공부', '쓰레기', '발표', '실험', 문항 3에서는 '동아리', '청소', '봉사', '갈등', '봉사활동', 문항 4에서는 '버섯', '곤충', '양식', '한우', '조경' 등으로 나타났다. 단어들 간의 관계를 시각적으로 분석이 가능한 언어네트워크분석 결과 매개중심성이 높은 단어는 문항 1에서는 '이유', '고등학교', '재학', 문항 2에서는 '쓰레기', '고등학교', '학교', 문항 3에서는 '중요', '오해', '완성', 문항 4에서는 '가공', '사료', '농가'로 나타났다. 연결정도중심성은 문항 1에서는 '고등학교', '탐구', '성적', 문항 2에서는 '쓰레기', '정리', '수업시간', 문항 3에서는 '의견', '회의', '봉사활동', 문항 4에서는 '가공', '공간', '실습'으로 나타났다. 매개중심성 값이 클수록 네트워크의 중앙에 위치하고, 두 범주 사이의 관계가 강할수록 서로 근거리에 위치한다. 연결정도중심성이 클수록 노드의 크기가 크게 나타나며, 노드 연결선은 단어들의 동시 출현 빈도가 높을수록 edge가 굵게 나타났다. 동시 출현 빈도가 높은 즉 상관관계가 높은 단어 조합은 '자격증 - 취득', '문제 - 해결', '과학 - 생명', '오해 - 양보' 등으로 나타났다. 단어 기반의 계층적 클러스터링 기법에 의하여 단어 간 인접, 상호 관계를 계층적으로 나타낸 클러스터 덴드로그램으로 군집의 개수를 결정하였다. 단어들의 군집 간 비유사도의 차이가 큰 군집을 구한 결과 문항 1은 2개, 문항 2와 문항 4는 4개, 문항 3은 5개의 군집으로 분류할 경우 군집내 응집력이 높고, 군집 간 이질성이 큰 적절한 군집을 구할 수 있었다.

복합 문서의 의미적 분해를 통한 다중 벡터 문서 임베딩 방법론 (Multi-Vector Document Embedding Using Semantic Decomposition of Complex Documents)

  • 박종인;김남규
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.19-41
    • /
    • 2019
  • 텍스트 데이터에 대한 다양한 분석을 위해 최근 비정형 텍스트 데이터를 구조화하는 방안에 대한 연구가 활발하게 이루어지고 있다. doc2Vec으로 대표되는 기존 문서 임베딩 방법은 문서가 포함한 모든 단어를 사용하여 벡터를 만들기 때문에, 문서 벡터가 핵심 단어뿐 아니라 주변 단어의 영향도 함께 받는다는 한계가 있다. 또한 기존 문서 임베딩 방법은 하나의 문서가 하나의 벡터로 표현되기 때문에, 다양한 주제를 복합적으로 갖는 복합 문서를 정확하게 사상하기 어렵다는 한계를 갖는다. 본 논문에서는 기존의 문서 임베딩이 갖는 이러한 두 가지 한계를 극복하기 위해 다중 벡터 문서 임베딩 방법론을 새롭게 제안한다. 구체적으로 제안 방법론은 전체 단어가 아닌 핵심 단어만 이용하여 문서를 벡터화하고, 문서가 포함하는 다양한 주제를 분해하여 하나의 문서를 여러 벡터의 집합으로 표현한다. KISS에서 수집한 총 3,147개의 논문에 대한 실험을 통해 복합 문서를 단일 벡터로 표현하는 경우의 벡터 왜곡 현상을 확인하였으며, 복합 문서를 의미적으로 분해하여 다중 벡터로 나타내는 제안 방법론에 의해 이러한 왜곡 현상을 보정하고 각 문서를 더욱 정확하게 임베딩할 수 있음을 확인하였다.

전문가 제품 후기가 소비자 제품 평가에 미치는 영향: 텍스트마이닝 분석을 중심으로 (The Effect of Expert Reviews on Consumer Product Evaluations: A Text Mining Approach)

  • 강태영;박도형
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.63-82
    • /
    • 2016
  • 최근 정보기술의 발달로 인해 소비자들은 온라인상에서 많은 정보를 쉽고 빠르게 획득할 수 있다. 소비자가 제품 구매시에는 소비자들이나 전문가들이 작성한 제품 후기 정보를 주로 탐색한다. 기존의 연구들이 소비자들이 창출한 제품 후기 중심으로 주로 진행되어 왔기 때문에, 전문가 제품 후기의 영향력에 대해서는 상대적으로 소수의 연구들만 존재하고 있다. 본 연구는 전문가가 생성하는 제품 후기에 초점을 맞추어, 방대한 실제 비정형데이터인 전문가의 후기를 어떻게 언어학적인 차원과 심리학적인 차원으로 나눌 수 있는지의 방법론을 제안하며, 실제 전문가 제품 후기를 사용하여 의미 있는 다섯 가지 차원의 새로운 변수들을 도출하였다. 그 결과 소비자들이 전문가 후기에서 반응하고 있는 언어적 특성은 제품에 대한 깊이 있는 정보의 양이나 충분한 설명을 나타내는 변수인 Review Depth, 그리고 전문가가 기술하는 방식이 제품에 대한 확신이 없는 듯한 말투를 나타내는 변수인 Lack of Assurance는 소비자의 전반적인 제품평가에 유의한 상관관계가 있는 것으로 밝혀졌다. 또한, 제품에 대한 칭찬이나 긍정적인 면을 서술하는 방식인 Positive Polarity가 소비자의 제품 평가에 영향을 미치지 않았지만, 전문가가 하는 제품에 대한 비관적인 평가인 Negative Polarity는 소비자들의 평가와 유의한 음의 상관관계가 있었다는 점이다. 전문가가 스토리텔링 관점에서 자주 사용하는 Social Orientation 특성은 유의한 관계를 미치지 못함이 밝혀졌다. 본 연구는 새로운 방법론을 제안하고 이를 실제로 활용한 결과를 보여준다는 차원에서 이론적이고 실무적인 공헌을 가진다.

휠체어 탄 인공지능: 자율적 기술에서 상호의존과 돌봄의 기술로 (Artificial Intelligence In Wheelchair: From Technology for Autonomy to Technology for Interdependence and Care)

  • 하대청
    • 과학기술학연구
    • /
    • 제19권2호
    • /
    • pp.169-206
    • /
    • 2019
  • 이 글은 인공지능이 만들어내는 문화적 상상을 분석하면서 기술과 인간 사이의 새로운 윤리를 모색한다. 과학기술을 돌봄물(matter of care)로 이해하는 페미니스트 과학기술학 연구(Puig de la Bellacas, 2011)에 기댄 이 글은 우선 인공지능이 자율성을 문화적 상상으로 강력하게 생산하고 있다는 점에 주목한다. 스스로의 경험과 학습을 통해 새로운 환경에 적응할 수 있는 능력으로 정의된 이 자율성은 기술적 영역을 넘어 이상적인 인간상을 정의하고 있다. 하지만 데이터에 기반한 딥러닝 기법과 무장한 무인 비행기가 예증하듯, 인공지능 기술은 보이지 않는 인간노동과 복잡한 물질적 장치에 의존하고 있으며, 자율성은 허구에 가깝다. 또한 이른바 '조수 기술 (assistant technology)'이 보여주듯, 가사노동을 부불노동화하는 우리 사회의 오래된 젠더화된 노동인식에 기초해 수많은 인간의 돌봄 노동은 비가시화되는 반면, 기계의 돌봄노동은 적극적으로 가시화되고 있다. 또한 인공지능의 문화적 상상은 자율성과 행위능력을 이상적인 인간의 특질로 정의하면서 장애의 몸과 이 몸이 갖는 가치인 연약함과 의존성의 연대는 가치 없는 것으로 만들고 있다. 인공지능과 그 문화적 상상은 능력이 있는 몸(abled-bodies)을 이상화하고 기술의 자율성을 우선 가치로 삼으면서 서로 의존하는 인간과 기술의 현실적 관계를 삭제하고 있다. 결론에서 저자는 우리에게 필요한 기술은 타자의 비정형적인 몸과 인간의 돌봄노동을 가치 없게 여기도록 하는 것이 아니라 이들을 있는 그대로 드러내면서 그 가치를 인정하는 것이어야 한다고 주장한다. 책임 있게 응답하는 기술은 주변화된 존재들에 공감하고 의존성을 긍정하고 연약성 사이의 연대를 촉진하는 것이어야 한다. 저자는 이런 대안적인 기술을 형상화하기 위해 예술가 수 오스틴의 퍼포먼스에서 영감을 얻어 '휠체어 탄 인공지능'을 제안한다. '휠체어 탄 인공지능'은 자율성을 과시하기보다는 타자의 몸과 노동을 부정하지 않고 이들의 존재론적 가능성을 함께 만들어가려 노력하는 상호의존과 돌봄의 기술이다.

암석을 천공하는 돌맛조개(Barnea manilensis)의 구조 및 기능 (Structural and functional characteristics of rock-boring clam Barnea manilensis)

  • 김지영;안윤전;김태진;원성민;이승원;송종원;박정은
    • 환경생물
    • /
    • 제40권4호
    • /
    • pp.413-422
    • /
    • 2022
  • 돌맛조개(Barnea manilensis)는 조간대 하부의 석회암이나 이암 등 무른 암석을 천공하는 이매패류로, 입구는 좁고 안쪽은 넓은 구멍을 만들어 일생을 암석 안에서 서식한다. 본 연구에서는 실체현미경과 FE-SEM (Field Emission Scanning Electron Microscope)을 이용하여 돌맛조개의 형태와 패각의 미세구조를 관찰하였으며, EDS (Energy Dispersive X-ray Spectroscopy) 분석을 통하여 부위별 원소함량을 측정하였다. 또한 3D모델링 및 구조동역학해석을 이용하여 돌맛조개의 천공 행동에 대한 시뮬레이션을 진행하였다. 미세구조 관찰 결과 패각은 상하 비대칭형이고 천공에 직접적으로 관여하는 앞쪽의 패각에는 두드러지게 융기되어 있는 쟁기 모양의 돌기가 일정한 방향성을 가지고 분포되어 있으며, 패각의 두께는 앞쪽이 뒤쪽보다 두꺼운 것으로 나타났다. EDS 결과 패각의 대부분을 차지하는 CaCO3 이외에도 Al, Si, Mn, Fe, Mg 등의 금속 원소가 앞쪽 패각 돌기 외곽에만 첨가된 것으로 보아 이는 패각의 강도를 높여 천공에 유리하게 작용될 것이라 추측된다. 시뮬레이션 결과 패각의 앞쪽과 패각 돌기 중 앞부분에 두드러지게 융기된 돌기가 모든 각도에서 하중을 받는 것을 확인할 수 있었다. 이는 실제로 암석을 천공하며 하중을 받는 부위는 앞쪽 패각 돌기임을 시사한다. 돌맛조개의 비정형 패각을 이용한 천공 기작은 추후 효율적인 천공 메커니즘을 고안하기 위한 기초 데이터로 활용될 것이라 기대된다.