Skip to Main Content
한양대학교 ERICA 학술정보관 (Hanyang University ERICA Library)

ERICA학술정보관: Visualization

- 학술정보관 가이드 - 학술정보활용 가이드 - 학습 및 연구 지원

ProQuest TDM Studio : 텍스트 데이터 마이닝 솔루션

 

TDM Studio는 연구, 교육 및 학습을 위한 텍스트 및 데이터 마이닝 솔루션입니다. 수천 개 혹은 수백만 개의 문서를 분석해야 하는 작업은 어떤 사람에게도 불가능한 작업이며, TDM(텍스트 및 데이터 마이닝)이 필요한 영역이기도 합니다. ProQuest의 TDM Studio를 통해 연구자들은 방대한 데이터의 수집, 정리, 분석에 필요한 시간을 절약할 수 있습니다. TDM Studio는 새로운 발견을 위한 다음 두 가지 방법을 지원합니다. TDM Studio Workbench는 자체 코딩 방법을 사용하는 숙련된 연구자를 위해, TDM Studio Visualization은 모든 레벨의 사용자가 신속하게 추세를 파악하고 통찰력을 얻을 수 있도록 설계되었습니다. 

Visualization

별도의 코딩지식 및 추가 작업없이 검색결과에 대한 시각화 결과를 지원하는 기능으로 현재  (1) Geographical analysis, (2) Topic Modeling 2개 기능을 이용할 수 있습니다. The Wall Street Journal, The New York Times, The Washington Post 등 10개의 주요 신문과 PQDT(ProQuest Dissertation and Theses)를 대상으로 검색하여 시각화 결과를 도출할 수 있습니다.
※ TDM Studio Workbench 이용자 신청 완료 후 별도의 TDM Studio Visualization 계정을 추가로 등록해야 합니다. (상세 내용 계정 생성 참조)
정상적으로 계정이 생성되었으면, 우측 상단에  Visualization dashboard 메뉴를 통해 해당 인터페이스로 이동 할 수 있습니다.

프로젝트 만들기

  •  “Create New Project” 를 클릭합니다.

  • 프로젝트에 포함할 데이터 시각화 방식(Geographic Analysis, Topic Modeling)을 선택합니다. 두 시각화 모두 기본적으로 선택되며, 시각화를 선택 취소하려면 체크 표시를 해제합니다. 프로젝트에 포함할 데이터 시각화를 선택한 다음 Search Contents를 클릭하여 검색어를 입력합니다.

  • 조사하고자 하는 대상에 대한 검색어를 입력하고 검색 아이콘을 선택합니다. 불리언 연산자(AND, OR, NOT) 및 검색 기호( *, ?, " ", - 등)를 사용하여 검색에 정확성을  더할 수 있습니다. TDM Studio는 ProQuest 플랫폼과 동일한 검색 기능을 제공하며 보다 자세한 사항은 Platform search tips 을 참고하시기 바랍니다.

  • 검색 결과가 나오는 Refine Content 페이지는 검색된 문서의 수와 검색된 문서의 샘플을 보여줍니다. 만약 검색 결과가 10,000건을 넘는 경우 좌측에 있는 Selected Publication을 통해 검색 대상 출판물 수를 조정하거나 다양한 필터를(Limit to, Date Published, Source Type, Document Type) 사용하여 결과를 10,000건 이하로 제한합니다. 그리고 10,000이하가 되었을 경우 우측 하단의  Review Project 메뉴를 클릭하여 프로젝트를 생성하는 단계로 넘어갑니다.

  • 프로젝트명을 입력하고 Create Project를 클릭합니다. 프로젝트 생성은 약 15분 정도가 소요되며, 분석 유형과 검색된 문서의 수에 따라 더 길어질 수도 있습니다. 프로젝트를 생성하면 Visualization Dashboard에 프로젝트가 표시됩니다. 새로 생성된 프로젝트는 보여질 준비가 될때까지 회색으로 표시되므로 브라우저의 새로고침 버튼으로 프로젝트의 상태를 확인합니다. Dashboard는 생성된 프로젝트의 검색어, 검색 날짜 범위, 검색된 문서 수, 분석대상 출판물 등의 요약정보를 제공합니다.

  • 생성된 프로젝트의 Show action 클릭 후 하단에서 Topic Modeling 혹은 Geographic Analysis 선택하여 시각화 결과를 확인합니다.

 

Topic Modeling Visualization

Topic Modeling은 데이터셋의 일부인 토픽 또는 주제를 식별하는 데 유용한 텍스트 마이닝 접근 방식입니다. TDM Studio는 LDA(Latent Dirichlet Allocation)모델을 사용하여 문서의 집합내에 숨겨진 토픽을 찾아냅니다. TDM Studio의 Topic Modeling을 통해 신문이나 석/박사 학위 논문을 다양한 목적으로 사용할 수 있습니다. 예를 들어 최근 5년 동안의 컴퓨터공학 분야의 석/박사 학위논문을 분석하여 머신러닝에 대한 트렌드 방법론이 무엇인지 확인할 수 있습니다. (신문기사의 경우 제목, 초록, 전제 텍스트를 사용하며, 석/박사 학위논문은 제목과 초록을 사용합니다.) 각각의 토픽에서 해당 토픽에 대한 개연성이 가장 높은 10개의 단어를 나열합니다. 이러한 단어들은 항상 그러한 것은 아니지만 주제가 무엇에 관한 것인지를 알려줍니다. 토픽 카드를 클릭하면 선택된 토픽과 연관성이 높은 50개의 문서를 우측에 보여줍니다. 그리고 문서제목을 클릭하면 해당 문서의 전체 텍스트를 볼수 있는 새창이 뜨게 됩니다.

 

Geographic Data Visualization

Geographic Visualization은 시간과 공간을 넘어 어떤 추세, 동향, 유행 등을 탐구하는데 유용한 방법입니다. “태양에너지와 전기차에 가장 관심이 높은 국가는? “과 같은 질문에  Geographic Analysis 는 매우 유용하고 유의미한 자료를 제공합니다. 지리 정보의 시각화는 Geotagging, Geocoding 의 2개 과정을 통해 Geographic NER(Named Entity Recognition)을 기반으로 제공되며,  SpaCy’s NER 방식을 사용합니다. 지도에 나타는  클러스터 또는 원은 문서에서 확인된 위치의 수를 나타냅니다. 화면 아래에 Time Slider를 제공하여 시간의 경과에 따라 지도상의 위치 수가 어떻게 변화하는지 확인할 수 있습니다.

지도상의 클러스터를 클릭하면 해당 클러스터의 위치가 들어있는 기사 목록이 최신순으로 제공되며, 해당 기사를 클릭하면 전체 텍스트를 볼 수 있는 새탭이 열립니다.(선택한 클러스터의 위치 수보다 문서의 수가 적을 수 있습니다. 이는 대부분의 기사가 한 개 이상의 위치를 포함하고 있기 때문입니다.)

우측 상단의 Export Data 메뉴를 클릭하여 "CSV" 또는 "GeoJSON" 형식으로 지리데이터와 기사의 메타데이터를 반출할 수 있습니다.

Copyright(C) 2021 HANYANG UNIVERSITY ALL RIGHTS RESERVED.