TDM Studio는 연구, 교육 및 학습을 위한 텍스트 및 데이터 마이닝 솔루션입니다. 수천 개 혹은 수백만 개의 문서를 분석해야 하는 작업은 어떤 사람에게도 불가능한 작업이며, TDM(텍스트 및 데이터 마이닝)이 필요한 영역이기도 합니다. ProQuest의 TDM Studio를 통해 연구자들은 방대한 데이터의 수집, 정리, 분석에 필요한 시간을 절약할 수 있습니다. TDM Studio는 새로운 발견을 위한 다음 두 가지 방법을 지원합니다. TDM Studio Workbench는 자체 코딩 방법을 사용하는 숙련된 연구자를 위해, TDM Studio Visualization은 모든 레벨의 사용자가 신속하게 추세를 파악하고 통찰력을 얻을 수 있도록 설계되었습니다.
로그인을 하게되면 나타나는 랜딩 페이지를 Workbench 대시보드라고 합니다. 연구자는 Workbench 대시보드에서 데이터 집합을 만들 수 있는 데이터셋을 생성할 수 있으며, "Open Juypter Notebook" 버튼을 통해 개발 환경에 접근할 수 있습니다. 데이터셋 생성은 "+Create New Dataset" 드롭다운 메뉴에서, "Select Publication Tilte" or "Select ProQuest Database" 중 하나를 선택하여 실행합니다.
Select Publication Titles로 데이터셋 생성하기
Publication 목록은 학술정보관에서 구독하는 것과 ProQuest가 Text & Data Mining 권리를 획득한 콘텐츠 등 두 종류의 아이템을 기반으로 합니다. 데이터셋을 생성할 특정 출판물이 있다면 검색을 통해 찾을 수 있습니다. 그리고 검색 결과 리스트에서 동일한 출판물이 여러 개 검색될 수 있는데 이때는 Source Type, Subject, Data Range, Full Text 유무 등을 확인한 후 선택하는 것이 좋습니다.(복수선택 가능) 선택을 완료한 후 "Refine Content"를 클릭하여 검색화면으로 이동합니다.
Select ProQuest Database로 데이터셋 생성하기
ProQuest에서 제공하는 데이터베이스 중에서 필요한 것을 선택하여 Dataset을 생성할 수 있습니다. 학위논문 데이터베이스인 ProQuest Dissertations & Theses Global(PQDT Global) 및 뉴스, 신문 데이터베이스 등을 선택할 수 있으며(복수선택 가능), 나머지 과정은 출판물에서 데이터셋을 생성하는 방법과 같습니다.
Refine Content로 검색결과 제한하기
Refine Content단계에서는 연구자가 선택한 출판물 또는 데이터베이스와 검색된 문서의 수를 확인할 수 있습니다. 1개의 데이터셋은 최대 2백만 건의 데이터만 처리할 수 있기때문에 이 단계에서 연구 목적과 일치하는 주제나 단어를 검색하여 검색 결과를 제한합니다. 불리언 연산자를 통해 키워드를 조합하거나, 좌측의 필터(Full text, dates, Source Type, Document Type)를 이용하여 검색 결과를 제한할 수 있습니다.
AND / OR / NOT 연산자 및 쌍따옴표(" ") 활용
예) food AND nutrition → 두 검색어가 모두 포함된 문서 검색
예) food OR nutrition → 두 검색어 중 하나 이상 포함된 문서 검색
예) food NOT nutrition → food는 포함되나 nutrition은 제외된 문서 검색
예) “healthy eating” → 하나의 구문으로 검색
Date Published(연월일) 제한 및 Source Type(자료유형), Document Type(문서유형)에 따라 결과를 필터링 하면서 생성된 데이터셋을 확인합니다. 그리고 원하는 데이터셋이 나오면 우측하단의 "Review Dataset"을 클릭하여 데이터셋 생성 프로세스를 시작합니다.
Dataset 등록 및 완료
생성하려고 하는 데이터셋에 대한 요약이 상단에 표시됩니다. 만약 생성된 데이터셋을 수정하고 싶으면 진행 표시 막대에서 "Refine Content"를 클릭합니다. Dataset Details에서 데이터셋의 Name(영문만 가능하며 문자 사이에는 공백(space)이 아닌 "_"(언더바)를 사용해야 합니다)과 Description(한글 입력가능) 입력 후 "Create Dataset" 클릭합니다.
생성된 데이터셋의 데이터처리 완료까지 최소 수분에서 최대 1시간 이상 소요 될 수 있으며, 최초 데이터셋의 Status는 Queued 상태이고, 데이터처리 완료 후 Complete으로 상태가 자동 변경됩니다.
Copyright(C) 2021 HANYANG UNIVERSITY ALL RIGHTS RESERVED. |