快速进入陌生领域: HistCite 使用教程
1. 致谢
1) 罗昭锋老师的课程及资源;
2) 折腾不止(杨蔚的博客)
http://www.ztever.com/histcite-manu/
3) 知乎Tsing的总结
https://zhuanlan.zhihu.com/p/20902898
以下是杨蔚的博客原文:
2. 摘要
读文献自然要读精品,在面对一个陌生领域,如何才能以最快速度定位精品文献呢?本文将详细介绍 HistCite 的使用方法,结合 Web of Science 和 Endnote ,演示如何在几个小时之内,对某个陌生领域的文献进行宏观的梳理,并快速定位重要文献。
3. 前言
作为科研工作者,我们常常需要对一个陌生领域进行文献调研。我们通常使用 Web of Science(WOS) 或者 Google Scholar 进行文献检索,并认为引用频次较高的文章,就是该领域的重要文章。但是,大多数情况下,其搜索结果都不会太理想。因为所统计的引用既包括同行的,也包括外行的,而我们真正想寻找的是那些被同行引用频次最高的文献。同时,进入陌生领域最快速的方式无疑是看最新的综述,但是最新综述的引用频次往往很低,因为发表年限太短,人们往往还没来得及引用。所以,使用引用频次排序的方法往往会把最新的综述文章漏掉。再次,既然是一个陌生领域,我们很可能不知道其热门研究方向,因此往往连用什么关键词都不太清楚,在这种情况下该如何进行文献检索呢?
事实上,上述问题早就有了很好的解决方案——使用 HistCite 软件,它可以帮助我们在短短几个小时之内对陌生领域大量文献,进行引证关联分析,从而快速描绘出陌生领域的发展脉络,锁定重要文献,找出该领域的明星科学家。
4. HistCite 简介
关于 HistCite 的介绍参考罗昭锋老师写的
《引文分析软件 histcite 简介》
。
HistCite = History of Cite ,意为引文历史,或者叫引文图谱分析软件。该软件系SCI的发明人加菲尔德开发,能够用图示的方式展示某一领域不同文献之间的关系。软件的最新版本可以从
http://www.histcite.com
网站下载。
图1 HistCite 的界面
从
http://www.histcite.com
网站下载软件,安装之后,点击 HistCite 图标即可开启软件,软件使用IE作为其界面,显得很简陋(图1)。
图2 HistCite 给出的文献引证关系图
但是, HistCite 的功能十分强大,最酷炫的功能就是能够给出引证关系图(图2),有了这个功能,我们甚至连文章标题都不用看,就可以判断哪些文章值得一读。
接下来,我们用一个实例,演示如何使用 HistCite 对某个领域的文献进行分析。例如:我最近在调研火星的地球化学研究。
5. 从WOS获取数据
图3 WOS 检索关键词 “Mars”
登录
http://www.webofknowledge.com
网站,并检索关键词 “Mars”(图3)。需要注意的是,数据库必须选择 “Web of ScienceTM核心合集”。否则,检索结果无法导出全部引文记录,也就无法使用 HistCite 进行分析。
图4 关键词 “Mars” 的检索结果
检索结果有 34797 条(图4),文献有点多,考虑到我只关心火星的地球化学特征,所以,我们使用 “GEOCHEMISTRY GEOPHYSICS” 精炼一下,这样就只剩下 4439 条记录。此时,我们并不需要找全所有文献,只需要包含大部分文献即可。后续通过 HistCite 进行分析,重要文献基本都跑不掉。
图5 导出检索结果
选择“保存为其他文件格式”(图5上),在弹出的对话框中(图5下),“记录内容”选择“全记录与引用的参考文献”,“文件格式”选择“纯文本”。由于一次最多只能下载 500 条记录,所以我们先下载第 1 至 500 条。共 4439 条记录,共需要下载 9 次。
6. 在 HistCite 导入数据
打开 HistCite 软件,选择 File — Add File ,选择下载的文件,点击 Add File 按钮导入文件(图6)。
图6 导入数据文件
注意:如果无法导入:
1)
请把下载的 txt 文件用记事本打开,将第一行的 “FN Thomson Reuters Web of Science™VR” 替换成 “FN ISI Export FormatVR”,另存为 txt 文件,编码选择 ANSI ;
备注:
或者是直接把”FN Thomson Reuters Web of Science™VR”中的Science改成Knowledge.(我就是这么做的)
2)
确保文件的路径中没有中文(如图6)。
3)
如果还是不能导入,则可能是设置问题。(我在操作时遇到这个问题,就是这样解决的)。
解决方案:
打开IE浏览器进行如下设置:
工具 -> Internet选项 -> 安全 -> 自定义级别 -> 将本地文件上载至服务器时包含本地目录路径,选中启用即可
图7 导入成功后的界面
导入数据后,可以见到上方的 Records 中已经有了 500 条记录(图7)。接下来,我们依次导入其它8个数据文件。全部导入成功之后,我们可以用File — Save As ,把所有数据存在一个(*.hci)文件中(图8)。这样下次导入数据就不必挨个打开 txt 文件了,直接打开此 hci 文件即可。
图8 将所有数据另存到一个 hci 文件中
7. HistCite 参数介绍
图9 HistCite 分析界面
从上方的数据可知,我们一共导入文献 4433 条,由 7721 位作者完成,发表在 107 种杂志上,这些都好理解。需要详细说明的是右边的4个参数:
1) GCS = global citation score
即总引用频次,它表示这篇文章被整个WOS数据库中所有文献引用的次数。
2) LCS = local citation score
即本地引用次数,它表示这篇文章在当前数据集中被引用的次数。在这个例子里面就是,被导入的 4433 篇文献引用的次数。因为导入的文献是 “Mars” 的搜索结果,所以如果一篇文章的 LCS 值高,意味着它是 “Mars” 领域内的重要文献。
3) LCR = local cited references
本地参考文献数,它表示这篇文献的参考文献在当前数据集中的数量,即这篇文献引用别人的情况。如果一篇文章的 LCR 值高,意味着它引用了大量的 “Mars” 领域内文献,极有可能是综述文章。
4) CR = cited references
参考文献数,它表示这篇文章的参考文献在整个 WOS 数据库中的数量。
简而言之, LCS 和 LCR 更重要,它们分别代表了与本领域相关联的被引用数和引用数, LCS 值高的文章一般是重要的新发现或者新解释, LCR 值高的一般是综述类文章。
8. 补充漏网文献
在检索文献的时候,无论怎样设置关键词,一定会存在漏网的重要文献。使用 HistCite ,重要文献基本上都跑不掉。
通过界面上方的 “Cited References” (图10),我们知道有 86924 篇文献被全部 4433 篇文章所引用。通过点击该链接,我们可以进入这 86924 篇被引文献的列表。在这个列表中,我们发现很多文献后面都有个绿色的“+”号,这表明这篇文献并没有被本地数据集收录,也就是说通过关键词搜索并没有检索到的文献。每篇文献最后有个 Recs 值,表示这篇文献在当前数据集中被引频次,通过 Recs 排序,我们很快就可以定位重要的被遗漏的文献。实际上,“漏网之鱼”还真不少,排名前9的文献,有 6 篇都没有被收录进来。
图10 HistCite “Cited References” 界面
接下来,我们需要把这些重要的“漏网之鱼”的数据补全。首先,拷贝这篇文献的 DOI 值,到 WOS 网站搜索(图11)。
图11 使用 WOS 检索漏网文献
然后勾选搜索到的文献,选择“添加到标记结果列表”(图12)。
图12 将搜索结果添加到标记结果列表
然后,继续搜索下一篇文献,并添加到标记结果列表。等完成所有搜索之后,点击右上角的“标记结果列表”,一次性把所有结果导出来。导出时,与图5所示一样,“记录内容”选择“全记录与引用的参考文献”,“文件格式”选择“纯文本”。最后,再将 txt 文件导入到 HistCite 中,导入方法与前面介绍的一样。
9. 寻找专家大牛
图13 HistCite “Author” 界面'
通过点击界面上方的 “Author” 链接(图13),可以进入作者列表,总共有 7736 位作者。 Recs 代表文章数, TLCS = Total LCS , TGCS = Total GCS 。通过这个列表很容易找出该领域内最高产和最具有学术影响力的专家。
10. 收集关键词
图14 HistCite “Word” 界面
通过点击界面上方的 “Word” 链接(图14),我们可以进入关键词列表,从而了解这个领域目前的研究焦点,记住这些关键词,在后续对某个特定问题进行搜索时会比较方便。
11. 生成引证关系图
图15 HistCite 开启 “Graph Maker”
选择Tools — Graph maker(图15),软件开启一个新窗口(图16)。
图16 HistCite “Graph Maker” 界面
作图界面并不复杂,关键选择是参与做图的文献数量,其余参数都是调整图片中方块、线条和字体的大小。这里选择的是 LCS 排名前 50 的文献。如果对图中某篇文献感兴趣,可以直接点击它,软件会在一个新窗口中打开该文献的详细信息,我们可以预览一下论文的标题和摘要(图17)。
图17 HistCite 文献详细信息界面
12. 选择感兴趣的文献导出
图18 HistCite 开启 “Mark & Tag”
首先,Tools — Mark & Tag(图18),然后界面会有一些变化,出现了一个 Marking and Tagging Tool 工具条,并且每篇文献前面多了一个小方框可以勾选(图19)。
图19 HistCite “Marking and Tagging Tool”界面
勾选上感兴趣的文献,然后点击右边的 Mark 按钮进行标记。界面上方会出现一个 “Marks” 链接(图20)。把所有要导入 Endnote 的文献,全部标记,然后点击此 Marks 链接,可显示全部被标记的 23 篇文献的列表(图20)。
图20 HistCite 的 Marks 列表
然后,File — Export — Records (图21),将标记文献导出至一个 hci 文件。
图21 从 HistCite 导出被标记的文献
13. 将文献导入至 Endnote
首先,把导出的 hci 文件的后缀改成 txt,然后打开 Endnote,File — Import — File(图22)。
图22 Endnote 导入文献选项
在弹出的对话框中,选择导入的文件,Import Option 选择 “Multi-Filter (Special)” (图23),这样可以保留文献的 DOI 信息,方便后续自动下载文献。
图23 Endnote 导入文献对话框
在 Endnote 界面,可以看到已经成功导入全部 23 篇文献,并且 Endnote 立刻开始自动查找,并下载文献全文,短短几分钟已经找到了 17 篇(图24)。
图24 Endnote 自动下载文献全文
14. 结语
HistCite 作为文献分析工具,其功能非常强大,本文并未全部介绍,比如可以查看文献的逐年引用率,有些文献早期被引用很多,但是近期无人引用,说明热点已经过去,而有些文献早期无人引用,但是近期却很火爆,等等。感兴趣可以自行摸索,软件使用非常简单。
我使用 HistCite 已经有2-3年,但是使用频率并不高,因为我也不经常去调研陌生的研究领域,而对于自己熟悉的领域,则不必用 HistCite 。尽管如此,每次使用的时候,我都非常有收获。 HistCite 就像是地图,游览熟悉的城市,我们不需要地图。但是游览陌生的城市,地图在手无疑事半功倍。哪些是不容错过的景点?各个景点之间的路线如何联通?节省时间倒还是次要的,重要的是地图能够帮助我们从整体上、从全局上去理解一个陌生城市。
也许很多科研工作者还没有听说这个实用工具,特此分享。
15. 问题汇总
1) 提示 No such file or directory ,无法导入文件。
a. 直接把”FN Thomson Reuters Web of Science™VR”中的Science改成Knowledge.(我就是这么做的)
b. 请把下载的 txt 文件用记事本打开,将第一行的 “FN Thomson Reuters Web of Science™VR” 替换成 “FN ISI Export FormatVR”,另存为 txt 文件,编码选择 ANSI ;
c.
确保文件的路径中没有中文(如图6)。
d.
如果还是不能导入,则可能是设置问题。(我在操作时遇到这个问题,就是这样解决的)。
解决方案:
打开IE浏览器进行如下设置:
工具 -> Internet选项 -> 安全 -> 自定义级别 -> 将本地文件上载至服务器时包含本地目录路径,选中启用即可
2) 在绘图时无法显示网页
HistCite运行时有两个窗口,黑色dos界面那个窗口不能关掉。
3) 没有成功导入数据
即有以下问题:无法自动打开浏览器窗口,或 打开一个空白窗口,或 打开窗口但是显示的条目数为0。
以下是知乎Tsing的总结:
有少数用户反馈了这个软件存在的问题:HistCite可以启动,但是不会自动打开浏览器窗口,或者打开的是一个空白窗口,或者可以打开窗口但是显示的条目数为0,即
没有成功导入数据
。
图25 打开空白窗口
这个问题的根源,其实是HistCite本身存在的
设计缺陷
(毕竟这么多年没有更新了),在
少部分电脑
上会出现导入数据不成功或者打不开窗口的情况。所以我研究了另外一种导入数据的方法,并采用Python的多线程成功实现了
ADV模式
,基本可以解决绝大部分兼容性问题。
图26
如果你的电脑不存在上述兼容性问题,你不用在乎这个ADV模式,直接输入YES即可完成数据的读取。如果你的电脑出现了上述导入不成功的问题,你就可以
输入ADV
,
回车
之后会读取txt文件,然后自动启动HistCite内核。
图27
HistCite启动之后会自动打开一个IE内核的浏览器窗口(记为A窗口),而这个窗口显示我们导入的Records数量为0,即没有成功导入数据。所以在ADV模式下,HistCite Pro会自动调用系统默认浏览器在5秒后
再打开一个窗口
(记为B窗口)进行数据的导入,等导入完成之后,你可以将A窗口关闭,在B窗口里面分析数据,或者按F5键
刷新A窗口
也是可以分析数据的。
图28
注意:
在ADV模式下,所有文件夹和文件的命名都
不能含有中文
。
16. 绘图时的基本设置
图29. 绘图基本设置
1) 筛选绘图(Select by)
绘图时,如果把所有引证关系列出来,可能密密麻麻,效果不好。所以,可以选择在图中只显示LCS或GCS大于某个数的文献。只需在左边的
Select by
下方进行设置。
2) 节点形状和大小(Node)
显示出来的每篇文档是一个节点,节点形状(矩形、圆形、无形状)和节点形状的大小的设置在
Node
下方。
3) 节点距离(Node distance)
在x或y方向的节点间的距离。
4) 文档序号放置(Id placement)
文档的序号是跟导入时的顺序一致的,文档序号到底在节点内显示还是节点外显示可以在此设置。
5) 箭头设置(Arrowhead)
箭头的方向、形状、大小可以在此设置。
6) 字体大小(Font sizes)
节点字体、年份字体、月份字体的大小可以在此设置。
6) 显示的项目及显示形式(Display)
具体怎样设置,每一个参数都试试就知道啦!