本文的工具介绍主要分成八个部分:
通用工具(GnralTools)
数据清洗工具(ClaningTools)
数据挖掘(DataMining)
数据可视化(DataVisualisation)
网络数据可视化(NtworkVisualisation)
信息可视化(Infographics)
地理数据可视化(GographicMapping)
文本挖掘(TxtMining)
上期已经介绍了第1-4点,今天我们接着介绍第5-8点所涉及的开源工具。
5.网络数据可视化(NtworkVisualisation)
网络数据可视化软件在科学技术分析,特别是科学技术关系分析领域,是一种重要的分析工具。在专利分析中,网络数据可视化有很多用处,包括:
1.用于可视化某一特定技术领域中,申请人和发明人之间关联关系。
下图是合成生物学领域将近位论文作者的网络关系图。
2.可视化IPC或CPC分类号的技术领域及这些分类号之间的技术关联。
WIPO之前就采用了这样的大型网络数据分析方法来分析动物遗传资源领域的专利概况。
下图梳理了上万项在文献中出现了农场养殖动物名称(例如牛、猪、羊等)的专利文献,从这些文献中找出各IPC分类号或CPC分类号在同一文献中出现的情况,并用网络图把这些分类号在同一文献中共存在的关系展示出来。图中的每一个节点表示一个分类号。节点之间距离越近,说明这些分类号在同一文献中出现的次数越多,由此表示这些分类号之间的技术相似度越高,而这些关系紧密的分类号所涉及的文献的技术关联度也就越高。而距离相隔较远的节点代表的文献技术关联度则较低,比如烹饪设备和动物的住房,这些集群中的文献就可以更快速的被排除。动物遗传资源专利分析报告的作者采用这一网络图作为数据挖掘的工具来寻找目标文献。
3.将专利文献中的关键词的出现频率及其与其他关键词之间的关系进行网络数据可视化,能够作为专利分析的进一步探索与完善。
也是在WIPO动物遗传资源的案例中,该报告的作者将词干相同的词语聚集在一起以了解与动物育种有关的动物新品种有哪些。
因此,网络数据可视化即可以看做是用于探索某一技术主题的一种工具,也可以看做是一种最终的可视化作品。
5.1Gphi
Gphi是一种基于Java的开源网络可视化生成工具。它可以实现大量数据的处理来生成强大的网络数据可视化(当然处理能力也跟你的电脑性能有关)。
TIPS:使用Gphi时需要注意,如果你是第一次安装使用,在第一次打开Gphi时会提醒给你的操作系统安装正确的Java版本。
5.2NodXL
对于EXCEL死忠粉,NodXL是Excl的一种插件,能够生成网络图,而且比较好用。
5.3Cytoscap
Cytoscap也是一个网络数据可视化工具。它原本是设计用来做生物网络可视化和交互的,但是就像许多其他的生物信息学工具一样,也可以用来做更广泛的可视化工具。
我们做网络数据可视化主要是采用Gphi,但是Cytoscap也非常值得探索其使用方法,因为使用Cytoscap不会出现Java版本不对的问题。
5.4Pajk
Pajk是最早开源网络数据可视化工具,但是只有Windows系统可以用。它在文献计量学中被广泛应用,并且可以处理大量数据。作者本人更加推荐Gphi,因为相比而言,Gphi更加灵活。但Pajk在精度上更有优势,更易于重复实现和文件保存。
对于想体验一下Gphi的用户来说,可以将从Pajk导出的数据直接导入Gphi,操作还是比较方便的。
5.5VOSViwr
VOSViwr由莱顿大学开发,功能与Gphi和Cytoscap相似,但是它具有更多的视觉效果。最新的版本也可以与Gphi和Cytoscap相连。如果想获得更多的视觉效果,VOSViwr值得一试。并且它还识别WbofScinc和Scopusbibliographic的数据。
5.6HivPlots
对于HivPlots这个工具我们也不是很熟。但是我们对其制作网络图的目的很是赞同,这个目的就是利用网络图使复杂的数据变得清晰,而不是说“哇,快看,我做了一个看起来像意大利粉的网络图”这样(仅仅看它的外在形式,而不去深究数据深意)。因此,我们觉得由加拿大BC肿瘤研究所基因组科学中心的科学家MartinKrzywinski开发的HivPlots这个工具值得推荐。
在讨论了网络图制作工具之后,我们还要注意的是网络图数据可视化需要输出成图片格式。也就意味着还需要有图像处理软件。开源的工具例如GNU图像处理程序(简称GIMP)就可以用来处理图像。
对于其他的网络数据可视化资源,可以参考FlowingData。也可以看看VisualComplxity和visualisingdata来获得些灵感。
6.信息可视化(Infographics)
信息图在近些年越来越受到北京中科白殿风医院怎样广州治疗白癜风的医院