所在的位置： Web开发 >> HTNL >> 抓取网页数据的几种套路

抓取网页数据的几种套路

没有数据就没有乐趣。有的数据提供者心肠很好，会直接给出txt或是csv文档。这个时候我们可以直接在R里头用read.table()函数把数据读进来。有的时候我们需要的数据在网页上以一个表格呈现，例如前面文章遇到过的地震数据。此时可以用XML包中的readHTMLTable()函数读取数据，后续再配合一些字符串处理一般就OK了。如果你对R不大熟悉，抓取这些表格也有更方便的法子，就是利用Chrome的扩展。有两个扩展值得推荐使用：一个扩展叫作tablecapture，它会自动找出网页中的若干表格，你只需选择所需的那个将其拷贝到剪贴板即可，然后再用下面的命令就可以读入到R中。data-read.table(clipboard,T)另一个扩展叫作scraper。先选择你所需要的部分内容，然后右键选择scrapersimilar也能抓取表格，不过它会存到一个googledoc中去。在天朝这玩意儿不大方便。有些数据不是以表格方式出现的，例如用XML或是JSON方式储存的数据。在R中都有对应的包来处理。下面的示例即是用XML包来处理XML数据。在此之先你需要有一点关于XML和XPath的知识，首先处理的对象是这样一个页面：

复方斑蝥酊
 北京治白癜风疗效好的医院

转载请注明：http://www.guyukameng.com/html/6293.html

上一篇文章：三点共圆WEB前端开发工程师有多厉害

下一篇文章：国外优秀WEB网页设计精