推荐一款Chrome浏览器插件

2018-11-11 06:42:21 / 打印

这款插件的名称叫:Web  Scraper,可以通过官网

下载或者Google商店进行下载;

简单讲几个场景:

抓取知乎大V文章/抓取喜欢的图片/抓取58同城房屋的信息/抓取IT桔子行业公司信息/抓取微博所有评论,总的一句:能够通过Chrome浏览器进行访问的都可进行爬取,强调:因为该插件是依赖于谷歌浏览器,因此需要爬取的内容必须是要在谷歌浏览器上能够打开显示;

简单教程(推荐大家有具体的使用的场景可百度查询)

举例:抓取知乎大V文章

一:安装完成以后,在浏览器右上角会显示图标,即表示安装成功

二:假如我要抓取知乎创始人文章,首先打开URL:,显示所有文章。

三:点击鼠标右键选择“检查”或者快捷键F12,显示安装好的Web  Scraper插件

四:点击Create new sitemap->Create Sitemap,输入爬取的文章和爬取的内容标题(自定义),并进行创建;

五:创建成功以后,点击Add new selector,创建爬取规则,然后会看到selector会有多个输入框及操作,id为爬取内容标题,Type爬取内容类型(比如文字、网址、图片等)、输入完成以后点击Save selector

注意:当点击Select时需要鼠标点击文字标题,前两个使文章标题背景颜色处于红色;

六:进行爬取;

七:网页会提示爬取成功,导出爬取内容;

八:导出内容,打开excel,即为我们爬取的内容

至此整个爬取流程结束;

说明:TYPE内容时随着你抓取的内容改变而改变,比如你想抓取图片,那么就选择image,如果是链接,则选择link..