本篇文章我教大家如何采集需要登录的网站并自动下载其资源。
获取Cookies
登录状态是通过Cookies判定的,所以,先登录到目标网站,按F12打开开发者工具,按照下图将Cookies复制到剪贴板。
然后在QQWorld收藏家的收藏项目中新建一个项目,将复制到的Cookies代码粘贴到Cookies输入框中去:
设置采集规则
常规设置
设置要采集的列表链接、文章标题以及文章内容的选择器,这些比较简单,不在这里赘述,不懂的朋友请参阅 QQWorld收藏家旗舰版采集教程。
采集下载资源
由于填了Cookies,所以抓取到的网页内容中是可以看到下载地址的代码的,如图所示:
因为在onclick属性里有不需要的代码,只需要引号里的内容即可,所以应该使用正则表达式来采集,新建一个自定义栏目采集,设置方法如图所示:
这里设置了将下载地址保存到win-down自定义栏目中,并且由于采集到的地址是相对地址,所以要根据完整地址补一个前缀。然后勾选下载到本地目录即可。也可以勾选下载到媒体库,不过首先要确保Wordpress媒体库是允许上传这种格式的。
格式化文章内容
大部分用户是不会修改模板的,所以不知道如何输出这个下载地址,QQWorld收藏家提供了文章内容格式化工具。在收藏项目自动采集设置中,如下图般设置:
可以使用4个短代码,分别表示文章内容,文章标题、文章自定义栏目和超链接。在自定义栏目短代码的key属性中填写win-down即可输出下载地址。
结语
遗憾的是,需要付费的内容是无法采集的,这个也是没有办法的吧。
教程到这里就结束了,这个功能应该适用比较广泛的,有很多需要登录才可以下载的网站等着咱们去采集哦。还没有用上的朋友还在等什么?赶紧来试用吧:QQWorld收藏家。