集搜客GooSeeker网络爬虫

标题: “终点标志”-“自定义标志”如何设置 [打印本页]

作者: Fuller    时间: 2015-11-29 17:21
标题: “终点标志”-“自定义标志”如何设置
:我想问一下DS打数机中的“终点标志”——“自定义标志”如何设置。有木有哪位童鞋知道呀

:自定义标志适应度很有限,是判断@href中的标志字符串。

比如,有些网页翻页到最后就变成这个样子了 @href='####' ,那么就可以把自定义标志设置成 #### 。

很多情形是要判断其它更灵活的标志,但是这个版本不行

作者: ray_zhurui    时间: 2016-8-13 00:42
可以通过判断某一个标志里的某项的值为多少来告诉爬虫是最后一页么?怎么设置?
作者: Fuller    时间: 2016-8-13 09:30
ray_zhurui 发表于 2016-8-13 00:42
可以通过判断某一个标志里的某项的值为多少来告诉爬虫是最后一页么?怎么设置? ...

要不你提供一个例子,我们参照这个例子把这个功能提升一下
作者: wjzeng    时间: 2016-9-22 22:36
Fuller 发表于 2016-8-13 09:30
要不你提供一个例子,我们参照这个例子把这个功能提升一下

比如说,爬商品评论的时候,只爬2016年8月以后的评论,遇到8月以前的评论自动停止
作者: Fuller    时间: 2016-9-22 22:45
wjzeng 发表于 2016-9-22 22:36
比如说,爬商品评论的时候,只爬2016年8月以后的评论,遇到8月以前的评论自动停止 ...

这种情况暂时不支持,爬虫一般不判断内容,因为内容千变万化,要想按时间排序必须先要做时间转换。

我们在消费者洞察项目中也爬商品评论,设置成增量抓取,确保不漏,但是故意重复抓一些老数据,比如,每天都翻页抓20页,其中10页都是以前抓过的,而不是根据时间做精确判断
作者: Luke767    时间: 2018-8-24 11:16
Fuller 发表于 2016-9-22 22:45
这种情况暂时不支持,爬虫一般不判断内容,因为内容千变万化,要想按时间排序必须先要做时间转换。

我们 ...

您好,请问设置操作10页为终点标志是如何设置

作者: Fuller    时间: 2018-8-24 12:25
Luke767 发表于 2018-8-24 11:16
您好,请问设置操作10页为终点标志是如何设置

在爬虫群模式下,可以设置调度参数,其中就有限制翻页次数,请看这个教程:https://www.gooseeker.com/doc/article-200-1.html
其他跟爬虫群有关的文档请看教程左栏菜单:https://www.gooseeker.com/tuto/tutorial.html





欢迎光临 集搜客GooSeeker网络爬虫 (http://120.55.75.51/doc/) Powered by Discuz! X3.2