集搜客GooSeeker网络爬虫

标题: 无法完成翻页采集 [打印本页]

作者: Leehomchan    时间: 2018-5-30 19:14
标题: 无法完成翻页采集
本帖最后由 Leehomchan 于 2018-5-30 19:18 编辑

按照教程中的方法进行设置,抓取数据时,能够抓取第一页的数据然后转到第二页,然后就出现错误提示,"抓取失败,抓取规则不合适或超时时间设置太短”,将超时时间设置为40s后依然出现错误提示,请教下究竟是哪里出现了问题?[attach]9508[/attach][attach]9509[/attach][attach]9509[/attach]
作者: 数据集    时间: 2018-5-30 21:23
第一页和第二页的结构有细微的差别,需要给列表做上定位映射,精确采集范围,做法如下图所示,创建一个叫“样例”的容器,把采集字段放到这个容器下,用这个名为样例的容器做样例复制,再给列表做上定位映射。


作者: Leehomchan    时间: 2018-5-30 21:38
谢谢你,不过怎么创建样例容器,这个“Box clearfix”从哪来的
作者: 数据集    时间: 2018-5-30 21:51
本帖最后由 数据集 于 2018-5-30 21:59 编辑

1,创建样例容器就跟创建字段一样的,右键列表-》添加-》包容,再为容器命名,随便取一个名字都行,然后再右键产品名-》移动-》右移,这样依次把采集的字段右移到容器中去
可参考《整理箱怎样同时使用定位映射和样例复制?》

[attach]9512[/attach][attach]9513[/attach]
2,“Box clearfix”就是UL节点的class值,右键UL节点-》定位标志映射-》列表
[attach]9514[/attach]


作者: Leehomchan    时间: 2018-5-30 22:42
非常感谢您,已经解决,看来爬虫前也需要分析页面结构,不是一味照着教程走




欢迎光临 集搜客GooSeeker网络爬虫 (http://120.55.75.51/doc/) Powered by Discuz! X3.2