通过列表链接去抓详情，怎么做？

gooseeker_info

有个列表，含有20条信息，每个都是超链接，能点击进入详细页，怎样循环抓所有信息，并且挨个点进去抓详情，然后回退出来再翻页抓下一个列表，循环往复全部抓完

Fuller · 发表于 2016-10-18 09:23:21

集搜客网络爬虫是个大型网络爬虫，不是采集器小软件，所以，像百度爬虫一样，网页是一层层抓取的。抓取某个网址的时候，除了抓取内容，还把网页中的链接抓下来，形成下级线索，供爬虫去爬，但是，不是当前运行的爬虫窗口紧接着去爬下层，而是可以分配给其他爬虫，甚至是分布在世界各地的爬虫一起来爬。所以，看起来是大循环套小循环，外循环套内循环，其实运行的时候是层层分拆开的。

抓列表-》抓详情是典型的层级抓取，尽量不要用“连续动作”，虽然连续动作更像循环套循环，但是，连续动作是一口气完成的，无法分布式快速爬数据。

首选层级抓取，在层级抓取不能使用的时候采用连续动作，比如，在列表中，每个超链接看起来像个超链接，但是没有独立的网址，而是一段javascript代码，比如，onclick="javascript:void(0)"，这样的代码，此时不得不用连续动作。

把层级抓取规则定义好以后，在会员中心把每一层加入爬虫群罗盘中，可以大批量并行抓取。

LIUTING0529 · 发表于 2019-4-26 04:46:13

Fuller 发表于 2016-10-18 09:23
集搜客网络爬虫是个大型网络爬虫，不是采集器小软件，所以，像百度爬虫一样，网页是一层层抓取的。抓取某个 ...

请问超链接，选择连续动作来爬首页和详细页数据（携程民宿），在第一层规则应该设置整理箱爬民宿名称价格等，然后设置连续动作点击民宿名称，并且在高级设置里循环吗？加上翻页循环，然后第二层规则爬详细页？

Fuller · 发表于 2019-4-26 07:58:34

LIUTING0529 发表于 2019-4-26 04:46
请问超链接，选择连续动作来爬首页和详细页数据（携程民宿），在第一层规则应该设置整理箱爬民宿名称价格 ...

如果你在第一层用连续点击的方式点击民宿名称，就会直接进入到民宿的详情页，立马就执行了第二层。这种情形下，你去统计第二层的线索数，永远不变的。
通常不用这种方法，因为要一口气点击完，然后翻页，再点击，中间很容易断掉。那么，如果在第一层能看到第二层的A节点的有效的href网址，那就用普通的层级采集。第一层和第二层可以并行采集，也可以多台电脑分工采集，断掉也仅仅影响一个网页。

如果用连续动作那个方案，就不要在整理箱那里勾下级线索了，否则，点击和下级线索就重复采集了。

LIUTING0529 · 发表于 2019-4-26 12:57:27

Fuller 发表于 2019-4-26 07:58
如果你在第一层用连续点击的方式点击民宿名称，就会直接进入到民宿的详情页，立马就执行了第二层。这种情 ...

好的，谢谢！

通过列表链接去抓详情，怎么做？

共 4 个关于本帖的回复最后回复于 2019-4-26 12:57

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

通过列表链接去抓详情，怎么做？

共 4 个关于本帖的回复 最后回复于 2019-4-26 12:57

推荐板块

精彩推荐

热门话题

热门用户

共 4 个关于本帖的回复最后回复于 2019-4-26 12:57