集搜客GooSeeker网络爬虫

标题: 集搜客爬虫群大批量采集数据的场景、原理和价值 [打印本页]

作者: Fuller    时间: 2015-12-26 22:13
标题: 集搜客爬虫群大批量采集数据的场景、原理和价值
这是一个文档合集

1,场景描述

2,使用手册
3,入口网址



作者: qq16359    时间: 2016-5-4 01:33
好像很厉害的样子喔
作者: ethree    时间: 2016-7-1 11:11

好像很厉害的样子喔
作者: markjl    时间: 2016-10-8 17:28
是用什么语言写的?python 么?
作者: wjzeng    时间: 2016-10-14 09:07
为什么最大允许运行爬虫数设置成4的时候可以进行爬虫,设置成2的时候就不可以了呢?单开两个爬虫也不能运行......
作者: Fuller    时间: 2016-10-14 09:12
wjzeng 发表于 2016-10-14 09:07
为什么最大允许运行爬虫数设置成4的时候可以进行爬虫,设置成2的时候就不可以了呢?单开两个爬虫也不能运行 ...

有这个问题?我们测试一下。我先确认一下你的设置,是不是这样的:
1)在会员中心设置主题的调度参数,把最大运行爬虫数量设置为2
2)在DS打数机上配置爬虫群
DS打数机上爬虫群任务窗口设置了多少个?要2或者大于2
作者: wjzeng    时间: 2016-10-14 09:17
最大允许运行爬虫数必须设置成大于等于4吗?
作者: shenzhenwan10    时间: 2016-10-14 09:24
wjzeng 发表于 2016-10-14 09:07
为什么最大允许运行爬虫数设置成4的时候可以进行爬虫,设置成2的时候就不可以了呢?单开两个爬虫也不能运行 ...

我刚才测试了一下,没发现异常
你说的“设置成4的时候可以运行,设置成2的时候不可以”,具体是什么现象?
是爬虫没有进行爬取?还是只有1个窗口有爬取?
作者: shenzhenwan10    时间: 2016-10-14 09:29
wjzeng 发表于 2016-10-14 09:17
最大允许运行爬虫数必须设置成大于等于4吗?

最大允许爬虫数是1到20的整数
作者: wjzeng    时间: 2016-10-14 09:55
shenzhenwan10 发表于 2016-10-14 09:24
我刚才测试了一下,没发现异常
你说的“设置成4的时候可以运行,设置成2的时候不可以”,具体是什么现象 ...

最大允许运行爬虫数设置成1、2、3的时候爬虫没有进行爬取(所有爬虫窗口都是),设置成大于4时才可以
作者: wjzeng    时间: 2016-10-14 09:57
Fuller 发表于 2016-10-14 09:12
有这个问题?我们测试一下。我先确认一下你的设置,是不是这样的:
1)在会员中心设置主题的调度参数,把 ...

1)是的;
2)默认的4个爬虫任务窗口;
作者: wjzeng    时间: 2016-10-14 10:04
Fuller 发表于 2016-10-14 09:12
有这个问题?我们测试一下。我先确认一下你的设置,是不是这样的:
1)在会员中心设置主题的调度参数,把 ...

不知道是不是跟我的规则设置有关系,换了一个规则后就正常了......
作者: wjzeng    时间: 2016-10-14 10:05
shenzhenwan10 发表于 2016-10-14 09:24
我刚才测试了一下,没发现异常
你说的“设置成4的时候可以运行,设置成2的时候不可以”,具体是什么现象 ...

不知道是不是跟我的规则设置有关系,刚刚换了一个规则后就正常了......
作者: Fuller    时间: 2016-10-14 10:12
wjzeng 发表于 2016-10-14 10:05
不知道是不是跟我的规则设置有关系,刚刚换了一个规则后就正常了......

如果只有一条线索,比如,翻页抓取,无法分布到多个爬虫窗口中的。要用那种有很多线索的规则做测试。

另外,爬虫调度是要排队的,排队一般要花45秒以上,如果在会员中心设置调度参数的时候,“一轮线索数量”设置的比较小,可能在另一个任务排队期间就做完了一批,结果下个任务还会用这个窗口
作者: wjzeng    时间: 2016-10-14 12:53
Fuller 发表于 2016-10-14 10:12
如果只有一条线索,比如,翻页抓取,无法分布到多个爬虫窗口中的。要用那种有很多线索的规则做测试。

另 ...

好的,非常感谢
作者: wjzeng    时间: 2016-10-14 23:15
Fuller 发表于 2016-10-14 10:12
如果只有一条线索,比如,翻页抓取,无法分布到多个爬虫窗口中的。要用那种有很多线索的规则做测试。

另 ...

群主,我今天用爬虫群跑了一晚上的规则“携程户外3”,明明一个网页上应该有15个旅游项目的数据(包括:名称、价格、出发地点、时间),做规则时测试也好好的,可是用爬虫群抓取数据时,每条线索都只能抓取前面1到2条旅游项目的数据,为什么呢,您能不能帮我看看?
作者: Fuller    时间: 2016-10-15 00:00
wjzeng 发表于 2016-10-14 23:15
群主,我今天用爬虫群跑了一晚上的规则“携程户外3”,明明一个网页上应该有15个旅游项目的数据(包括: ...

我加载看了,应该是你没有把DS打数机的滚屏打开,用菜单 配置-〉滚屏参数,把滚屏次数设置成>0的数字。

MS测试可以,但是DS打数机运行不行的原因可以看这里:http://www.gooseeker.com/doc/thread-3431-1-6.html
作者: Fuller    时间: 2016-10-15 00:04
wjzeng 发表于 2016-10-14 23:15
群主,我今天用爬虫群跑了一晚上的规则“携程户外3”,明明一个网页上应该有15个旅游项目的数据(包括: ...

你用爬虫群抓取的话,要在会员中心设置调度参数的时候设置滚屏次数,展开“高级设置”,里面有“滚屏次数”设置项,设置成>0的数字。
另外,不要选择“定时器触发”

作者: wjzeng    时间: 2016-10-15 08:23
Fuller 发表于 2016-10-15 00:04
你用爬虫群抓取的话,要在会员中心设置调度参数的时候设置滚屏次数,展开“高级设置”,里面有“滚屏次数 ...

正解,现已抓取成功,谢谢群主~~
作者: Alexisheee    时间: 2016-11-26 22:32
爬虫群 同时抓取 线索会有重复的嘛?
作者: Fuller    时间: 2016-11-26 22:34
Alexisheee 发表于 2016-11-26 22:32
爬虫群 同时抓取 线索会有重复的嘛?

不会重复,调度程序会安排好的

作者: Candylg    时间: 2017-6-26 19:28
非常不错
作者: coldcity    时间: 2017-10-29 11:29
好像很厉害的样子喔
作者: cocohill    时间: 2017-11-25 23:02
非常感谢出品这么好用的工具
作者: huanqiu123    时间: 2017-12-15 10:52
好像很厉害的样子
作者: 雨馨上漂    时间: 2017-12-26 00:48
怎么用
作者: 数据集二期    时间: 2017-12-26 09:27
雨馨上漂 发表于 2017-12-26 00:48
怎么用

这里有全部的教程,可以参考《教程》

作者: zyx1995    时间: 2018-1-4 16:01
怎么复制整个网页的源代码啊  我搞出来怎么都是xml 的  我要html
作者: 数据集二期    时间: 2018-1-4 16:46
zyx1995 发表于 2018-1-4 16:01
怎么复制整个网页的源代码啊  我搞出来怎么都是xml 的  我要html

参考《采集网页html源码》






欢迎光临 集搜客GooSeeker网络爬虫 (http://120.55.75.51/doc/) Powered by Discuz! X3.2