集搜客GooSeeker网络爬虫

标题: 抓取几百页就会停止为什么 [打印本页]

作者: joanne    时间: 2017-7-13 04:06
标题: 抓取几百页就会停止为什么
主题名是 东方财经爬取
              东方财经爬取2
              东方财经爬取3
              东方财经爬取4

每次都是爬取几百页后说爬取完了 我的目标要爬取40万页 每次都要手动调停止那页开始太累了
另外我可以一个网页建立20个怕虫群吗 这样会快更多

作者: shengchengx    时间: 2017-7-13 09:23
停止是因为报什么错么,有截图么?
作者: joanne    时间: 2017-7-13 18:22
shengchengx 发表于 2017-7-13 09:23
停止是因为报什么错么,有截图么?

没有报错 就说是抓取完成
我检查过线索也是没有问题

作者: Fuller    时间: 2017-7-13 18:32
没有查到你的规则,主题名是 东方财经爬取 吗?
作者: Fuller    时间: 2017-7-13 18:33
如果用同一台电脑,同时运行20个爬虫群窗口,可能会被目标网站封锁了,你可以试试。如果封锁了,清缓存和cookie,把爬虫群窗口少开几个,再运行
作者: joanne    时间: 2017-7-13 19:23
Fuller 发表于 2017-7-13 18:32
没有查到你的规则,主题名是 东方财经爬取 吗?

啊 对不起 是东方财富爬取

作者: Fuller    时间: 2017-7-13 20:54
joanne 发表于 2017-7-13 19:23
啊 对不起 是东方财富爬取

股吧这个网站很好采集,你可以不用在规则中做翻页规则,因为它的每个分页都有独立的网址,比如, http://guba.eastmoney.com/default_200.html ,里面的200这个数字就是页码。你可以把每个页码都构造出来。每个分页单独采集。这样就不怕翻页中断了。可以随时从任何分页开始采集

作者: joanne    时间: 2017-7-13 21:42
Fuller 发表于 2017-7-13 20:54
股吧这个网站很好采集,你可以不用在规则中做翻页规则,因为它的每个分页都有独立的网址,比如, http:// ...

哦哦 谢谢你的建议
但是我一共要采集40多万页
一个一个构造感觉很累 有其他办法可以一次性构造所有线索吗

作者: joanne    时间: 2017-7-13 22:59
Fuller 发表于 2017-7-13 20:54
股吧这个网站很好采集,你可以不用在规则中做翻页规则,因为它的每个分页都有独立的网址,比如, http:// ...

我找到批量导入的方法了 谢谢~





欢迎光临 集搜客GooSeeker网络爬虫 (http://120.55.75.51/doc/) Powered by Discuz! X3.2