集搜客GooSeeker网络爬虫
标题: 第二页抓不到内容怎么办? [打印本页]
作者: Fuller 时间: 2015-12-12 21:12
标题: 第二页抓不到内容怎么办?
问:第二页抓不到内容怎么办?可以滚屏,但是没有数据,就第一页有
答:原因可能是没有设置 关键内容。
[attach]470[/attach]
问:我都试了,加上关键内容,第二页就不动了
答:那就是规则不合适,抓取ajax,一定要设置关键内容。很可能是第一页和第二页的内容所用的id=xxx不一样,你的规则只能用于第一页,要调整
问:设置了关键内容,就不翻页了。不设置翻页,但是没有数据
答:关键内容一定要,不翻页的原因要找出来,可以这样找
1)把规则加载到MS谋数台
2)加载完成后,内容定位 不要勾选
[attach]471[/attach]
3)在浏览器中翻页
4)看到下一页内容以后,再次勾上 内容定位
5)选择菜单:文件-〉刷新网页结构,然后再选择 分析页面
也就是用当前的规则分析一下 下一页的内容,你就能看到报错,就能知道哪个抓取内容不适合
作者: dearsunlight 时间: 2015-12-31 14:12
您好,我按照您上边说的过程操作了一下并没有报错出现。
我现在想做的是抓取某一主题所有的百度新闻标题。
现在的操作有:1.先对第一个新闻的标题、时间、链接分别进行了映射,并对该页的所有新闻进行了样例复制。2.新建记号线索,进行翻页规则设置。
在前两步操作不能抓取到下一页的内容后,进行了第三步操作,按照教程进行自动翻页规则设置。
但是这几步都没有帮我实现对余下几页内容的抓取,所以想请教一下是什么原因导致的呢?
还有个问题想麻烦您解答一下,就是我的DS打数机检索不到我设置的规则,但在我集搜客的账号里可以找到这些规则。我现在都是通过在集搜客账号里点击对应规则后的运行进行抓取的。请问这个是我的操作问题吗?
非常感谢解答!
作者: Fuller 时间: 2015-12-31 16:21
把主题名帖出来我们看一下。
我怀疑是输入主题名的时候,敲了什么键,输入了一个看不见的字符,造成DS打数机上也看不到,翻页的时候,两个主题名看起来是一样,其实有个看不见的字符。
这类问题发生过,还在进一步查找原因。你把主题名发出来我们研究一下
作者: dearsunlight 时间: 2015-12-31 16:26
嗯,好的,谢谢~
不过弱弱的问一句,怎么贴出来啊?我是新手~~是把那个规则给发布了吗?
作者: Fuller 时间: 2015-12-31 17:19
主题名是什么?把这个说出来,有管理权限的技术人员就能做检查,不用发布
作者: dearsunlight 时间: 2016-1-1 22:14
主题名:北京理工大学管理与经济学院。谢谢~
作者: Fuller 时间: 2016-1-1 22:36
我查看了您的抓取规则,问题在于
1,翻页的主题名应该与当前主题名一样,翻页不是下一级,因为当前网页的结构与翻页以后的网页结构是相同。所以,这是同一级,相当于多个网址用同一个规则进行抓取。勾选“连贯抓取”的时候,翻页用的主题名会自动填上的。连贯抓取的意思是指DS打数机不停顿,一口气把所有页翻完
2,如果“创建规则”工作台上,为您定义的抓取内容“link”勾选“下级线索”,这才是两级抓取,就需要进入“爬虫路线”工作台为这个线索起个主题名,通常不与当前主题名相同
作者: dearsunlight 时间: 2016-1-3 17:28
恩恩,我再研究一下,非常感谢!
欢迎光临 集搜客GooSeeker网络爬虫 (http://120.55.75.51/doc/) |
Powered by Discuz! X3.2 |