集搜客GooSeeker网络爬虫

标题: 知乎回答数据爬取不完整 [打印本页]

作者: labalbal    时间: 2024-3-19 15:04
标题: 知乎回答数据爬取不完整
知乎有个问题有两百多个回答,但是只能爬出几十条,怎么爬取完整呢。

问题页面下滑,不断有新的回答出现。

作者: gz51837844    时间: 2024-3-19 16:41
你是使用的知乎快捷采集吗?
可以把添加的网址发出来,我们测试下

作者: labalbal    时间: 2024-3-19 16:58
没有,是自定义的
作者: labalbal    时间: 2024-3-19 17:00
gz51837844 发表于 2024-3-19 16:41
你是使用的知乎快捷采集吗?
可以把添加的网址发出来,我们测试下

没有,是自定义的



作者: Fuller    时间: 2024-3-20 00:01
为知乎做的快捷采集工具很全。尽量使用快捷采集。如果要自定义采集任务的话,要看采集瀑布流网页的教程,定义连续滚屏动作:https://www.gooseeker.com/doc/article-548-1.html

瀑布流网页几乎不可能采集全。因为越往下滚屏,网页越大,占用的内存越大,最后就滚不动了。另外,知乎网站自身的速度影响也很大,有时候滚着滚着就显示不出新内容了。

总之,网速要很快才行,自己的电脑也要配置高一些。多采集几遍,使用采集到的数量最多的那一次的结果
作者: labalbal    时间: 2024-3-20 20:53
Fuller 发表于 2024-3-20 00:01
为知乎做的快捷采集工具很全。尽量使用快捷采集。如果要自定义采集任务的话,要看采集瀑布流网页的教程,定 ...

好滴好滴,我想再问一下,用快捷采集数据,回答内容的最后总会有“X年X月,赞同、评论”啥的,怎么能够去除这些文字呢
作者: Fuller    时间: 2024-3-21 10:05
labalbal 发表于 2024-3-20 20:53
好滴好滴,我想再问一下,用快捷采集数据,回答内容的最后总会有“X年X月,赞同、评论”啥的,怎么能够去 ...

如果结构都是一样的,在excel中可以去除。

我昨天自定义测试了一下。如果网络比较快,还是能采集的很全的。如果每个回答很长,采集四五百条回答要花两个多小时。

昨天修改了采集知乎问题回答的快捷采集工具:https://www.gooseeker.com/res/rule_167.html
应该会采集到的更多一些

作者: Fuller    时间: 2024-3-21 10:09
labalbal 发表于 2024-3-20 20:53
好滴好滴,我想再问一下,用快捷采集数据,回答内容的最后总会有“X年X月,赞同、评论”啥的,怎么能够去 ...

昨天升级了知乎快捷采集工具以后,最后就没有X年X月,。。。这些内容了





欢迎光临 集搜客GooSeeker网络爬虫 (http://120.55.75.51/doc/) Powered by Discuz! X3.2