集搜客GooSeeker网络爬虫

标题: 用 知乎_独立问题所有回复采集 快捷采集得到的内容不全是怎么回事 [打印本页]

作者: 月球漫步    时间: 2020-2-20 16:27
标题: 用 知乎_独立问题所有回复采集 快捷采集得到的内容不全是怎么回事
用 知乎_独立问题所有回复采集 快捷采集得到的内容不全是怎么回事?


首先我用 '知乎_关键词搜索结果列表_内容’,采集下来数据,可以看到,实际链接分为两类网址
[attach]11808[/attach]
第一类:可以添加到  ‘知乎_专栏文章详情’,采集文章详情数据。
https://zhuanlan.zhihu.com/p/68334499

第二类:查找了一下,应该跟  ‘知乎_独立问题所有回复采集’这个示例网页一样
https://www.zhihu.com/question/20491054/answer/237830708

但是添加到这个版块采集,得到的内容不全,不知道是什么原因导致的?

作者: Fuller    时间: 2020-2-20 17:39
当在知乎上搜索的时候,点击搜索结果进入的那个页面,其实是知乎推荐的某个回答的网址,这时候会产生一个错觉,因为网页往下拉还是能看到其他回答的,就错以为是整个问题的网址,其实只是一个回答的网址。比如

[attach]11809[/attach]

网址是  https://www.zhihu.com/question/21707087/answer/19388531
仔细看网址中的内容 /answer/19388531 这个19388531就是答案的编号。所以,应该把这段删除,类似于上面截图中点击红框位置得到的网址,就是整个问题的网址,是这个样子的:
https://www.zhihu.com/question/21707087

作者: Fuller    时间: 2020-2-20 17:40
Fuller 发表于 2020-2-20 17:39
当在知乎上搜索的时候,点击搜索结果进入的那个页面,其实是知乎推荐的某个回答的网址,这时候会产生一个错 ...

也就是说,要得到整个问题的网址,也不用去点击,直接修改网址就行了,这样可以在excel中大批量地编辑好要采集的知乎问题网址

作者: wangyong    时间: 2020-2-20 17:52
Fuller 发表于 2020-2-20 17:40
也就是说,要得到整个问题的网址,也不用去点击,直接修改网址就行了,这样可以在excel中大批量地编辑好 ...

[attach]11810[/attach]
不用另行通过Excel构造网址

通过知乎_关键词搜索结果列表_内容采集到的数据,直接把问题所有回复链接下采集到的网址加入到快捷采集中就可以



作者: 月球漫步    时间: 2020-2-20 18:07
wangyong 发表于 2020-2-20 17:52
不用另行通过Excel构造网址

通过知乎_关键词搜索结果列表_内容采集到的数据,直接把问题所有回复链接下 ...

不用去构造网址,那就更方便好用了,我再去试试。





欢迎光临 集搜客GooSeeker网络爬虫 (http://120.55.75.51/doc/) Powered by Discuz! X3.2