集搜客GooSeeker网络爬虫

标题: 微博首页博文数据抓取问题 [打印本页]

作者: zhu94413523    时间: 2020-2-13 13:29
标题: 微博首页博文数据抓取问题
规则名称:微博抓取_博主首页博文互动数据_第二步
测试链接:https://weibo.com/u/3622512610?is_all=1
https://www.weibo.com/u/2405584352?is_all=1

问题描述:

塔塔鲁斯 2020-02-13 12:07:00

但是实际过程中发现,抓取会失败;因为如果用绝对定位;不同微博博主的首页绝对定位上面的内容不一样;如果用calss,评论、转发、点赞的calss定位是一样的导致抓不到数据



作者: Fuller    时间: 2020-2-13 16:04
这里有多个经验贴,关于定位标志相同怎么办:https://www.gooseeker.com/doc/thread-707-1-1.html
我通常使用这种方法:
找到这些节点的父节点或者比较近的祖先节点,如果有合适的定位标志,用他们共同的祖先节点做定位标志映射。这样得到的xpath是相对于他们祖先节点的,那么会用postion函数把这项具有相同定位标志的节点区分开

作者: wangyong    时间: 2020-11-9 10:47
使用集搜客微博工具箱中的微博博主首页采集工具,输入博主链接可以直接点击获取数据,非常简洁,不需要再编写采集规则
[attach]13235[/attach]
在输入链接可以选择三种不同的采集模式
1,全部历史微博:采集到当前微博账号下发布的所有微博数据
2,通过链接翻页看到的全部微博:因为微博主页的链接有多种样例,比如有按月份查询和搜索关键词的还有热门微博的,这种情况就只采集链接能查看到的微博
2,仅第1页:不进行翻页只采集第一页的数据,就是题主要采集的首页数据。
[attach]13236[/attach]
数据示例
[attach]13238[/attach]






作者: Fuller    时间: 2020-11-9 10:51
升级成最新版网络爬虫软件吧,微博采集工具箱和快捷采集都在左边栏有快捷入口,方便使用。下载地址:https://www.gooseeker.com/pro/product_note_firefox.html
[attach]13239[/attach]





欢迎光临 集搜客GooSeeker网络爬虫 (http://120.55.75.51/doc/) Powered by Discuz! X3.2