集搜客GooSeeker网络爬虫

标题: 推特现在采集不了了吗 [打印本页]

作者: 15681337667    时间: 2022-8-18 03:58
标题: 推特现在采集不了了吗
[attach]15553[/attach]

作者: wangyong    时间: 2022-8-18 09:16
可以采集,你输入的是什么网址,是推特搜索采集的链接吗?
作者: ida1015    时间: 2022-10-9 01:42
wangyong 发表于 2022-8-18 09:16
可以采集,你输入的是什么网址,是推特搜索采集的链接吗?

您好,是无法采集的。想采集某账号发布的贴文内容,按照规则输入的是账号首页网站,但总是失败

作者: ida1015    时间: 2022-10-9 01:43
然后我现在每次采集状态跟楼主一样
作者: gz51837844    时间: 2022-10-9 07:55
估计网站改版了,今天技术会进行升级

作者: gz51837844    时间: 2022-10-9 09:21
ida1015 发表于 2022-10-9 01:43
然后我现在每次采集状态跟楼主一样

技术测试是可以采集的。
你把采集失败的网址发出来我们测试下

作者: ida1015    时间: 2022-10-9 21:53
gz51837844 发表于 2022-10-9 09:21
技术测试是可以采集的。
你把采集失败的网址发出来我们测试下

已私信回复,感谢!

作者: gz51837844    时间: 2022-10-10 16:38
ida1015 发表于 2022-10-9 21:53
已私信回复,感谢!

你发的几条网址这里测试是OK的。估计推特会根据不同的国家地区,用户等,分别展示不同结构的网页。

你可以按如下方法保存一个本地html文件发给我,我们看看能否针对你看到的页面结构增加一个采集规则来匹配:
1. 在数据管家上面打开一个采集失败的推特页面,等待几十秒等页面加载完成。注意,下图的微博页面只是作为示意
2. 在网页内容空白处鼠标右键点击,然后选择“存样本页面”
[attach]15606[/attach]
3. 到电脑的爬虫文件夹,我电脑上是下图的路径,你的电脑会有不同, 把GSSamplePage目录打包发给我
[attach]15607[/attach]




作者: ida1015    时间: 2023-2-9 16:47
gz51837844 发表于 2022-10-10 16:38
你发的几条网址这里测试是OK的。估计推特会根据不同的国家地区,用户等,分别展示不同结构的网页。

你可 ...

您好!现已能够进行瀑布流采集,但出现的问题是博主推文共4000+但我这里只能采集800多条。





欢迎光临 集搜客GooSeeker网络爬虫 (http://120.55.75.51/doc/) Powered by Discuz! X3.2