GooSeeker
产品
资源
教程
视频教程
使用交流
资讯
开启辅助访问
切换风格
请
登录
后使用快捷导航
没有帐号?
立即注册
登录
|
注册
快捷导航
资讯
常见问题
使用交流
python交流
视频教程
资源发布公告
数学建模交流
论坛
›
搜客社区
›
使用交流
2
11988
修改失效网络爬虫,发现网页内容显示不全,怎么办?
发誓学好内容分析
于 2020-3-20 16:13
发表
[复制链接]
[只看楼主]
[打印]
[上一主题]
[下一主题]
发誓学好内容分析
积分
1100
精华
0
威望
402
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
以前做的一个网络爬虫任务,最近发现所有的线索都采集失败了,我想把这个爬虫规则修改一下,但是加载出来的网页内容显示不全,怎么办?
下面是我做的步骤,看看有没有问题:
1,我用集搜客网络爬虫加载分析规则,参考的教程是这一篇:
https://www.gooseeker.com/doc/article-124-1.html
2,我发现集搜客爬虫浏览器显示不全样本页面,我按照这篇采集阿里巴巴外包询价网站的文章选用集搜客采摘浏览器加载网页:
https://www.gooseeker.com/doc/article-509-1.html
3,网页内容显示全了,我安装文章的说明,点击定义规则按钮,也看到把集搜客网络爬虫也运行起来了,而且显示了定义规则工作台
4,我在网络爬虫中已经看到了样本页面也显示全了,我就在工作台上把规则搜到,选择菜单“加载”
5,等规则加载上来以后,发现爬虫浏览器中的网页又显示不全了
所以,就没法修改规则了
收藏
0
转播
支持
0
反对
0
举报
使用道具
|
回复
共 2 个关于本帖的回复 最后回复于 2020-3-20 16:29
Fuller
积分
24088
精华
0
威望
6736
金钱
6
最后登录 2025-5-14
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
沙发
Fuller
管理员
发表于 2020-3-20 16:28:36
|
只看该作者
截止今天(2020年3月20日),在集搜客官网上可以看到两个浏览器产品:
1,
集搜客网络爬虫浏览器
:这是一个高性能的网络爬虫软件,内嵌了火狐的内核
2,
集搜客采摘浏览器
:除了具有网络爬虫功能,还可以辅助手工摘录零散的内容,目前网络爬虫功能还在不断地增加中,相比第一个产品,网络爬虫功能还不够全。内核是最新版Chrome
由于内核不同,集搜客采摘浏览器的适应性更强,如果用爬虫浏览器打不开网页,就尝试用采摘浏览器打开。
因为采摘浏览器的网络爬虫功能还在逐步增加过程中,首先就没有定义规则的能力,那么就需要将采摘浏览器和网络爬虫浏览器配合在一起使用。
采摘浏览器把网页加载出来以后,点击做边栏最上面的定义规则按钮以后,会自动产生一个网页快照,存在了硬盘上,并自动把网络爬虫浏览器运行起来,显示这个网页快照。那么,原来的爬虫浏览器就可以在网页快照上定义规则了。
可见,网络爬虫浏览器是在快照上定义规则,而不是原网页上,所以,加载分析规则的时候要用“加载(仅规则)”,而不能用“加载”,因为“加载”会把原网页加载到浏览器,会显示不全。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
举报
使用道具
回复
支持
反对
Fuller
积分
24088
精华
0
威望
6736
金钱
6
最后登录 2025-5-14
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
板凳
Fuller
管理员
发表于 2020-3-20 16:29:55
|
只看该作者
这个问题是我们软件体验需要优化,集搜客网络爬虫软件的下个版本会在搜规则工作台上判断出这种情况,隐藏掉“加载”菜单,这样就不会冲掉已经加载好的快照了
举报
使用道具
回复
支持
反对
返回列表
B
Color
Image
Link
Quote
Code
Smilies
高级模式
您需要登录后才可以回帖
登录
|
立即注册
发表回复
回帖并转播
回帖后跳转到最后一页
回复
推荐板块
使用交流
常见问题
数学建模交流
python交流
视频教程
精彩推荐
360或火绒等杀毒软件导致GooSeeker爬虫软件
话题分析(NMF模型和LDA模型)软件的安装和
运行Apple无法验证的程序的方法
文本聚类分析软件的安装和使用方法
利用AI阅读和分析文本:扣子COZE记录用户反
热门话题
1
【集微库】微博采集工具箱使用常见问题
2
怎样使用快捷采集(以采集京东评论为例)
3
集搜客文本分词标注工具(V1版)
4
有没有办法采集机场的出租车信息?
5
获得积分的好方法:转发小程序、QQ群、微信
6
【求助】关于采集阿里巴巴国际站访客详情分
7
GooSeeker分词,情感分析和关键词抽取平台使
8
新浪微博_博主主页
9
怎样采集抖音关键词搜索后的数据
10
集搜客GooSeeker 网络爬虫版本发布公告
热门用户
Fuller
帖子:10610
访问主页>>
wangyong
帖子:1738
访问主页>>
gbkuce
帖子:0
访问主页>>
GMT+8, 2025-5-16 06:01
快速回复
快速发帖
返回顶部
返回列表
共 2 个关于本帖的回复 最后回复于 2020-3-20 16:29