GooSeeker
产品
资源
教程
视频教程
使用交流
资讯
开启辅助访问
切换风格
请
登录
后使用快捷导航
没有帐号?
立即注册
登录
|
注册
快捷导航
资讯
常见问题
使用交流
python交流
视频教程
资源发布公告
数学建模交流
论坛
›
搜客社区
›
常见问题
2
5676
企业信用网搜索列表网址失效,怎么对列表页面做规则
王老乄
于 2017-1-20 16:58
发表
[复制链接]
[只看楼主]
[打印]
[上一主题]
[下一主题]
王老乄
积分
32
精华
0
威望
12
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
http://www.bgcheck.cn/Index.html####
复制代码
比如说,我在企业信用网输入关键词“万科”,然后会有一个搜索列表出现,网址变成这个:
http://www.bgcheck.cn/MemberCenter/FirmCredit/Search.html?Keywords=%25E4%25B8%2587%25E7%25A7%2591
复制代码
页面显示是这样的:
我要抓取这个列表页面,但是将网址复制到MS谋数台之后又跳转到了初始页面,如下图所示:
我想应该是网址失效了,那这样的话,对搜索列表做规则的样本网址怎么取?
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
收藏
0
转播
支持
0
反对
0
举报
|
回复
共 2 个关于本帖的回复 最后回复于 2017-1-20 17:09
xandy
积分
3345
精华
0
威望
1130
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
沙发
xandy
论坛元老
发表于 2017-1-20 17:05:14
|
只看该作者
你要换一种思路,直接针对搜索列表做采集规则是不行的(因为网址很快就失效了)。
所以可以让爬虫模拟人的行为,比如说上面的应用场景,让爬虫在首页页面输入关键词,然后点击搜索,然后抓取搜索列表。
就是说,从搜索动作开始一直到采集,都交给爬虫去实现。
做两个规则:
A:做连续动作,定义输入关键词和点击搜索动作,目标主题名是规则B
B:采集搜索列表上的内容
参看教程:《
自动搜索关键词采集信息—以京东为例
》
举报
回复
支持
反对
xandy
积分
3345
精华
0
威望
1130
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
板凳
xandy
论坛元老
发表于 2017-1-20 17:09:49
|
只看该作者
你可能会问,那么规则B的样本网址是哪个,规则B的样本网址和规则A的一样,都是首页搜索页面所在的网址,只不过你做规则B的时候,先不着急定义,先去掉“内容定位”,然后在MS浏览器窗口里头搜索关键词,点击搜索,出现搜索列表之后,再勾选“内容定位”,然后点击“规则->刷新网页结构”后再定义采集规则。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
举报
回复
支持
反对
返回列表
B
Color
Image
Link
Quote
Code
Smilies
高级模式
您需要登录后才可以回帖
登录
|
立即注册
发表回复
回帖并转播
回帖后跳转到最后一页
回复
推荐板块
使用交流
常见问题
数学建模交流
python交流
视频教程
精彩推荐
360或火绒等杀毒软件导致GooSeeker爬虫软件
话题分析(NMF模型和LDA模型)软件的安装和
运行Apple无法验证的程序的方法
文本聚类分析软件的安装和使用方法
利用AI阅读和分析文本:扣子COZE记录用户反
热门话题
1
【集微库】微博采集工具箱使用常见问题
2
怎样使用快捷采集(以采集京东评论为例)
3
集搜客文本分词标注工具(V1版)
4
有没有办法采集机场的出租车信息?
5
获得积分的好方法:转发小程序、QQ群、微信
6
【求助】关于采集阿里巴巴国际站访客详情分
7
GooSeeker分词,情感分析和关键词抽取平台使
8
新浪微博_博主主页
9
怎样采集抖音关键词搜索后的数据
10
集搜客GooSeeker 网络爬虫版本发布公告
热门用户
Fuller
帖子:10616
访问主页>>
wangyong
帖子:1738
访问主页>>
gbkuce
帖子:0
访问主页>>
GMT+8, 2025-5-24 08:55
快速回复
快速发帖
返回顶部
返回列表
共 2 个关于本帖的回复 最后回复于 2017-1-20 17:09