集搜客GooSeeker网络爬虫

标题: 想抓取淘宝商品累计评论里面的好评数据 [打印本页]

作者: lilyzoo    时间: 2017-3-21 21:16
标题: 想抓取淘宝商品累计评论里面的好评数据
想抓取淘宝商品累计评论里面的好评数据,
自己目前操作的是做三级规则,一层层模拟点击映射,
但是从第一级规则开始运行,运行到累计评论页面就停止了。
请问怎么解决?



作者: lilyzoo    时间: 2017-3-21 21:20
附加图


作者: Fuller    时间: 2017-3-21 21:35
第二级规则你想点击“好评”那个旋钮?规则加载失败,所以,第三级就执行不到
作者: Fuller    时间: 2017-3-21 21:43
lilyzoo 发表于 2017-3-21 21:20
附加图

[attach]5918[/attach]

你做的映射都对,“好评”这个词前后有很多空格,作为记号的话,需要把前后的空格删除,删除以后,就不能勾“全匹配”了,你的错误就是勾了全匹配

作者: lilyzoo    时间: 2017-3-23 20:49
本帖最后由 lilyzoo 于 2017-3-23 20:59 编辑
Fuller 发表于 2017-3-21 21:43
你做的映射都对,“好评”这个词前后有很多空格,作为记号的话,需要把前后的空格删除,删除以后,就不 ...

您好,我按照您的解答在记号值那边做了更改。整个三级规则做下来没有规则报错,但是在爬数据的时候(用第一级规则爬的),想多爬取几页就点的集搜,可是打数机依旧在点击累计评价后的页面之后就空白了,请问集搜是这样用的吗?如果想爬好评按钮下的多页数据是否还要做一层规则?

作者: Fuller    时间: 2017-3-23 22:12
根据你的描述,似乎一切是正确的。运行应该从第一级开始,在运行之前要打开DS打数机的滚屏功能,就是用菜单设置滚屏参数,把滚屏次数设置成大于0的数字,你设置了吗?
作者: Fuller    时间: 2017-3-23 22:21
加载了你的规则,第二级有问题,加载失败,第二级不用定义那么多抓取内容,要第一项就行了,减少失败的概率。
作者: Fuller    时间: 2017-3-23 22:26
我又测试了一遍,虽然第二级没有问题了,但是点击不了“好评”,似乎应该用连续动作中的点击类型来做这个动作,而不是用爬虫路线里面的连贯抓取
作者: Fuller    时间: 2017-3-23 22:40
刚才我把第二级改成连续动作了,做个点击动作,而且设置高级设置,勾上模拟点击,额外延迟3秒,所用的xpath
  1. //*[@class='J_KgRate_Filter filtering']/li[position()=4]/label/input
复制代码

测试成功
作者: lilyzoo    时间: 2017-3-24 00:10
Fuller 发表于 2017-3-23 22:40
刚才我把第二级改成连续动作了,做个点击动作,而且设置高级设置,勾上模拟点击,额外延迟3秒,所用的xpath ...

半夜逛手机跑来看回复!

真的太敬业了!
明早起来就去实践!
一把抱住!
谢谢谢谢!


作者: lilyzoo    时间: 2017-3-24 20:12
Fuller 发表于 2017-3-23 22:40
刚才我把第二级改成连续动作了,做个点击动作,而且设置高级设置,勾上模拟点击,额外延迟3秒,所用的xpath ...

我重新设置成了连续动作,可以跳转到好评标签下的页面。但是我点集搜,输的5,它这个页面就一直在跳,好像停不下来了。。。

作者: lilyzoo    时间: 2017-3-24 21:31
lilyzoo 发表于 2017-3-24 20:12
我重新设置成了连续动作,可以跳转到好评标签下的页面。但是我点集搜,输的5,它这个页面就一直在跳,好 ...

运行了一个多小时页面终于到最后也一页,可是打数机丝毫没有停止的意思啊。。。。。
还想请问一下这样搜集到的数据在哪里呢,怎样才能有直观的excel表数据?(自己制作了规则进行发布,再用DIY数据采集?)

作者: Fuller    时间: 2017-3-24 22:18
lilyzoo 发表于 2017-3-24 21:31
运行了一个多小时页面终于到最后也一页,可是打数机丝毫没有停止的意思啊。。。。。
还想请问一下这样搜 ...

你观察到在跳,那应该是在翻页,你是不是想只翻页5次?另外你想直接存入数据库并导出成excel,那么这两个问题都可以启用爬虫群调度来实现。在调度参数中,可以设定翻页次数,启用爬虫群模式的话,就会自动入库,跟数据DIY的运行几乎是一样的。但是数据DIY是官方发布的规则,你自己做的发布不到数据DIY上。

如果翻页到最后还停不下来,应该设置“重复内容中断”,爬虫群调度参数中有这个参数,菜单也有这个设置项

作者: lilyzoo    时间: 2017-3-25 20:28
Fuller 发表于 2017-3-24 22:18
你观察到在跳,那应该是在翻页,你是不是想只翻页5次?另外你想直接存入数据库并导出成excel,那么这两个 ...

谢谢您的耐心解答,我操作了一下爬虫群。打开集搜客浏览器之后,我点击了DS打数机,然后点爬虫群配置,弹出来配置窗口(有线程名称,默认勾选自启动),关闭后就会弹出两个打数机窗口;
接着我点了爬虫群调度,出现自己的规则页面,是否只需调度三级规则最顶层一级呢?点击调度,有一些参数设置,我填成下图。

参数设置之后,点击确认会启动爬虫群,打开打数机。
在打数机运行完毕之后(打数机页面能够调到好评标签下的内容),可是我导出数据看发现只有第一层规则里抓取的内容,这是什么情况呢?




作者: shenzhenwan10    时间: 2017-3-25 20:31
本帖最后由 shenzhenwan10 于 2017-3-25 20:41 编辑

通过连续的模拟点击或连续动作自动顺序执行的多个规则,只需要调度第一个入口规则,就像你在单搜或集搜里只需要运行第一个规则是一样的
作者: shenzhenwan10    时间: 2017-3-25 20:32
爬虫群参数里的滚屏次数应该设置一个大于0的值,比如10,因为淘宝评论要滚屏才能加载出来
作者: shenzhenwan10    时间: 2017-3-25 21:22
shenzhenwan10 发表于 2017-3-25 20:31
通过连续的模拟点击或连续动作自动顺序执行的多个规则,只需要调度第一个入口规则,就像你在单搜或集搜里只 ...

如果你需要入库并且要入库的不是第一个入口规则,而是顺序执行的其它规则,那么在爬虫群的调度里也需要把最后实际抓取的1个或几个规则设置调度,调度的选项为:
不勾选“抓取”,勾选“结果入库”


作者: lilyzoo    时间: 2017-3-25 21:34
shenzhenwan10 发表于 2017-3-25 21:22
如果你需要入库并且要入库的不是第一个入口规则,而是顺序执行的其它规则,那么在爬虫群的调度里也需要把 ...

我把滚屏次数设置成了5,把后两级规则都加入爬虫群了,启动爬虫群可是为什么打数机空白?

作者: shenzhenwan10    时间: 2017-3-25 23:28
你看一下是不是没有线索了
作者: lilyzoo    时间: 2017-3-26 20:40
shenzhenwan10 发表于 2017-3-25 23:28
你看一下是不是没有线索了

激活线索我都试了的,可是打数机即使工作也抓取不了好评按钮下面的评论啊,下载爬虫群入库的评论,打开看只有第一个页面的商品名称和累计评论两行。。。。
要哭死了。。。
毕业设计的数据啊,谁帮帮我。。。

作者: wangyong    时间: 2021-11-1 11:25
集搜客可以快捷采集中有淘宝评论好评采集淘宝评论中评采集淘宝评论差评采集
使用方法相同,选择对应的采集入口,在快捷采集输入要采集的商品网址后就可以采集了
下面以采集淘宝商品好评为例,介绍怎样采集
1,安装集搜客数据管家,从左侧工具条进入快捷采集,选择淘宝评论好评采集,输入要采集的商品链接,点击“获取数据按钮”,就开始采集数据了

2,在快捷采集后台中,看到采集任务的状态变为“已采集”后,就可以点击打包按钮下载数据了







欢迎光临 集搜客GooSeeker网络爬虫 (http://120.55.75.51/doc/) Powered by Discuz! X3.2