|
集搜客网络爬虫是个大型网络爬虫,不是采集器小软件,所以,像百度爬虫一样,网页是一层层抓取的。抓取某个网址的时候,除了抓取内容,还把网页中的链接抓下来,形成下级线索,供爬虫去爬,但是,不是当前运行的爬虫窗口紧接着去爬下层,而是可以分配给其他爬虫,甚至是分布在世界各地的爬虫一起来爬。所以,看起来是大循环套小循环,外循环套内循环,其实运行的时候是层层分拆开的。
抓列表-》抓详情是典型的层级抓取,尽量不要用“连续动作”,虽然连续动作更像循环套循环,但是,连续动作是一口气完成的,无法分布式快速爬数据。
首选层级抓取,在层级抓取不能使用的时候采用连续动作,比如,在列表中,每个超链接看起来像个超链接,但是没有独立的网址,而是一段javascript代码,比如,onclick="javascript:void(0)",这样的代码,此时不得不用连续动作。
把层级抓取规则定义好以后,在会员中心把每一层加入爬虫群罗盘中,可以大批量并行抓取。
|
|
共 4 个关于本帖的回复 最后回复于 2019-4-26 12:57