集搜客GooSeeker网络爬虫

标题: 网页pdf加载缓慢，抓取数据失败，怎么解决？ [打印本页]

作者: sagehxq 时间: 2017-3-3 22:23
标题: 网页pdf加载缓慢，抓取数据失败，怎么解决？
大家好，在用集搜客抓取数据的时候，由于我需要抓取pdf网页里的文本内容，网页pdf有好几百页，加载缓慢，打开DS打印机后，打印机显示抓取完成，但是实际上却没有抓到数据。请问应该怎么办呢？？？

作者: Fuller 时间: 2017-3-3 23:17
如果pdf内容很长，不如直接写程序解析pdf文件，pdf也是一种标准，按照这个标准解析文件就行。利用爬虫的方法爬取只是一种捷径，但是大文件处理不一定合适。

还有一种方案：把pdf文件用集搜客爬虫下载下来，而不是解析它，批量下载完成后，放在自己的一个服务器上，再用集搜客爬虫去爬，自己的服务器速度快，能加快速度。

作者: sagehxq 时间: 2017-3-4 08:34
自己的服务器？你是说邮箱吗、网盘这些的吗？谢谢你的回答。

作者: Fuller 时间: 2017-3-4 09:15

sagehxq 发表于 2017-3-4 08:34
自己的服务器？你是说邮箱吗、网盘这些的吗？谢谢你的回答。

可以自己搭建一个apache服务器，比如用wamp server，把这些pdf文档都放上，然后用爬虫爬他们。只是一个建议，最后性能提高多少，我没有测试过

作者: sagehxq 时间: 2017-3-4 09:35
谢谢

欢迎光临集搜客GooSeeker网络爬虫 (http://120.55.75.51/doc/)