集搜客GooSeeker网络爬虫
标题:
网页pdf加载缓慢,抓取数据失败,怎么解决?
[打印本页]
作者:
sagehxq
时间:
2017-3-3 22:23
标题:
网页pdf加载缓慢,抓取数据失败,怎么解决?
大家好,在用集搜客抓取数据的时候,由于我需要抓取pdf网页里的文本内容,网页pdf有好几百页,加载缓慢,打开DS打印机后,打印机显示抓取完成,但是实际上却没有抓到数据。请问应该怎么办呢???
作者:
Fuller
时间:
2017-3-3 23:17
如果pdf内容很长,不如直接写程序解析pdf文件,pdf也是一种标准,按照这个标准解析文件就行。利用爬虫的方法爬取只是一种捷径,但是大文件处理不一定合适。
还有一种方案:把pdf文件用集搜客爬虫下载下来,而不是解析它,批量下载完成后,放在自己的一个服务器上,再用集搜客爬虫去爬,自己的服务器速度快,能加快速度。
作者:
sagehxq
时间:
2017-3-4 08:34
自己的服务器?你是说邮箱吗、网盘这些的吗?谢谢你的回答。
作者:
Fuller
时间:
2017-3-4 09:15
sagehxq 发表于 2017-3-4 08:34
自己的服务器?你是说邮箱吗、网盘这些的吗?谢谢你的回答。
可以自己搭建一个apache服务器,比如用wamp server,把这些pdf文档都放上,然后用爬虫爬他们。只是一个建议,最后性能提高多少,我没有测试过
作者:
sagehxq
时间:
2017-3-4 09:35
谢谢
欢迎光临 集搜客GooSeeker网络爬虫 (http://120.55.75.51/doc/)
Powered by Discuz! X3.2