|
首先,集搜客网络爬虫提供的数据格式不只是Excel格式,Excel格式是在线版用户使用的导出格式,企业版用户还有定制的VIP用户他们可以使用CSV、JSON、SQL等格式的导出数据。
其次,生成Excel格式的导出数据主要是历史原因,集搜客网络爬虫已经有15年的历史了,最早选用了XML格式和Excel格式,后来更流行JSON格式,这种新格式都做到了API接口上。
Pandas确实是一个强大的数据处理和分析程序库,用Pandas对集搜客网络爬虫导出的数据进行处理确实是一个很好的搭配。这个帖子:怎样在Jupyter Notebook读取通过集搜客网络爬虫软件采集到的数据 有讨论。这篇文章《从Excel到Python:最常用的36个Pandas函数!最完整的Pandas教程!》展示了这些功能:
1,生成Excel数据表
2,Excel数据表检查
2.1,检查数据维度(行列)
2.2,用info函数检查数据表信息,就像mysql的show table类似
2.3,检查数据格式
2.4,检查空值
2.5,查看唯一值
2.6,查看数据表数值
2.7,查看列名称
2.8,查看前10行数据
2.9,查看后10行数据
3,数据表清洗
3.1,处理空值:删除或者填充
3.2,清理空格
3.3,大小写转换
3.4,更改数据格式
3.5,更改列名称
3.6,删除重复值
3.7,数值修改和替换
4,数据预处理
4.1,数据表合并
4.2,设置索引列
4.3,排序(按索引、按数值)
4.4,数据分组
4.5,数据分列
5,数据提取
5.1,按照标签提取
5.2,按照位置提取
5.3,按标签和位置提取
5.4,按条件提取
6,数据筛选
6.1,按条件筛选
7,数据汇总
7.1,分类汇总
7.2,数据透视
8,数据统计
8.1,数据采样
8.2,描述统计
8.3,相关分析
9,数据输出
9.1,写入excel
9.2,写入csv
清晰可见,作者很有心地将Pandas跟Excel做了对应。为什么要做这个对应?因为Excel在数据探索和数据描述性统计方面很方便,是首选工具,也是汇集了主流的数据探索和描述的方法和套路。然而单纯用Python写个程序,不太符合探索和迭代过程,所以,像帖子《怎样在Jupyter Notebook读取通过集搜客网络爬虫软件采集到的数据》,要在Jupyter Notebook下用Pandas,可以完整的找回来数据探索的感觉和乐趣
|
|
共 4 个关于本帖的回复 最后回复于 2021-2-25 17:05