Skip to content

Scatteredrain/python_for_data_analysis_2nd_chinese_version

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

92 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

README


付费好用的代理推荐:SmartProxy 全球IP代理,1亿真实住宅IP资源。专业海外http代理商,千万优质纯净住宅IP资源,覆盖全球城市,高匿稳定提供100%原生住宅IP,支持社交账户,电商平台,网络数据收集等服务。成功率伪装度超高!! 付费套餐多种,需要高质量代理IP的可以注册后联系客服,实名注册后赠送500M流量,不懂怎么用的同学可以问客服或者看视频教程。(官网有很多简单易懂的视频教学)

  • 超高并发备份:独享高性能服务器,以真实住宅地址进行请求访问,保持代理正常连接,不限制并发数量,降低业务成本,提高运行效率。
  • 优质IP资源:整合真实家庭住宅IP,汇聚IP资源池,不断更新IP,来自全球各个国家地区进行访问。自有数据节点,网络集成快捷。
  • 形式多样:多种代理认证模式,帮助账户灵活设置,账密模式通过region参数添加制定国家城市;API白名单模式通过API链接获取即可。
  • 技术服务:支持业务场景定制独享IP,千兆超高速带宽,出口IP可定制时效提供获取流量使用报告,追踪流量记录。

官网链接:https://www.smartproxy.cn/

专属注册链接:https://www.smartproxy.cn/regist


推荐公开网页数据专家brightdata.com,进入网站注册账号可免费获得诸如 亚马逊,沃尔玛,领英,抖音,Glassdoor,Airbnb,谷歌地图商家等数据集样本。详情注册后联系销售咨询(最好直接回复邮件),亲测是一个靠谱的公开网络数据源公司,他们的数据挖掘工具、代理网络服务也很不错,是一个目前已知最全面的商业数据平台,尤其合适需要准确且大规模结构性数据用户,企业用户可免费试用7天。

链接:https://brightdata.grsm.io/bigdataresource



在简书上阅读: https://www.jianshu.com/p/04d180d90a3f

下载本书:http://www.jianshu.com/p/fad9e41c1a42 (更新为GitHub链接)

下载本书代码(本书GitHub地址):https://github.com/wesm/pydata-book (建议把代码下载下来之后,安装好Anaconda 3.6,在目录文件夹中用Jupyter notebook打开)

本书是2017年10月20号正式出版的,和第1版的不同之处有:

  • 包括Python教程内的所有代码升级为Python 3.6(第1版使用的是Python 2.7)
  • 更新了Anaconda和其它包的Python安装方法
  • 更新了Pandas为2017最新版
  • 新增了一章,关于更高级的Pandas工具,外加一些tips
  • 简要介绍了使用StatsModels和scikit-learn

对有些内容进行了重新排版。(译者注1:最大的改变是把第1版附录中的Python教程,单列成了现在的第2章和第3章,并且进行了扩充。可以说,本书第2版对新手更为友好了!)

(译者注2:毫无疑问,本书是学习Python数据分析最好的参考书。本来想把书名直接译为《Python数据分析》,这样更简短。但是为了尊重第1版的翻译,考虑到继承性,还是用老书名。这样读过第一版的老读者可以方便的用之前的书名检索到第二版。作者在写第二版的时候,有些文字是照搬第一版的。所以第二版的翻译也借鉴copy了第一版翻译:即,如果第二版中有和第一版相同的文字,则copy第一版的中文译本,觉得不妥的地方会稍加修改,剩下的不同的内容就自己翻译。这样做也是为读过第一版的老读者考虑——相同的内容可以直接跳过。)


21年春节翻译《Pandas Cookbook》这本书,https://www.jianshu.com/p/9115de83bb88

结果后来太忙搁置了,现在中文版出来了。这本书的特点是实例很多。


《利用Python进行数据分析》第3版已出版,新版小鼹鼠亮相,新版对初学者更友好了。

第三版多了41页内容,Pandas升级为1.4.0、Python升级为3.10。第三版最大的变化是紧贴Pandas升级,主要是新增了方法和特性的内容。另外,第三版有作者的在线开源电子版了,GitHub地址

第三版目录略有调整,不如第二版和第一版的变化大:

  • 第4章NumPy基础新增了生成伪随机数;
  • 第7章数据清洗新增了扩展数据类型和分类数据,实际是把第二版中第12章的内容放到新版第7章里了;
  • 第11章时间序列新增了分组时间重采样。

曾经不止一次听别人抱怨,Pandas的知识点分散、零碎、不便于记忆。在细节上,作者这次在新版中摒弃了许多容易造成记忆混乱的用法。比如,用axis = "columns"替代axis = 1,简写方式破坏了代码的可读性,作者修改了许多类似的编程细节。新版对初学者更为友好了!


这两个多月又从头到尾看了遍第二版的文字,发现错误还真是不少。。。 T_T

我的微信·WeChat,欢迎沟通 ^_^

About

《利用Python进行数据分析·第2版》

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published