数据科学离不开代码。编写可复现、稳健、可伸缩代码的能力是数据科学项目成功的关键,对于那些和生产代码打交道的人来说,这一点至关重要。这本实用书籍填补了数据科学与软件工程之间的空白,清晰地解释了如何将软件工程的最佳实践应用于数据科学。本书提供的示例基于Python,取材于NumPy和pandas等流行的包。如果你想编写更好的数据科学代码,本指南涵盖了数据科学入门或编码课程中经常缺失的重要主题,包括如何:- 理解数据结构和面向对象编程- 清晰且熟练地记录代码- 打包并共享你的代码- 将数据科学代码集成到更大的代码库中- 学习编写API- 创建安全的代码- 将最佳实践应用于测试、错误处理、日志记录等常见任务- 更高效地与软件工程师合作- 编写更高效、可维护、稳健的Python代码- 将你的数据科学项目投入生产- 等等