引言

上图展示了完成一个数据科学项目的基本模型,也是全书的核心思想。

  1. 导入。读取文本文件、数据库或 API 数据,是整个流程的起点。

  2. 规整。通过结构化与清洗,使数据具有一致的语义形式,便于后续分析。

  3. 转换。包含筛选、创建变量、变换尺度、生成汇总统计等操作。

  4. 可视化。以图形揭示模式、验证假设,使数据关系得以直观呈现。

  5. 建模。在可视化基础上进行定量推断,是进一步精确回答问题的工具。

  6. 交流。通过图表、模型与文档向他人清晰传递数据分析的过程与结论。

上述六个步骤均依赖稳定的编程能力。数据科学并非要求精湛的程序设计,但掌握必要的编码技能可显著提升分析效率,使工作流更具连贯性与可复用性。