跳到内容

    Spark在现代企业分析栈中的利弊

    白皮书

    Spark是一种分布式计算框架,在过去几年中,它在数据工程和分析用例方面迅速流行起来. 本文简要概述了Spark在数据科学和机器学习工作流方面的优势和劣势.

    而Spark对于非常大的数据集上的某些类型的工作负载非常有效, 它也有一些缺点, 包括某些工作负载的性能开销, 繁琐的设置和管理, 以及来自更现代的分布式计算框架的竞争. 对于企业来说,了解Spark的利弊是非常明智的,这样他们就可以实施分析技术策略,将Spark整合到可以从中受益的项目中, 并在其复杂性不必要甚至对业务有害时支持替代选项.

    得到白皮书