跳到内容

    企业mlop指南

    什么是企业机器学习操作(MLOps)?

    机器学习操作(MLOps)对于数据科学来说是一个相对较新的领域. 才5岁, 它已经被视为几乎所有行业和商业部门的组织的关键需求,这些组织希望通过将数据科学模型编织到其业务的核心结构中来实现模型驱动.

    然而, 组织正在发现,在企业级实现mlop比仅仅为几个模型或单个团队实现mlop要复杂得多. 快速扩展数据科学和MLOps实践, 安全, 跨企业的成功需要更广泛版本的mlop,它包括整个数据科学生命周期,并满足各种团队现在和未来的需求. 企业MLOps是一种新的、健壮的MLOps,它解决了这个问题.

    什么是企业MLOps?

    企业MLOps是端到端数据科学生命周期的一个过程系统. 它为数据科学家提供了一个场所, 工程师和其他IT专业人员, 在开发过程中有效地与技术协同工作, 部署, 监控, 机器学习(ML)模型的持续管理.

    它允许组织在整个组织中快速有效地扩展数据科学和MLOps实践, 不牺牲安全或质量. 企业MLOps是专门为具有安全性的大规模生产环境设计的, 治理, 合规是至关重要的.

     
    分析研究

    事实:Domino为每个数据科学家提供了200多个小时的时间来进行更多的实际数据研究.

    共享环境和工具使使用Domino的团队更加高效, 增加了500万美元的价值. 更多的合作→模型速度加速度.

    阅读更多Domino统计信息

    BB电竞是如何走到这一步的:今天的企业MLOps之旅

    直到十年前, 由于计算能力的限制,机器学习(ML)的大部分工作都是实验性的. 随着处理大量数据的实际应用, 那些BB电竞能够将实验的ML模型转化为生产的公司获得了巨大的回报——但这些成功都是例外, 不是常态.

    由于各种各样的原因,包括需要将模型重新编码为一种不同的语言用于部署(例如,将模型从数据科学家转换为产品工程师),当模型从数据科学家转换为产品工程师时,大多数项目都会遇到挫折.g. Python / R和Java), 无法重建用于生产培训的数据, 部署过程中没有标准化.

    这是因为大多数公司还在使用什么 德勤 被描述为ML开发和部署的“手工”方法. 这种可扩展模式和实践的缺乏延迟了数据科学的价值. DataIQ最近的一项调查结果证实了这一点,有三分之一的受访者表示这一点 花了好几个月才把模型投入生产. 项目项目的可见性也是有限的, 超过45%的受访者不提供或定期提供更新. 在另一项调查, 47%的ML项目 永远不要走出测试阶段. 而那些能做到的,另一个 28%的人还是失败了.

    为了克服这些挑战,数据科学界向软件工程领域的DevOps(或开发运维)寻求灵感. 许多概念都专注于缩短开发时间, 并采用提高速度和质量的方法. 然而, 因为数据科学和应用程序开发会产生非常不同的产品, 一个新的实践, MLOps, 出生.

    MLOps vs. DevOps:模型不是软件应用

    理解为什么DevOps不能满足数据科学的需求, 理解模型和软件应用程序之间的关键区别是很重要的. 两者都涉及代码并以文件的形式保存, 但是软件的行为是预先确定的,而模型的行为是随时间而变化的.

    用来开发它们的材料是不同的

    它们涉及代码,但使用的技术和工具与软件工程不同. 与软件不同,它们以数据作为关键输入. 他们使用更多的计算密集型算法, 所以他们可以从可扩展的计算和像gpu这样的专用硬件中获益. 他们还利用了来自一个每天都在创新的充满活力的开源生态系统的软件包.

    构建它们的过程是不同的

    数据科学是研究——它是实验性的、迭代的和探索性的. 你可能会尝试几十或数百个想法,然后才会得到一个可行的方案. 通常情况下,你会从另一个团队离开的地方继续, 他们的工作是发现和创新的起点. 为了方便的突破, 数据科学团队需要工具来测试许多想法, 组织并保存这些工作, 然后搜索并发现它.

    他们的行为不同

    模型根据输入的数据进行预测. 他们没有先天正确的行为——他们只是在现实生活中有更好或更坏的行为. 不像软件,除非业务流程发生变化,否则永远不需要再培训或更新, 模型做的. 模型性能可以随着周围世界的变化而变化, 造成意外或降级行为的风险. 所以组织需要不同的方式来评审, 质量控制, 并持续监控他们以控制风险.

    MLOps和数据科学生命周期

    在数据科学的生命周期中有四个阶段:

    1. 管理这一阶段的重点是理解项目的目标和要求,并确定工作的优先级.
    2. 开发:这是数据科学家根据各种不同的建模技术建立和评估各种模型的地方.
    3. 部署:这个阶段是模型进入可以在业务流程中用于决策制定的状态.
    4. 监控:这是生命周期的操作阶段,组织在此确保模型交付预期的业务价值和性能.
    企业mlop指南
    数据科学生命周期的四个阶段.

    今天, 大多数MLOps平台只是为数据科学和数据工程提供一个稳定的平台,通常关注数据科学生命周期的生产端. 它们有助于防止模型由于计划外或不一致的刷新周期而降级, 没有通常需要的持续监控模型. 它们还用于测试和验证模型.

    扩展企业mlop

    组织已经意识到,即使他们已经实现了某种程度的mlop, 在安全、普遍地扩展数据科学的道路上,仍然有许多障碍.

    • 数据科学家的生产力由于缺乏对数据的自助服务而受到限制, 工具和基础设施. 相反,他们花了很多时间,只是简单地准备好做数据科学所需的一切, 减缓模型的开发.
    • 数据科学家和团队之间的竖井阻碍了知识共享和协作. 收集集体智慧是不可能的,在不同的工具之间比较结果和加速项目, 团队和流程.
    • 复杂的, 定制流程来运作模型需要高层次的DevOps支持, 抑制规模,造成长期技术债务.

    要解决这三个挑战,需要一个超越数据科学生命周期部署部分的学科, 这是MLOps平台迄今为止所关注的. 它需要企业级的能力,允许项目更快地通过端到端数据科学的生命周期,并提供安全且普遍的数据科学扩展所需的安全性, 治理, 合规, 再现性, 和可审核性特征. 由于这些原因, 领先的组织正在采用企业MLOps实践和启用平台.

    企业MLOps平台的功能

    An 企业MLOps平台 需要满足MLOps团队中所有不同成员的需求, 组织的管理, 它的工作流和生命周期, 以及整个组织的持续发展. 可以从两种方式来考虑企业MLOps功能:工具增强和流程转换.

    工具增强功能包括:

    • 按需访问数据和可伸缩的计算
    • 按需访问集中的工具
    • 用户访问控制和安全
    • 版本控制和可重复研究

    这些功能极大地提高了数据科学和IT团队的生产力,并提供了所有数据科学工件(包括数据源)的存储和组织, 用于再现性和可重用性的数据集和算法. 它们允许IT管理基础设施和成本, 管理和保护技术和数据, 同时也使数据科学家能够自行提供他们需要的工具和基础设施.

    流程转换功能包括:

    • 协作
    • 数据科学生命周期的端到端编排
    • 项目管理
    • 知识管理和治理.

    这些功能允许组织通过最有效地利用资源来安全且普遍地扩展数据科学, 在前期工作的基础上, 提供情境并强化学习循环. 无论模型是如何或在哪里开发的,每个人都使用一致的模式和实践. 所有这些都消除了手动操作, 横跨数据科学生命周期所有活动的低效工作流创造了提高模型质量的动力, 将部署成功模型所需的时间从几个月减少到几个星期, 或几天, 并且能够即时通知模型性能的变化,这样模型就可以快速地重新训练或替换.

    每个人都从成功和失败中学习. 协作还包括以非技术方式参与业务,以便他们能够理解项目和成果. 最后, 数据科学的领导者可以轻松地管理工作量和跟踪项目进度, 影响和成本.

    当这些工具和流程转换功能都可用时, 企业MLOps平台优化了整个数据科学生命周期的吞吐量, 推动更多车型更快地从开发阶段进入生产阶段, 同时让他们保持最佳性能,并提供重复循环所需的工具和知识.

     

    企业MLOps团队中的角色

    在适当的范围内,企业MLOps平台可以支持数据科学生命周期中每个人的需求. 而任何企业MLOps团队的组成会因组织的不同而不同, 大多数成员 七种角色中的任何一种:

    数据科学家:通常被视为MLOps团队的核心球员, 数据科学家负责分析和处理数据. 他们构建和测试ML模型,然后将模型发送到生产单元. 在一些企业, 他们还负责监控模型投入生产后的性能.

    数据分析师数据分析师与产品经理和业务部门协调工作,从用户数据中发现洞察力. 他们通常专门从事不同类型的任务, 如市场分析, 财务分析, 或风险分析. 许多人具有与数据科学家相当的量化技能,而其他人可以被归类为公民数据科学家,他们对需要做什么有一些知识, 但缺乏编码技能和统计学背景,无法像数据科学家那样独自工作.

    数据工程师:数据工程师管理如何收集数据, 加工过的, 并可靠地存储并从软件中导入导出. 他们可能在特定领域有专长, 像SQL数据库, 云平台, 以及特定的分配系统, 数据结构, 或算法. 它们在数据科学结果的操作中通常是至关重要的.

    DevOps工程师DevOps工程师为数据科学家和其他角色提供访问专用工具和基础设施的权限.g.、存储、分布式计算、gpu等.)他们需要跨越数据科学的生命周期. 他们开发方法来平衡独特的数据科学需求和其他业务需求,以提供与现有流程和CI/CD管道的集成.

    毫升建筑师ML架构师开发策略, MLOps的蓝图和流程, 同时识别生命周期中固有的任何风险. 他们确定和评估最好的工具,并组建一个工程师和开发人员团队来进行工作. 在整个项目生命周期中,他们监督MLOps过程. 它们统一了数据科学家、数据工程师和软件开发人员的工作.

    软件开发人员软件开发人员与数据工程师和数据科学家一起工作, 专注于ML模型和支持基础设施的产品化. 他们根据ML架构师的蓝图开发解决方案, 选择和构建必要的工具并实施风险缓解战略

    领域专家/商业翻译领域专家/业务翻译对业务领域和流程有深入的了解. 它们帮助技术团队理解什么是可能的,以及如何将业务问题构建为ML问题. 它们帮助业务团队理解模型提供的价值以及如何使用它们. 在任何需要对数据有更深入理解的阶段,它们都可以发挥作用.

    Domino企业MLOps平台的主要特性

    Domino Enterprise MLOps平台功能丰富,旨在使用最先进的数据科学工具和算法处理模型驱动的组织的需求.

    Domino平台有五个主要组件可以无缝交互,以支持完整的数据科学生命周期.

     知识中心 这一切都是关于在一个关键知识的中央知识库中跟踪和管理工作吗. 这是用户去寻找的地方, 重用, 繁殖, 并在高度协作的环境中讨论工作. 数据科学的领导者可以为他们的团队设定目标,并管理他们交付的个人工作产品,从而使端到端数据科学过程的监督更加有效.

     工作台 是基于笔记本电脑的环境,数据科学家去做他们的研究&D和实验. 持久工作区为数据科学家提供了运行所需的所有工具和基础设施的自助访问, track, 和比较实验.

    发射台 BB电竞在哪里交付“最后一英里”——将模型投入生产,从而创造业务价值和影响. 很多时候,这采用了可以嵌入到现有系统中的API的形式, or, 作为一个应用程序,商业用户可以与底层模型进行交互.

    模型监控 提供监视整个公司生产中的所有型号的能力, 并自动检测它们何时需要更新或更换. 用户还可以在这里评估业务影响.

    这一切都建立在可扩展和健壮的基础之上 企业基础设施基础 这是基于Kubernetes的. 这是允许数据科学家编排基础设施(包括cpu)的核心技术, gpu, 和分布式计算), 并管理在将来任何时候支持模型开发和可重现性的包和环境.

    Domino的企业MLOps平台的好处

    采用Domino的Enterprise MLOps平台的客户一致指出它在其组织中推动价值的四个领域, 让他们能够扩展数据科学:

    开放 & 灵活的

    Domino支持 广泛的生态系统 开源和商业工具和基础设施. 数据科学家可以自助访问他们喜欢的ide, 语言, 他们可以专注于数据科学, 没有基础设施. 它还允许It将不同的工具整合到单个平台上——减少成本和支持负担,并提供跨多种工具的治理, 包, 等.

    为团队建

    不同的工具, 团队, 以及所有类型的数据科学工件(包括代码), 包版本, 参数, 和更多)自动跟踪和集成,以建立充分的可见性, 可重复性, 在每一个用例的端到端生命周期的任何时候都可以重现. 使用不同工具的团队可以在项目中无缝协作, 有能力利用有价值的见解和收获集体智慧的流动.

    集成的工作流

    Domino支持完整的, 端到端生命周期从创意到生产-探索数据, 火车模型, 验证, 部署, 监控, 在一个平台上重复. Domino使公司能够通过通用的模式和实践使他们的数据科学专业化, 使用减少摩擦并加速每个步骤和跨关键转换的生命周期的工作流, 因此,所有参与数据科学的人都可以最大化他们的生产力和他们工作的影响.

    企业规模

    而不同的数据科学团队可以自由地使用他们喜欢的工具, 包, 和基础设施, 他们工作的所有方面都通过Domino集中和协调. 用户可以快速登陆, 轻松查找以前的工作, 有效协作, 无缝复制实验. Domino提供了安全性, 治理, 合规, 以及在整个组织中安全、普遍地扩展数据科学所需的所有其他元素

    Domino数据实验室企业MLOps的模型驱动的未来

    在短短的几年里, 数据科学为BB电竞带来了自动驾驶汽车, 风险分析引擎, α去, 电影推荐引擎,甚至一个 逼真的绘画软件. 每个人都在猜测数据科学将把BB电竞带向何方(具体来说, 这是一个创新且经过充分研究的猜测).

    在接下来的十年里,那些扩大ML创新规模的公司将是那些模型驱动的公司, 在他们的项目上赚钱, 在每一次成功的基础上发展, 学习更快, 更有效地发展, 降低成本,尽量减少不良后果.

    您的公司是否努力成为模型驱动的公司? 与Domino Data Lab合作,确保公司的成功. 要查看Domino Enterprise MLOps平台的运行情况,您可以这样做 观看演示 或者你自己试试 免费试用.

    释放数据科学

    看看为什么超过20%的《BB电竞》100强企业选择了Domino

    unleash-data-science