乍一看,数据科学的部署似乎很简单:只需在生产服务器上运行它即可!更仔细的检查表明,数据科学创建过程中构建的内容并不是正在投入生产的内容。
想象一下一位厨师在他们的实验厨房中设计食谱。与数据科学家在实验室中使用不同数据源进行实验并测试和优化参数类似,通往完美食谱的道路涉及厨师尝试新食材并优化数量和烹饪时间。
投入生产的是最终结果:科学家的最佳模型或厨师的食谱。
这通常是差距最大的地方。为什么?
例如,问问自己是否可以使用同一组工具来进行数据科学创建和部署设置;也许这两个设置中的一个仅覆盖另一个设置的子集。
大多数工具仅允许导出可能模型的子集,甚至完全忽略某些预处理步骤。您可以自动部署到服务(例如REST)或计划作业中,还是部署只是需要嵌入到其他地方的库/模型?
很多时候,导出的内容还不能使用,而是需要手动调整。对于厨师来说,这并不是一个大问题,因为菜谱书很少更新,而且厨师可以花一天的时间将实验结果转化为适合家庭典型厨房的菜谱。
对于数据科学团队来说,这是一个更大的问题。团队需要能够更频繁地更新模型、部署新工具和使用新数据源,这很容易每天甚至每小时进行一次。
添加手动步骤会降低此过程的速度,并使错误悄然出现。大型组织无法承受这种情况的发生,中小型企业更是如此。
什么样的策略可以缩小差距?
“集成部署”方法有助于将部署过程纳入数据科学周期。数据科学家可以通过捕获部署所需的流程部分,在同一环境中对创建和生产进行建模。
如果模型发生变化,可以进行必要的更改,并且可以在不到一分钟的时间内部署修改后的数据科学流程——从用于创建数据科学流程的完全相同的环境进行即时部署。
上一篇我们送上的文章是
复合键、主键和外键有什么区别? , _!在下一篇继续做详细介绍,如需了解更多,请持续关注。
本文由
日本NEC锂电池中国营销中心于2023-07-16 17:31:10 整理发布。
转载请注明出处.