面试:搬到Dataops.
最近的Forrester报告发现,只有22%的公司在数据科学中看到投资回报(ROI)。鉴于数据科学,人工智能(AI)和高级分析承诺业务的诱人机会,为什么大多数举措都失败了?
对于Harvinder Atwal,数据策略负责人和价格比较网站Moneysupermarket.com的先进分析,部分问题是Mantra是错误的。他认为许多商业领袖几乎没有想到如何使用数据创建价值。
“C-Suite不了解数据,”他说。“他们了解囤积数据和雇用数据科学家的需要 - 但后来他们认为魔术发生了。”
Atwal认为,作为数据科学家的角色,商业观察也存在误解。例如,虽然对企业的强烈控制很重要,但没有人希望每个人都成为金融专家。但在Atwal的经验中,有期望数据科学家可以分享整个公司的专业知识。“预计数据科学家将教导组织如何使用数据,”他说。
然后有AI银弹。“营销认为AI将解决所有问题,”他说。由于数据科学家不便宜,并且囤积数据昂贵,因为这种缺乏理解意味着投资于数据项目的资金似乎流向错误的方向,他指出。
Atwal以前在Dunnhumby担任Tesco Clubcard的Insight主任。他说:描述如何使用Analytics:“我们的使命是使用我们的数据来帮助客户节省资金。”
他说,Moneysupermarket.com比平均网站捕获有关客户的更多数据。收集到的信息包括他们生活的地方,他们开车的地方,他们去度假。该网站还知道何时客户的保险续签或当他们的效用即将从折扣转换到标准关税时。
“如果他们来到我们的网站,我们可以拯救人1,000英镑,但需要机器学习个性化,”Atwal说。
基本上,MoneySupermarket.com推荐产品,而不是亚马逊或Netflix推荐东西。但人们对金钱有很大不同的态度:有些人非常谨慎,而其他人可能会更为谨慎风险。
对于MoneySuperMarket.com,这意味着客户只能看到与他们相关的产品的优惠并适合其风险概况。该公司所采取的架构变更和方法使其为其客户创建了1,400个变种通讯,Atwal表示已导致“体面的收入隆起”。
对于Atwal,创建实际模型是到目前为止机器学习的最简单部分,但90%的对话似乎是关于这个的。他说,数据科学家的真正问题是他们必须尽一切努力 - 找到数据,清洁数据,找到软件并安装它。
“它陷入了20世纪的运营模式,”他说。“人们无法访问数据仓库。”
这对数据科学家造成了真正的挑战,他必须从中请求数据访问,以便为所需的计算资源协商,然后等待这些资源进行配置。然后,它们可能需要安装查询语言。
“作为一个数据科学家,你只想尽可能快地使用数据,”Atwal说。在他的经验中,数据科学家在做工作时经历的rigmarole意味着他们经常选择绕过它并在自己的笔记本电脑上绕过和测试,构建和部署数据模型。
但他不相信这是正确的方法。“数据科学家将花费很多时间在笔记本电脑上建立完美的模型,”他说,但是在笔记本电脑上调整时,该模型没有找到业务的真实用途 - 所以它仍然被隔离。
ATWAL认为数据科学家应该能够在为真实部署模型时获得反馈,以使其能够增强它或基于真实客户数据构建新的数据模型。
当Atwal加入MoneySupermarket.com 2012时,该公司正在部署SAS提供单一的客户视图。“我们决定转移到AWS [亚马逊网络服务],但有数据商店散落在业内外,”他说。
虽然移动网站相对容易,但迁移数据仓库非常复杂,说明。该公司具有多云策略,这意味着无法使用特定于AWS的任何服务。相反,他说,MoneySupermarket.com必须管理和部署开源软件堆栈。
“我们开始使用存储和分析层构建AWS的堆栈,在生产中部署了这一点,然后建立了数据产品,”他说。但这并不是一种简单的方法,因为它需要数据库管理员,DevOps团队和敏捷数据科学。“我们没有专业知识,”他补充道。
当是时候从SAS迁移时,Moneysupermarket.com借机借此机会在GCP上运行概念证明,使用Google的无服务器软件组件,包括大查询,Kubernetes,DataFlow和Tensorflow。
这使该公司能够简化其数据架构。基于Google的参考架构,MoneySupermarket.com能够部署无服务器和软件的服务技术,这意味着没有基础设施来管理,使数据科学团队能够专注于在GCP上完成工作,说明Atwal说。
Atwal表示,大多数数据科学家不来自软件开发背景,不理解软件开发最佳实践。为了提高公司在数据科学中的投资,他认为需要更快地创建新的数据模型。这需要数据科学家使用敏捷协作并将精益思想应用于数据分析,同时遵守数据规则和治理。
与软件开发一样,开发人员使用Devops通过常规迭代迅速生产代码,还需要自动测试。而且如在软件开发中,数据科学家还需要确保他们基于其模型的数据是正确的,并且在ATWAL说,可以在进行跟踪更改的版本控制。
这些是Dataops中的主要要求,旨在加快构建实现可衡量业务结果的新数据模型的过程。理想情况下,数据科学家希望下载工作环境并立即开始工作,而无需突出该环境中的一切。Atwal说,集装箱给企业提供了一种实现这一目标的方法。
许多所谓的数据科学平台开始出现支持DataOps。Domino Data Lab是一个部署的MoneySupermarket.com。Atwal表示,它提供了一种为其数据科学家提供自助服务的方法。
Atwal在一些关于Moneysupermarket.com如何重新搜索其数据分析的事件的事件中发言。他的演示文稿涵盖了改变数据科学的九个步骤并将组织转移到Dataops,这取决于丰田用于优化汽车制造和敏捷软件开发实践的精益原则。
他说,数据科学家需要认识到经营战略。“业务有一个创造价值的假设,”他说。“考虑流量,你可以获得数据进入产品以获得客户的反馈。”