moneysupermarket.com使用GKE策划数据管道
通过使用Google Kubernetes Engine(GKE),价格比较网站Moneysupermarket.com已能够并行于其数据管道。这是Google Public Cloud中更广泛部署的分析服务的一部分。最近搬到了Google云平台(GCP),它已使其能够利用内置于GCP中的分析服务。
“GCP被用作我们的分析云平台,”Moneysupermarket.com分析负责人Saysharvinder Atwal“。”我们用谷歌做了概念证明。它在分析服务上投入了很多,这意味着GCP上有许多托管服务,因此我们的数据师团队更少担心。“他补充说,GCP提供MoneySupermarket.com更易于维护的分析平台。
对于其企业数据仓库,MoneySupermarket.com从其网站获取了许多数据,它进入Google的BigQuery.it使用Google Kubernetes引擎(GKE)通过清除数据的集装箱应用程序来协调一个过程并将其加载到BigQuery中。
“BigQuery非常快速且可扩展,”说。“我们不需要担心修复规模的查询和Google负责缩放。bigquery成为一个主要的真理点,它也成为其他数据的集成点,使数据科学团队成为MoneySupermarket.com来集成第三方数据。“
使用BigQuery还可以帮助MoneySupermarket.com加快提取,将数据(ETL)提取到其企业数据仓库中的过程。“采取了很多工作要将原始数据接收到数据仓库中,”Atwal说。
“ETL管道可以非常脆弱。而不是等待ETL开发人员创建数据管道,我们现在将直接进入GCP。“
他说,Moneysupermarket.com还使用GKE和集装箱创建了培训和模型评分管道,以将模型培训分解为唯一的任务。
机器学习数据流水线中的各个步骤涉及数据质量,预处理进行标准化和标准化,特征提取,以识别新的数据类,模型培训和基于模型精度准确性的评估,基于使用测试数据集。
GKE的灵活性允许MoneySupermarket.com为几个项目使用它,包括机器学习(ML)和Web的应用程序编程接口(API) - 使用Python和大多数XGBoost作为容器应用程序代码中的ML分类器。
Moneysupermarket.com使用ML为其个性化的客户建议提供服务,并且GKE形成ML模型培训和推理管道的骨干。
模型培训管道中的每个任务 - 数据提取,功能工程,模型培训和模型评估 - 作为GKE中的集装箱应用程序运行,并用云作曲家策划。通过使用GKE来协调容器,ML的数据流水线可以并行化。
对每个管道任务的集装箱化应用程序允许数据科学家通过持续集成和连续工作(CI / CD)实践进行频繁增量改进。
“我们可以尝试几种类型的算法并处理不同大小的数据集,并更新管道的任何阶段,而不会影响数据流水线的其他部分,”他说。
MoneySupermarket.com最初考虑使用虚拟机(VM)而不是容器来处理ML数据流水线,但这不会缩放:“我们发现的缺点是,我们需要在一个VM上运行整个结束进程,”Atwal说。“为许多模型和多个客户扩大,我们将需要一个非常大的VM。”
使用VM也意味着必须顺序处理数据模型 - 而不是并行处理 - 这就是它所设法使用Containeration实现的内容。
随着计算机每周报告,Moneysupermarket.com使用Google的无求助软件组件,包括BueQuery,Kubernetes,Dataflow和Tensorflow,从传统的SAS Analytics平台迁移到GCP。
搬到谷歌已启用该公司简化其数据架构。基于Google的参考架构,Moneysupermarket.com已经能够部署无服务器和软件的服务技术,这意味着没有基础设施来管理,使数据科学团队能够专注于在GCP上完成工作,说明atwal。
凭借其新的分析平台,MoneySupermarket.com从开发速度和运行大型任务中受益匪浅。在哈尔沃德自己的单词中,最值得注意的变化是其机器学习管道的部署时间。
“我们从十一小时到大约五分钟,”他说。这意味着模型可以每天更新,而不是每周更新一次,这反过来又导致了更多相关的通信和优惠,最终帮助客户节省更多资金。