moneysupermarket.com使用GKE策划数据管道
Microsoft再次拆除其更新命名方案,留下了未解答的问题
一季度网络钓鱼电子邮件绕过办公室365安全性
数据公司加入武力,帮助道路击败疟疾
卫生秘书说,每一个NHS机构都能获得全光纤宽带
FCC批准用于IOT设备的无线充电技术,沃尔玛采用它
随着Windows 10延迟继续,支持短缺生长
atlassian Revamps Jira软件,添加了路线图工具
在FTTP和5G之前,BT选择诺基亚提高核心容量
英国近一半的IT专业人员报告了严重的数据泄露
Hybrid Blockchains将占据电子商务
WWDC:iOS 13带来iPad生产力,观看独立等
AI可以帮助减少碳足迹并管理环境问题
AWS澳大利亚2021年在线普查
Centrica如何使用GDPR和PEGASYSTEMS奖励忠诚的客户
超过一半的欧盟公司报告网络攻击损失
您应该购买SaaS ERP或最佳企业软件吗?
研究人员发现基于美国的恶意软件分销中心
Cranfield获取Rubrik Backup Plus Nutanix在开车到云端
Microsoft Kaizala获得全球发布会,将与团队集成
警方调查Norsk Hydro Ransomware攻击
那个恶意软件与自己的后门进入Android的框架?别担心;谷歌在它上面。(GULP!)
6重要的新Chromebook硬件趋势
APL Logistics快速跟踪云的全球出货量
EC罚款谷歌€1.49亿欧元,滥用广告市场统治
DBIR展示了Cyber​​罪犯,瞄准C-Suite,表演
谷歌的像素4雷达系统可能不仅仅是噱头
税收和财务管理表现出对区块链的兴趣,但看到收养的障碍
A.R.,A.I. 5G帮助通过'21推动移动开支
推动到Win10版本1903年的机器占据了更多1809台机器,产生了很少的投诉
三星带上微软和谷歌的翻转合作白板
政府暗示生物识别法规
Chrome 68夏天谴责所有未加密的网站
英国政府推出云可持续性探测
Windows更新调查:您如何看待Microsoft的补丁制度?
议会敦促支持5G准备就绪
Microsoft命名Windows 10 1803'Spring Creators Update'
ÉcoleHôtelièredeLausanne将Amelia置于核心的机器人
你的表面书2还是Pro 4的写入速度很大?你并不孤单
Microsoft Grabs更新,升级reins在其托管的PC计划下
挑战者银行串联在一个周末迁移到AWS
Microsoft到消费者办公室365订阅者的结束设备限制
邮局被告知要支付超过500万英镑的对手的首选地平线试验
基于区块链的加密货物的方式受到严格的影响很快就会改变
面对Brexit面对的技术部门蒸汽
Palo Alto说,数字达尔文主义对那些等待的人不友好
GDPR:我们到了吗?
亚马逊加入了区块链条的服务提供商列表
政府违规数据突出了网络技能误解
Ethereum探讨了区块链的性能问题的修复
您的位置:首页 >论坛 > 移动互联 >

moneysupermarket.com使用GKE策划数据管道

2021-08-28 08:44:15 [来源]:

通过使用Google Kubernetes Engine(GKE),价格比较网站Moneysupermarket.com已能够并行于其数据管道。这是Google Public Cloud中更广泛部署的分析服务的一部分。最近搬到了Google云平台(GCP),它已使其能够利用内置于GCP中的分析服务。

“GCP被用作我们的分析云平台,”Moneysupermarket.com分析负责人Saysharvinder Atwal“。”我们用谷歌做了概念证明。它在分析服务上投入了很多,这意味着GCP上有许多托管服务,因此我们的数据师团队更少担心。“他补充说,GCP提供MoneySupermarket.com更易于维护的分析平台。

对于其企业数据仓库,MoneySupermarket.com从其网站获取了许多数据,它进入Google的BigQuery.it使用Google Kubernetes引擎(GKE)通过清除数据的集装箱应用程序来协调一个过程并将其加载到BigQuery中。

“BigQuery非常快速且可扩展,”说。“我们不需要担心修复规模的查询和Google负责缩放。bigquery成为一个主要的真理点,它也成为其他数据的集成点,使数据科学团队成为MoneySupermarket.com来集成第三方数据。“

使用BigQuery还可以帮助MoneySupermarket.com加快提取,将数据(ETL)提取到其企业数据仓库中的过程。“采取了很多工作要将原始数据接收到数据仓库中,”Atwal说。

“ETL管道可以非常脆弱。而不是等待ETL开发人员创建数据管道,我们现在将直接进入GCP。“

他说,Moneysupermarket.com还使用GKE和集装箱创建了培训和模型评分管道,以将模型培训分解为唯一的任务。

机器学习数据流水线中的各个步骤涉及数据质量,预处理进行标准化和标准化,特征提取,以识别新的数据类,模型培训和基于模型精度准确性的评估,基于使用测试数据集。

GKE的灵活性允许MoneySupermarket.com为几个项目使用它,包括机器学习(ML)和Web的应用程序编程接口(API) - 使用Python和大多数XGBoost作为容器应用程序代码中的ML分类器。

Moneysupermarket.com使用ML为其个性化的客户建议提供服务,并且GKE形成ML模型培训和推理管道的骨干。

模型培训管道中的每个任务 - 数据提取,功能工程,模型培训和模型评估 - 作为GKE中的集装箱应用程序运行,并用云作曲家策划。通过使用GKE来协调容器,ML的数据流水线可以并行化。

对每个管道任务的集装箱化应用程序允许数据科学家通过持续集成和连续工作(CI / CD)实践进行频繁增量改进。

“我们可以尝试几种类型的算法并处理不同大小的数据集,并更新管道的任何阶段,而不会影响数据流水线的其他部分,”他说。

MoneySupermarket.com最初考虑使用虚拟机(VM)而不是容器来处理ML数据流水线,但这不会缩放:“我们发现的缺点是,我们需要在一个VM上运行整个结束进程,”Atwal说。“为许多模型和多个客户扩大,我们将需要一个非常大的VM。”

使用VM也意味着必须顺序处理数据模型 - 而不是并行处理 - 这就是它所设法使用Containeration实现的内容。

随着计算机每周报告,Moneysupermarket.com使用Google的无求助软件组件,包括BueQuery,Kubernetes,Dataflow和Tensorflow,从传统的SAS Analytics平台迁移到GCP。

搬到谷歌已启用该公司简化其数据架构。基于Google的参考架构,Moneysupermarket.com已经能够部署无服务器和软件的服务技术,这意味着没有基础设施来管理,使数据科学团队能够专注于在GCP上完成工作,说明atwal。

凭借其新的分析平台,MoneySupermarket.com从开发速度和运行大型任务中受益匪浅。在哈尔沃德自己的单词中,最值得注意的变化是其机器学习管道的部署时间。

“我们从十一小时到大约五分钟,”他说。这意味着模型可以每天更新,而不是每周更新一次,这反过来又导致了更多相关的通信和优惠,最终帮助客户节省更多资金。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。