
关于作者
Tushar Patel 是 Aarki 的工程高级副总裁,他致力于重塑 DSP 的思维方式,从“金属”到“模型”。Tushar 拥有三十年的工程领导经验,构建并扩展了 SaaS、企业和广告技术领域的平台,管理着遍布四大洲 350 多人的团队。他经验丰富:转型、收购,以及需要认真调整的技术栈。
在云原生已成主流的行业中,Aarki 有意打破常规。我们的 4 个数据中心遍布全球,地理位置优越,毗邻 Google AdX、Unity 和 Fyber 等顶级交易平台。这些数据中心每秒可处理超过 500 万个出价请求,响应时间最快可达 20 毫秒。如此高的吞吐量不仅仅是技术上的灵活性,更是让我们的 DSP 在压力之下依然保持快速、准确和响应能力的关键。
在过去的两年里,我们将其转化为战略优势。从模型训练、推理到广告投放,一切都在一个平台下运行。 这种基础设施使 DSP 的出价时间比基于云的 DSP 快 4 倍到 10 倍。
消除实验成本
拥有我们的基础设施的直接好处之一是:实验的边际成本为零。
与受每个查询定价和出口费用限制的云托管机器学习和分析团队不同,我们的团队在运营过程中不受成本驱动的摩擦:
- 投标人的工作量:高 QPS 不会受到惩罚;我们的基础设施已针对峰值吞吐量进行了配置。
- 模型训练/推理:我们利用专用 GPU 进行训练和实时推理。
- 数据仓库查询:分析师和机器学习工程师可以自由查询,而不必担心扫描每 TB 的成本。
结果是加速实验循环,这意味着更多的迭代、更深入的洞察、更快的学习。
投标响应时间是利润杠杆
程序化竞价本质上是一场竞赛,延迟是胜负的关键。您响应竞价请求的速度越快,就能争取到越多的展示机会。我们为此专门构建了基础架构堆栈:
- 我们的四个数据中心之间的低延迟主干网在硬件层面进行了优化。
- 我们关键系统(例如 Aerospike、Kafka 和投标人服务)的放置感知路由。
- 专门调整的 NIC 设置可减少中断开销和网络抖动。
我们的平均出价响应时间比云端 DSP 快 4 到 10 倍。更快的响应速度能为客户带来更高的中标率和更佳的投资回报率。
克服复杂性,掌握基础设施
拥有堆栈意味着我们的工程师不会抽象复杂性;他们会参与其中。
配置新服务并非“点击即可”那么简单。它涉及容量规划、布局决策、调优以及对实际 IOPS 或每秒数据包限制的理解。我们相信,这将培养出更优秀的工程师,让他们能够深入了解性能、成本权衡以及系统故障的根源。
它伴随着挑战,我们接受它
但也存在缺点:
- 内存、磁盘或计算容量的交付周期更长;这里没有“扩大规模”按钮。
- 人才限制,因为聘请能够在裸机层面操作的熟练基础设施和网络工程师并非易事。
但这些都是我们在设计时所围绕的已知限制,而不是阻碍因素。
云与主机托管:不是教条,只是数据
我们每年都会重新评估这一策略。云计算技术正在不断改进,我们的下一个数据中心很可能是虚拟的。届时,我们会同时运行这两个环境并进行比较:
- 出价延迟:我们的系统响应广告交易平台出价请求的速度。更低的延迟意味着更高的中标率,带来更多竞拍机会。
- ML 吞吐量:我们可以同时在系统中推进多少模型训练和推理,而不会减慢交付速度。
- 查询性能:分析师和机器学习工程师能够多快、多自由地运行数据查询来提取见解,而不会遇到成本或速度瓶颈。
- 每$收入成本:产生1美元收入所需的基础设施总成本。每美元成本越低,利润就越高。
到那时,我们现有的基础设施将继续保持优异表现。
金属市场受益的是营销人员
拥有自己的基础设施并非易事。它很难扩展,也很难招聘到合适的人才。但当绩效营销关乎毫秒和利润时,我们相信,掌控那些决定性因素至关重要。
我们的基础设施赋予我们三大核心优势:速度、控制力和自由。它让我们能够快速行动、快速训练、快速响应,而无需等待其他云平台的容量。这将在您的营销活动中体现为更高的成功率、更低的 CPI 和更智能的优化。
同样的基础设施不仅能让我们每秒赢得更多竞标,还能让我们每天重新训练模型,使它们不断学习、适应,并超越旧版本。这套基础设施支撑着我们的深度学习流水线,GPU 训练的模型每天都会更新,并直接在我们的堆栈中运行。
引擎盖下的运行实际上得到了完全重建 - 一个更快、更智能的引擎,推动从培训到投标的一切。
我们并非反对云,而是选择最适合实际工作的方式。目前,裸机仍然占据优势。我们会继续使用裸机,直到数据证明情况并非如此。
对这篇博客有什么想法吗?别错过任何好主意。只需一封电子邮件即可联系 Tushar: tusharpatel@aarki.com.