客户背景
十方融海是一家全球化、AI级的教育科技企业,专注培养数字时代所需的复合型人才,让每个人都能掌握一门技能,成就美好生活
项目时间
2024.11.15-2024.12.15
面临的挑战
随着业务的快速发展和全球化战略的推进,十方融海部署在阿里云 (AliCloud) 上的基础设施(约 100台虚拟机规模)逐渐暴露出一些瓶颈,难以满足其 AI 教育平台日益增长的需求:
全球服务能力受限: 原有架构在支持全球用户访问、快速部署海外节点以及保障全球一致的高可用性和低延迟方面面临挑战,制约了国际市场的拓展步伐。
AI 工作负载压力: 作为一家 AI 驱动的企业,其平台需要强大的计算能力来支持 AI 模型的训练、推理和迭代。原有环境在弹性扩展、GPU 等 AI 加速资源的获取与成本效益方面未能达到理想状态。
运维复杂性与成本压力: 随着虚拟机规模的增长,资源管理、性能优化和成本控制的复杂度增加。缺乏足够的自动化和精细化管理工具,导致运维效率不高,且难以有效优化持续增长的云资源成本。
弹性伸缩滞后: 面对教育场景下用户访问的波峰波谷,以及 AI 任务的突发性算力需求,原有平台的资源扩展速度和灵活性有时难以完全匹配业务的敏捷性要求。
解决方案
为了克服以上挑战,支撑未来发展,十方融海决定将其核心工作负载(约 100 台虚拟机及相关服务)整体迁移至GCP。
基础设施现代化迁移: 规划并执行了从阿里云到 GCP 的全面迁移计划。利用 Compute Engine承载核心虚拟机工作负载,并根据业务需求选择了合适的机器类型,包括为 AI 任务配置具备 GPU 加速能力的实例。
构建全球化高可用架构: 充分利用 GCP 覆盖全球的数据中心网络和 Cloud Load Balancing 服务,为全球用户提供低延迟访问入口,并设计跨区域的高可用部署方案,确保业务连续性。
优化 AI 资源利用: 借助 GCP 在 AI 和机器学习领域的优势资源,更灵活、更经济地获取和管理 AI 所需的算力(如 GPU),并为未来采用 Vertex AI 等托管式 AI 服务奠定基础。
提升运维效率与成本控制: 利用 GCP 的 Managed Instance Groups实现应用的自动伸缩和健康检查,简化运维管理。同时,借助 GCP 精细化的计费模式(如按秒计费、持续使用折扣)和 Cost Management 工具,实现更优的成本效益。
客户收益
- 全球拓展加速: 借助 GCP 全球网络,显著提升了全球服务部署速度与稳定性,优化了国际用户体验。
- AI 创新提效: 利用 GCP 强大的弹性 AI 资源,加速了 AI 模型的开发、训练与部署,驱动产品创新。
- 运维简化与成本优化: 通过自动化和弹性资源,有效降低了运维复杂度与 IT 支出,提升了资源利用率。
- 业务敏捷性增强: 实现了高效的弹性伸缩,轻松应对流量高峰与计算需求波动,保障了业务连续性与市场响应速度
使用产品
Compute Engine
Cloud SQL
Cloud Storage
Cloud Load Balancing
Cloud Router
VPC
Memorystore for Redis