流程 2:懒加载(启动时只拉首批关键 chunk)
要区分需要写到本地的 lazyload,和完全不用再次落local disk 的 remote load,具体叫法你来定,把名词定义清楚
流程 2:懒加载(启动时只拉首批关键 chunk)
要区分需要写到本地的 lazyload,和完全不用再次落local disk 的 remote load,具体叫法你来定,把名词定义清楚
TODO:需要重新梳理 GPU 场景
漏了两个最最最最最最重要的场景: 1. 纳管外部 IDC GPU - 这个可能要求你们支持 NAT 网络、优化调度、镜像预分发等等 2. 国产化 GPU
制品分发能力
制品分发能力少了基于远程存储,完全不拉到本得的方案。和 lazy 也不一样。类似 DADI 或基于文件系统协议的。
弹性
少了一个规模大:更强调控制面的承载能力,与供给能力、并发能力都不同
开发者体验
我们团队强调的开发者体验,是包含平台开发、平台运维、业务研发等广义的技术人员角色的体验。 好的开发体验会带来:架构师售前好演示、客户迁移对接简单、出问题后排障简单。 虽然这不是新运行时的重点。
性能要求
把控制面的弹性性能和数据面的计算性能分开。我理解这里说的是弹性要求
需要多层纵深防御
存储也需要隔离。AGS 场景中,不同沙箱会使用同一个 COS 桶,但是挂载不同的 COSFS subpath
分钟级启动
这个错了。Argo Workflow 也是典型的数据处理场景,但是对 Pod 启动速度的要求是越快越好,最好逼近于 Agent。这个场景很像 AWS StepFunction
业务场景这个章节,过度抽象化了。一个可行的改进方向是:补充 TKE Serverless 上当前多个典型客户的用户故事,补充多个使用 TKE 无法迁移到 TKE Serverless 的案例。 虽然我们要解决共性问题、但这些共性问题应该是从实例化的用户故事归纳而来。建议由产品同学共创。
一个 GPU 加载多个小模型,按需服务
应该是多个小模型共用同一个 GPU,而不要强调也给 GPU 加载多个小模型。前者是需求,后者是实现。 多个小模型共用统一个 GPU,也可能是通过分时复用实现的。
算力 QoS、容灾、可观测性、可运维性
这里的说明有问题:算力 QOS 不是已经挪到超卖章节了吗?
可用性05-03-availability.md
希望可用性作为本章节的第一大板块。希望所有人意识到可用性是生死问题,是底线问题
这些动机一直都存在,为什么我们今天才开始做这个了?因为 AI 。包括 AI 业务带来的 Agent 和推理训练的需求,加剧了底层不可控的问题,如果没有 AI Agent ,特别是 AI Coding 技术我们团队的力量无法完整这么庞大的工程,有了 AI 的加持才有了一线的可能:这就到处来我们必须全面利用AI 带来的变化,才可能把这个事情搞定。也即,第一页背景和动机,希望能够新增一个板块解释为什么今天才启动,阐述AI 带来的改变和我们必须借助 AI 的力量。借助AI 的力量,不仅仅是 AI Coding,更是心的 AI Native 的研发模式和组织模式。