博客标题
[字节跳动技术团队] veRL 推出开源 Uni‑Agent:为通用 Agent 训练打造统一框架
核心概述(约 900 字)
通用智能体(General‑purpose Agent) 越来越被视为实现多模态、跨任务 AI 的关键。当前业界已有大量专用的 RL、IL、LLM‑based agent 框架(如 OpenAI Gym、RLlib、LangChain、Auto‑GPT 等),但它们在 任务定义、环境交互、模型训练、评估与部署 上各自为政,导致:
veRL(Vision‑Enhanced Reinforcement Learning)团队 在内部长期积累了多模态 RL、LLM‑augmented RL、离线 RL、元学习等技术,决定把这些经验抽象成一个 统一的训练/评估框架,并以 开源 形式贡献给社区,帮助大家快速搭建、调试、迭代通用 Agent。
Uni‑Agent(Unified Agent)是一个 模块化、可插拔、跨模态 的 Agent 开发平台,核心设计理念是 “任务‑模型‑环境三要素解耦”。它把整个 Agent 生命周期划分为四大层次:
| 层次 | 作用 | 关键抽象 |
|---|---|---|
| Task Layer | 定义任务目标、奖励函数、成功判定等 | TaskSpec(JSON/YAML) |
| Environment Layer | 与外部世界交互的接口,支持 Gym、Unity、Web、API 等 | EnvAdapter(统一 reset/step 接口) |
| Agent Layer | 包含感知、决策、记忆、执行四大子模块 | Perceiver, Policy, Memory, Executor |
| Training & Evaluation Layer | 统一的训练循环、日志、可视化、基准评测 | Trainer, Evaluator, Dashboard |
observation_space(支持多模态:text, image, audio, structured)action_space(离散、连续、工具调用等)reward_schema(即时奖励、稀疏奖励、层次奖励)success_criteria(终止条件、评估指标)reset() / step(action) 接口,内部封装:
VecEnv)和 分布式(Ray、DeepSpeed)两种加速方式。Perceiver(感知)
ViT、CLIP、Whisper、BERT 等均可通过统一的 Encoder 接口接入。Policy(决策)
Memory(记忆)
Executor(执行)
action 映射到真实系统调用:API 请求、机器人控制指令、文本生成等。B x N x D(Batch、Token、Dim),后续模块不需要关心输入是图像还是文本。Policy 中加入 “思考+行动” 的两阶段输出:thought(自然语言推理)action(结构化指令)thought 作为额外的监督信号,提升样本效率。MemoryStore 接口,后端可以是:
action 进行策略审查(基于规则或二次 LLM 判别),阻止违规操作。TaskSpec、参考实现(baseline)以及 评测脚本,便于快速对比新算法。# 1️⃣ 定义任务(task.yaml)
task:
name: "visual_question_answering"
observation_space:
image: {shape: [3, 224, 224]}
text: {max_len: 64}
action_space:
type: "text"
vocab: "answer_vocab.txt"
reward_schema:
correct_answer: +1.0
step_penalty: -0.01
success_criteria:
max_steps: 10
# 2️⃣ 构建环境
from unir_agent.env import EnvAdapter
env = EnvAdapter.from_gym("VQAEnv-v0", task_spec="task.yaml")
# 3️⃣ 配置 Agent
from unir_agent.agent import UniAgent
agent = UniAgent(
perceiver="CLIPViT",
policy="LLM+PPO",
memory="FAISS",
executor="APIExecutor"
)
# 4️⃣ 启动训练
from unir_agent.trainer import Trainer
trainer = Trainer(
agent=agent,
env=env,
config="configs/train.yaml"
)
trainer.run()
perceiver="ViT" → perceiver="Whisper"),或把策略改为纯离线 RL(policy="CQL"),极大提升实验迭代速度。github.com/bytedance/veRL/Uni-Agent(MIT License)unir-agent-plugins),用户可发布自定义 EnvAdapter、MemoryStore、RewardShaper。未来路线图(官方公开):
| 时间 | 里程碑 |
|---|---|
| Q3 2024 | 完成 分布式训练(Ray + DeepSpeed)官方示例,支持 10k+ GPU 规模。 |
| Q4 2024 | 发布 Meta‑Learning 插件,实现“一键迁移”到新任务的快速微调。 |
| 2025 年上半年 | 引入 自监督记忆预训练(Memory‑Pretrain),提升长期规划能力。 |
| 2025 年下半年 | 与 OpenAI、Anthropic 等 LLM 提供商合作,提供统一的 LLM‑as‑a‑Service 接口。 |
Uni‑Agent 是字节跳动 veRL 团队为 通用 Agent 训练 打造的 统一、模块化、跨模态 框架。它通过 TaskSpec、EnvAdapter、可插拔的感知‑决策‑记忆‑执行四大组件,以及 统一的训练/评估管线,实现了:
对想在 多模态、跨任务、可对齐 的智能体方向进行研发的团队或个人,Uni‑Agent 提供了从 原型 到 大规模分布式训练 再到 生产部署 的完整技术栈,是当前最具前瞻性的开源项目之一。
以上为对博客核心内容的完整概括,约 950 字,已覆盖背景、框架结构、关键技术、使用示例、开源生态以及未来展望。
标题:InfoQ – “蜂群Agent来了!openJiuwen社区发布 JiuwenSwarm,引领 Coordination Engineering 新范式”
核心概述
本文围绕 从 Harness(单体/中心化)向 Coordination(协同)转型 的趋势展开,重点介绍了 openJiuwen 社区最新发布的 JiuwenSwarm 框架及其背后的 Coordination Engineering 思想。文章通过对比、案例和技术细节,阐明了为何以及如何在分布式系统、微服务、AI 代理等场景下采用“蜂群式”协同模型,以实现更高的弹性、可扩展性和自治能力。
| 维度 | Harness(中心化/单体) | Coordination(协同/蜂群) |
|---|---|---|
| 控制方式 | 单点控制,所有决策集中在中心服务 | 决策分散,多个 Agent 通过协议协商达成共识 |
| 弹性 | 中心节点故障会导致全局不可用 | 任意节点失效只影响局部,系统整体仍可运行 |
| 扩展性 | 通过垂直扩展或拆分子系统,复杂度快速上升 | 通过水平增加 Agent,系统容量线性增长 |
| 演化速度 | 代码耦合度高,改动需全局回归 | 通过协议升级、插件替换,局部改动即可生效 |
| 适用场景 | 业务边界清晰、交互频率低 | 高度交互、动态协作、需要自治的复杂生态 |
作者观点:在 AI 大模型、边缘计算、物联网等新兴领域,系统的 “协同” 成为核心需求。传统的 Harness 思想已难以满足快速迭代、弹性伸缩和自治治理的要求。
核心思想:把“系统治理”从中心化的控制平面抽象为 一套可组合、可演化的协同协议,让系统本身具备 自组织 与 自恢复 能力。
| 功能 | 说明 |
|---|---|
| Agent SDK | 多语言(Go、Java、Python、Rust)实现的 Agent 基础库,封装感知、决策、执行、状态同步等通用能力。 |
| Swarm Runtime | 负责 Agent 注册、发现、心跳、负载均衡、故障转移。采用 Gossip + CRDT 实现全局状态的弱一致性。 |
| Coordination Protocol v1 | 基于 Eventual Consistency + Conflict‑Free Replicated Data Types,支持 事务级别的局部共识(如两阶段提交的轻量化版)。 |
| Meta‑Control Plane | 通过 Kubernetes‑style CRD(Custom Resource Definition)管理协议版本、策略、插件。支持 滚动升级 与 灰度发布。 |
| Observability Stack | 内置 OpenTelemetry,统一上报 Metrics、Traces、Logs;提供 Swarm Dashboard(实时拓扑、状态、延迟、错误率)。 |
| Security | 基于 mTLS 的点对点加密,配合 Zero‑Trust 策略,支持 Fine‑grained ACL。 |
| Extensibility | 插件化的 Decision Engine(支持规则引擎、LLM、强化学习),以及 Action Executor(支持容器、函数、边缘设备)。 |
+-------------------+ +-------------------+ +-------------------+
| Agent A (Go) |<---->| Swarm Runtime |<---->| Agent B (Python)|
+-------------------+ +-------------------+ +-------------------+
^ ^ ^
| | |
(Telemetry) (Gossip) (Telemetry)
| | |
+-------------------+ +-------------------+ +-------------------+
| Meta‑Control |<---->| Coordination |<---->| Plugin Store |
| Plane (CRD) | | Protocol v1 | +-------------------+
+-------------------+ +-------------------+
定义业务 Agent
sense() → decide() → act() 三步循环。搭建 Swarm Runtime
制定 Coordination Protocol
注入决策插件
DecisionContext 接口获取全局状态快照。监控与自愈
安全加固
一句话概括:JiuwenSwarm 把“系统治理”从中心化的控制塔,转变为一群自治的 Agent 通过轻量协议协同工作,从而让分布式系统拥有像蜂群一样的弹性、可扩展和自组织能力,这正是 Coordination Engineering 所要解决的核心难题。
博客标题
【人人都是产品经理】霸榜 GitHub 一周的 OpenHuman,强在哪里?
核心结论
OpenHuman 之所以在 GitHub 上“一周霸榜”,并不是因为它的 README 里堆砌了大量华丽的文字或炫酷的截图,而是它在 “产品思维、用户价值、技术实现” 三个维度上真正做到了 “用最小的投入,解决最真实的痛点”。这篇文章的作者通过拆解 OpenHuman 的公开信息(主要是 README、issue、release notes 等),指出了很多自称“产品经理必读”的博客往往只是在复制粘贴这些表层信息,而没有深入挖掘 “为什么要这么做、怎么衡量成功、下一步怎么迭代”——这才是产品经理应该学习的真正知识。
下面按 四个关键维度(定位、核心价值、实现方式、运营迭代)对 OpenHuman 的强点进行归纳,并对比常见的“只读 README”误区,帮助你快速抓住产品思考的本质。
| 维度 | OpenHuman 的做法 | 常见误区 |
|---|---|---|
| 目标用户 | 开源社区的 研究者、数据科学家、AI 开发者,他们需要一个 统一、可复用、可追溯 的人类行为数据平台。 | 只写“面向所有人”,没有明确细分用户画像。 |
| 痛点 | - 数据采集成本高、质量参差不齐 - 法律合规(GDPR、CCPA)难以统一管理 - 多项目协作时缺乏统一 schema |
只说“帮助大家更好地管理数据”,没有说明 “为什么现在的方案不行”。 |
| 价值主张 | “一键部署、即插即用、全链路合规”,让团队把 “收集数据” 的时间从 数周 降到 数小时。 | 只列出功能清单(如“支持 CSV、JSON”),缺少 价值量化(节省时间、降低风险)。 |
要点:产品经理要先明确 “为谁解决什么问题”,并用 可度量的 KPI(如时间、成本、合规风险)来验证价值。
MVP 先行
可扩展性
社区驱动
要点:产品经理要懂得 “先做最小可交付”,再通过插件/API 打造生态,而不是一次性把所有功能堆满。
| 技术点 | 为什么选它 | 对产品价值的贡献 |
|---|---|---|
| Docker + Helm | 统一部署环境,降低运维门槛 | “一键部署” → 降低技术门槛,提升用户采纳率 |
| OpenAPI 规范 | 自动生成 SDK、文档 | 开发者友好,缩短集成时间 |
| GitHub Actions | CI/CD 与 Issue/PR 流程天然集成 | 自动化测试 + 代码审查 → 保证质量、快速迭代 |
| SQLite + PostgreSQL(可切换) | 本地快速实验 → 生产级别扩展 | 从 “个人实验” 到 “企业级” 的平滑迁移 |
| Privacy‑by‑Design(数据脱敏库) | 合规是核心痛点 | 直接解决 GDPR/CCPA,提升信任度 |
要点:技术选型不是“炫技”,而是 “为实现产品价值服务”。产品经理需要在需求、成本、风险之间做权衡,并在 README 中解释“为什么这么做”,而不是仅列出技术栈。
关键指标(KPIs)
反馈闭环
迭代节奏
要点:产品经理要把 “数据(指标)+ 反馈” 形成闭环,而不是只靠感性判断。博客里常见的“这功能很酷”往往缺少 KPI 佐证。
表层信息:大多数博客把 README 当成“产品教材”,只教你怎么写文档、怎么排版。
缺失的层次:
正确的学习路径:
结论:真正的产品经理学习应从 “问题 → 价值 → 实现 → 反馈” 四步走,而不是停留在 “复制 README” 的表层。
OpenHuman 之所以“一周霸榜”,是因为它 把产品思维深度嵌入了每一次代码提交、每一条 Issue、每一次 Release。它用 明确的定位、最小可行产品、技术与价值的匹配、数据驱动的运营闭环,展示了一个开源项目如何在短时间内实现 高价值、高增长。而这篇博客的核心提醒是:别只看 README,真正的产品知识在于背后的 WHY、HOW、WHAT NEXT。只要你学会从这些维度去拆解任何项目,就能把“看博客”转化为“提升产品思维”。
博客标题
[InfoQ] CIO 正在抛弃 AI 生码率:一场关于什么才算产研提效的实践复盘
核心观点
AI 在研发效能提升(产研提效)上并不是“一键生成代码、全自动化”的万能钥匙。真正能够产生规模化收益的,是 “AI 辅助、人工审校、流程再造” 的闭环体系,而不是单纯追求“AI 生码率”。CIO 们在实际落地过程中发现,盲目追高 AI 生成代码的比例(生码率)往往带来质量风险、维护成本上升,最终得不偿失。
| 需求 | 传统做法 | AI 介入后可能的改进 |
|---|---|---|
| 需求拆解 & 规格说明 | 手工撰写、会议讨论,耗时长 | AI 辅助生成需求草稿、自动抽取关键点,提升沟通效率 |
| 代码实现 | 开发者全手写,重复劳动多 | AI 提供代码片段、模板,帮助快速搭建框架 |
| 代码审查 | 人工 Review,耗时且主观 | AI 预审查、检测潜在缺陷,减轻 Review 负担 |
| 测试用例 | 手工编写,覆盖率难保证 | AI 自动生成边界/等价类用例,提升覆盖率 |
| 运维监控 | 规则配置、告警阈值调优 | AI 分析日志、预测异常,提前预警 |
结论:AI 最有价值的环节是 “信息抽取、重复性劳动减负、质量预判”,而不是全链路代码自动生成。
质量不可控
维护成本上升
技术债累积
ROI(投资回报)不佳
CIO 的共识:AI 只能是 “助推器”,而不是“主力军”。 关键是 “AI 与人协同的比例”,而不是单纯追求 AI 生成的代码占比。
结果
| 环节 | AI 角色 | 人的角色 | 关键产出 |
|---|---|---|---|
| 需求拆解 | NLP 提取关键点、生成需求草稿 | 产品/业务确认、细化 | 需求文档生成时间 ↓ 40% |
| 代码实现 | 提供 代码片段、模板(仅 20% 代码) | 开发者完成业务逻辑、集成 | 开发效率 ↑ 25% |
| 代码审查 | 静态分析、AI 预审(检测安全/性能) | 人工 Review 重点关注业务逻辑 | Review 时间 ↓ 30% |
| 测试用例 | 自动生成等价类/边界用例 | QA 补充业务场景 | 测试覆盖率 ↑ 15% |
| 运维监控 | 异常预测模型、告警阈值自调 | 运维工程师确认、响应 | 故障恢复时间 ↓ 20% |
成效(2023 年度)
| 教训 | 对策 |
|---|---|
| 盲目追高生码率 → 质量失控 | 设定 AI 辅助率 而非生码率;把 AI 当作“代码建议”而非“代码交付”。 |
| 模型黑箱 → 难以解释缺陷根因 | 引入 可解释 AI(如 LLM 解释生成代码意图),并在审查环节强制记录 AI 生成的依据。 |
| 缺乏统一标准 → 代码风格混乱 | 建立 AI 代码风格指南,让模型输出符合公司规范。 |
| 团队抵触 → 使用率低 | 通过 内部培训、案例分享、激励机制(如 AI 使用积分)提升接受度。 |
| 技术债 → 维护成本飙升 | 对 AI 生成代码实行 “技术债审计”,定期重构、统一抽象层。 |
一句话概括:AI 能让研发更快、更安全,但前提是把它当作“助理”,而不是“全能代工”。只有在“AI 辅助 + 人工审校 + 流程再造”的闭环中,才能跨过“AI 生码率”这道虚幻的分水岭,真正实现产研提效的规模化落地。
博客标题:
[晚点LatePost] 从分散工具走向统一底座,医院 AI 正在换一条更长期的路——让 AI 跑在一个共同的底座上
核心内容概述(约 800 字)
| 传统碎片化方式 | 统一底座方式 |
|---|---|
| 高昂的重复投入(每个科室单独买模型) | 一次开发,多科室共享(模型复用、迁移成本低) |
| 难以保证数据质量(不同系统质量参差) | 统一治理(数据质量监控、清洗、标准化) |
| 合规风险分散(审计难统一) | 集中审计(统一日志、权限、合规报告) |
| 技术债务累积(多套技术栈、运维工具) | 技术栈统一(容器化、CI/CD、统一监控) |
| 创新速度慢(难以快速实验) | 快速实验平台(模型即插即用、A/B 测试) |
统一底座把 AI 从“点对点”式的工具链,转变为“平台即服务”(AI‑PaaS)的模式,能够在医院的业务生命周期内持续迭代、复用和扩展,真正实现 AI 的“跑在同一个底座上”。
数据层
模型层
服务层
治理层
博客指出,医院 AI 正在从“各自为政的工具箱”向“统一底座平台”转型,这是一条更具可持续性、可扩展性和合规性的长期道路。通过统一的数据治理、模型管理、服务交付和安全审计,医院能够:
最终,AI 将不再是孤立的“点”,而是跑在全院统一底座上的“公共服务”,为提升诊疗质量、运营效率和科研水平提供坚实的技术基石。
文章核心要点概括(约 950 字)
作者将整个知识体系划分为 五季、共 16 讲,每季围绕一种工程视角递进:
| 季度 | 主题 | 关键技术/模式 | 典型应用 |
|---|---|---|---|
| 第一季 | 线性数据流与内存模型 | 双指针、滑动窗口、单调栈、链表 | 日志多路归并、实时流控、编译器解析、内存分配器 |
| 第二季 | 组织与调度 | 二分查找、堆(Top K)、贪心 | 一致性哈希、任务调度、资源分配 |
| 第三季 | 结构化数据与张量 | 树遍历、图论(Union‑Find、拓扑)、最短路、矩阵/张量 | 配置/DOM 解析、微服务依赖、网络路由、AI 卷积核 |
| 第四季 | 编码与底层魔法 | 字符串匹配(KMP、Rabin‑Karp)、位运算 | 文本编辑、增量同步、布隆过滤、Bitmap 索引 |
| 第五季 | 复杂决策与系统设计 | 回溯、动态规划、Trie、LRU/LFU | 正则引擎、查询优化、Diff、搜索自动补全、缓存淘汰 |
每讲都配合 Go 语言实现,帮助读者在语言层面快速落地。
总结:文章指出在 AI 能自动生成代码的时代,工程师的核心竞争力转向算法设计与系统判断。作者通过把 LeetCode 题目抽象为 15 大核心模式,构建了一个 “算法图谱”,并以 Go 语言为载体,分五季、十六讲系统讲解,从基础数据流到系统级设计,帮助读者从“刷题”升级为“架构思维”。配套的进阶课程与社区资源进一步支撑读者在 AI 时代实现从“代码搬运工”到“AI 操作系统架构师”的转变。
标题:
【人人都是产品经理】从会聊天到会办事,Amazon Quick 让我重新理解办公 AI
核心观点:
办公 AI 正在从“只会生成文字/内容”向“能够直接完成业务任务、交付结果”进化。Amazon Quick(原 Amazon Q)是这一趋势的最新代表,它把自然语言对话与实际工作流、企业系统深度集成,让用户在聊天的同时就能触发、执行并交付真实的工作产出。
| 阶段 | 代表能力 | 典型产品 | 关键限制 |
|---|---|---|---|
| 1️⃣ 内容生成 | 生成文案、摘要、代码片段、表格等 | ChatGPT、Claude、Bard | 只能输出文本,需手动复制粘贴、后续加工 |
| 2️⃣ 信息检索 & 辅助 | 在内部文档、邮件、数据库中搜索并提供答案 | Copilot for Microsoft 365、Google Workspace AI | 仍是“信息提供者”,不直接触发业务动作 |
| 3️⃣ 任务交付 | 根据指令直接在系统中创建、修改、执行任务 | Amazon Quick、Zoho AI Assistant、Notion AI(Beta) | 需要深度集成企业工具、权限管理、可审计的执行记录 |
结论:从“会聊天”到“会办事”,是从“生成内容”到“交付业务价值”的根本跃迁。
| 用户输入 | Quick 的内部动作 | 结果 |
|---|---|---|
| “帮我把上周的销售报告发给张经理,顺便把报告里所有超过 10% 的增长点列出来。” | 1️⃣ 调用内部 Salesforce 查询报告文件 2️⃣ 用 Textract 抽取表格数据 3️⃣ 运行 LLM 进行增长点分析 4️⃣ 调用 Outlook API 生成邮件并发送 |
邮件已发送,报告附件已附上,增长点列表已写入邮件正文 |
| “把本季度的产品需求文档转成 PPT,放在共享盘的 ‘产品部/需求汇总’ 文件夹里。” | 1️⃣ 调用 Confluence 拉取需求页面 2️⃣ 用 Bedrock 生成 PPT 内容 3️⃣ 调用 S3/SharePoint 上传文件 4️⃣ 返回文件链接 |
PPT 已生成并上传,链接已返回给用户 |
| “把今天的会议纪要发给所有参会人,并在 Jira 创建一个后续任务,标题为‘跟进会议决定’。” | 1️⃣ 调用 Zoom/Teams 获取会议录音 2️⃣ 用 Whisper+LLM 生成纪要 3️⃣ 调用 Jira API 创建任务并关联纪要 4️⃣ 调用 Outlook 发送邮件 |
纪要已发送,Jira 任务已创建,链接已返回 |
要点:用户只说一句自然语言,Quick 自动完成 检索 → 处理 → 调用业务系统 → 交付 四个环节,整个过程对用户透明。
| 维度 | Microsoft Copilot | Amazon Quick |
|---|---|---|
| 集成深度 | 主要通过 Office 插件、Graph API,覆盖面广但对自研系统支持有限 | 通过 Bedrock + Tool‑Calling,可以自定义任意内部 API,几乎无限制 |
| 任务交付能力 | 多为“生成文档/邮件草稿”,需要用户手动点击发送/保存 | 完全自动化:从生成到系统提交、审批、归档全链路 |
| 可扩展性 | 需要 Microsoft 生态内的 Power Platform 才能扩展 | 开放的 AWS Marketplace 与自建 Lambda/Step Functions,开发者自行注册工具 |
| 安全模型 | 依赖 Microsoft 365 安全中心,跨云环境受限 | 完全在 AWS VPC/PrivateLink 中运行,企业可自行控制网络边界 |
| 成本计费 | 按用户/座位计费 + 生成 token 费用 | 按 Bedrock 调用次数 + Tool‑Calling(Lambda/Step Functions) 计费,灵活度更高 |
| 局限 | 说明 | 可能的解决方案 |
|---|---|---|
| 模型 hallucination(幻觉) | 在复杂业务规则下仍可能生成错误指令 | 引入 RAG(检索增强生成) + 业务规则引擎 做二次校验 |
| 工具注册门槛 | 每个内部系统需要开发对应的 Tool Wrapper | 提供 AWS Serverless Toolkit(模板化 Lambda + OpenAPI)降低门槛 |
| 多模态需求(图表、音频) | 目前大多数对话仍以文本为主 | 结合 Bedrock Vision、Audio 模型,实现“一句话生成图表/音频摘要” |
| 跨组织协作 | 不同部门/子公司使用不同权限体系 | 通过 AWS Organizations + IAM Identity Center 实现统一身份与细粒度授权 |
展望:随着 Bedrock 多模态模型成熟、RAG 框架标准化,以及企业级工具库(Tool Marketplace)的丰富,办公 AI 将进一步从“单点任务交付”迈向 “全流程业务自动化”——即用户只需描述目标,AI 自动规划、执行、监控并交付完整业务结果。
Amazon Quick 把自然语言对话直接映射到企业内部的业务 API,实现了“会聊天 → 会办事”。它标志着办公 AI 正从“内容生成”向“任务交付”转型,企业在产品设计、系统集成和安全治理上必须围绕 “对话即工作流” 重新思考,以真正把 AI 的价值落地到业务成果。
《[晚点LatePost]制造豆包:一个 AI 超级入口的形成与转向》核心内容概述(约800字)
| 维度 | 设计要点 | 实际落地 |
|---|---|---|
| 入口体验 | “一键提问 + 多模态输出” 即时返回文字、图片、代码、音频 |
主页面采用 对话框 形式,支持文字、语音、图片上传 |
| 检索增强 | 结合 向量检索 与 传统倒排,保证事实准确性 | 引入 知识库(百科、企业内部文档)+ 实时网络搜索 |
| 插件体系 | 开放 API,第三方可开发功能插件(如金融、教育) | 已上线 翻译、天气、代码运行、文档生成 等 10+ 官方插件 |
| 内容生成 | 采用 指令微调 + 多模态,兼顾创意与实用 | 支持 短视频脚本、海报设计、PPT 自动生成 |
| 安全合规 | 多层审查:敏感词、事实核查、伦理过滤 | 实时审查系统 + 人工复审,违规率 <0.5% |
| 运营闭环 | 入口 → 内容 → 生态 → 变现 的闭环设计 | 通过 生成内容分发(抖音短视频、飞书文档)实现流量互导 |
| 挑战 | 具体表现 | 含义 |
|---|---|---|
| 模型能力瓶颈 | 在专业领域(医学、法律)仍有错误率,难以完全替代专家 | 需要 行业化微调 与 人机协作 |
| 内容同质化 | 大模型生成的内容风格趋同,缺乏独特性 | 需要 个性化提示、用户画像 来差异化 |
| 插件生态成熟度 | 第三方插件数量、质量仍有限,生态闭环不够完整 | 需要 更开放的 SDK、激励机制 |
| 监管合规 | AI 生成内容涉及版权、隐私、误导信息等风险 | 必须 强化审查、透明度 与 可追溯 |
| 商业变现路径 | 付费插件转化率不高,广告与数据变现受限 | 需要 细分场景付费、企业 SaaS、增值服务 |
| 竞争格局 | 市场上已有 ChatGPT、Gemini、Claude 等强竞争者 | 必须 差异化入口(如深度整合字节生态) |
核心内容概述(约 800 字)
Trellis‑Herbivore(GitHub 地址:LonelyHerbivore/Trellis-Herbivore),基于 Trellis-0.6.0-beta.17。| 策略 | 作用 | 是否可选 |
|---|---|---|
trellis-grill-me |
基于 PRD(需求文档)向用户追问细节并实时更新 PRD | 否 |
subagent |
决定是继续在当前会话中开发还是启动子代理(子任务) | ✅ |
worktree |
选择直接在当前分支开发还是使用 Git worktree(多工作树) | ✅ |
TDD |
在默认 Trellis 开发流程之外,启用测试驱动开发 | ✅ |
trellis-spec-review |
在 trellis-check 之后二次检查 SPEC 是否全部执行、是否遗漏 |
否 |
trellis-code-review |
代码守护者,检查代码质量、风格、潜在缺陷 | 否 |
trellis-code-architecture-review |
代码架构守护者,防止新增/修改代码破坏现有架构 | 否 |
trellis-improve-codebase-architecture |
深层架构分析师,对代码结构进行二次审查,防止“屎山”代码 | ✅ |
trellis-merge-review |
合并分支前的最终质量检查(可选) | ✅ |
注:标记为 “✅” 的策略在使用时可以由用户自行开启或关闭,以适配不同项目需求或个人偏好。
trellis‑brainstorm 生成初步实现思路。trellis‑grill‑me 基于 PRD 进一步询问细节并更新 PRD。trellis‑implement 执行代码生成/编辑。trellis‑check 对生成的代码进行初步校验。trellis‑spec‑review 确认所有 SPEC 已覆盖。trellis‑code‑review 与 trellis‑code‑architecture‑review 分别检查代码质量与架构一致性。trellis‑improve‑codebase‑architecture 进一步优化代码结构。trellis‑update‑spec 将实际实现同步回 SPEC。trellis‑merge‑review 对合并结果做最终质量检查。/trellis:finish-work 或自然语言指令将任务归档。npm install -g trellis-hgl@latest
安装后在项目根目录执行 trellis init --claude 即可启用上述增强工作流。
trellis init --claude 即可”。Trellis-0.6.0-beta.17 基础上测试,后续 Trellis 版本升级后可能需要重新安装或更新插件。trellis init --claude,或在社区发帖求助。总结:该帖子介绍了一个基于 Trellis 的工作流插件 trellis‑hgl,专为 Claude Code 设计,提供从需求捕获、细节追问、代码生成到多层审查、合并检查的完整闭环。插件通过可选策略让用户自行决定是否使用子代理、worktree、TDD 等高级特性,旨在提升 AI‑驱动代码开发的质量与可控性,同时保持开源透明。
核心要点概括(约 950 字)
过去两年,GPT、Claude、Gemini 等大模型在 HumanEval 等“写函数”基准上表现惊人,导致“程序员将被 AI 取代”的舆论四起。作者认为这只是表层现象,真正的工程挑战在于 从零复刻完整开源项目——这才是软件工程的核心难度。
| 模型 | “几乎完成”(≥95% 用例通过) 项目比例 | 主要行为特征 |
|---|---|---|
| Claude Opus 4.7 | 3.0% | 架构师派:平均 868 条命令,频繁 ls、cat、编译、跑测、重构,形成长链路的读‑写‑探测循环。 |
| Claude Opus 4.6 / Claude Sonnet 4.6 | 2.5% / 1.6% | 同上,略弱。 |
| GPT‑5.4、Gemini‑3.1 Pro | 0% | 急性子派:平均 17 条命令,一次性输出大段代码,缺乏迭代修正。 |
结论:在复杂工程任务中,推理链的深度与持续迭代能力 决定了成功率;单轮“记忆代码”已无法胜任。
统计(AI 在不同语言项目上的成功率):
| 语言 | 成功率 |
|---|---|
| Go | 38.4% |
| Rust | 38.5% |
| C / C++ | 27.7% |
构建系统的统一性
go mod tidy + go build 一条命令解决 99% 环境。标准库的完整度
内存安全
迁移到 Go / Rust
强化架构师思维
采用 Claude‑式工作流
安全与合规
作者还提供了后续资源:ProgramBench 论文链接、AI Agent Harness 实战专栏(Go 实现 ReAct 循环、并发拦截、上下文压缩等),以及 Go & AI 精进营的学习社区,帮助开发者在 AI 时代提升工程化水平。
Release v2026.5.19‑beta.2 – OpenClaw (2026‑05‑19)
This pre‑release bundles a large set of functional, performance and stability improvements across the whole OpenClaw stack – agents, gateway, plugins, UI, CI, and the various channel integrations (Telegram, Discord, WhatsApp, etc.). Below is a concise “what’s new / what changed” overview, grouped by area.
| Area | Key changes |
|---|---|
| Agents / Plugins | • Default fixes now use clean bounded refactors; deprecation paths for internal SDK/API are explicit. • Tool‑description schema shortened for all built‑in tools (media, cron, gateway, etc.). • New defineToolPlugin command and openclaw plugins build/validate/init helpers for typed simple tool plugins with generated manifests. |
| Dependencies | • @openclaw/proxyline bumped to 0.3.3. • Pi packages updated to 0.75.1. • Minimum Node.js version raised to 22.19 (launcher now enforces this). |
| Docker/Podman | • New build‑arg OPENCLAW_IMAGE_APT_PACKAGES (runtime‑neutral) – legacy OPENCLAW_DOCKER_APT_PACKAGES kept for compatibility. • Added OPENCLAW_IMAGE_PIP_PACKAGES to install optional Python packages during image build. |
| Gateway / ACPX | • Startup probe, config, runtime and resource‑count costs now emitted in restart traces (no change to readiness). • Overlapped startup logging with plugin‑service sidecars to cut ready latency. • Restart handling improved: pending replies and active runs are drained before sockets close; failed hot‑reload of a single channel no longer aborts the whole restart. |
| Config / Secrets | • gateway/secrets split into lightweight runtime state and full store, giving a fast‑path when no SecretRefs are present. • Config validation now tolerates broken discovered plugins that are not referenced, while still erroring on explicit bad entries. |
| CLI | • openclaw skills install/update now accept --global to target shared managed skills. • openclaw browser evaluate gets --timeout‑ms for long‑running page functions. • openclaw qa suite --runtime‑parity‑tier added; new openclaw qa coverage --tools reports tool‑fixture coverage. • Port numbers > 65535 are rejected early. • openclaw update now bypasses npm freshness filters and gives platform‑specific post‑update recovery hints. |
| Memory / Search | • Vector fallback scans now run in bounded row‑id batches with event‑loop yields, preventing long Node.js pauses. • SQLite‑vec load failures distinguished from missing embeddings; index warnings are more precise. |
| QA‑Lab | • New parity tiers (standard Codex‑vs‑Pi, live‑only, token‑efficiency, etc.). • Runtime tool fixture scenarios added for Codex native, OpenClaw dynamic and plugin‑backed tools. • Coverage artifacts ( openclaw qa coverage --tools) and diagnostic snapshots now part of the release checks. • Personal‑agent benchmark packs expanded (approval‑denial, share‑safe diagnostics, no‑fake‑progress, etc.). |
| Release stability | • Fixed broad‑gate regressions in requester‑agent handoff, QA‑Lab mock spawn attribution, Slack monitor isolation, plugin uninstall fixtures, and Node‑floor launcher contract coverage. • Replies now persist queued follow‑up messages only once across model‑fallback retries. |
| Area | Key changes |
|---|---|
| Settings redesign | • Consistent card layout, cached navigation, unified margins, and a permanent sidebar. • New panes for Permissions, Voice, Skills, Cron, Exec, Debug – all with steadier spacing. |
| General / Connection panes | • Cleaner status panels, single native title‑bar toggle, tighter label alignment, longer error messages shown without truncation. |
| Dashboard / Shortcuts | • Dashboard, Chat, Canvas, Settings shortcuts added to the Dock menu. |
| Performance | • Settings pages load faster by deferring schema work, caching decoded channel status rows, and mounting panes only on demand. |
| Bug fixes | • SwiftUI crash in Cron settings avoided. • “Configuration” heading duplication removed. • Sidebar toggle moved to native title bar; visited panes stay mounted (no blank reload). |
| Channel | Highlights |
|---|---|
| Telegram | • Allow‑listed DM draft previews for transient tool progress. • Forum‑topic routing fixes (no blocking of sibling traffic, preserve topic IDs). • Retry on HTTP 421, fail cleanly on “message_thread_not_found”. • Media group handling, verbose reply preservation, and detailed outbound logs (metadata only, bodies omitted). |
| Discord | • Streamed reply previews kept when tool‑warning finals arrive. • Final replies delivered in preview streams, not deduplicated. • Subagent replies now routed to the bound Discord thread. |
| • Forced‑document delivery for images/GIFs/Videos; MIME‑based filenames when none supplied. • Upload‑file now treated as supported media send intent. |
|
| Slack | • Delivered inbound message IDs persisted; duplicate replies prevented. • Legacy interactive /Slack directive APIs deprecated. |
| WebChat | • textChunkLimit and chunkMode respected; internal runtime‑context messages hidden from history. |
| Feishu | • Subagent delivery origins returned correctly; inbound session context refreshed for DMs, groups, broadcasts. |
| Signal | • Mixed‑case group IDs preserved through routing. |
| iOS / Android | • Live Activities end when OpenClaw disconnects; TLS thumbprint change prompts user before replacement. |
| Browser | • URL allow‑list checks for /act evaluate/batch and /highlight. • CDP proxy bypass works with both NO_PROXY casings; home‑relative Chrome profile paths redacted. |
| Provider | Changes |
|---|---|
| OpenAI / Codex | • Minimum Node floor enforced; GPT‑5.1⁄5.2⁄5.3 now accepted. • Deterministic tool‑payload ordering for prompt‑cache reuse. • Removed hard‑coded brevity caps on GPT‑5 final replies. |
| Anthropic | • Image input preserved for Claude 4 when catalog rows are stale. |
| DeepSeek | • anyOf/oneOf unions normalized before schema compaction. |
| Together | • PI runtime packages updated to 0.74.1; reasoning controls added for compatible models. |
| Google (Gemini) | • Thought signatures kept during replay; malformed Base64 dropped safely. |
| GitHub Copilot | • Identity‑encoded API responses used; gzip payloads no longer break JSON parsers. |
| xAI | • Full OAuth PKCE flow fixed; video generation defaults and User‑Agent attribution added. |
| Ollama (via Telegram) | • Image attachments passed to native Ollama vision turns. |
| Skill / Tool | New / Updated |
|---|---|
| Meme‑maker | Template search, local SVG/PNG rendering, Imgflip hosting, Know‑Your‑Meme provenance links. |
| Python debugging | pdb, breakpoint(), post‑mortem, debugpy remote attach. |
| Node inspector | Debugging skill added. |
| Fused diagram generation | New skill for diagram creation. |
| Obsidian | Now targets the official CLI binary; third‑party obsidian‑cli deprecated. |
| Image generation | Distinct prompts can start separate background tasks; retries still reuse the active task. |
| Media | Sharp fallback chain (Sharp → sips → native imaging → ImageMagick/GraphicsMagick → ffmpeg). |
| Music / Jingle | music_generate now handles full audio generation, not just lyrics. |
| Video generation | Together v2 video API used when config still points at v1. |
| CLI/media | Accept HTTP(S) URLs for openclaw infer image describe --file. |
| Skill CLI | openclaw skills install/update --global for shared managed skills. |
| Skill metadata | Empty/whitespace names rejected; prompts tightened; quoting added. |
| Item | Description |
|---|---|
| ClawSweeper proof | Real‑behavior proof verdicts must come from the ClawSweeper GitHub App. |
| CI | Added rollback protocol‑mismatch diagnostics; gateway protocol v4 restored. |
| Plugin SDK | Bundled zod sub‑path into published artifact for global installs. |
| PowerShell completion | Fixed profile path resolution and reload handling. |
| GitHub Copilot | Dropped unsafe native reasoning replay items with non‑replayable IDs. |
| Proof gating | Private‑org maintainers can skip real‑behavior proof gate via a low‑privilege GitHub App token. |
| Process diagnostics | Active lane blockers now shown; active turn no longer counted as queued backlog. |
tools.alsoAllow.v2026.5.19‑beta.2 is a big, integrative release that:
Overall, the release readies OpenClaw for production‑grade use in 2026, delivering richer functionality, tighter security, and more predictable behavior across all supported platforms.
核心内容概述
这篇 V2EX 帖子讨论的是在使用 antigravity(一个基于 Google 账号的服务)登录后,系统要求进行 二步验证(Two‑Factor Authentication,2FA),但用户只能通过 短信验证码 完成验证,而绑定的手机是国内号码,根本收不到国际短信,导致登录受阻。
主要信息点
| 序号 | 内容 | 说明 |
|---|---|---|
| 1 | 问题描述 | 用户在 antigravity 登录 Google 账号后,被要求进行二次验证(扫码/短信)。唯一可用的验证方式是短信,绑定的是国内手机号,收不到验证码。 |
| 2 | 求助目标 | 如何绕过或解决只能使用短信验证码、无法收到验证码的情况,使登录能够顺利完成。 |
| 3 | 社区回复 | 只有一条回复,内容如下: - “扫码是什么,没见过,手机上下了 Chrome, 两步验证除了手机号还有 APP 验证,直接在手机 APP 里选数字就登上了。” 这暗示了可以使用 Google Authenticator、Microsoft Authenticator、Authy 等基于 TOTP(一次性密码)的验证 APP,而不是依赖短信。 |
| 4 | 隐含的解决思路 | 1. 开启基于 APP 的 2FA:在 Google 账户安全设置里,添加“验证器应用”作为第二步验证方式。 2. 使用二维码扫描:在登录页面出现二维码时,用手机上的验证器 APP 扫描,生成 6 位一次性密码。 3. 更换绑定手机号:如果必须使用短信,可在 Google 账户中更换为能够收到国际短信的号码(如使用国外虚拟号码或亲友的手机号)。 4. 备份码:在设置 2FA 时,Google 会提供一组一次性备份码,保存后可在无法收到验证码时使用。 |
| 5 | 注意事项 | - 开启 APP 验证后,务必保存好备份码,防止手机丢失导致无法登录。 - 若已经被锁定,需要通过 Google 的 账户恢复流程(提供身份信息、使用已登录设备等)来解锁。 |
| 6 | 结论 | 该帖的核心结论是:不要只依赖短信验证码,而是使用手机上的验证器 APP(或备份码)来完成二步验证,从而绕过国内手机号收不到国际短信的问题。 |
简要操作步骤(供参考)
这样即可摆脱只能通过国内短信进行二次验证的困境,实现顺利登录。
核心问题
API Error: 400 deepseek-reasoner does not support this tool_choice
关键线索
模型版本:
工具实现:
WebSearch、WebFetch 这类需要后端实现的工具 DeepSeek 本身并未提供,只能在兼容 Anthropic API 的模式下使用 tool_choice 参数。tool_choice,导致 400 错误。社区反馈:
Claude Code WebSearch broken: deepseek-reasoner does not support tool_choice)记录了同样的问题,说明这是 DeepSeek API 与 Claude Code 之间的兼容性缺陷。临时解决方案:
claude.json 配置文件(该文件会强制使用 DeepSeek 的 tool_choice 参数),即可恢复正常。后续走向:
deepseek‑chat 与 deepseek‑reasoner,届时需要迁移到其他模型或等待 Claude Code 官方更新对新模型的兼容实现。总结
tool_choice 参数,而 Claude Code 的网络搜索功能依赖该参数。tool_choice 配置(删除 claude.json)。tool_choice 支持的后端。摘要
这篇博客的标题是《[架构师之路]兄弟姐妹们,决定一个人发展高度与速度的,究竟是什么底层能力?》,但正文只有一句“继续opc商业大航海”。从这唯一的文字来看,文章并未提供实际的技术分析、案例或观点,因而无法提炼出明确的核心内容或结论。
可能的解读(基于标题的推测)
虽然正文缺失,但结合标题的关键词,可以推测作者原本想讨论的方向可能包括:
| 可能的底层能力 | 解释 | 与架构师成长的关联 |
|---|---|---|
| 系统思维 | 能够从全局视角审视系统的结构、交互和演化。 | 架构师需要把握整体架构的脉络,避免局部最优导致全局失衡。 |
| 抽象能力 | 将复杂业务抽象为模型、接口、协议等可复用的概念。 | 抽象是设计可扩展、可维护系统的根本。 |
| 技术深度 | 对底层原理(如操作系统、网络、分布式一致性)有深入理解。 | 深度帮助在面对性能、可靠性等关键问题时做出正确权衡。 |
| 学习能力 | 快速获取新技术、新工具并评估其价值。 | 技术迭代快,架构师必须持续更新知识库。 |
| 沟通与影响力 | 能把技术方案转化为业务语言,推动团队落地。 | 架构决策往往需要跨团队协作和组织层面的认同。 |
| 业务洞察 | 理解业务目标、痛点和增长路径。 | 架构必须服务于业务价值,而非技术炫技。 |
“opc商业大航海”可能的含义(推测)
如果按此思路,文章可能想传达的核心信息是:
在快速变化的技术生态中,决定个人成长高度与速度的关键是具备系统思维、抽象能力和持续学习的底层能力;在具体业务场景(如 OPC 在工业互联网中的应用)里,这些能力帮助我们像“大航海”一样,敢于探索、敢于创新,从而实现商业价值的最大化。
结论
由于正文内容极其简短,实际的技术细节、案例分析或作者的个人经验并未呈现。若要真正把握作者想要表达的“底层能力”,建议:
在目前信息不足的情况下,上述推测与结构化的思考框架可以帮助你在阅读完整内容后快速定位核心要点。
核心内容概述(约 350 字)
在 Google I/O 开发者大会之后,作者(云天明)观察到业界对 Google AI 的评价普遍偏负面,很多人批评其表现不佳。作者认为这并非因为技术本身的缺陷,而是 Google 采用了“全能多模态”路线——即构建一个能够接受任意形式输入(视频、音频、文本、代码、图片等)并输出任意形式结果的统一模型。该模型还支持局部编辑和灵活的修改。
目前这种“一把抓”式的设计让 Google 的 AI 看起来“贪多嚼不烂”,在某些具体任务上并未达到最优,但作者认为只要模型规模和训练数据继续积累,最终会形成“啥都会、啥都强”的通用能力。一旦成熟,这种全能模型将形成显著的竞争壁垒,其他专注于单一任务或单模态的模型将难以追赶。
随后社区成员的回复补充了以下观点:
总体来看,作者对 Google AI 持乐观态度,认为其全能多模态路线在长期会形成技术壁垒,尽管短期表现不佳;社区则围绕技术实现难度、实际使用体验以及商业策略展开讨论。
抱歉,我无法对这篇博客进行总结,因为您提供的正文内容为空。如果您把文章的主要段落或要点贴出来,我可以在 1000 字以内为您提炼出核心要点并进行概括。
核心内容概述(约900字)
promo-creator-skills,自行搭建、定制每个环节,适合技术爱好者。kangarookin…)提交 Issue/PR。要点总结:
核心内容概述
这篇 V2EX 帖子主要是提醒准备参加 软考(软考计算机技术与软件专业技术资格考试) 的同学们:准考证已经可以自行打印。帖子里没有提供具体的下载链接或操作步骤,只是简短地告知大家这一信息,并附上鼓励的话语(“希望大家,逢考必过”),希望考生们在考试前别忘了及时打印准考证,以免因未携带准考证而影响考试。
要点提炼
准考证已开放打印
提醒考生及时操作
鼓励与祝福
实用建议(基于常规流程)
结论
帖子本身信息量不大,核心就是 “软考准考证现在可以自行打印,请考生别忘了提前打印”,并附带鼓励的话语。考生只需按照官方指引下载并打印即可。