Playbooks

实战手册

作者亲测的 AI 最佳实践,以及从业界分享中提炼的候选手册。

All Playbooks

Industry Share8 分钟 · intermediate

How Preply combines AI and human tutors to personalize learning

OpenAI Blog 的业界分享,已提炼为实战手册候选

Preply 推出 AI 生成课程摘要功能,由 OpenAI 提供支持,为语言学习者提供个性化反馈和练习。 创意点:展示了 AI + 人类混合模式的实际落地:AI 处理课后总结和练习生成,人类导师专注核心教学。工程师可借鉴这种分工模式,将 AI 定位为增强而非替代的角色。 原文:https://openai.com/index/preply

industry-shareindustry
候选
Industry Share8 分钟 · intermediate

From Explicit Elements to Implicit Intent: A Predefined Library for Auditable Behavioral Inference

arxiv cs.AI 的业界分享,已提炼为实战手册候选

SemantiClean 框架通过 24 个行为元素构建可审计的电商购物意图推断系统,以 sigma=0 可复现性优先于边际预测精度,包含冗余组贡献上限、分层惩罚和冷启动保护三个反膨胀机制。 创意点:对于构建推荐系统或客户分析系统的工程师而言,该框架展示了在合规敏感场景下如何通过模块化特征库和信号质量治理,主动牺牲少量准确率换取完整的决策链路可追溯性。可执行创意:在你自己的特征工程管道中引入其三层 Anti-Inflation 机制(贡献上限 + 偏差惩罚 + 冷启动保护),构建可插拔的审计层。 原文:https://arxiv.org/abs/2606.11207

industry-shareresearchinference
候选
Industry Share8 分钟 · intermediate

Investing in multi-agent AI safety research

Google DeepMind 的业界分享,已提炼为实战手册候选

Google DeepMind 联合合作伙伴宣布投入 1000 万美元,公开征集多智能体 AI 安全研究项目提案。 创意点:多智能体系统正在成为 AI 应用落地主流方向,但目前安全研究严重落后于能力研究——这笔资金可能催生新一代安全基准和防护机制;工程师可以关注即将发布的提案指南,提前思考自己的 agent 系统在多智能体协作场景下的安全盲点,并尝试贡献开源评估工具或 case study。 原文:https://deepmind.google/blog/investing-in-multi-agent-ai-safety-research/

industry-shareresearchagent
候选
Industry Share8 分钟 · intermediate

PathoSage: Towards Multi-Source Evidence Adjudication in Pathology via Experience-Aware Agentic Workflow

arxiv cs.AI 的业界分享,已提炼为实战手册候选

PathoSage 提出三阶段病理学推理框架,通过显式分离知识检索、证据收集和证据裁决来解决 MLLM 幻觉和上下文污染问题,核心是 Structured Evidence Deliberation 模块在新鲜上下文中独立评估异构证据并执行冲突分析。 创意点:Beta-Bernoulli experience system 提供了无需训练的持续信用分配机制来建模工具可靠性,工程师可将此思路迁移到其他多工具 Agent 系统,实现基于相似度加权的工具选择优先序。 原文:https://arxiv.org/abs/2606.07549

industry-shareresearchagent
候选
Industry Share8 分钟 · intermediate

Syll: Open-Source Personal Automation with Cross-Surface Execution

arxiv cs.AI 的业界分享,已提炼为实战手册候选

Syll 是一个开源自托管的多模态 AI Agent 框架,统一支持 MCP/API 工具、CLI 执行和 GUI 可视化控制,用户可通过演示教学让 Agent 学习可复用的技能。 创意点:跨 API/GUI/CLI 的统一执行层是当前 Agent 落地最难解决的问题之一,Syll 提供了生产级验证的解决方案;工程师可直接借鉴其双向交互层设计——用演示生成技能、用日志/关键帧做执行审计——来实现更可控的个人自动化。 原文:https://arxiv.org/abs/2606.07594

industry-shareopensourceagent
候选
Industry Share8 分钟 · intermediate

A case study of evaluating AI agents on a neuroscience data-to-discovery pipeline

arxiv cs.AI 的业界分享,已提炼为实战手册候选

通用 coding agents 在神经科学数据到发现 pipeline 上能解决单个阶段任务,但无法完成端到端流程,主要败在缺乏预定义迭代标准时的科学判断能力。 创意点:这个研究揭示了当前 AI agent 的核心短板:无法在没有客观标准时自我评估科学正确性。工程团队可以借鉴其评估框架(用真实科学pipeline替代简单benchmark)来设计更贴近实际场景的 agent 测试用例。 原文:https://arxiv.org/abs/2606.07718

industry-shareresearchagent
候选
Industry Share8 分钟 · intermediate

DiBS: Diffusion-Informed Branch Selection

arxiv cs.AI 的业界分享,已提炼为实战手册候选

DiBS 是一个将扩散模型作为分支排序指引、辅助符号求解器解决数独问题的框架,在 Royle 17-clue 困难数据集上显著降低了搜索节点数和回溯次数。 创意点:该方法展示了如何将扩散模型的全局推理能力嫁接到传统符号求解器的完全性上,工程上可借鉴到其他约束满足问题(CSP)或组合优化场景中,例如电路布局、调度问题。 原文:https://arxiv.org/abs/2606.06518

industry-shareresearch
候选
Industry Share8 分钟 · intermediate

Lean4Agent: Formal Modeling and Verification for Agent Workflow and Trajectory

arxiv cs.AI 的业界分享,已提炼为实战手册候选

Lean4Agent 首个用 Lean4 形式化语言建模和验证 Agent 工作流与执行轨迹的框架,包含 FormalAgentLib 验证库和 LeanEvolve 自动修正工具,在 SWE-Bench 和 ELAIP-Bench 上验证通过的工作流平均优于失败者 11.94%,LeanEvolve 进一步提升 SWE 性能 7.47%。 创意点:Agent 系统缺乏可靠的多步执行验证手段,Lean4Agent 提供了用依赖类型形式语言建模工作流语义一致性的范式,使工程师能在执行前形式化证明工作流正确性,并在失败时定位问题根因;可借鉴的创意是:为自研 Agent 工作流建立形式化规格(Formal Spec),用轻量级证明辅助替代纯 prompt 调优。 原文:https://arxiv.org/abs/2606.06523

industry-shareresearchagent
候选
Industry Share8 分钟 · intermediate

What Should Agents Say? Action-state Communication for Efficient Multi-Agent Systems

arxiv cs.AI 的业界分享,已提炼为实战手册候选

PACT 通过将 agent 原始输出投影为紧凑的 action-state 记录,在不同 MAS 拓扑下实现任务性能相当的同时大幅削减 token 使用量,OpenHands 提升 -10% tokens-per-resolved,SWE-agent 输入 token 减半。 创意点:多 Agent 系统开发者在设计通信层时可以借鉴 PACT 的 action-state 投影思路:让每个 agent 只传递下游任务必需的动作和状态信息,而非完整自然语言输出,从而直接降低推理成本并缓解 context 窗口压力。代码已开源可直接集成到现有 agent 框架。 原文:https://arxiv.org/abs/2606.05304

industry-sharetoolingagent
候选
Industry Share8 分钟 · intermediate

Toward Pre-Deployment Assurance for Enterprise AI Agents: Ontology-Grounded Simulation and Trust Certification

arxiv cs.AI 的业界分享,已提炼为实战手册候选

论文提出 ontology-grounded 验证框架,包含操作边界(Agent Operational Envelope)、场景生成管道和 Trust Certificate 三部分,在金融、银行、保险、医疗四个行业验证,ontolog y方法监管覆盖率 48.3% 显著优于 persona 基准方法(33.1%)。 创意点:Trust Certificate 的分级判定(Approved/Conditional/Rejected)机制可直接复用到企业内部 AI agent 上线审批流程,解决当前 LLM 能力评测与生产部署之间的验证缺口;工程师可借鉴 ontology-to-scenario 生成管道,用结构化本体替代人工构造测试用例,提升合规测试覆盖率。 原文:https://arxiv.org/abs/2606.04037

industry-shareresearchagent
候选
Industry Share8 分钟 · intermediate

Introducing new capabilities to GPT-Rosalind

OpenAI Blog 的业界分享,已提炼为实战手册候选

OpenAI推出面向生命科学领域的GPT-Rosalind,新增生物推理、药物化学、基因组分析和实验工作流等垂直能力。 创意点:垂直领域AI模型正在从通用走向专业,可借鉴其针对生物学、化学任务的专项能力设计,结合RAG或微调技术构建医疗、制药等领域的专业AI工具。 原文:https://openai.com/index/introducing-new-capabilities-to-gpt-rosalind

industry-sharemodelrag
候选
Industry Share8 分钟 · intermediate

Microsoft launches Scout, an OpenClaw-inspired personal assistant

TechCrunch AI 的业界分享,已提炼为实战手册候选

Microsoft 在 Build 大会上推出 Scout,一款基于 OpenClaw 架构灵感的 Microsoft 365 AI 个人助手。 创意点:OpenClaw 框架以灵活的 Agent 工具调用能力著称,Scout 若继承这一特性,将显著提升微软生态中文档处理、会议摘要等场景的自动化深度;工程团队可参考其「小模型+强工具调用」的设计思路,在内部工具链中复用类似的轻量 Agent 架构。 原文:https://techcrunch.com/2026/06/02/microsoft-launches-scout-an-openclaw-inspired-personal-assistant/

industry-sharetoolingagent
候选
Industry Share8 分钟 · intermediate

Travelers deploys AI-powered claims countrywide with OpenAI

OpenAI Blog 的业界分享,已提炼为实战手册候选

Travelers保险公司在美国全国范围内部署了基于OpenAI的AI理赔助手,提供全天候客户支持并实现高峰期自动扩容。 创意点:理赔和客服场景是AI Agent在企业落地的经典场景——结构化流程、高频重复、海量用户接入,工程师可以参考其"AI辅助人工+AI自主处理"的混合模式设计自己的客服Agent。 原文:https://openai.com/index/travelers

industry-shareindustryagent
候选
Industry Share8 分钟 · intermediate

Toward Robust In-Context Learning: Leveraging Out-of-distribution Proxies for Target Inaccessible Demonstration Retrieval

arxiv cs.CL 的业界分享,已提炼为实战手册候选

研究提出 DOPA 框架,通过在分布外任务中引入 OOD 代理近似不可访问的目标域,并结合马氏距离全局多样性约束来改进演示检索,提升 LLM 的泛化鲁棒性。 创意点:工程师可借鉴「代理近似」的思路处理目标分布不可知的实际场景;RAG 系统可融入分布度量与多样性约束来优化检索策略,而非仅依赖语义相似度。 原文:https://arxiv.org/abs/2606.00014

industry-shareresearchrag
候选
Industry Share8 分钟 · intermediate

Codex is becoming a productivity tool for everyone

OpenAI Blog 的业界分享,已提炼为实战手册候选

OpenAI 的 Codex 已从编程工具扩展为涵盖 AI 研究、数据分析、自动化工作流和内容创作的全方位知识工作效率平台。 创意点:Codex 向通用生产力工具的扩展意味着 AI 已可直接替代白领工作中的重复性任务流——产品经理可用自然语言生成竞品分析报告,数据分析师能快速完成数据清洗和可视化,开发者可同步生成文档和测试代码。工程团队可借鉴此思路:构建垂直领域的工作流 Agent,将模型推理与现有 SaaS 工具深度集成,而非只做单点 Copilot。 原文:https://openai.com/index/codex-for-knowledge-work

industry-sharetoolingagent
候选
Industry Share8 分钟 · intermediate

OpenAI frontier models and Codex are now available on AWS

OpenAI Blog 的业界分享,已提炼为实战手册候选

OpenAI的frontier models和Codex现在在AWS上普遍可用,企业可直接在AWS环境中使用OpenAI模型。 创意点:已在AWS上投入大量的企业现在可以直接用现有采购流程和IAM controls访问OpenAI,省去自建API wrapper或数据合规审查的工程成本。技术负责人可考虑把原来直接调用OpenAI API的方案迁移到AWS Bedrock上的OpenAI集成,利用AWS原生审计日志和VPC endpoint提升安全合规性。 原文:https://openai.com/index/openai-frontier-models-and-codex-are-now-available-on-aws

industry-shareindustrymodel
候选
Industry Share8 分钟 · intermediate

Protocol for evaluating ChatGPT in biomedical association generation and verification using a RAG-enabled, cross-model majority voting workflow

arxiv cs.CL 的业界分享,已提炼为实战手册候选

提出用RAG+开源LLM构建交叉验证工作流,让一个模型验证另一个模型生成的生物医学关联,以暴露幻觉。 创意点:在医疗AI场景中,LLM幻觉可能致命,该协议提供了系统性的验证框架。更具体的产品创意是:开发一个开源的「LLM输出自检SDK」,集成本体验证+RAG文献检索+多模型投票,专门用于高风险场景的生成内容审核。 原文:https://arxiv.org/abs/2605.30400

industry-shareresearchrag
候选
Industry Share8 分钟 · intermediate

Review Arcade: On the Human Alignment and Gameability of LLM Reviews

arxiv cs.AI 的业界分享,已提炼为实战手册候选

对2025年ACL Rolling Review论文的实证研究表明,LLM评审与人类评审的对齐程度有限,且对齐效果在很大程度上取决于提示词和模型选择。研究还发现作者可以通过迭代修改论文来「游戏」LLM评审,约35%的论文因此获得了统计显著分数提升。 创意点:主流学术会议已在试点LLM辅助评审,这意味着一旦作者学会利用LLM的评审偏好进行针对性修改,学术发表生态将面临系统性公平问题。工程师可借鉴此研究设计「反游戏检测工具」,识别迭代式LLM辅助修改的模式;产品负责人可探索让多个不同模型交叉评审以增强鲁棒性。 原文:https://arxiv.org/abs/2605.28897

industry-shareresearchllm
候选
Industry Share8 分钟 · intermediate

A shared playbook for trustworthy third party evaluations

OpenAI Blog 的业界分享,已提炼为实战手册候选

OpenAI 发布第三方AI评估指南,为评估前沿模型的能力、安全措施和有效性提供统一框架。 创意点:该指南为AI安全评估提供了行业标准参考,工程团队可据此构建自动化合规检查流程,或基于其评估维度开发针对性的红队测试工具。 原文:https://openai.com/index/trustworthy-third-party-evaluations-foundations

industry-sharepolicyeval
候选
Industry Share8 分钟 · intermediate

The internet is being rebuilt for machines

TechCrunch AI 的业界分享,已提炼为实战手册候选

AWS、Cloudflare 等主要云服务商正在重新设计基础设施,以应对 AI Agent 主导的机器流量时代,取代过去以人类用户为核心的设计模式。 创意点:这一基础设施转向直接影响 AI 产品开发者如何设计 API、认证和限流机制——可以借鉴 Cloudflare Workers AI 的边缘推理模式,为 Agent 工作流设计具备自动扩缩容和智能路由能力的中间件层。 原文:https://techcrunch.com/2026/05/28/the-internet-is-being-rebuilt-for-machines/

industry-shareindustryagent
候选
Industry Share8 分钟 · intermediate

Asana acquires no-code agent-builder StackAI

TechCrunch AI 的业界分享,已提炼为实战手册候选

Asana 收购无代码 AI Agent 构建平台 StackAI,将把 StackAI 整合到其 AI 工作流工具套件中。 创意点:Asana 正在将无代码 Agent 构建能力纳入其工作流平台,企业用户无需编程即可搭建 AI Agent 工作流产品负责人可参考此模式,在现有产品中集成低代码/无代码 Agent 构建能力。 原文:https://techcrunch.com/2026/05/28/asana-acquires-no-code-agent-builder-stack-ai/

industry-shareindustryagent
候选
Industry Share8 分钟 · intermediate

Identifying and Understanding Human Values in Text: A Tailorable LLM-based Architecture

arxiv cs.AI 的业界分享,已提炼为实战手册候选

研究者提出一种模块化 LLM 架构,可从文本中检测人类价值观及其强度,核心是将价值观概念化与检测任务分离,提升可复现性。 创意点:构建 AI 决策系统时,价值观对齐是关键难题。该架构的模块化设计允许灵活适配不同价值理论,工程师可借鉴此思路,为合规审查、舆情分析或对话系统等场景定制价值观检测流水线。 原文:https://arxiv.org/abs/2605.27373

industry-shareresearchllm
候选
Industry Share8 分钟 · intermediate

Why LLMs Fail at Causal Discovery and How Interventional Agents Escape

arxiv cs.AI 的业界分享,已提炼为实战手册候选

研究证明 LLMs 通过监督微调、DPO 和上下文学习都无法可靠进行因果发现,因为这些方法产生的预测器无法区分生成相似观测数据的不同因果图。提出 A-CBO 架构,用冻结 LLM 作为干预预言机,配合外部贝叶斯搜索环,在对数轮次内收敛。 创意点:如果你的产品需要因果推理(如归因分析、干预效果预估),不要迷信微调能达到因果能力。更好的架构是用 LLM 作为受限的查询接口,外层用传统贝叶斯优化做结构搜索——这比任何端到端训练都更高效且有理论保证。 原文:https://arxiv.org/abs/2605.27567

industry-shareresearchagent
候选
Industry Share8 分钟 · intermediate

OralAgent: Integrating Reasoning, Tools, and Knowledge for Interactive Dental Image Analysis

arxiv cs.CL 的业界分享,已提炼为实战手册候选

OralAgent 是首个牙科专用 AI Agent,集成了多模态推理、工具调用和知识检索,支持22个视觉分析工具和368本牙科教材,实现端到端自动化临床工作流。 创意点:牙科 AI 模型长期困于单任务单模态的孤立设计,OralAgent 证明了 Agent 架构可将多工具、RAG 和领域知识统一整合到真实临床流程中,这套「多工具编排+垂直领域语料 RAG」的范式可直接迁移到医学影像诊断、影像科 AI Agent 等垂直场景的产品设计。 原文:https://arxiv.org/abs/2605.27378

industry-shareresearchagent
候选
Industry Share8 分钟 · intermediate

Personalizing Embodied Multimodal Large Language Model Agents over Long-term User Interactions

arxiv cs.AI 的业界分享,已提炼为实战手册候选

POLAR框架通过多模态知识图组织语义记忆和情景记忆,让具身AI代理能从长期交互中积累个性化上下文,提升复杂任务的执行能力。 创意点:多跳推理和跨交互追踪能力说明记忆架构设计直接影响代理的实用价值,工程师可以借鉴这种语义+情景双记忆层的设计模式来构建更可靠的长期陪伴型AI产品。 原文:https://arxiv.org/abs/2605.26256

industry-shareresearchagent
候选
Industry Share8 分钟 · intermediate

The Daily Dose: Workflow-Integrated Large Language Model Automation for Clinical Summarization and Trial Identification in Radiation Oncology

arxiv cs.CL 的业界分享,已提炼为实战手册候选

MD Anderson 部署了基于 RadOnc-GPT 的临床摘要工具 The Daily Dose,55 名放疗科医生中 83.6% 每日使用,平均满意度 3.89/5,27% 估计每天节省 ≥10 分钟。 创意点:这是少有的 LLM 临床落地真实评估(非概念演示),其「邮件推送 + 个性化摘要 + 试验匹配」三合一工作流可直接借鉴到其他专科 AI 助手设计。 原文:https://arxiv.org/abs/2605.26346

industry-shareindustryllm
候选
Industry Share8 分钟 · intermediate

AirCast-SR: A Foundation Model for Kilometer-Scale Atmospheric Super-Resolution via Latent Consistency Diffusion

arxiv cs.LG 的业界分享,已提炼为实战手册候选

AirCast-SR 是一款大气超分辨率基础模型,能将28km分辨率的AI天气预报实时降尺度至1km,同时保持细尺度大气结构,并实现印度、德国的零样本迁移。 创意点:对能源调度、农业预测等需要精细气象数据的场景,可直接利用开源权重在本地部署降尺度服务,无需重新训练;工程团队可借鉴其patch-based训练策略降低成本。 原文:https://arxiv.org/abs/2605.26130

industry-sharemodel
候选
Industry Share8 分钟 · intermediate

Parameter Efficient Multi-Class Intelligent Scheduling for Multimodal Online Distributed Industrial Anomaly Detection

arxiv cs.LG 的业界分享,已提炼为实战手册候选

提出MODIAD框架解决分布式边缘设备上的多模态工业异常检测问题,设计SMG算法协调多类模型更新,并用REC-LoRA策略降低通信开销。 创意点:工业缺陷检测场景正从云端集中式向边缘分布式演进,本文将LoRA微调与多类调度结合,为工厂质检场景提供了端侧协同训练方案:利用SMG算法决定哪些缺陷类别优先更新模型,REC-LoRA将梯度压缩降低70%以上通信量。 原文:https://arxiv.org/abs/2605.23984

industry-shareresearch
候选
Industry Share8 分钟 · intermediate

In Search of the Ingredients of Open-Endedness: Replicating Picbreeder with Large Vision-Language Models

arxiv cs.AI 的业界分享,已提炼为实战手册候选

研究者用 VLMs 复现了 Picbreeder(人类通过交互进化生成图像的实验),发现 VLM 输出的多样性和探索性与人类存在明显差距,并实验了加噪、行为多样性和记忆机制对改善效果的影响。 创意点:开放性(open-endedness)是 AI 能否真正自主创新的核心问题,此研究用可量化的实验证明了当前 VLMs 在无引导探索上的局限性;工程上可以借鉴其加入探索噪声和行为多样性来设计更有创意空间的 agent 系统。 原文:https://arxiv.org/abs/2605.23908

industry-shareresearchagent
候选
Industry Share8 分钟 · intermediate

Context: Proactive Goal-Directed Intelligence via Composable Sandboxed Programs, Declarative Wiring, and Structured Interaction

arxiv cs.AI 的业界分享,已提炼为实战手册候选

Qbix 团队在 arXiv 发表 Context 架构,用写时上下文组装实现几乎 100% KV-cache 复用,配合沙盒可组合程序和主动目标状态机,将传统反应式聊天机器人升级为不依赖用户提示的主动目标导向智能体。 创意点:KV-cache 复用思路(通过确定性上下文使 cache 跨轮次 byte-identical)对推理成本优化有直接价值;主动状态机驱动对话的设计可用于构建自动化工作流 Agent 产品。 原文:https://arxiv.org/abs/2605.23928

industry-shareresearchagent
候选
Industry Share8 分钟 · intermediate

Toward Reliable Design of LLM-Enabled Agentic Workflows: Optimizing Latency-Reliability-Cost Tradeoffs

arxiv cs.AI 的业界分享,已提炼为实战手册候选

提出了 LLM 代理工作流的延迟-可靠性-成本三权衡框架,包含parametric指数可靠性模型和水填充式 token 分配策略。 创意点:用shadow price量化各阶段对系统可靠性的边际贡献,工程师可直接借鉴此框架在设计多代理工作流时做出最优的计算资源分配决策,适用于生产级 AI 系统的成本控制。 原文:https://arxiv.org/abs/2605.23929

industry-shareresearchagent
候选
Industry Share8 分钟 · intermediate

RMA: an Agentic System for Research-Level Mathematical Problems

arxiv cs.AI 的业界分享,已提炼为实战手册候选

RMA 是一个针对研究级数学问题的多智能体推理框架,在 First Proof 基准测试中解决了 8/10 问题,优于 GPT-5.2R 等基线。 创意点:其 initializer-proposer-verifier 三角色协作 + 共享结构化记忆的架构设计,可为复杂长程推理任务的多智能体系统提供参考,产品层面可借鉴用于构建代码生成或形式化验证的迭代式协作工作流。 原文:https://arxiv.org/abs/2605.22875

industry-shareresearchagent
候选
Industry Share8 分钟 · intermediate

Latent Cache Flow: Model-to-Model Communication Without Text

arxiv cs.LG 的业界分享,已提炼为实战手册候选

LCF 通过联合翻译和压缩 KV 缓存实现模型间高效通信,13MB 适配器性能超过 956MB 的 C2C 方案,在不同上下文场景下比纯文本通信快 8.5 倍、准确率提升 23%。 创意点:多 Agent 系统和 LLM 协作场景的通信瓶颈一直是痛点,LCF 用极小适配器解决跨模型 KV 缓存传递难题;工程师可借鉴其「信息差摘要」思路,设计 Agent 间的增量状态同步协议,而非每次全量交换。 原文:https://arxiv.org/abs/2605.22863

industry-shareresearchagent
候选
Industry Share8 分钟 · intermediate

Energy per Successful Goal: Goal-Level Energy Accounting for Agentic AI Systems

arxiv cs.AI 的业界分享,已提炼为实战手册候选

论文提出用「每成功目标能耗」(EpG)替代传统的「每推理能耗」来衡量AI系统能效,发现Agentic工作流比线性执行高出4.33倍能耗(888.1 J vs 205.3 J),但工具增强型任务的编排开销指数低于1.0x。 创意点:编排结构而非推理本身是能效的主要决定因素;工程师应在AI系统的成本评估和benchmark中纳入编排开销,用A-LEMS框架标准化跨层能耗测量。 原文:https://arxiv.org/abs/2605.22883

industry-shareresearchagent
候选
Industry Share8 分钟 · intermediate

TO-Agents: A Multi-Agent AI Pipeline for Preference-Guided Topology Optimization

arxiv cs.AI 的业界分享,已提炼为实战手册候选

TO-Agents 是一个多智能体框架,通过自然语言将设计师的偏好(如审美、可用性、制造约束)自动转化为拓扑优化求解器的参数配置,并经过多轮视觉-语言反馈迭代生成符合意图的设计方案。 创意点:工程设计工具长期依赖工程师手动调参,TO-Agents 验证了多智能体协同(任务规划、视觉评判、历史回溯)可将高层意图转化为可制造原型,为 AI 原生 CAD/CAE 工具提供了端到端 pipeline 范本。工程师可借鉴其「法官 Agent 评分 + 历史反馈」机制,构建需要多轮迭代的参数调优系统(如仿真、热设计、结构优化)。 原文:https://arxiv.org/abs/2605.21622

industry-shareresearchagent
候选
Industry Share8 分钟 · intermediate

MindLoom: Composing Thought Modes for Frontier-Level Reasoning Data Synthesis

arxiv cs.AI 的业界分享,已提炼为实战手册候选

MindLoom 通过将复杂推理问题分解为「思维模式」原子链,并使用检索模型匹配问题状态与合适的推理挑战,从而合成高质量推理训练数据,在多个 STEM 和数学基准上超越基线。 创意点:思维模式分解思路可以直接迁移到垂直领域的 SFT 数据工程中,例如先对高难度代码/法律推理链做逆向分解,再用检索增强方式批量生成多样化训练样本,而不只是依赖人工标注或 LLM 蒸馏。 原文:https://arxiv.org/abs/2605.21630

industry-shareresearchllm
候选
Industry Share8 分钟 · intermediate

Temporal Contrastive Transformer for Financial Crime Detection: Self-Supervised Sequence Embeddings via Predictive Contrastive Coding

arxiv cs.LG 的业界分享,已提炼为实战手册候选

微软等提出 TCT(Temporal Contrastive Transformer),用自监督对比学习为金融交易序列生成嵌入向量,独立使用可达 AUC 0.8644,但与领域特征工程结合后未见提升(0.9205 vs 0.9245)。 创意点:研究证明自监督对比学习已能自动逼近人工特征工程的效果,说明在欺诈检测场景中减少人工特征依赖是可行的;但当前架构与特征工程存在较大重叠,需要在训练目标或融合策略上寻找突破点——例如将 TCT 嵌入作为冷启动特征注入 pre-training 阶段,或探索跨序列对比(cross-transaction contrast)来捕获超出局部窗口的行为异常。 原文:https://arxiv.org/abs/2605.21490

industry-sharemodel
候选
Industry Share8 分钟 · intermediate

AgentCo-op: Retrieval-Based Synthesis of Interoperable Multi-Agent Workflows

arxiv cs.AI 的业界分享,已提炼为实战手册候选

AgentCo-op 提出检索式多智能体工作流合成框架,通过类型化工件交接和局部自修复,在基因组学等开放场景中组合现有代理和工具,在 6 个编程/数学/问答基准中 4 项最优且成本更低。 创意点:传统多智能体编排依赖全局拓扑搜索代价高,AgentCo-op 用检索+局部修复替代,适合工程团队将散落的 AI 代理和工具快速编排成可执行工作流,无需从零设计;可直接借鉴其 typed artifact handoff 设计来定义代理间接口。 原文:https://arxiv.org/abs/2605.20425

industry-shareresearchagent
候选
Industry Share8 分钟 · intermediate

CR4T: Rewrite-Based Guardrails for Adolescent LLM Safety

arxiv cs.CL 的业界分享,已提炼为实战手册候选

CR4T 提出了一种针对青少年的 LLM 安全框架,通过「重写而非拒绝」的策略,将不安全或过于保守的输出转化为符合青少年发展阶段、具备指导性的回复。 创意点:当前主流的拒绝式安全机制对青少年用户会产生过度保护问题,CR4T 的可定制重写策略为教育类、陪伴类 AI 产品提供了新范式——工程师可以参考其「风险检测+领域条件重写」架构,针对不同年龄段未成年用户构建更精细的安全护栏。 原文:https://arxiv.org/abs/2605.21609

industry-shareresearchllm
候选
Industry Share8 分钟 · intermediate

Provably Learning Diffusion Models under the Manifold Hypothesis: Collapse and Refine

arxiv cs.LG 的业界分享,已提炼为实战手册候选

研究者证明扩散模型训练通过「坍缩-精炼」机制在低维流形上高效学习,在小噪声时坍缩到数据流形,大噪声时精炼密度,提出替代 VAE 方案 Score-induced Latent Diffusion(SiLD),样本复杂度仅依赖内在维度而非环境维度。 创意点:VAE-based 潜在扩散模型依赖启发式 KL 正则化,SiLD 用单一去噪得分匹配目标同时完成流形学习和密度估计,提供可证明的理论保证,适合分子生成等依赖低维结构的数据场景。 原文:https://arxiv.org/abs/2605.20235

industry-shareresearchmodel
候选
Industry Share8 分钟 · intermediate

Pseudo-Siamese Network for Planning in Target-Oriented Proactive Dialogues

arxiv cs.CL 的业界分享,已提炼为实战手册候选

提出 FF-BPSN 网络,用双向伪孪生架构做对话路径规划,通过前向优先模块融合双向信息,引导 LLM 生成更有效的目标导向主动对话。 创意点:对话路径规划是 Agent 系统能否「按计划推进任务」的核心能力,该方法将双向规划思想引入规划阶段,兼顾回溯信息与前向目标,值得借鉴用于构建更可控的对话/任务 Agent 规划模块。 原文:https://arxiv.org/abs/2605.20195

industry-shareresearchagent
候选
Cost9 分钟 · intermediate

Prompt Caching 省钱实测:把月度账单砍 73%

缓存命中率优化的 6 个工程技巧

什么内容该 cache、cache 边界怎么放、热 key 续命策略——附真实账单截图与 ROI 表。

cachingcost-optimization
已验证
Code Quality12 分钟 · intermediate

用 LLM 搭 PR 自动审查流水线

GitHub Actions + Claude,给团队加一道高质量门槛

可复制的 workflow.yml + 提示词体系,两周内让团队接受率从 30% 提到 78%。

code-reviewci-cd
已验证