一、DMP 的基本概念
在机器人的规划控制中,我们需要事先规划参考轨迹,例如关节角度曲线、机械臂末端轨迹等,如果任务参数比较复杂多变,那么通过编程来规划参考轨迹就比较复杂了,而示教是一种比较简单直观的方法,我们可以让有经验的人带着机器人先完成一次任务,然后让机器人自动学习其中的过程,从而省去编程的复杂过程。我们希望能有一种方法,能够使用少量的参数来建模示教的轨迹,通过这些参数能够快速地复现示教轨迹,同时,还希望在复现示教轨迹的时候能够增加一些任务参数来泛化和改变原始轨迹,例如改变关节角度曲线的幅值和频率,改变机械臂末端轨迹的起始和目标位置等等,这样才能更加灵活的使用示教方法来完成实际任务。
论文作者最基本的出发点是想利用一个具有自稳定性的二阶动态系统来构造一个“吸引点”模型(attractor model),使得可以通过改变这个“吸引点”来改变系统的最终状态,从而达到修改轨迹目标位置的目的,而最简单最常用的二阶系统就是弹簧阻尼系统(PD 控制器):
y¨=αy(βy(g−y)−y˙)
其中,y 表示系统状态(比如关节角度、速度、加速度等等),g 表示目标状态,最后系统会收敛到这个状态上。αy和βy 是两个常数,相当于 PD 控制器中的 P 参数和 D 参数。
使用弹簧阻尼系统虽然能够让系统收敛到目标状态 𝑔,却无法控制收敛的过程量,比如轨迹的形状。那么作者就想在这个 PD 控制器上叠加一个非线性项来控制收敛过程量,因此,在直观上,我们可以把 DMP 看作是一个 PD 控制器与一个轨迹形状学习器的叠加:
y¨=αy(βy(g−y)−y˙)+f
其中,上式右边的第一项就是PD控制器,而第二项 f 就是轨迹形状学习器,是一个非线性函数。这样,我们就可以通过改变目标状态 𝑔和非线性项 𝑓来调整我们的轨迹终点和轨迹形状了,这可以称之为空间上的改变。但还不够,我们还需要改变轨迹的速度,从而获得不同收敛速度的轨迹,这个可以通过在速度曲线 y˙ 上增加一个放缩项 𝜏来实现:
τ2y¨=αy(βy(g−y)−τy˙)+f
直观上来看,我们可以知道,上面这个公式表明在这个动态的控制过程中,系统最后会收敛到状态 g ,并且非线性项 f 的参与会直接影响 y˙ ,也就是直接影响到收敛的过程。通过给定不同的 τ 和 g ,我们就可以在示教曲线的基础上得到不同目标状态以及不同速度的轨迹了。
那么,这个非线性项 𝑓具体怎么构造呢?要知道,我们叠加 𝑓的目的就是为了改变轨迹的形状为我们期望的形状,那么,什么样的非线性函数可以很容易的拟合各种形状的轨迹,而且方便我们进行参数的调整呢?原大佬作者是这样考虑的,通过多个非线性基函数的归一化线性叠加来实现,因此,非线性函数 𝑓可以表示为:
f(t)=∑i=1NΨi(t)∑i=1NΨi(t)wi
其中,\Uppsii 是基函数,其实,在后面我们可以看到,这个基函数所使用的就是高斯基函数(径向基函数), wi 为每个基函数对应的权重, 𝑁为基函数的个数。我们通过给定不同的基函数和对应权重就可加权得到复杂的轨迹了。
此时,非线性项 𝑓 与时间 𝑡是高度相关的,无法直接叠加其他的动态系统进来,也无法同时建模多个自由度的轨迹并让它们在时间上与控制系统保持同步。
因此,经典 DMP 方法引入了规范系统这个概念。
二、DMP 方法中的规范系统
什么是规范系统?
规范系统(Canonical System)是动态运动原语(DMP)中的一个核心组件,它是一个独立的动态系统,用于生成一个抽象的时间变量(通常是相位变量 s 或 ϕ),以驱动运动的进展。它实现了 DMP 的时间解耦,是与变换系统配合的关键部分。
- 术语来源:
- “Canonical” 在数学和物理中意为“标准”或“典型”,这里指一个标准化的时间演化机制。
- 在 DMP 的原始文献中(如 Schaal 和 Ijspeert 的论文),始终使用“Canonical System”。
规范系统的数学形式
DMP 的规范系统根据运动类型分为两种形式:
离散型 DMP 的规范系统:
连续型 DMP 的规范系统:
扩展形式:
在改进版本中(如 Ijspeert et al., 2013),可使用振荡器:
ϕ˙=ω+coupling terms
支持自适应频率的节奏运动。
规范系统在 DMP 中的作用
实现时间解耦 (Temporal Decoupling):
- 作用:
- 生成相位变量 s 或 ϕ,将运动进展与物理时间 t 分离。
- 变换系统中的强迫项 f(s) 或 f(ϕ) 依赖相位变量,而非 t。
- 意义:
- 时长无关性:调整 τ 可改变速度,轨迹形状不变。
- 鲁棒性:运动暂停时,s 或 ϕ 保持值,恢复后继续演化。
驱动运动进程 (Driving the Motion):
- 作用:
- 离散型:s 的衰减控制从开始到结束的进度。
- 连续型:ϕ 的增加驱动周期性重复。
- 意义:
确保轨迹平滑性和一致性:
支持学习与泛化:
- 作用:
- s 或 ϕ 标准化(s∈[0,1] 或 ϕ∈[0,2π]),便于定义强迫项基函数。
- 学习到的 f(s) 或 f(ϕ) 与时间无关,可复用。
- 意义:
统一离散与连续运动:
在 DMP 中的工作机制
离散型示例:
- 初始化:s=1。
- 演化:s=e−t/τ。
- 驱动强迫项:f(s) 根据 s 施加扰动。
- 结束:s→0,f(s)→0,收敛到 g。
连续型示例:
- 初始化:ϕ=ϕ0。
- 演化:ϕ=t/τ+ϕ0。
- 驱动强迫项:f(ϕ) 周期性变化。
- 持续运行:运动围绕 y∗ 循环。
与变换系统的关系
- 变换系统:
τv˙=αz(βz(g−y)−v)+f(s)
- 规范系统:
- 提供 s 或 ϕ,驱动 f(s) 或 f(ϕ)。
- 耦合:通过 τ 和强迫项耦合,规范系统决定“何时”,变换系统决定“如何”。
为什么需要规范系统?
- 没有规范系统:
- f(t) 依赖 t,轨迹与时间绑定,难以调整或应对扰动。
- 有规范系统:
总结
- 含义:生成相位变量的动态系统,标准化运动进程。
- 正确术语:规范系统(Canonical System)。
- 作用:时间解耦、驱动进程、确保平滑、支持学习、统一运动类型。
三、离散型 DMP 和节律性 DMP
离散型 DMP 和节律性 DMP 的区别(表格表示)
离散型 DMP(Discrete DMP)和节律性 DMP(Rhythmic DMP)是动态运动原语的两种形式,分别用于单次运动和周期性运动。以下表格对比两者的区别:
| 特性 | 离散型 DMP | 节律性 DMP |
|---|
| 运动类型 | 单次、点到点运动 | 周期性、节奏性运动 |
| 规范系统 | τs˙=−αss | τϕ˙=1 或 ϕ˙=ω |
| 相位变量 | s: 从 1 衰减到 0 | ϕ: 线性增加或循环 |
| 目标 | 固定目标 g | 振荡中心 y∗ |
| 强迫项 | f(s): 随 s 衰减到 0 | f(ϕ): 持续周期性驱动 |
| 收敛性 | 收敛到点(s=0) | 收敛到极限环 |
| 时间特性 | 有限时长,运动有起点和终点 | 无限时长,运动持续循环 |
| 应用场景 | 抓取物体、单次移动 | 行走、搅拌、周期性任务 |
详细说明
- 运动类型: 离散型 DMP 用于从起点到终点的单次移动,节律性 DMP 用于持续的周期运动。
- 规范系统: 离散型的 s 通过 τs˙=−αss 衰减,节律性的 ϕ 通过 τϕ˙=1 或 ϕ˙=ω 循环。
- 相位变量: s 单调递减,ϕ 持续增加并可模 2π。
- 目标: 离散型目标是固定点 g,节律型围绕 y∗ 振荡。
- 强迫项: f(s) 最终消失,f(ϕ) 保持振荡。
- 收敛性: 离散型收敛到点,节律型收敛到周期轨道。
- 时间特性: 离散型有明确时长,节律型无限重复。
- 应用场景: 离散型适合抓取,节律型适合行走。
总结
离散型 DMP 和节律性 DMP 通过规范系统和强迫项的不同设计,分别实现单次运动和周期运动,满足不同任务需求。
DMP 模型学习和轨迹复现
动态运动原语(DMP)是一种灵活的运动生成框架,通过学习示范轨迹并复现相似运动,广泛应用于机器人控制。以下详细描述 DMP(以离散型为例)的学习过程和轨迹复现步骤,节律型 DMP 的过程类似但细节稍有不同。
DMP 模型概述
离散型 DMP 的核心包括:
- 变换系统:τv˙=αz(βz(g−y)−v)+f(s), τy˙=v
- 规范系统:τs˙=−αss, 解为 s(t)=e−αst/τ
- 强迫项:f(s)=∑k=1Kψk(s)∑k=1Kwkψk(s)s(g−y0), ψk(s)=e−hk(s−ck)2
学习的目标是确定强迫项的权重 wk,以复现示范轨迹。
学习过程
DMP 通过模仿学习从示范轨迹中提取强迫项,具体步骤如下:
-
采集示范轨迹
- 获取一组时间序列数据:位置 yd(t),通常通过传感器或人工示范记录。
- 计算导数:速度 y˙d(t) 和加速度 y¨d(t)(可用数值差分)。
- 示例:yd(t)=[0,0.2,0.5,0.8,1],t=[0,0.25,0.5,0.75,1]。
-
初始化参数
- 设定 τ(示范时长,如 1 秒),g=yd(τ)(目标,如 1),y0=yd(0)(起点,如 0)。
- 选择 αz, βz(如 αz=8, βz=2),αs=1。
- 定义基函数:K(如 10),ck=K−1k−1,hk=2(ck+1−ck)21。
-
计算目标强迫项 fd(t)
- 根据变换系统反推:
fd(t)=τ2y¨d+αz(βz(g−yd)−τy˙d)
- 将 t 映射到 s:s(t)=e−αst/τ,得到 fd(s)。
- 示例:若 yd=0.5, y˙d=1, y¨d=0, τ=1, 则 fd=8(2(1−0.5)−1)+0=0。
-
拟合权重 wk
- 使用局部加权回归(LWR):
wk=∑sψk(s)s2∑sψk(s)s(fd(s)/(g−y0))
- 离散化:对 s 的采样点计算 ψk(s) 和 fd(s),求解 wk。
- 意义:wk 使 f(s) 逼近 fd(s),保留示范轨迹的形状。
-
验证学习结果
- 用学习后的 wk 重新计算 f(s),检查是否匹配 fd(s)。
- 若误差较大,可增加 K 或调整 hk。
轨迹复现过程
学习完成后,DMP 用训练好的模型生成新轨迹,步骤如下:
-
初始化状态
- 设置初始条件:y(0)=y0(可与示范不同),v(0)=0,s(0)=1。
- 指定新目标 g′(可调整)和 τ′(可缩放时长)。
- 示例:y0=0, g′=1.5, τ′=2。
-
时间步进
- 选择步长 dt(如 0.01),总步数 N=τ′/dt。
- t 从 0 到 τ′ 迭代。
-
更新规范系统
- s˙=−αss/τ′
- s(t+dt)=s(t)+s˙dt, 或 s(t)=e−αst/τ′。
-
计算强迫项
- 对当前 s:
f(s)=s(g′−y0)∑ψk(s)∑wkψk(s)
- wk 使用学习结果,ψk(s)=e−hk(s−ck)2。
-
更新变换系统
- v˙=(αz(βz(g′−y)−v)+f(s))/τ′
- v(t+dt)=v(t)+v˙dt
- y˙=v
- y(t+dt)=y(t)+vdt
-
生成轨迹
- 重复步骤 3-5,记录 y(t),形成完整轨迹。
- 结果:y 从 y0 平滑移到 g′,形状与示范相似。
节律性 DMP 的差异
- 学习:
- 规范系统:τϕ˙=1,ϕ(t)=t/τ+ϕ0。
- 强迫项:f(ϕ)=∑wkψk(ϕ),ψk(ϕ)=e−hk(cos(ϕ−ck)−1)。
- fd(t) 周期性,wk 拟合振荡模式。
- 复现:
- ϕ 持续增加,f(ϕ) 驱动周期轨迹,无衰减。
示例
- 离散型: 示范 yd(t)=t2(t=0 到 1),学习 wk,复现时 g′=2,轨迹仍呈抛物线形状。
- 节律型: 示范 yd(t)=sin(2πt),学习后复现周期正弦波。
总结
DMP 通过从示范轨迹反推 fd 并拟合 wk 实现学习,利用规范系统和变换系统复现轨迹。离散型强迫项衰减,支持单次运动;节律型强迫项周期性,支持振荡运动。两者均可泛化到新目标和时长。
四、稳定性证明
1.1 BIBO 稳定性证明
目标:证明系统对有界输入 f 产生有界输出 y 和 z。
系统方程
点吸引子系统:
τz˙=αz(βz(g−y)−z)+f(x)
τy˙=z
τx˙=−αxx
其中 f(x)=∑i=1NΨi(x)∑i=1NΨi(x)wix(g−y0),Ψi(x) 是高斯基函数。
步骤 1:无 f 时的稳定性
τz˙=αzβz(g−y)−αzz
τy˙=z
定义误差 e=y−g,则 e˙=y˙=z/τ。代入得:
τz˙=−αzβze−αzz
状态空间形式:
[e˙z˙]=[0−αzβz/τ1/τ−αz/τ][ez]=A[ez]
特征方程:
det(sI−A)=s2+ταzs+τ2αzβz=0
根为:
s=2τ−αz±αz2−4αzβz
设 αz=4,βz=1,τ=1:
s=2−4±16−16=−2
双重实根 s=−2,系统稳定且无振荡,解为 e(t)=(c1+c2t)e−2t,指数收敛到 0。
步骤 2:加入有界 f
重写系统:
τz˙=αzβz((g+αzβzf)−y)−αzz
令 u=g+αzβzf,则:
[e˙z˙]=A[ez]+[0αzβz/τ](u−g)
- f(x) 有界:Ψi(x) 是高斯函数(0 到 1 之间),wi 是有限权重,x 从 1 衰减到 0,g−y0 是常数。设 ∣f(x)∣≤M,则 ∣u−g∣≤αzβzM。
- 线性系统解:
[e(t)z(t)]=eAt[e(0)z(0)]+∫0teA(t−σ)[0αzβz/τ](u(σ)−g)dσ
- eAt 指数衰减(因 A 的特征值负实部),积分项受 ∣u−g∣ 界限约束。Friedland (1986) 指出,对稳定线性系统,有界输入产生有界输出,具体界限可用卷积积分估计:
∣e(t)∣≤∣eAte(0)∣+ταzβz∫0t∣eA(t−σ)∣αzβzMdσ
eAt 的范数 ∼e−2t,积分收敛到常数,e(t) 和 z(t) 有界。
步骤 3:点吸引子收敛
x→0 时,f(x)→0(因 x 因子),系统退化为无输入形式,指数收敛到 g。极限环时,f(ϕ,r) 周期性,输出为有界振荡。
结论:系统 BIBO 稳定。
1.2 收缩稳定性证明
目标:用收缩理论证明系统稳定(参考 Perk & Slotine, 2006)。
收缩理论基础(Slotine & Li, 1991)
系统 x˙=f(x,t) 是收缩的,如果其雅可比矩阵 ∂x∂f 一致负定,即存在 λ>0 使:
∂x∂f+(∂x∂f)T≤−2λI
则所有轨迹指数收敛。
层次结构
- 规范系统:τx˙=−αxx
- ∂x∂f=−αx/τ<0,收缩。
- 变换系统:
τz˙=αz(βz(g−y)−z)+f(x)
τy˙=z
雅可比矩阵:
J=[−αzβz/τ1/τ−αz/τ0]
对称化:
J+JT=[−2αzβz/τ(1−αz)/τ(1−αz)/τ0]
特征值需负。设 αz=4,βz=1,τ=1:
J+JT=[−8−3−30]
特征多项式:λ2+8λ+9=0,判别式 64−36=28。根:
λ=2−8±28<0
f(x) 视为外部输入,因其有界且随 x 衰减,不破坏收缩性。
结论:规范系统驱动变换系统,二者耦合后仍收缩,稳定。
五、不变特性的严格证明
文章引用的参考文献为 Jackson (1989)。
2.1 幅度缩放证明
目标:证明 y→ky 保持轨迹形状。
变换
原系统:
τz˙=αz(βz(g−y)−z)+f(x)
τy˙=z
f(x)=∑Ψi(x)∑Ψi(x)wix(g−y0)
缩放后:g→kg,y0→ky0,假设 y→ky,z→kz:
- y˙=z/τ→ky˙=(kz)/τ,成立。
- τ(kz˙)=αz(βz(kg−ky)−kz)+f′(x)
- f′(x)=∑Ψi(x)∑Ψi(x)wix(kg−ky0)=kf(x)
- 代入:τz˙=αz(βz(g−y)−z)+f(x),形式不变。
拓扑等价
轨迹 y(t) 变为 ky(t),是线性拉伸,保持方向和相对形状,为同胚映射。
2.2 时间缩放证明
目标:τ→kτ,路径不变。
变换
令 t′=t/k,τ′=kτ:
- y˙=dtdy=dt′kdy=τz=kτ′z=ky˙
- z˙=τ1[αz(βz(g−y)−z)+f(x)]=kz˙
- x˙=−αxx/(kτ′)=x˙′/k
轨迹 y(t) 的形状由 y 和 z 的关系决定,不变,仅时间拉伸。
结论:两种缩放均为拓扑等价变换。
总结
- 稳定性:BIBO 用线性系统理论证明,收缩用雅可比分析,均严格成立。
- 不变性:幅度和时间缩放通过代入验证,满足拓扑等价。
六、状态空间理论基础复习
什么是状态空间表示?
状态空间方法用一组一阶微分方程描述系统,而不是直接用高阶微分方程。系统的“状态”是一组变量,包含了描述系统当前行为的所有信息。
对于线性时不变(LTI)系统,状态空间模型通常写成:
x˙(t)=Ax(t)+Bu(t)
y(t)=Cx(t)+Du(t)
- x(t):状态向量(n 维)。
- u(t):输入向量(m 维)。
- y(t):输出向量(p 维)。
- A:状态矩阵(n×n)。
- B:输入矩阵(n×m)。
- C:输出矩阵(p×n)。
- D:直通矩阵(p×m,常为 0)。
为什么用状态空间?
- 统一性:适用于 SISO 和 MIMO 系统。
- 易于分析:可以用矩阵代数分析稳定性、可控性、可观性等。
- 数值计算:适合计算机仿真。
稳定性分析
系统的稳定性由 A 矩阵的特征值决定:
- 特征值 λi 是方程 det(λI−A)=0 的根。
- 如果所有 λi 的实部小于 0(即 Re(λi)<0),系统稳定。
- 如果有特征值实部大于 0,系统不稳定。
BIBO 稳定性
BIBO(Bounded-Input Bounded-Output)稳定性关注输入输出关系:
- 如果输入 u(t) 有界(即 ∣u(t)∣≤M<∞),输出 y(t) 也必须有界。
- 对于 LTI 系统,BIBO 稳定等价于 A 的特征值实部全负,且传递函数的极点都在左半平面。
系统解
状态空间方程的解是:
x(t)=eAtx(0)+∫0teA(t−τ)Bu(τ)dτ
y(t)=CeAtx(0)+C∫0teA(t−τ)Bu(τ)dτ+Du(t)
- eAt 是状态转移矩阵。
- 积分项是输入的卷积响应。
结合 BIBO 稳定性证明
系统方程
点吸引子系统:
τz˙=αz(βz(g−y)−z)+f(x)
τy˙=z
τx˙=−αxx
其中 f(x)=∑i=1NΨi(x)∑i=1NΨi(x)wix(g−y0)。
步骤 1:转化为状态空间形式
定义状态变量:
- x1=y−g(位置误差)。
- x2=z(速度)。
则:
- x1˙=y˙=z/τ=x2/τ
- x2˙=z˙=τ1[αz(βz(g−y)−z)+f(x)]=τ1[−αzβzx1−αzx2+f(x)]
状态空间形式:
[x1˙x2˙]=[0−αzβz/τ1/τ−αz/τ][x1x2]+[01/τ]f(x)
- A=[0−αzβz/τ1/τ−αz/τ]
- B=[01/τ]
- 输入 u=f(x)
- 输出 yout=x1,则 C=[10],D=0。
步骤 2:无输入时的稳定性
f(x)=0 时:
x˙=Ax
计算 A 的特征值:
det(sI−A)=s2+ταzs+τ2αzβz=0
s=2τ−αz±αz2−4αzβz
设 αz=4,βz=1,τ=1:
s=2−4±16−16=−2
双重负实根 s=−2,系统稳定,x1 和 x2 指数衰减到 0,即 y→g,z→0。
步骤 3:加入有界输入 f(x)
重写系统:
τz˙=αzβz((g+αzβzf(x))−y)−αzz
定义 u=g+αzβzf(x),则:
x˙=Ax+B(u−g)
- f(x) 有界:设 ∣f(x)∣≤M,则 ∣u−g∣≤αzβzM。
- 系统解:
x(t)=eAtx(0)+∫0teA(t−τ)B(u(τ)−g)dτ
yout(t)=CeAtx(0)+C∫0teA(t−τ)B(u(τ)−g)dτ
步骤 4:BIBO 稳定性
- 自然响应:eAtx(0) 指数衰减到 0。
- 强迫响应:积分项决定 BIBO 性。eAt 的范数 ∥eAt∥≤Ke−λt,λ=2,K 是常数。则:
∫0teA(t−τ)B(u(τ)−g)dτ≤∫0tKe−λ(t−τ)τ1αzβzMdτ
令 s=t−τ:
∫0tKe−λsταzβzMds=ταzβzKMλ1−e−λt
t→∞ 时:≤ταzβzKMλ1,有界。
步骤 5:点吸引子特例
x→0,f(x)→0,u→g,强迫响应消失,y→g。
七、 DMP 模型学习
这一部分的目标是从观察到的运动行为(比如演示数据)中,通过学习调整动态运动基元(DMPs)的参数,特别是非线性力 f 的权重 wi,让系统重现这些行为。作者提出了一种基于局部加权回归(Locally Weighted Regression, LWR)的方法,既简单又高效。
基本思路
DMPs 的核心是一个基础动态系统(弹簧阻尼模型),加上一个可学习的非线性力 f。通过从演示数据中提取目标 f,然后用回归方法拟合,就能让系统生成与演示一致的吸引子行为(点吸引子或极限环吸引子)。这就像教一个机器人模仿你的动作:你先示范一遍,机器人通过分析你的轨迹,调整它的“推力”来复制。
点吸引子系统的学习
系统回顾
点吸引子系统的方程是:
τz˙=αz(βz(g−y)−z)+f(x)
τy˙=z
τx˙=−αxx
其中 f(x)=∑i=1NΨi(x)∑i=1NΨi(x)wix(g−y0),Ψi(x)=exp(−2σi21(x−ci)2) 是高斯基函数,wi 是待学习的权重。
演示数据
假设我们有一组演示数据,包括位置 ydemo(t)、速度 y˙demo(t) 和加速度 y¨demo(t),以及初始位置 y0 和目标位置 g。这些数据可以从传感器(如运动捕捉)或仿真中获得。
目标:计算 ftarget
我们希望系统生成的 y(t) 匹配 ydemo(t)。从变换系统方程出发:
τz˙=αz(βz(g−y)−z)+f(x)
因为 y˙=z/τ,所以 z=τy˙,z˙=τy¨。代入得:
τ(τy¨)=αz(βz(g−y)−τy˙)+f
整理为:
f=τ2y¨−αz(βz(g−y)−τy˙)
将演示数据代入,定义目标力:
ftarget(t)=τ2y¨demo(t)−αz(βz(g−ydemo(t))−τy˙demo(t))
- 通俗解释:ftarget 是演示轨迹需要的“额外推力”,减去弹簧和阻尼的贡献后剩下的部分。
学习 f(x) 的权重
现在我们知道每个时刻的目标 ftarget(t),需要调整 f(x) 的权重 wi 让 f(x(t)) 尽量接近 ftarget(t)。因为 x(t) 是规范系统的解(x(t)=e−αxt/τ),我们可以把 ftarget(t) 看作 x 的函数。
局部加权回归(LWR)
作者使用 LWR 来拟合 f(x):
f(x)=∑i=1NΨi(x)∑i=1NΨi(x)wix(g−y0)
- Ψi(x) 是基函数,决定了每个权重 wi 的影响范围。
- x(g−y0) 是调制项,确保 f 随 x 衰减并与幅度相关。
LWR 的目标是最小化加权误差:
J=∑tΨi(x(t))(ftarget(t)−wix(t)(g−y0))2
对 wi 求导并令其为 0:
wi=∑tΨi(x(t))(x(t)(g−y0))2∑tΨi(x(t))ftarget(t)x(t)(g−y0)
文章中直接给出了简化的形式(假设离散时间步长一致):
wi=∑tΨi(t)∑tΨi(t)ftarget(t)
- 通俗解释:每个 wi 是 ftarget 在 Ψi 覆盖区域的加权平均,Ψi 像一个“放大镜”,只关注 x 靠近 ci 的部分。
离散化处理
实际中,演示数据是离散的(时间步长 Δt):
- ydemo(tk) 是位置序列。
- y˙demo(tk)≈Δtydemo(tk+1)−ydemo(tk)
- y¨demo(tk)≈Δty˙demo(tk+1)−y˙demo(tk)
计算 ftarget(tk),然后用 LWR 拟合。
极限环吸引子系统的学习
系统回顾
极限环系统:
τz˙=αz(βz(g−y)−z)+f(ϕ,r)
τy˙=z
τϕ˙=1
其中 f(ϕ,r)=∑i=1NΨi∑i=1NΨiwir,Ψi=exp(hi(cos(ϕ−ci)−1)) 是周期性基函数。
目标 ftarget
类似点吸引子:
ftarget(t)=τ2y¨demo(t)−αz(βz(g−ydemo(t))−τy˙demo(t))
但这里 ϕ(t)=t/τ+ϕ0 是线性增加的相位,r 是振幅(可以是常数或从数据估计)。
学习权重
f(ϕ)=∑i=1NΨi(ϕ)∑i=1NΨi(ϕ)wir
用 LWR:
wi=∑tΨi(ϕ(t))r2∑tΨi(ϕ(t))ftarget(t)
- Ψi(ϕ) 是周期性的,覆盖一个周期(如 0 到 2π)。
- 如果 r 是常数,直接用;如果 r 随时间变,可用 r(t)=(τy˙)2+(βz(g−y))2 估计。
实际应用中的细节
参数选择
- N(基函数数量):点吸引子用 10-50 个,极限环用 5-20 个,取决于轨迹复杂度。
- σi 或 hi:控制基函数宽度,太窄过拟合,太宽欠拟合。
- αz、βz:通常 αz=4,βz=1(临界阻尼)。
鲁棒性
- 数据噪声可能导致 ftarget 不平滑,但 LWR 的局部性可以缓解。
- 时间对齐:点吸引子用 x 自动对齐,极限环需手动确定周期。
例子(图 6 和图 7)
- 图 6:从手写字母轨迹学点吸引子,重现了路径。
- 图 7:从循环运动学极限环,复制了振荡行为。
总结
学习过程是从演示轨迹反推出 ftarget,然后用 LWR 调整 wi,让 f 匹配目标。点吸引子关注单次运动,极限环关注周期性。这方法简单高效,适合机器人模仿学习。
最简单示例
为了更清楚,我给一个简单的点吸引子学习推导。
假设演示数据:
- ydemo(t)=g(1−e−t),g=1,y0=0,τ=1。
- y˙demo(t)=e−t
- y¨demo(t)=−e−t
设 αz=4,βz=1:
ftarget(t)=12(−e−t)−4(1(1−(1−e−t))−1⋅e−t)
=−e−t−4(e−t−e−t)=−e−t
规范系统:x˙=−x,x(t)=e−t,所以 ftarget(x)=−x。
用 f(x)=∑Ψi(x)∑Ψi(x)wix 拟合,设 N=1,Ψ1(x)=1:
w1=∑x2∑(−x)x=−1
f(x)=−x,完美匹配。
八、LWR 具体推导过程
局部加权回归背景
LWR 是一种监督学习方法,目标是从数据中拟合一组参数(如权重 wi),使模型输出尽量接近目标值。它的“局部性”体现在每个参数 wi 主要拟合数据中靠近某个特定区域的部分,通过权重函数(如高斯基函数)实现。文章中用 LWR 学习非线性力 f(x) 的权重 wi,以匹配目标 ftarget(t)。
点吸引子系统的模型
点吸引子系统的非线性力定义为:
f(x)=∑i=1NΨi(x)∑i=1NΨi(x)wix(g−y0)
- Ψi(x)=exp(−2σi21(x−ci)2) 是高斯基函数,ci 是中心,σi 是宽度。
- x(g−y0) 是调制项,确保 f 随 x 衰减并与幅度相关。
- wi 是待学习的权重。
目标是从演示数据计算的 ftarget(t),通过 x(t) 映射到 ftarget(x),然后拟合 f(x)。
数据假设
给定离散演示数据:时间序列 tk,位置 ydemo(tk),速度 y˙demo(tk),加速度 y¨demo(tk)。
目标力:
ftarget(tk)=τ2y¨demo(tk)−αz(βz(g−ydemo(tk))−τy˙demo(tk))
规范系统:τx˙=−αxx,解为 x(t)=x0e−αxt/τ,所以每个 tk 对应一个 x(tk)。
LWR 目标函数
LWR 的核心是定义一个误差函数,对每个权重 wi 单独优化。假设我们有 K 个数据点 (tk,ftarget(tk),x(tk)),目标是最小化加权平方误差:
Ji=∑k=1KΨi(x(tk))(ftarget(tk)−fi(x(tk)))2
其中 fi(x)=wix(g−y0) 是第 i 个基函数的贡献,Ψi(x(tk)) 是权重函数,表示数据点 x(tk) 对 wi 的影响。
- 通俗解释:Ψi 像一个“放大镜”,当 x(tk) 靠近 ci 时放大误差,远离时忽略。
完整 f(x) 的误差
实际中,f(x)=∑i=1NΨi(x)∑i=1NΨi(x)wix(g−y0) 是所有基函数的加权和。但 LWR 假设每个 wi 独立拟合局部数据,近似为:
f(x(tk))≈wix(tk)(g−y0) (当 x(tk) 靠近 ci 时,Ψi 占主导)。
总误差为:
J=∑k=1K∑i=1NΨi(x(tk))(ftarget(tk)−wix(tk)(g−y0))2
但文章简化了计算,对每个 wi 单独优化。
推导 wi
以 Ji 为目标,优化单个 wi:
Ji=∑k=1KΨi(xk)(ftarget(tk)−wixk(g−y0))2
(简记 xk=x(tk))。
- 展开误差:
Ji=∑k=1KΨi(xk)(ftarget2(tk)−2wixk(g−y0)ftarget(tk)+wi2xk2(g−y0)2)
- 对 wi 求导:
∂wi∂Ji=∑k=1KΨi(xk)(−2xk(g−y0)ftarget(tk)+2wixk2(g−y0)2)
=−2(g−y0)∑k=1KΨi(xk)xkftarget(tk)+2wi(g−y0)2∑k=1KΨi(xk)xk2
- 令导数为 0:
−2(g−y0)∑k=1KΨi(xk)xkftarget(tk)+2wi(g−y0)2∑k=1KΨi(xk)xk2=0
wi(g−y0)∑k=1KΨi(xk)xk2=∑k=1KΨi(xk)xkftarget(tk)
wi=∑k=1KΨi(xk)xk2(g−y0)∑k=1KΨi(xk)xkftarget(tk)
- 通俗解释:分子是 ftarget 和 x 的加权协方差,分母是 x2 的加权方差,wi 是局部区域的“斜率”。
文章中的简化形式
文章给出的公式是:
wi=∑tΨi(t)∑tΨi(t)ftarget(t)
这与推导结果不同。原因可能是:
- 文章假设 x(g−y0) 被分离出来,拟合的是 x(t)(g−y0)ftarget(t) 的加权平均:
定义 s(t)=x(t)(g−y0)ftarget(t),目标是 f(x)/(x(g−y0))=∑Ψi(x)∑Ψi(x)wi。
误差变为:
Ji=∑k=1KΨi(xk)(s(tk)−wi)2
求导:
∂wi∂Ji=∑k=1KΨi(xk)(−2s(tk)+2wi)=0
wi∑k=1KΨi(xk)=∑k=1KΨi(xk)s(tk)
wi=∑k=1KΨi(xk)∑k=1KΨi(xk)s(tk)=∑k=1KΨi(xk)∑k=1KΨi(xk)xk(g−y0)ftarget(tk)
- 但文章直接用 Ψi(t),可能是简化符号或假设 x(g−y0) 在实现中单独处理。
校正推导
正确的 LWR 应为:
wi=∑k=1KΨi(xk)xk(g−y0)∑k=1KΨi(xk)ftarget(tk) (若 ftarget 直接拟合)。
或:
wi=∑k=1KΨi(xk)∑k=1KΨi(xk)xk(g−y0)ftarget(tk) (若拟合归一化后的 f)。
文章公式可能是代码实现中的近似,实际应根据 f 的定义调整。
极限环的 LWR
极限环中 f(ϕ,r)=∑i=1NΨi(ϕ)∑i=1NΨi(ϕ)wir,推导类似:
Ji=∑k=1KΨi(ϕk)(ftarget(tk)−wir(tk))2
wi=∑k=1KΨi(ϕk)r2(tk)∑k=1KΨi(ϕk)ftarget(tk)