《Learning to Model the World With Language》如何构建模型?

摘要:博客地址:https:www.cnblogs.comzylyehuo 参考链接:从DreamerV1到DreamerV3|Model-based RL的学习之路 Dynalang 的主要贡献 将 DreamerV3 拓展到有 lan
博客地址:https://www.cnblogs.com/zylyehuo/ 参考链接:从DreamerV1到DreamerV3|Model-based RL的学习之路 Dynalang 的主要贡献 将 DreamerV3 拓展到有 language 输入的任务中 为未来结合 language、vision 去完成复杂任务提供了思路 加入单词向量的 embedding 原本只有图像 x1,现在多了一个 l1【整个 World Model 和 Actor 的训练和 DreamerV3 是一致的】 可以参考链接:《Mastering Diverse Domains through World Models》随记 和 DreamerV3 唯一的不同就是 embedding 使用了 T5 tokenizer【Google 的 transformer】,对单词进行编码 多了一个 language 的回归 loss 在 encoder 中多了一个 language 的一个 encoding 的输入 完成的任务 比较重要的实验发现 使用 in-domain pretraining,先使用游戏文本预训练了一下 World Model,再用 World Model 去训练策略,效果更好。 还尝试了使用其他的文本库进行 general pretraining,发现当文本库包含很多不同的文本的时候,就是数量很大的时候,能够带来很大的效果提升。 总结:World Model 可以使用 language 来进行 pretrain,文章里还提到可以使用大量的视频来 pretrain 从结果来看,使用 World Model 生成预测文本的效果一般 2014年的生物学诺贝尔奖发现,小鼠和人类的大脑是存在一些对空间记忆的一些结构的,一些网格细胞和地图的一些细胞,可以把空间信息在大脑中进行压缩,用压缩后的信息进行预测和决策,而不是使用注意力或者 RNN 的方式去进行压缩,是有针对立体空间信息进行压缩的结构。