《Learning to Model the World With Language》如何构建模型？

摘要：博客地址：https:www.cnblogs.comzylyehuo 参考链接：从DreamerV1到DreamerV3｜Model-based RL的学习之路 Dynalang 的主要贡献将 DreamerV3 拓展到有 lan

博客地址：https://www.cnblogs.com/zylyehuo/ 参考链接：从DreamerV1到DreamerV3｜Model-based RL的学习之路 Dynalang 的主要贡献将 DreamerV3 拓展到有 language 输入的任务中为未来结合 language、vision 去完成复杂任务提供了思路加入单词向量的 embedding 原本只有图像 x1，现在多了一个 l1【整个 World Model 和 Actor 的训练和 DreamerV3 是一致的】可以参考链接：《Mastering Diverse Domains through World Models》随记和 DreamerV3 唯一的不同就是 embedding 使用了 T5 tokenizer【Google 的 transformer】，对单词进行编码多了一个 language 的回归 loss 在 encoder 中多了一个 language 的一个 encoding 的输入完成的任务比较重要的实验发现使用 in-domain pretraining，先使用游戏文本预训练了一下 World Model，再用 World Model 去训练策略，效果更好。还尝试了使用其他的文本库进行 general pretraining，发现当文本库包含很多不同的文本的时候，就是数量很大的时候，能够带来很大的效果提升。总结：World Model 可以使用 language 来进行 pretrain，文章里还提到可以使用大量的视频来 pretrain 从结果来看，使用 World Model 生成预测文本的效果一般 2014年的生物学诺贝尔奖发现，小鼠和人类的大脑是存在一些对空间记忆的一些结构的，一些网格细胞和地图的一些细胞，可以把空间信息在大脑中进行压缩，用压缩后的信息进行预测和决策，而不是使用注意力或者 RNN 的方式去进行压缩，是有针对立体空间信息进行压缩的结构。

《Learning to Model the World With Language》如何构建模型？

相关推荐