随便写写的，不必在意这篇

感觉像跨了专业一样，10月玩完回来后发现怎么这么多知识要学啊！补不完，根本补不完JPG非常感谢大三时算是好好上过深度学习课程的自己（虽然很多又还给老师了），但这样想起来的话本科学习后到现在还能用到的课程似乎也只有深度学习了！

关于软件工程

我的本科是软件工程，虽然现在看来很多课程知识几乎派不上用场，但我觉得软件工程的思想仍然可以启发多智能体的协作问题。项目应该如何管理与开展，进度与成本是如何估计的，我们需要更民主的讨论还是更专制的决策，我认为这些来自软件工程的方法同样可以作用到多智能体的领域。即使是诸如SOA的思想，或许也可以迁移至此。

关于文献阅读

最初读paper的时候只感到大家都好高深，现在渐渐发现相当一部分的paper是把某个简单的方法“包装”成高级的词汇概念（并不是说想idea很简单，我没有想要诋毁或者瞧不起任何人的意思；我更偏好简单的方法解决复杂的问题，某个简单而有效的方法不正是某个 fundamental 的映射吗？）。乍读全是专有词汇的论文会被唬住，但是如果把“黑话”翻译成自己能理解的事情，就很快能把握其中的大概了。

关于强化学习

奖励的设定确实是一个困难的问题（人生似乎也是如此）……RL 在连续且高维的空间下（如GUI Agent）表现得似乎总是不太好，如何设置奖励？如果一直走到最后一步才分配奖励的话会很稀疏，如果像时间差分那样提供奖励的话，又需要对未来的可能情况做准确的判断。

人生不也有很多在当时看起来是错误而实际上是相当有远见的决策吗？我们应该如何做出正确的衡量？

RL 在数学问题上表现得还不错吗？在 JustRL 里，作者也提到如无必要勿增实体。我也确实认为，如果某个模型（或者算法）是正确的，那么它应该不需要打上过多的“补丁”就可以达到很好的效果，但是，在GUI Agent里，恐怕又没有那么优雅的模型，有时候需要加trick来让模型效果更好，但是这并不是1+1≥2。引入过多的tricks也许反而会让模型效果更差。

这恐怕不是现阶段的我能考虑的事情，再学学吧JPG

其他

日心说令人惊叹，一旦重新建模，复杂的问题就变得清晰起来。在日心说的体系里不再需要本轮的补丁；圆（或者椭圆）的轨道如此易于理解，简单而有效地解决了许多此前无法解释的问题。

https://www.bilibili.com/video/BV1Je81zQEet

关于 2025 下半年的小结……

关于软件工程

关于文献阅读

关于强化学习

其他