第113章李晓军和方麟_神临地

方麟：“连续学习面对的主要问题是灾难性遗忘。如果让深度神经网分多次学习，学了后面的知识，就把前面的知识忘掉了，或者说覆盖掉了。”

“所以，这是个如何在深度模型中保留记忆的问题。”

“已有方法大概采用了如下三种技术路线：”

“一是保留以前学过的部分代表性样本作为记忆，这些样本要参与到后面的模型训练，从而把记忆转化为模型参数；”

“二是在模型学习新知识时限制参数在一个限定的范围内变化，而这个范围是由旧知识决定的，所以就达到了不会遗忘它们的效果；”

本小章还未完，请点击下一页继续阅读后面精彩内容！

“三是每次弄出不同的网络分支以对应不同的知识。”

“第三种方法性能最差，较少被关注到，但我反倒觉得最具合理性。”

“仿真人类的情况，我们的记忆难道不应该是神经网络形式的，不同的记忆难道不应该是不同的子网络么？。”

“以前遇到的困难是如何将这些分支融合以达到记忆选择的效果，然而不融合直接选择也是一种办法。”

“假设面对一种任务，其所要学习的知识有一万种子模式，每种模式我们都可以保留三个模型：一个用于生成已习得数据的模型，大模型形式的生成模型现在就很好用；另一个用于对新到达样本做数据增强，达到将一个样本变成上千个内容相同但表示不同的样本的目的；最后一个才是这个子模式对应的处理模型。”

“用这三个模型来代表对某种模式知识的记忆。”

“训练时，先将新到达样本在每个记忆模式里分别做数据增强，然后用对应的生成模型生产大量记忆样本。把记忆样本与增强样本一起去重新训练处理模型”

“如果该处理模型对各种生成样本仍旧有较高的准确率，该子模式就被选中，把处理模型更新为重训模型，当然，生成模型和增强模型也需要一起被重新训练。”

“推理时，过程也是一样的，将待处理样本在每个知识子模式中都进行增强，然后与生成样本一起重训处理模型，根据重训模型对各种生成样本的准确率，决定是否接受其识别结果。”

李晓军已经听得眉头紧皱：“有点道理，这是用模型训练来解决模型选择问题，或者说记忆选择问题。”

“假如真有上万个知识子模式，每一个样本都要进行上万次模型训练才能完成对它的学习和推理。学习时还行，慢就慢了。但推理时必须经过上万次模型训练，这能忍受么？”

方麟：“我看王栋已经提供的那些计算平台，算力也都高得离谱。我们可以大致估算出来，我们这个方案如果要达到实时的推理速度，大概需要什么样的算力，比现在最高算力还要高几千万倍。”

“不过这不是我们的问题，是王栋的问题，如果他能提供这样的算力，我们就可以按照这一思路进行研究。”

“现在这个世界已经很魔幻了，不妨更魔幻一些。说不定王栋就