智能体的编码
世界的状态信息是不可编码的,一个智能体内部虽然可以确定自身的状态编码,但就信息容量来说相对于整个外部世界来说必然是少的,小的。所以这里就存在一个信息转码的过程,智能体如何在自身内部编码世界里面建构出一个外部世界的近似模拟,虽然之前大胆地给自己鼓励说到,我们都处在一个世界中,这种沟通交流是可能的,但直到最近从GAN网络的学习中我才真正看到这种可能性,而这种可能性的根源,不在于那句泛泛的说到,我们都处在一个世界中,而是我们所处的外部世界的本质也是基于某种随机性,这样就更加言之有物了。
但一个不可编码的世界是如何和智能体的内部编码世界发生作用的呢,这仍然是一个悬而未决的问题,在对GAN网络的学习和分析中,我获得了部分启示,从一开始我就不认为GAN网络的真正革命性含义在于可以生成某个图片,请看上段文字,我要寻找的就是智能体如何基于自身内部信息编码来模拟外部世界,这其中就涉及到基于外部世界本质的随机性和一个对外部世界信息的模拟生成过程。
请看上图,S表示世界的状态,M表示智能体自我的状态,智能体和世界进行交互,并伴随着世界状态的变化和自身状态的变化。
对于处理 S->M
信息流向的神经元或者说神经元集群,我们称之为感知元。
对于处理 M->S
信息流向的神经元集群,我们称之为行动元【说话、预测、分析、肢体动作都属于行动】。
接下来是重点:
对于处理 S->M->S
信息流向的神经元集群,我们称之为置换元S,其实现了对于世界状态信息 $S_0$ 到 $S_1$ 的转变。
对于处理 M->S->M
信息流向的神经元集群,我们称之为置换元M,其实现了对于智能体自我状态信息 $M_0$ 到 $M_1$ 的转变。
接下来有趣的点来了,在对于GAN网络的学习中,我认识到:
GAN网络前两步不过是一个感知元的单独训练,而第三步就是上面提到的置换元M的训练过程,而置换元M其内存储的就是知觉信息S。类似的置换元S储存的就是M行动信息。
那也没有什么啊,有的读者可能问了。需要强调的就是S世界状态信息是不可编码的,而智能体的M信息是可编码的,具体来说就是其基于自身行为元建立了一套公共编码库。上面提到的置换元的所有置换行为,简而言之,就是以自身可编码的行为序列来存储外界不可编码的状态信息,以自身行为来表达外界信息变化。
智能体的置换行为
理论上讲大型神经网络是能发展出精细的网络集群架构的,但这种置换行为似乎从一开始就是智能体处理信息进入的基石,而且也缺乏鼓励机制来鼓励这种置换行为。加上人脑是站在几十亿年生物进化史上的,这些先验信息从头调教出来可能工作量极大。
我们现在假设已经存在了某种鼓励机制,而且甚至可能有多个后台竞争置换元同步训练中,并且一个成功的置换元训练出来了收益极大,但这其中的风险也是不容小觑的。请想象一个带着VR眼睛的人,在真实的物理世界里,如何做到不碰壁没有生命风险。所以每一个成功的置换行为都需要仔细校对和审核,容不得半点差错。
VR眼睛是一个很有意思的比喻,因为它可能真的反映了我们意识的存在状态,我们都活在头脑构建出来的内心世界里,但这里我要说的是,这仍然缺乏效率,如果一把刀向你飞过来,你是知道疼了再躲更有效率还是预判到这一切马上开始躲避行为更好呢,显然对于性命攸关的事情来说,就算你预测错了,也问题不大,而预测对了一次,收益可是太大了,所以一个大胆的推测是,我们不光活在头脑建构出来的内心世界中,而且这个内心世界还是一个基于预测生成出来的世界。对于一个成功的智能体来说,它的意识存在状态就是这样的,不是人们说的我们活在一个基于知觉构建出的内心世界,什么时候会调用知觉呢?知觉是属于行为,智能体只有在发现自己对于世界的预测上出错了,现实世界正在痛击你,这个时候智能体才会调用知觉来核对这一切。关于这点我总觉得意犹未尽,但就此打住吧,请读者自己体会,我们人的意识处于何种存在状态呢。