🤖 你不需要因为AI而焦虑
是的,结合我过去一年夜以继日的泡在AI里面的经历,我的结论是:大部分人都不需要为AI的发展而焦虑
AI的本质是对世界的模拟,明星公司们的成功在于,高效、优质的模拟这个世界。
AI令人惊艳的表现背后,是大量的数据和对数据的处理。
如果强行类比的话,AI对世界的影响有些像互联网:为世界提速,给人类更好的体验,但是并没有从本质上改变战争、化妆、贫富、衣食住行这些社会的方方面面。
不过,我们还是尽量了解一下新事物。
WARNING
⚠️ 该文档尚未完成,仍在编写中...
春节还没过完,AI又又又又又一次"革命"了。
Sora的刷屏,让2023年焦虑了一年的大家,再一次感到焦虑,以至于听到不同朋友的感慨:AI这么厉害,以后怎么办,要不要现在开始准备找工作
被一波一波的AI“革命”震撼到的我,也同样有一次被Sora刷新了一次认知。
不过被今天的寒风吹了一下后,我冷静下来了
或许,我们大部分人都不需要为AI而感到焦虑。
2023年,AI很强
列举一些标志性的AI应用和技术
2024年至今,两个月还没过去,又有Sora这样的技术出现,结合大经济环境不好,很多人焦虑是很正常的
那又怎样?不必担心
1, AI是一个很强的鹦鹉
被灌输大量知识后,AI这只鹦鹉能够以超出普通人个体的水平输出了很多精彩的内容。
不过,这些内容更多是根据模型计算后,提供最可能的一种学舌。
随机性是这些输出内容的一大特点。
2,和互联网相比
和电相比
和汽油相比
和新能源车行业相比
AI的强大目前看更多体现在虚拟、影音娱乐方面,实体产业关系不大,因为:
实体产业需要的是确定性,需要准确,可靠
毕竟:你也不想自己开的车随机左右偏移吧
AI的产出是高度随机的。
不满意这个答案/图案/音频/视频?
AI会再生成一段发布出来(顺便悄悄记录并学习:这个答案不好,新的答案好
3, 不同年龄段的的人,需要担心吗
50岁以上的人,完全不用担心,想想20年前电脑和互联网浪潮,当时50岁的人,现在70岁了,他们享受到便利就可以了
30-50岁的人,需要注意,但是..大部分人重新就业可能性不说没有,但也不多。同样的,2000年左右30岁的人,现在50+岁,他们的工作生涯,后来受到了多少影响
20-30岁的人,需要为之紧张,但也不用太紧张。未知才可怕,而相对确定的一个趋势,大家都看到了,就早早做准备就好了。比如互联网对社会的一个最主要影响是:提高了信息生产和交换的效率。
信息传输效率的极大提升,有助于我们与远方的交流,也让原本壁垒重重的市场更加通畅。
这是一个很很好的工具。
20岁以下的人,享受福利/便利吧!
4,从工作、生活、娱乐三个大的方面来思考
工作上,就像手机和网络一样,AI,可以帮助我们,然后呢? 仅此而已
生活生,AI会提供各种便利
娱乐方面,尽情享受吧,各种层出不穷的创意,会带来各种好玩的新奇的娱乐体验
怎样理解AI
想象一下,你晚上回到家的时候,你的橘猫(养狗人请自行替换)蹲在地板上,它面前是一副刚拆开的扑克牌
这很正常,毕竟这个家它才是老大
但是不平凡的是,所有这些牌是按照♥️♠️♦️♣️从A到K最后是大小王54张牌顺序排列的。
这肯定不是橘猫所为,绝对是有人趁你不在家进来干的。
但是查看监控后,你惊奇的发现,这竟然是你的橘猫做的!
在经过230843697339241380472092742683027581083278564571807941132288000000000000次尝试后(2.3 x 1071,2亿亿亿亿亿亿亿亿,也就是54!),你的橘猫抽取出了这个排列,并将这个排列呈现给你看。
这让你非常震惊,现在的问题是:
这么多种可能,这个橘猫是做到的?
再查看监控后,原来有一群闲得无聊的清北哈牛的博士组团来了一趟,他们的操作具体如下:
0, 给橘猫加装一个具备记忆和认知能力的外脑
1,让橘猫认识每个牌前后的顺序,比如J的前面是10,后面是Q
2,教橘猫认识形状,比如❤ ♦ 和 ♣
3,教橘猫认识颜色,比如♥️和♠️这两个颜色
学会第一步后,橘猫可以将2.3 x 1071种可能压缩到 720 种可能排列
而第二步和第三步后,这52张牌的排列顺序对于橘猫来说就不再困难了,因为720种可能彻底变成了唯一的可能。
这个橘猫现在已经可以称为扑克牌排列智能橘猫了,在这只橘猫面前,刘谦的魔术都不中看了。
这么看来,橘猫AI也不是那么神奇?
这个过程中,橘猫最开始的排列充满了随机性/可能性,当它对扑克牌有一定认知后,
上述三个步骤中,第一步的逻辑我们可以简单套用到ChatGPT上,比如你问小朋友:春眠不觉 ,小朋友会接 晓,甚至会把后面三句诗背诵出来。
ChatGPT/小朋友们会在亿万种可能性中,找到那些确定性(很遗憾,背诗词和数数不是AI的强项,因为它们会随机(这很重要)挑选某一种可能出来
而第二步和第三步的逻辑体现在AI画图上
而AI画图的逻辑类似:一只猫的轮廓有很多种可能,但是是可以大致确定的,颜色也可以,毛发也可以。
在众多的可能性中,一只猫的图像就可以被画出来了。
出图效果非常好的MidJourney,以及最近几天非常火的Sora,都是把画图的模型和文本理解的模型结合在了一起。
基础因素是可能性。文本理解是相关性,图像轮廓则是空间的相关性。比如眼睛在嘴的上面,如果画出来一个图,两只眼睛在嘴角,就会很奇怪甚至恐怖。
根据公开消息,Sora采用了Transformer架构,是扩散模型和语言理解模型的综合。
之前的AI画图做视频都是U-Net架构,也就是将一只猫简化为线条轮廓,再逆向丰富为一只猫,这个过程涉及的是空间的相对位置:耳朵形状相对鼻子相对于嘴,它们的空间排列应该是怎样的。
现在Transformer架构,则是给U-net架构的扩散模型加上了语言逻辑:
U-net可以画小象和大象,也能画小猫和大猫,但是如果是小象和大猫,它可能会出错,因为人类的认知逻辑上,大猫不会比小象大
对于U-net架构的扩散模型没有这个逻辑
Transformer模型的自注意力机制其实也不懂逻辑,但是小象>大猫,这个可能性要比小象<大猫的可能性更大。
采用Transformer架构的扩散模型对逻辑的理解更佳准确
之前的扩散模型工作原理是:我看见、我简化、我还原(随机选择一种可能的样子)
现在的扩散模型工作原理是:我看见、我简化同时理解内在逻辑、我还原(随机选择一种可能的样子,但是更合乎逻辑)
注:除了Dit架构之外另一个创新点是SpaceTime Patch,类似于ChatGPT的最相关预测,比如:长风-几万里,长风-万里送秋雁,长风-破浪会有时,根据上下文GPT会给出最可能的后续衔接。
放到扑克牌中,3后面是4,J后面是Q
Sora的每一个视频片段和前后的视频片段有逻辑的相关性。
能做到这一点是非常强的
我们不用害怕AI,因为橘猫不能用这副扑克牌拼出千里江山图(训练数据不足),也不能拼出火星地底生物的形状(完全未知)