聊天机器人,最早需要追溯到1950年,那个时候号称计算机科学之父,人工智能之父的艾伦·图灵,发表了一篇具有划时代意义的论文,提出了一个很有哲理的模仿游戏,也就是大名鼎鼎的图灵测试,也就是说当你不在面对面的时候,跟人家文字聊天,你能不能准确的判断出来对方是不是一个人还是一个机器人,如果你要是很难分辨出来,那就一定程度上说明这个机器人是智能的,所以就吸引了很多计算机方面的科学家,来向他发起攻击。
最开始的时候,都是一些很简单的指令,他就是通过一些语言技巧,来尽量让你感觉到你是在跟一个人聊天,比如说最早开始的一个叫ELIZA,问一些你最近怎么样,心情怎么样,完事机器人就会回复一些很简单的言语,其实这个背后只是一些简单的代码,比如if..... than.....等等诸如此类代码。
到1995年ELIZA出了一个后辈叫ALICE,他就进化的很强大了,虽然跟ChatGTP没法比,但是已经可以进行一些简单的日常对话,不过不管是ELIZA还是ALICE,他们的本质上都是基于一个叫做pattern matching(模式匹配),也就是听到一个关键词,就会调出来一个预设好的对话。比如说当它听见你好,他就会说吃了吗,听到说妈妈,就会说你的家庭等等这些。其实放到现在一些购物网站、银行还是这种pattern matching 模式,比如说退货,它就会给你发一些流程诸如此类。这种匹配模式虽然称不上智能,但是确实能减少很多那种人力大量的机械性的重复回答。但就是从智能的角度来说,这种模式就是你的规则写的越多,你也不可能涵盖所有的答案,更不可能去有创造新的答案,所以要想成为真正的智能,单独的凭借这种模式是不可能成功的。所以就出现了语言学习里面一个新的流派,,也是后面人工智能很重要的一个方面,就是机器学习。顾名思义,他就是让机器人去学习,我不人为的规定一些提问跟回答了,就是给你一些现成的例子,让你自己去学习,去寻找规律。
基于这个理念,在2001年就出现了一个叫做SmarterChlid(更聪明机器人),使用这种模式,机器人的聊天更为顺畅,不管回答的怎么样,但是总能跟你聊上一些,也算是ChatGPT的前辈了。用户达到3000w,每天能有10亿+的聊天信息。到2007年的时候,被一家巨头公司微软收购。但是这个SmarterChlid虽然很能聊天了,但是距离通过图灵测试,还是有一些距离,基本上你跟他聊上一两句,就能判断出来是机器人了。到了2010年的时候,机器学习领域里面一个新的东西开始闪光了,叫做人工神经网络。人工神经网络想要模拟人脑的形式,信息输入后通过若干个隐藏神经节点的判断,类似了人脑的神经元,最后输出结果。其实这个概念早在1960年的时候已经有了,但是这个概念需要大量的数据以及庞大的算力来支撑,那会并不具备这个条件,所以之前的这些都基本上是纸上谈兵。
到了2010年代,也就是互联网时代,数据已经有了,算力也是有指数级的增长,才让神经网络开始应用起来。人们就发现,这个模式特别适合解决人们一看就知道的事情,就比如说你看到一张脸,你就能知道是谁。使用神经网络,机器人慢慢地就能摸索出来规律。现在他的应用已经非常的广泛,不单单是人脸识别,还有声音识别,自动驾驶。但是到了文字领域,这个模式不太实用。因为机器学习一般都是通过用一种叫做循环神经网络来处理文字的。它主要的方式就是按照顺序一个字一个字地看。问题就是没有办法同时大量地学习。直到2017年的时候,谷歌发表了一篇新的论文,提出了一个新的学习框架,叫做Transformer,具体的机制就比较复杂,但是结果就是可以让机器同时大量的学习。谷歌BERT,ChatGPT中的T都是指的Transformer。
在2015年的时候,几包括马斯克、彼得·蒂尔在内的几个大佬,注资10亿美金,成立了一家非盈利组织,OpenAI,也就是ChatGPT的母公司来进行AI方面的研究。因为是非盈利组织,他的目的不是为了赚钱,主要是为了推动这项技术的发展,所以他的研究成果包括专利都是对外公开的。
OpenAI在研究谷歌Transformer框架下,在2018年发表了一篇论文,介绍了一种新的学习模型,叫做Generative pre-trained Transformer,也就是GPT。之前的语言学习都需要人去监督,或者给他贴一些标签。但是这个GPT基本上就不需要了,你只需要把一堆数据放进去,基本上他就给学习明白了 。
OpenAI在2018年6月推出了第一代GPT,接着在2019年又增加了训练的数据量,推出了GPT-2。这种机器学习,其实主要是拼两件事情,一个是模型,一个是参数量。模型就是决定机器怎么学习,同样的东西,你学的好学的快你就厉害。而参数量,它其实就是需要大量的计算,通俗一点就是要砸钱,就算你的模型再好,也得靠砸钱去训练和验证,这两者缺一不可。
OpenAI对自己的模型很有信心,而每进步一点,而你都可能需要上升一个数量级的数据去支撑,那这些都是需要很多的真金白银去支持。刚开始不是OpenAI不是投入10亿美金,但是这些钱根本不够花。但是这个时候OpenAI还是非盈利组织,但是根本没有那么多的资金支持,在2019年的时候他们就从非盈利组织转换性质,但是他们并没有说直接转变成盈利组织,情怀还是需要的,转变成一个叫做收益封顶的盈利组织。意思就是任何投资人的收入回报不能超过100倍,超过100倍的利益投资人就拿不到回报了,全部归入OpenAI。
在OpenAI可以盈利后,微软立刻投入10亿美金,这是一笔双赢的投资。OpenAI拿到了钱,微软给OpenAI投资建立了一个全球第五的超级计算机,大大地提升了它的训练效率。微软也得到了OpenAI的技术跟团队。
OpenAI得到了超能力跟算力的支持,就开始大力出奇迹。一代的时候只有1.2亿个参数,到了二代的时候,拥有15亿个,而在半年之后又推出了GPT-3,直接上升一百倍,达到了1750亿个参数,效果非常的好,已经有点现在这个GPT的意思了。基本上你问点什么,他都能给你回答出来,当时在业内,已经掀起了一波轰动。不过这个纯机器训练出来的GPT-3,有个问题就是有的时候回答的很好,有的时候就差那么一点意思。而且问题在于你不管再怎么增加参数量,他的提升跟改善是非常有限的。这个的主要原因是是在训练的时候,他没有很好的一个反馈机制。也就是说没有人告诉他什么是对的,什么是不对的。所以为了解决这个问题,OpenAI在训练的时候加入了一个人工反馈机制,专业的术语叫做人工反馈的强化学习。在加入人工反馈机制之后,GPT的效率就大大提升。在2022年3月的时候就推出了GPT-3.5,之后又对对话进行了优化,在2022年11月推出了ChatGPT。
ChatGPT其实就是一个非常简单粗暴的聊天界面,但是你问什么人家都能给你回答很多内容。经过了半个世纪,ChatGPT肯定可以通过图灵测试。ChatGPT基本上颠覆了很多人对聊天机器人的认知,在短短的两个月内,月活就突破了1亿人,扩张的速度堪称史上最快。
那么ChatGPT是怎么做到不管在什么领域都能跟你回答上来的。简单来说GPT这种大型的语言模型他的本质上就是在计算下一词下一句话应该出现什么,就是一个概率的问题,其实他的每一个基本上都是靠前文的相关性来计算出来的,但他学习了上千亿的内容后,通过这些复杂的的模型找规律之后,它自己就行成了一个非常庞大的神经网络。举个例子就是你根本不需要告诉他什么是编程什么是视频的脚本,它自己看多了,就知道编程就是这么来写代码,视频脚本就应该长这个样子。你看他本质上还是一个语言模型,就是在学习别人说话,那它自己知道自己在说什么吗?至少在目前的这个版本它还完全不懂,就像一个记忆力特别好,但是什么都不懂的小孩,在那里学习大人说话,让我们以为它好像什么都懂了。这也就是为什么它的话有时候说的特别完美,但是还会有一些逻辑性的错误,就是因为它只是一个语言模型。就目前而讲,相对于讲的对不对,它更在意的是讲的像不像人类。
实际上ChatGPT也会存在大量编造答案的情况,也就是说它都不知道自己在说什么,但是就是在那里给你编造很多的内容,也包括很多论伦理道德上的问题,比如说你怎么看人类,他就会说人类是劣等的自私的是最烂的生物等等这些。不过现在ChatGPT就是在简单的模仿,不过当他模仿的越来越像,越来越高级的时候,就是99.999%都能回答正确的答案的时候,那它到底是真的理解了还是在那里模仿,其实意义也不是那么的大了。
ChatGPT地一个重大的突破就是极大地提升了人跟机器沟通的效率。人类之间的沟通主要是文字,那电脑使用代码,之前的方式是人类编成一个电脑能够看懂的编码来进行沟通,包括搜索也是,我们把想要的问题分成若干个关键词去说给电脑。但是有了这些语言模型, 电脑就可以慢慢地理解人了,我呢就是给电脑说人话,然后它自己去翻译自己去执行。大家都觉得ChatGPT很神奇你说什么他都能执行那些任务,更主要的是它能更加准确的理解你说的内容,然后结合语境,从它那庞大的数据库里面,提炼出来最恰当的信息,换成人话,再告诉你。那这个沟通的环节,其实是最神奇的地方。
ChatGPT有了这么强大的一个接口,我们就可以更轻松地交给机器做,这样我们的效率就会大大地提升。假设我们可以拿它跟一个语言识别系统连接,比如说hi siri,让它可以跟你自由对话,然后你要是再能接上一些专业的分析接口,比说什么AI的股票分析,编程,计算啊这些机器人,然后再接上一个视觉生成的部分,那么人人都相当于每一个人都有了一个很强大的助手。一下子ChatGPT就开启了很多的可能性,而它本身又很火爆,背后的大股东微软一月份就宣布继续投入100亿美金,估值达到了290亿美金。微软在之后发布会里面,宣布把ChatGPT融入到自己的搜索浏览器Bing里面,微软把它叫做Copilot for the web,大概就是个网络助手。
其实ChatGPT有个问题就是它训练的那些数据只截止到2021年,也就是说最近发生的事情他都不知道,微软把它跟Bing一结合,逻辑类的东西我们可以用ChatGPT,如果需要信息跟新闻,我们拿Bing一搜索,这样就可以强强合。微软这边这个聊天功能只能强制性使用他自己的浏览器Edge才能使用。
面对微软铺天盖地的宣传,谷歌就开始做不住了,因为ChatGPT很可能撼动它最大的蛋糕,也就是搜索。谷歌目前占有全球搜索市场份额的93%,那是绝对的垄断。而微软的Bing虽然排在第二,但是只占了3%。搜索业务带来的广告收入能占据到谷歌收入的60%。一直以来,谷歌在人工智能领域都是领先的,前面提到的Transformer就是谷歌自己搞出来的,谷歌也一直在内测一个机器人叫BERT,跟ChatGPT很像,只不过是没有花费大量的精力去训练它。它其实还有一个更加厉害的机器人叫做LaMDA,无安全就是基于人类的正常对话,还会开玩笑或者表达自己的情感,完全不是你光问它回答这么简单。就因为它的回答太过于自然,甚至于说都骗过了当时谷歌内部的一个开发测试的员工,相信LaMDA已经具有了自己的意识,就差不多像七八岁的小孩。
谷歌一直在聊天机器人这一块很强大,但是它的立场跟微软就完全不一样。自己本来就是搜索引擎的巨头,不会说平白无故的整个聊天机器人把自己的摇钱树给砍了,所以谷歌这边的LaMDA更加关注的是聊天和对话,而不是像ChatGPT这种什么问题都能够回答。而且一直不把这些AI机器人放出来也是担心自己的声誉危险,搜素要的就是严谨准确,把一个没有训练好的机器人放出来,胡说八道也是不合适的。另外一个方面就是这么大规模的训练是非常烧算力跟金钱的,每个问题消耗的能源相当于现在谷歌搜索的10到100倍。像ChatGPT这种每天就要消耗掉100万美金以上。
面对微软这边强大的舆论压力,加上媒体铺天盖地的舆论报道,谷歌是真的坐不住了 。ChatGPT刚上线不久,谷歌内部就发布了一个红色预警,叫Code Red,也就是生死预警。也就是说这个是我们生死存亡的关键时刻了,我们得集中全公司的力量到这个AI赛道上了。
微软这边2月7号刚发布了发布会,谷歌这边2月8号就发布了自己的对话服务叫做Bard,这个就是基于他们之前的对话机器人LaMDA开发的。所有人的关注点是AI聊天的部分,但是谷歌的整个40分钟的发布会,前面说自己之前的成就照片搜索等等,好不容易到介绍这个Bard,但是草草几分钟结束,而且在谷歌发布会的时候,还发布一个介绍Bard的视频,最知名的是在这个视频里面,Bard的回答还是错误的。其实在这个阶段聊天机器人回答错误之类的是很常见的,但是谷歌发布会的低级错误,肉眼可见谷歌的仓促跟慌乱,这个才是市场担心的。虽然ChatGPT风光无限,但是大家都知道,谷歌是AI领域的强者,所以就算是你在短时间内没有吭声,估计外部的人也知道你不好惹,你有可能是再憋大招。所以发布会之前谷歌的股票价格跟微软差不多,然后着急的弄了一个发布会,给人的感觉是你害怕了,所以发布会之后谷歌的股票一下子蒸发1000亿美金。
相比之下微软就好稳多了,微软以及OpenAI的CEO都出来亲自讲解。将近一个小时的发布会,都着重讲这个AI聊天功能,还加上各种演示,很明显就是做了充分的准备。
AI战争刚一打响,谷歌这边先是被ChatGPT搞了一个措手不及,然后自己一慌又来了一个低级的失误,可以说第一仗谷歌惨败,但是这个毕竟只是第一仗,谷歌毕竟还是谷歌,后面到底怎么样呢,我们就拭目以待。当然这场AI战争也不仅局限于谷歌与微软这两家公司,像百度、腾讯、阿里也都抢先入局,但凡跟生成式AI沾边的股票都开始疯狂的涨,,像英伟达、AMD这种提供算力的硬件厂商也跟着沾光。
其实像AI聊天,AI作画,AI编程这些生成式AI在前两年已经迎来了井喷式发展,这个产业的融资额在2021、2022就已经开始起飞,每年都是十多亿美金,但是在2023年一开年微软直接砸进去100亿美金,资本已经尽其所能,全部涌入这个赛道。那么这个东西发展这么快会不会导致失业呢?那么又会导致谁失业呢?
技术革新始终是一把双刃剑,他可能会创造出来更多的工作,就是失业率也不会降,总体的GDP八成还会上升,但是短期内肯定会导致一部分人失业。电脑刚出来的时候解决人类大量的重复性工作,现在就不单单是重复性的工作,一些套路类的工作,哪怕是创作,只要是有套路在里面的这种工作都有可能被取代。
其实不单是失业这一块,因为AI的颠覆性太强了,我们已经能看到它对现在的社会造成巨大的冲击,比如学校教育这一块,ChatGPT才上线几个月,现在美国18岁以上的学生里面都已经有九成使用ChatGPT来写作业了。基本上除了体育别的科目都可以做,这样你很难去判断到底是学生做的还是机器做的。我们并不是说这个东西在教育里面不能帮忙了,只不过是现在的教育体系还没有准备好让ChatGPT进来。学校一时也想不好怎么让其融入到现在的教育体系之内,所以只能一刀切。包括像现在AI生成的这些图片内容到底算谁的版权,依然是一个很棘手的问题。这种生成式的AI到底能发展到什么样,其实谁也说不准。潘多拉的魔盒也一点一点的被我们打开了。
网友评论