发布仅5天就收获100万用户,ChatGPT大概是历史上蹿红最快的互联网产品。
最早,谷歌对ChatGPT不屑一顾,但很快谷歌CEO Sundar Pichai 在公司内部发布了“红色警报” ,认为OpenAI旗下的ChatGPT 真的对谷歌的主营业务带来了巨大的压力。
(资料图)
美国时间2月6日,彭博社称谷歌投资人工智能初创企业Anthropic 近4亿美元,同时,谷歌内部也同步研发了很多大模型产品,以此来加固自己的护城河。
Anthropic成立于2021年,其创始人Dario Amodei曾经担任OpenAI 研究副总裁,因为对OpenAI发展方向有分歧而选择自立门户。
ChatGPT到底会不会冲击到谷歌搜索?本期节目,《硅谷101》邀请到了AI研究员余家辉和心识宇宙MindVerse创始人陶芳波来讨论他们对于ChatGPT的看法。
01ChatGPT的第一印象:做了十年AI仍觉得惊艳
《硅谷101》:家辉跟芳波,你们有一直在做 AI 方向的前沿研究,看到 ChatGPT,你们的第一感觉是怎么样的?你们觉得是惊艳还是没有想象中好?
余家辉:我第一次看到 ChatGPT 是某天早上收到一个email, OpenAI 推送发布了ChatGPT。一开始没有特别惊讶,因为 OpenAI 在语言生成模型上已经耕耘了很多年,往对话方向上做,是一个非常自然的步骤。之后看到社交媒体上的一些对话,意识到整个 ChatGPT 给人的感觉还是非常不一样。
《硅谷101》:芳波的印象是怎么样的?
陶芳波:我的印象和对ChatGPT 的感受,和很多对于 AI 没有那么了解的人是一样的。ChatGPT 这次的表现,对于哪怕是在 AI 做了超过 10 年的人而言,也是非常惊艳的。大两年前 GPT-3 出来,它今天把它调制到一个真正可以解决非常广泛问题的程度,而且是以一种非常规范的方式来解决。同时,除了解决自然语言的问题,ChatGPT 还可以生成代码,并且是迭代式的去改造自我的代码。这样的方式,将来 ChatGPT 可能成为数字世界的一个通用的接口,让人可以通过它来改造数字世界,来使用数字世界。这是我看到的一个巨大的成为未来的基础设施的潜力。
02回答中庸,刻意为之
《硅谷101》:这次 ChatGPT,它跟 GPT-3 相比技术上的一些提高跟区别在哪里?我有问它一些稍微刁钻一点的问题,它给我的回答我感觉都非常的中庸。这种中庸指的是正面一点点,反面一点点,非常像一个八股文。或者说,它的很多文章,如果从我们写文章的人来看,就非常像一种官宣的文章,或者马屁文章这样的感觉。从技术上看,它跟 三年前发布的GPT3 的区别到底在哪里 ?
余家辉:能写官宣的文章也是一种能力,对吧?他们做了一些人工标注,我猜可能在做的过程中也会筛选出那些不过于极端化的,不过于 aggressive 的回答。把那些回答筛选掉之后,所以给你的一个主观的感觉是好像很中庸,好像没有什么鲜明的观点,可能这是设计者想让它成为这样的回答方式。
《硅谷101》:所以设计者有对它调教过。
余家辉:对。刚才问到的问题是技术上有哪些提高和区别?ChatGPT 本身还是基于 GPT-3,更准确地说是 基于 GPT-3. 5 模型。在我的理解里,GPT-3.5 跟原来的 GPT-3 比用了一些新的数据,又做了一些人工的标注调教。
他们运用到的所谓 RLHF,也就是 reinforce learning with human feedback 的方式,使得这个模型能输出更多人想要的或者人想看到的这种答案,而不是简单地输出这种互联网上没有筛选过的文字。
03相比于GPT-3的提高:反馈函数与人工标注
《硅谷101》:所以总结来说,我觉得它中庸的那一部分,其实是模型故意这样调的,它想让我看到这样的一个答案。
余家辉:跟你问的问题也有关系,你特别想知道它的某些观点,它反而就不想告诉你了。我看到的绝大多数问题,它的回答的结果都还不错。当你对话的变长的时候,它还是能去比较好地理解到前面说了什么,前面有什么样的上下文,这是一些比较新的能力。
《硅谷101》:什么叫人工标注,能跟大家解释一下吗?
陶芳波:我简单补充一下家辉的观点。家辉刚才提到一个概念叫 reinforcement learning with human feedback。我觉得你说的那一点是对的。我觉得它的中庸,包括它不愿意去表达观点,是刻意为之。因为ChatGPT 跟 GPT-3,包括 GPT-3. 5 有一个很大的不同,它尝试把强化学习引入其中。强化学习本质上是要有一个反馈函数的,在反馈函数的制定当中,它加入了很多 OpenAI 认为一个聊天任务型机器人应该具有的一些特点。比方说,它应该很安全,他的表达应该比较标准,不要太跳脱,不要去随意的评论别的观点。
我认为它在设计奖励模型的时候,就已经能把这样的一些偏见规避嵌入到其中了。这个就是你刚才提的人工标注。
因为我们以前在大模型训练的时候,往往是用微调的方法,也就是用新的大模型的文本数据去让大模型学会新的说法。而ChatGPT是相当于构造了一个类似于判定的老师,这个老师的判定是有一些标准的,然后它不断地去告诉那个老师,不断地跟老师去battle,来调整自己的行为模式和说话方式,使得它最终能够符合老师的标准。
这是一个比较有意思的创新,使得它目前的表现,无论从内容的扎实度,回答的有效性,还有像你说的,比较中庸的说话方式,都会受到 reward model 的影响。这就是人工标注的一种全新的使用方式。这给很多做大模型训练的人打开了一个新的空间和一个新的可能性。
《硅谷101》:人工标注是不是指,比如我来问它一些问题,当大家回答的时候,你来告诉它哪一种回答是最好的。
陶芳波:它有两种标注方法。第一种标注方法是直接让真人去写答案,直接喂给它,让它去学会当遇到这样的问题的时候,真人应该怎么回答。有点像是中国的那种填鸭式教育,在背的过程当中,让你学会怎么去回答问题。另外一种就是你刚才提到的,我去训练一个判断的模型。判断的模型会说你给我这 3 个答案里面,哪一个答案是我最想要的?把模型训练好了之后,ChatGPT 就可以不断地产生新的答案。针对不同的问题,判断的模型会不断地给它反馈我到底想要哪个答案。最后它不断地调整自己,使得它找到适合最终他想要展现的那种判断方法。
《硅谷101》:我觉得训练 AI 的方法还挺有意思的,跟训练小朋友也是有一点点像的。芳波我们之前有聊到,OpenAI在大概2022年 3 月份的时候发了一个 GPT-3的论文,之后发了一个 instruct GPT 的一个论文。
陶芳波:ChatGPT, 就像家辉刚才讲的,因为它背后还是基于 GPT 来训练的,尤其是基于 GPT-3.5 来训练的。 GPT-3.5你可以理解为是比 GPT3 又加入了代码的能力。所以它会用所有的互联网上的文本数据,加上它能找到的所有的代码的数据,一块来训练它。因此它本身的模型里面已经拥有了几乎全部的常识。所有的大模型训练好之后就已经拥有常识了。而 ChatGPT,包括 instruct GPT,做的是如何构造一种理解的方式,让 ChatBot 可以更好地去使用这些常识,理解这些常识。但它的训练,哪怕它的微调的部分数据量很少,也不影响它背后的知识是无穷大的。
余家辉:你可以理解为 instruct GPT 相当于提供一种方法。当然,芳波也提到了这个概念相当于:第一步是做一些标注,比如给你一些问题,然后人工地去给一些答案;第二步就是这种判别式地给一些标注,就是说,现在机器或者大模型给你一些答案,然后人来判断哪个好哪个差,整个方法应该是不变的。但是具体上,对于每一个步骤,比如生成性的这种标注,大概用了多少人工人力,多少的数据量,其实都还不知道。
陶芳波:对,相比之下,最后用来做人工标注的部分,比起它一开始的训练,数据,肯定是少得多的。因为一开始的数据是非标注的,它可以拿互联网上所有的数据。你可以理解为几十亿的人类在过去几十年积累的文本数据来训练它。而在 ChatGPT 自己公开的一个介绍里面会说,它大概用了一个 40 人左右的标注团队来完成对它的数据的打标和微调。所以 40 个人的数据相比于整个人类社会的互联网数据,再多也只是九牛一毛而已。这个是比较有意思的一个点,就是在不成比例的数据情况下,还是可以给它带来很大的性能上的变化。我觉得这个是ChatGPT 这次给我们展示的一个很有意思的地方。
04对比Siri:底层能力不一样
《硅谷101》:我接下来问一个特别小白的问题,我觉得可能不是很了解聊天机器人的人会关心 ChatGPT 跟苹果的 Siri 有什么不一样。
陶芳波:从我的角度来讲, ChatGPT 的优势是在于它有一个无限的开放域,它可以在一种通用的描述下去完成通用的任务。它相比于传统的聊天机器人,比方说Siri,比方说我们知道的Alexa,甚至包括天猫精灵,这样不同的一个工作特点。因为它背后的大模型在做得足够大之后,它就具有通用性的解决问题的能力了,并且可以使用整个通用的互联网的常识来解决。
而传统的聊天机器人,因为已经存在很久了,它并不是一个新的概念。它们往往有几个特点。它首先是垂直的,意思是它可能只能解决一个行业的问题。第二,它可能需要为一个行业特定的问题去做专门的训练。比方,我需要先训练一个分类模型来理解一个用户这句话的意图,然后再把它导到一个合适的处理模块里面。所以它整个部署的成本和它使用的通用性会比 ChatGPT 这种要少很多。但是它也有它的优势。
今天 ChatGPT 虽然你看到了一些小缺点,比如你刚才提到了一个它目前比较中庸的问题,但其实它还有一些更大的缺点——由于它依赖的是背后的常识,而没有办法使用真正的,公开的数据去验证它的正确性,所以它有的时候会经常说一些错误的事实。比方如果你问它,为什么 CPU 会比 GPU 更快,更有利于去做 AI 的推理,它会说是的,我认为 CPU 会比 GPU 更快,因为什么什么什么。它会顺着你说,编造一个它觉得合理的逻辑。但事实上,它所说的事实本身就是错误的。我看到的一个趋势是未来可以把这两个东西结合的更好一些,也就是说既能够有这种开放域通用问题的处理能力,但同时又可以对这种事实性的或者专业技能型的东西有更好的融入。
余家辉:我觉得芳波的总结是非常到位的。ChatGPT是基于大语言模型的。苹果 Siri 或者其他聊天机器人,可能绝大多数上还是 search based和 rule based。这里也不好说谁好谁坏。这里要解决的问题也是像芳波所提到的,是不是足够的准确,是不是尊重事实。这是作为聊天机器人真正商业化的时候必不可少的一些能力。
05ChatGPT与AlphaCode会不会取代程序员
《硅谷101》:我看见最近不仅仅是 ChatGPT,其实还有谷歌的 Alpha code,连续登上了最好的两本杂志,一本是《科学》,一本是《自然》。像 Alphacode,它已经在一个国际的编程大赛中大概是达到了 1238 分。这个意味着什么?换句话说,它在人类的参与者中排名占到 了54. 3%,相当于它是一个人类中等偏上的程序员的水平了。自然杂志就更直接了,他用的标题就是《 ChatGPT 跟 Alpha code,它们未来会不会取代程序员?》你们怎么看这个问题?你觉得它会取代程序员吗?
余家辉:先说一个简单回答,取代程序员现在来看还是有点早。我能想象,不管是ChatGPT 或者像是 AlphaCode,很多时候它能帮已有的程序员去优化一些现有的步骤。比如我们平时写 code 的过程中,也是有人写,也有人看,看写的到底是不是对的。在这个过程中,比如像 AlphaCode 或者 GPT-3.5,它能写一部分的code,然后程序员来做review。这种是可行的,但这并不意味着它能取代程序员。如果是完全取代程序员,可能会带来一些问题,比如让整个系统出现一些问题。《硅谷101》:是不是有可能会把整个系统写垮,对吗?
余家辉:对,写垮或者系统瘫痪的时候,你也不知道怎么debug。如果最后还是人来debug的话,可能一下子也找不到它写的代码哪里有问题。
陶芳波:我说一个比较有意思的事情,就是 ChatGPT 出来大概 10 天的时间,我对它还是比较乐观的。但是我同意家辉讲的,对于真正的复杂的系统架构的设计,包括整个代码结构的一些设计,可能真人,无论是初级程序员还是高级程序员,对于它的理解能力都还是会比 ChatGPT 更强。
但我已经可以看到 ChatGPT 能够提升效率了。所以从 2022年12 月开始,我们公司已经在尝试,去探索一下 ChatGPT 到底怎么样能够引入到我们的整个开发流程当中。我们想看看它到底可以在哪些功能的模块,哪些环节提升我们对于开发的效率。
至少我觉得,因为 ChatGPT 的代码训练中,很多数据来自于类似Stack Overflow这样一些代码问答的网站,所以我们会发现它做简单的任务其实做得还蛮好的。包括一种新的语言里面某个库应该怎么去使用,以前我们可能要查很多 post 才可以总结出来,现在它可以直接根据你大概的需求帮你写好。这个方面我觉得肯定是可以提效的。
但是如果最后所有的程序员都依赖于现在这个版本的 ChatGPT ,它对于系统的稳定性还是有很大的挑战。
06AI大模型为何崛起?
《硅谷101》:我们刚刚其实有聊到 ChatGPT 最近非常非常的火爆。其实不仅仅只是 ChatGPT ,包括我们之前聊到的 AIGC ,包括 OpenAI 的DALL·E 2。我很好奇这一轮整个 AI 大模型,它的浪潮是怎么样发展起来的?因为家辉我知道你也在做这方面的研究,最开始你是怎么注意到这个浪潮的?为什么现在生成式 AI 突然火起来了?
余家辉:这个是一个很好的问题。如果你形容它是浪潮,前面有不少这种铺垫。
首先,互联网上有大量的数据。比如在社交媒体或者Reddit 这种论坛上,大家都开始发表自己的一些观点。在大语言模型下面,这些都相当于是养料,它能拿这些数据做训练。所以数据是几十年来一直在积累的一个东西。
第二就是计算,计算包括 GPU 和 TPU,这些计算其实也是必不可少的一部分。很多时候我们看到的机器学习的任务都是模型在小规模上就已经能处理,比如说 80% 的task。然后把模型变大一点,计算资源更多一点,就发现能处理到 80% 的准确率。
Emerging capability(展现出来的潜在能力) 的意思是,这个模型它一开始不能处理任务 ,很差很差,比如 2% 的成功率。当这个模型大到一定程度的时候,突然它具备了这种能力。在某个特定的模型大小下面,成功率也是指数级上升的。有了这个发现之后,大家就开始尝试去扩大模型。刚好计算资源也在这个时间点上已经足够去 支持这种大语言模型的训练。这个也是必不可少的一点。
第三个是 neural architecture(神经网络架构)。比较火的是 Transformer (Transformer是神经网络架构中的一种)的这一类架构。但其实 Transformer 之前也有不少的这种积累,比如像 ResNet。Transformer 的这种架构也非常方便,非常容易去扩张,它没有特别严重的优化问题。有了这种神经网络架构之后,我们才能看到语言模型具备这样能力。
陶芳波:其实我觉得家辉讲得很好,包括 transformer 架构的价值,和整个模型达到一定程度涌现出来的一些可以解决通用问题的能力,基本上就是大模型本身发展的背后的几个技术基础。
我稍微再加蛮有意思的两点。第一个是因为我们自己是做脑启发 AI 的一家公司,我们会经常去结合脑科学来看 AI 的一些技术。然后你会发现 transformer 它的结构和人脑里面的整个 neocortex (新皮层)一个 6 层的神经元之间的结构是有一定相似度的。
这种结构本质上具有一个通用性,就像今天Transformer,既可以用来处理视觉的数据,也可以用来处理文本的或者其他模态的数据。我们人脑里面的新皮层的部分也是不同的脑区的心皮层本质上结构没有区别,只是在任务上做了分块而已。所以这个是很有意思的。等于说我们找到了一个类似于人脑新皮层那样的通用的神经网络架构来处理、承载不同的任务类型。
第二个, OpenAI 这个组织在生成式大模型是有大贡献的,因为我觉得没有 OpenAI 就不会有现在的 generative AI(生成式AI)。它通过 DALL·E 也好,通过 GPT-3 也好,本质上它能力非常强,能把技术通过一套很好的工程的体系去实施出来交付出来。
所以 OpenAI 它和其他的公司和其他的学术的组织最大的区别就是他非常注重engineering,包括 ChatGPT这件事情,它也知道怎么样去控制数据的质量,怎么样去把每一个环节做到非常好,再用一种科学的方法,通过工程师的放大的效应,放大了杠杆,把它的效果做到极致。这是它独特的价值。
所以 ChatGPT今天出来了之后,我其实是会怀疑另外一家公司有没有可能像它那样,可以更快地把这件事情给做出来。
《硅谷101》:你指的另一家公司是谁?是 DeepMind 吗?
陶芳波:有很多,包括Facebook,包括Google,包括DeepMind,包括国内的阿里腾讯。因为大模型本身目前来看还是大玩家的一个角力场,这些大玩家肯定每一家都希望有自己的一整套世界领先的大模型的架构。它背后如果没有一套很强的工程能力在支撑,只是靠大力出奇迹,我觉得也是不一定能达到这样的效果。
07“大力出奇迹”不完全适用,OpenAI的四大优势
《硅谷101》:因为之前在分享 GPT3 的时候就说了,最开始 GPT-3 证明了对足够多的数据与算力,我们就可以大力出奇迹。所以现在你觉得,并不是比如像谷歌或者Meta,或者阿里或者腾讯这样的公司去做了,就可以大力出奇迹,而是还有一些技巧在里面的是吗?我在想,OpenAI的核心竞争力是什么呢?
陶芳波:对,我是认同这一点的。我一直在看一个事情,就是谷歌在推自己的LaMDA。LaMDA 本身也不只是今年才出来的,它之前已经有好几年一直在做这个事情。它的目标我觉得和 ChatGPT 是类似的。谷歌可能也从某种程度上希望自我迭代,把它的搜索能力借由这样的大模型来提升。但是从公开出来的信息和它的使用的样例来看,其实 ChatGPT 的在对大模型的使用上比 LaMDA 是要强的。而它背后,大家的路线其实还是比较类似的,因此还是有一整个 engineering Excellence 在里面。
《硅谷101》:LaMDA 现在应该是没有开源的对吧?
陶芳波:对,没有开放。
《硅谷101》:对,准确的说应该是没有开放。我记得之前谷歌在 Google I/O 上有展示用 LaMDA 去订餐,对面其实是一个人工智能的助手接起来的。它的模拟场景就非常像一个真实的人,你可以点餐,可以说你要什么,它可以跟你share。但这只是一个 demo 的场景,它并没有真实地发生。
陶芳波:对,我理解是这样的。但是 LaMDA 做了其他的事情,是真的把外部的信息接入了。所以根据它的文章里面的描述,LaMDA 的使用的过程当中是可以在互联网上拿实时的信息来帮助它提升它的回答质量。这点可能 ChatGPT 没做好。
《硅谷101》:对,因为谷歌它毕竟还是有一个搜索的入口的。如果谷歌来做这件事情,你会觉得它比 OpenAI 更有优势吗?
陶芳波:我的观点是这样的 OpenAI 今天想要完全去替代掉谷歌,世界上最大的搜索引擎,那么它的成熟度还有很大的差距,因为搜索这件事情对产品的成熟度要求很高。比方说更多模态的搜索的内容,而这些事情只有谷歌能做到。GPT 还是一个对话引擎,它做不到这些。但是目前来看,我认为它在通过对于大模型的使用和它这回答的整个调优上面,ChatGPT 是有优势的,而且这种优势并不是简单的 follow 他的方法就可以做到的。因为家辉也说了,它并没有公开它的细节。
在这件事情上,如果它的优势可以保持足够长的时间,再加上 WebGPT 的能力,以及把一些多模态的信息整合进到它的回答里面,可能它会在更大程度上去代替谷歌能做到的事情。直到有一天,我们觉得也许它们真的是可以对比,甚至是在使用的时候会真的值得在两者之间选择。
余家辉:对,这里补充一点,我讲到了OpenAI的优势除了数据和算力之外,还有一个是对工程的感觉。
对于 OpenAI 来讲,首先它有一定时间的积累。最早 OpenAI 其实是做了很多强化学习的。它们有机器人团队,但后面就解散了。现在你又能看到在大语言模型里面,它们重新把强化学习利用起来。这些时间和这些经验的积累,是一些其他的公司都还比较缺少的。这是第一点优势。
第二,他们的成功需要一个人才积累。这个人才积累,并不是说钱给够了,人就会来。是不是有足够好的领导力,是不是这些人以前有没有一个成功的经历,我觉得也是必不可少的。
如果你说现在我们有了数据,有了算力,刚成立起来做一个团队,其实很难去吸引到这样的人才。还有一点优势有点像是组织逻辑的积累。OpenAI 背后在思考这些团队之间应该怎么去组织,使得整个公司的这样一个使命更加的高效去把这个东西做出来。这也是需要一定的积累的。
最后还有一点,在我看来是这种自信的积累。OpenAI 在整个 AI 往前去推动的过程中,有一个很好的成功的积淀。我们提到的 GPT-3,它已经是第三个版本了,最早有 GPT,GPT 2, 然后是 GPT-3 和 GPT-3.5。GPT-3.5 完了之后,它有一些往应用上发展的工作。像我们刚才所提到的 ChatGPT, WebGPT,还有传说里的 GPT-4。
这些成就也是一定程度上一边做一边积累了自信,从而可以更好地延续这种成功。所以对于原先的问题,是不是有足够多的数据和算力就能训练这样的模式,我觉得是远远不够的。比如我只要堆数据,堆算力,就可以成功,但其实真的做起来的时候,发现全部都是问题。这是我的观点。
《硅谷101》:我总结一下,说的特别好,时间跟经验的积累,人才积累、组织积累,还有自信的积累。也就是说,即使一个公司有数据跟算力,最后它的效果能不能达到 OpenAI 的效果,或者花几年的时间,它能不能追赶得上,可能都是一个问题。
陶芳波:家辉讲得特别好。除了刚才你提到的,还有一个认知的积累。OpenAI 在推动大模型,尤其是自回归的大语言模型的使用上面,在不断地尝试定义它自己的问题。
比方 Alignment research(是指引导人工智能系统的行为,使其符合设计者的利益和预期目标),这其实是他们花大精力投入的,而很多其他的机构没有在投入,或者说我不相信会有像他们那样的投入。比方说,他们为什么会引入强化学习,是因为他们认识到了大模型虽然知识面很广,能力很强,很通用,但并不知道怎么去更好地把新的标注清晰,把人的监督的信号更好地融入进去,所以他们才会再重新捡起强化学习来做这件事情。因此这些创新性的方法,代表了它背后其实不断地在认知上去探索大模型的使用边界。这个不是一家跟随他们公司可以很短期内追得上的。也许我们可以抄到他们的做法,但是抄不到他背后的整个思考。
《硅谷101》:你怎么看像 Google 或者 Meta 这样一直有在研究的公司呢?像Meta,它前一段时间也放出来消息说它可以自动生成视频。谷歌里面有DeepMind这样的的组织,也是非常类似于 OpenAI 的机构,同时它也有各种图片生成式的研发,包括 LaMDA 这种聊天机器人的。这样的研发,它其实方方面面都有触及到。你觉得它跟 OpenAI比的话,它能跟得上吗?
余家辉:大公司比较成熟的这种 Research Lab(研发实验室),我觉得对他们来说,其实真正重要的并不是能跟随整个研究,而应该是怎么继续去推进前沿或者去思考下一个 里程碑在什么地方,他们应该要去看这种问题。这个方面来说,我觉得 OpenAI 是有一定的优势。在目前,OpenAI在一定程度上不断地在创建下一个里程碑。
《硅谷101》:刚刚芳波你在回答问题的时候,你有提到OpenAI,它能不能替代谷歌,你觉得在现阶段可能它还是挺难的。我说一下我自己的几个小体验。我之前有在谷歌上搜索,比如一个 2 岁的儿童,他应该每天摄入多少脂肪。谷歌搜索给我的一些答案都是一些非常泛泛而谈的新闻稿,比如 0.5 岁,或者是1 到 2 岁,各自应该摄入多少。这些结果是一个非常泛的东西,我并不能从他的文章中得到我需要给一个 2 岁的儿童每天摄入多少脂肪的信息。但是我在 ChatGPT 上问了一下这个问题,它给我的回答非常好,大概分了几个层次告诉我,你应该根据小朋友的体重,有一个数据公式给你去计算,最后得到的是应该摄取的脂肪量。然后它还告诉我通用的标准是什么。
我当时看了以后,我不能确定他的回答是正确还是不正确,因为就像你说的,它有时候的回答是错误的。所以我又问了 ChatGPT 一个问题,一个女性每天应该摄入多少糖。它同样也是除了告诉我一个通用的数据以外,还有一套方法怎么样去计算女性的摄入的糖数。因为我是知道女生应该摄入多少糖的,所以我知道这个问题的答案。因此我觉得他的回答是正确的。反推到上一个问题,我好像可以相信他。从这个点上,我会觉得好像 ChatGPT 会比谷歌在使用上更容易,但是同时它可能也会有不精准,或者有很多实时信息,没有办法去更新的问题。
08ChatGPT pk Google:降维打击
《硅谷101》:你们觉得站在现在的角度看,ChatGPT还不能替代谷歌。但是站在未来的角度看,它有更多的数据,更精准的调配,和包括大家提到的WebGPT 的加入。那么我们从更长远的一点角度看,你们觉得他会是谷歌的一个竞争对手吗?
陶芳波:我简单说一下,刚才我也提到过了,如果我们把一个人对于信息的需求,尤其是主动式的信息需求分为几个步骤,第一步就是意图的理解,第二步去寻找合适的信息,第三步可能就是寻找完合适的信息之后做理解和整合,第四步可能就是回答。谷歌以前做得很好的几个点包括意图的理解,包括信息的匹配和寻找,包括它的呈现。其实这几步它做的都很好,但它其实一直在尝试对信息的理解和整合这步做的更多。你有的时候可以看到谷歌可以直接回答一些简单的问题,而这些答案会放在所有的页面之前。或者它右边有一个叫 entity panel (knowledge panel)的部分,可以直接把相关的知识用结构化的方式呈现出来。
其实谷歌在做这件事情上面花的时间会更长,只不过今天技术的发展让大家觉得其实对于知识的理解和整合这件事情其实用大模型来做会更好,而且它的效率会远远高于其他以前的技术。比如,相比于对于问题分类,如果是个天气问题,我就去查天气这种传统的对话机器人的方法,大数据模型会好很多。这就是ChatGPT 今天的优势。
所以 OpenAI 和谷歌可以理解为是在整个人对于信息需求的几个环节里面,各自占有一些优势。至于未来要发展的话,谷歌肯定也会更多的往理解的层面去走,ChatGPT 可能也会更多的往信息的匹配角度去走,比如说把 WebGPT 的东西融合进来,谁能更快,谁能把串在一起的体验做到更极致,我相信它未来有机会成为下一代的信息检索引擎中的一个。或者说,它都不应该叫信息检索引擎了,而应该叫做个人助理。
余家辉:芳波提到的最后一句,也说的非常好,它到底是不是还能叫做信息检索的引擎?有可能我们换一个角度来思考这个问题,我们应该考虑的并不是 ChatGPT 是不是颠覆这种搜索引擎的问题,而是应该思考 ChatBot 和这种搜索引擎之间的关系会是怎么样。
一定程度上,我在想, chat 或者对话这个东西本身它是一个比较完备的载体,你能从一定程度上做你想做的几乎所有事情,而这其中包括搜索引擎上的事。但它其实也不局限于搜索引擎上。因为刚才泓君所提到的案例,它还是一问一答的这么一个情况,而它其实能做的更多,它可以提供追问的答案。
现在的搜索引擎不具备这种体验。所以我们在比较的时候,一定程度上是有一点在小看ChatBot 所能带来的颠覆。我自己对 ChatBot 的整个未来的应用场景是非常看好的。当然它现在的状态还是需要提高。
余家辉:技术上还是需要提高,但是 ChatBot 这个东西或者载体,它是非常有应用场景的。一定程度上它的应用远大于一问一答式的,或者搜索式的。ChatBot,能做得比这远多得多的。我们在讨论的并不是能不能颠覆Google,而是它到底能带来怎么样的一个用户体验,或者能解决用户剩下的哪些还没被解决的一些痛点?
《硅谷101》:你们觉不觉得有一点像高维打低维?
陶芳波:我很同意。
余家辉:对,降维打击,ChatBot 确实是有这种能力。
陶芳波:对。我稍微补充一个观点,我看泓君也问了一个很有意思的问题,跟创业机会有关的。今天我们看到,更多的人是在说他到底能不能替代谷歌,但是从整个互联网的角度来讲,你会发现谷歌也只是其中一个很重要的信息服务,但不代表互联网全体,对吧?移动互联网里面每一个特殊的场景,我们都有各自的APP,我们有各种各样的网站来解决人的各种各样的信息需求,服务需求,甚至陪伴需求。我看到的其实更多的是后者满足的需求。
如果我们说 AI 可以是一个比互联网更大的机会,我相信被它重做的东西绝对不只是谷歌而已,而是我今天所有的软件的服务。无论它是用 APP 的形式,还是用一个网页的形式,它可能都可以被这种交互式的、角色式的能力给包起来,然后更自然地提供它的那些服务。这种能力的出现,其实是有可能重塑整个互联网行业的。所以这两天我听到有一个投资人在说,ChatGPT的出现,让他觉得他做 TMT 的投资可以再做 15 年。他说这话的原因也在这里。
可能以前我们对于人需求的满足,都是用一个 APP 或者一个软件来用信息化的方式更好地满足它。但也许今天我们到了一个新的拐点,可以把信息化再提升到一种基于对话为中心的服务上面。所以这里面机会是巨大的,而谷歌只是其中很小的一部分而已。它底下会有产生很多平台级的机会,甚至可以产生它自己的安卓系统,是非常令人兴奋的。
《硅谷101》:所以类似于像 ChatGPT,尤其是像 OpenAI 大模型这样的公司,它会成为未来的一个平台跟一个基础建设。