本文原创于微信公众号:差评作者:世超
“大模型是工业革命级生产力工具,不是消磨时间的娱乐工具”
(资料图片仅供参考)
“GPT的出现,代表着超级人工智能的来临”
虽然大家可能已经看厌了 AI 的消息,但是,周鸿祎实诚的金句,世超我总是百看不厌。
有着这样一位快人快语的头儿,360智脑大模型肩上的担子,恐怕是相当的沉。
为了能跟上老板的节奏,团队卯足了劲。
在世界智能大会上,周鸿祎宣布和智谱AI牵手合作,给360智脑来了个双倍加料。
不仅仅是双倍大模型,并且功能上也是两面开花,除了有对话形式的 360智脑,还上线了画图的 360鸿图。
这距离上次世超体验,才一个月不到。。
正好,这回呢 360也给了世超“偷跑”的机会,让我提前试用到了这个双倍加料版。
讲实话,本来没抱多大希望,才一个月时间,能有多少更新呢。
结果,试用下来,我发现这回的智脑和一个月前比,完全就是另一个东西了。。
首先外形上,就来了个大变样。从搜索侧边栏,变成了单独的聊天界面。
先别急着笑,之所以变成这样的界面,是因为 360改变了大模型的思路。
把之前的“大模型给搜索引擎打辅助”,变成“搜索引擎给大模型打辅助”。
这个思路最明显的体现,就是它的回答优化功能。
当我们问完一个问题,如果觉得它答得不够完美,或者过于简陋。
像下面这种,让它解释八字词语,就用了“时间过得极快”六个字。
虽然意思是没错,但咱们作为甲方,肯定觉得这个同学态度懈怠啊,答案还没问题长。
这个时候,我们就可以点击提问框下面的【使用搜索回答】,智脑就可以做到联网了。
通过抓取的答案,智脑果然对这句成语,逐字逐句地解释优化了。
并在文案最后,附上了资料的来源链接,链接点进去是来自 360国学。
这个设计好的点在于,联网功能有时候会扰乱大模型本来的训练知识。这时候,就可以通过【搜索优化】按钮,来回切换联网和不联网的状态。
后面,世超又试了几次,大部分问题优化后,回答都精准了不少。
比如,点播一个经典老番:周鸿祎为什么老爱穿红衣服?
第一次的回答,虽然没错吧。但是,这么一板一眼的,感觉对自己的老板了解还是不够深啊。
优化之后,才算是把周总喜欢穿红衣的两个理由都说清楚了。
优化前
优化后
而且,两个信息分别是从快科技和搜狐网抓取的,看来智脑的抓取库,应该远不止 360自己的生态。
虽然还没正式开始能力测试,不过这一项优化更新,是让世超眼前一亮了一下。
让我对这个超进化版,更加好奇了,让我们继续试下去。
在测一代的时候,智脑的基础能力还有点薄弱,尤其在【语义理解】上经常会犯傻。
所以,为了给智脑一个下马威,我专门找了上次把智脑问倒的中文四六级。
提问:张三差点上上上上上海的车什么意思?
结果,智脑这回居然做得跟范本一样,还分别解释了一下每个“上”是什么词性和意思。
为了防止这小子背着我偷偷练错题了,我又找了一道没做过的题。
提问:人要是行,干一行行一行,一行行行行行行行行干哪行都行。
说实话,连我自己都被“行”晕了,但智脑还是分析得头头是道。
而且,不仅仅是中文语义理解加强了,对于中文语境下的专属文化,智脑也更加地上道。
领导:我就再讲五分钟。
智脑:请讲,我准备好持久战了。
别人:你的语文是体育老师教的吧
智脑:你挺幽默的嘛。
连着两轮败下阵来的世超,觉得必须上点小难度了。
设计了一道【长文本生成】,而且,特地在问题里,给智脑下了个套。
提问:我想采访鲁迅本人,帮我设计几个问题。
不过,智脑果然没有发现题目里的陷阱,我可没办法采访到已故的人。
但好在,给的这几个问题,世超觉得还挺多维度的。
尤其是第二个,关于当年闹得满城风雨的兄弟反目的“传说”,我真的蛮想知道的。。
不对啊,这感觉不对,才一个月时间,怎么智脑语文水平就突飞猛进了。。
不仅仅上次的缺点,已经全面优化了。之前就已经很强了的百科问答,这回依靠语义理解能力提升,也表现得更好了。
当世超问到一些偏门领域的专业问题,搜索起家的精准数据,对大模型的加持,就体现出来了。
当时,我在写一篇关于东南亚流媒体市场的文章,其中有一个比较偏门的知识。
提问:在印度西尼亚封杀了 Netflix 整整 4 年时间的电信运营商是谁?
一开始,我是直接在谷歌里搜索,发现答案都不是很清晰。要么需要在一篇长文章里提炼,要么就干脆搜不到。
于是,我就顺嘴问了一下智脑。
结果,它不仅知道是 Tlkom Indonesia 封杀了奈飞,甚至精准说出了解封的时间点。
注意此时我并没有开启搜索优化,也就是说。这个偏门的知识,是智脑原本数据训练时,就有的。
后来,我试着问了最新的 GPT-4 ,居然也败下阵来。
虽然用中文问 GPT-4 ,有点欺负它了。但还是能感受到一些,智脑庞大和精准的数据。
没想到,几轮文本题目测试下来,智脑居然都没出现错误。
为了扳回一局,世超觉得最后两轮,必须得上大模型最不擅长的【弱智吧100问】和【数学逻辑题】迎战了。
一开始问了道经典老题,小明和他爸爸的名字,智脑还能应对下来。
后面我试了点小把戏,把问题变形了一下,它也能对上。
不过,继续试验下去,面对一些更奇怪的逻辑,智脑的问题就暴露出来了。
在数学题方面也是,就算两个千亿级大模型联合,还是容易犯一些小错误。
在做鸡兔同笼问题的时候,虽然公式列的都是对的,但是居然把兔子和鸡的脚数错了。
可惜啊,数学这个东西,就是一步错,步步错了。
而且,在后续大量的测试里,世超发现了【搜索优化】抓取的信息,有时候会不够新。点进提供的链接,会发现页面已经丢失了。
看智脑在数学逻辑和页面抓取上的表现,感觉世超和 360智脑,可能还得下次见面再碰一碰了。
但这些瑕疵,其实也都是市面上大模型的通病,是需要整个业界去攻破的难题。
还记得 360智脑第一次给到世超试用的时候,当时我引用了周鸿祎的一句话:“现在这个‘ 孩子 ’还没有准生证,只是一个未完成的版本。”
第一代在语义理解和逻辑思考上,确实都不太行。周鸿祎自己也说了,咱们还有相当的一段路要走。
但是,仅仅一个月时间, 360智脑就已经优化到这样了。
如此之快的发展,除了自己的训练和升级之外,其中一定也少不了和智谱大模型强强联手的原因。
世超觉得,这或许是一个对的思路和方向。
所以这次的结尾,世超还是想引用一句周鸿祎的话来收尾:
“未来中国不会只有一个大模型。”
现在的国产大模型,还没到一个谁干掉谁的阶段,大家都还在奔跑的路上。
这个时候,如果和其他模型互相取其长,补其短,那么提升速度就能再翻一倍。
智脑的这一代更新,也印证了这个方法的正确。
图片、资料来源:
360 智脑
标签: