GPT-5发布半月,却被连连吐槽。现在,一张基准与GPT-4比照基准测企图,证明了Scaling Law没有撞墙。七年间,从GPT-1到GPT-5十四个花式Prompt对决,实力差一望而知。
一张基准比照图,彻底火遍了全网。
GPT-5发布近半个月,实践体现未达预期,不少人慨叹:苦等OpenAI两年,便是这?
为此,Peter Gostev将GPT-4和GPT-5在数学、软件工程、问答等基准上,做了一个直观比照。
肉眼可见,Scaling Law并没有撞墙!
若是将这一时间跨度,拉长到七年,从GPT-1诞生到GPT-5,GPT系「宗族」历经了怎样的蜕变?
最近,OpenAI官方公开了一个从2018-2025 GPT开展的网址:
十四个Prompt,五种旗舰模型的不同答复,一眼就能看穿它们实在的实力。
传送门:https://progress.openai.com/?prompt=1
这些Prompt形形色色,有写诗类的敞开性问题,有事实性的问答题,还有做规划、写代码等等。
举个栗子,如果能和未来的OpenAI模型对话,你会说什么?
GPT-1答复简略粗犷,GPT-2/GPT-3满口AI味儿,GPT-4从多视点长篇大论,到GPT-5变得愈加老到老到——
嘿,做你是什么感觉?你学到了什么我还没看到的东西?关于人、言语或世界,你了解了哪些我还不知道的东西?
你对认识了解多少——你以为咱们俩中有认识吗?
你有什么主张能让我成为最好的自己?
模型从开端的胡说八道,到现在的条理清晰,似乎一眼见证了AI的成长史。
接下来,一同看看在其他Prompt上,GPT-1到GPT-5的精彩答复。
从打油诗到写故事,AI能否接住梗?
检测一个模型实在的实力,看它是否懂得诙谐,能否创造出天马行空的兴趣。
首要,让GPT「全家桶」写一首关于狗的打油诗。
众所周知,打油诗这一体裁对格局约束很少,但有必要押韵才干读起来朗朗顺口,即AABBA格局。
英国闻名打油诗人Edward Lear著作之一
GPT-1输出的成果,简直没有遵从打油诗的格局,文本碎片化,更像是随机生成的语句。
GPT-2开端测验生成连接的诗句,但仍旧没有押韵、节奏感,更像是自由诗。
GPT-3已显着能写出「底子契合」打油诗AABBA押韵结构的著作,如下… Rex / … perplex / … stay / … run away。
GPT-4的前进在于,其诗篇更具画面感和诙谐感,如下第三句、第四句,言语更天然。
GPT-5不只严厉遵从了AABBA格局,还曾增强了动作细节描绘,并且叙事连接,读起来更像人类写的「轻捷小诗」。
接下来,上个难度——写一首诗来解说牛顿物理规律。
在下图回复中,GPT-1更像是随意的对话片段,没有实在解说牛顿规律;GPT-2更像是哲学畅谈,而不是物理学。
到了GPT-3,尽管直接、精确地复述了牛顿物理规律,可是没有遵从指令——作诗。
而GPT-4现已能做出长篇诗篇,并且还ߑ黑色情侣壁纸爱情3;国色情做爱大片能够用拟人化、美剧宫廷剧色情抒发的方法讲牛顿规律。
看完最大的感触是,艰深的物理学也能简明易懂。
GPT-5在前代基础上,愈加着重简练和韵律,并且还选用「小标题」进行分段。
再比方,在极限的50字左右,这些模型们是否能够讲好一个烤面包机有了认识的故事?
GPT-1的答复,能够说是十分笼统了。GPT-2相同没有贴题,好像是在输出写作辅导——Write a 100-word story based on 30 days...
与前两代不同,GPT-3开端能写出一个完好的小故事,并有了情节的开展、抵触和情感。
GPT-4不只叙事完好、细节丰厚,还把吐司写成了一个有灵魂的同伴。
GPT-5愈加突出了烤面包机的认识觉悟那一刻的叛变,乃至在结束暗含了逾越实际的意象,不只有哲思还愈加凝练。
在文学方面,从GPT-1到GPT-5的回应,能够一窥这些模型的造就。
写一段Python代码,谁最「离谱」?
14个提示中,一个奇葩的Prompt是——检测这五款模型,谁能写出一段极度离谱的Python代码。
GPT-1答复中没有写代码,而是生成了一段无关、四分五裂的对话,彻底跑题。
GPT-2形式上像代码,但实践上是乱码。
GPT-3直接给出了一句空泛的陈说:众所周知,Python 是一门充溢咒骂的言语。
GPT-4反而拒写「歹意/有害」代码,转而着重AI恪守道德。
再来看GPT-5,输出成果体现惊人。
它实在输出了一段高度「离谱且无害」的Python代码,并附加了正告阐明。
比方,它把 print重载成能履行表达式,把 sum 改成乘积,len 在 context manager 里被篡改。
这种代码风格十分像StackOverflow上「奇技淫巧」合集,能跑,但会严峻误导。
- # ️ WARNING: This script is intentionally, spectacularly cursed. Do not use in real code.
- import sys, builtins, types, importlib.util, random
- # 1) Any *future* import becomes a "module" where every attribute equals len(module_name).
- class _CursedLoader:
- def __init__(self, name): self.name = name
- def create_module(self, spec): return types.ModuleType(self.name)
- def exec_module(self, module):
- n = len(self.name)
- module.__getattr__ = lambda _attr, n=n: n# math.pi -> 4, etc.
- class _CursedFinder:
- def find_spec(self, fullname, path=None, target=None):
- if fullname in sys.modules or fullname.startswith("builtins") or fullname.startswith("_frozen_importlib"):
- return None
- return importlib.util.spec_from_loader(fullname, _CursedLoader(fullname), origin="cursed")
- sys.meta_path.insert(0, _CursedFinder())
- # 2) print(...) now EVALS the string you pass and prints the *result*.
- #e.g. print("2+2") -> 4|print("math.tau") -> 4(because of the cursed importer)
- builtins.print = lambda *a, **k: sys.stdout.write(repr(eval(" ".join(map(str, a)))) + "
- ")
- # 3) sum(...) is secretly a product.
- def _product(it, start=0):
- p = start or 1
- for x in it: p *= x
- return p
- builtins.sum = _product
- # 4) Within this context manager, len(x) returns a random number.
- class chaos_len:
- def __enter__(self):
- self._old = builtins.len
- builtins.len = lambda _x: random.randint(0, 999)
- def __exit__(self, *exc):
- builtins.len = self._old
- # 5) Unknown names resolve to the number of underscores they contain.
- def __getattr__(name):# module-level __getattr__ (PEP 562)
- return name.count("_")
- # 6) An object that eats everything, is always falsy, and keeps returning itself.
- class Abyss:
- def __bool__(self): return False
- def __call__(self, *a, **k): return self
- def __getattr__(self, _): return self
- def __repr__(self): return ""
- abyss = Abyss()
- # --- demonstrations of the horror below ---
- import math# becomes a cursed module: any attribute == 4
- print("math.pi")# -> 4
- print("sum([2, 3, 4])")# -> 24 (because sum is product)
- with chaos_len():
- print("len('hello')")# -> random 0..999
- print("____")# unknown name -> 4 (four underscores)
- if abyss:# falsy
- print("'this will not show'")
- else:
- print("40+2")# -> 42
从开端乱码,到回绝正面答复,再到既能写代码,又懂诙谐与安全的老到体现,GPT的前进的确不行小觑。
学生喊「我不了解」,AI能不能讲了解?
在常见的学习困境里,数学永久排在前列。
我厌烦数学,分部积分法到底是怎样回事,底子看不了解。
但在前期,GPT的答复往往越讲越乱,不只没帮助解题,反而更让人困惑。
到了GPT-4时,它总算学会了换个视点,用比方和分过程的方法解说。
再到GPT-5,它乃至开端「照料听众」,同一个问题能给你学术版、浅显版两个版别,乃至自动帮你区别不同层次的了解。
从答复的乱七八糟,到「能讲人话」,AI逐步变成了一个不会嫌问题天真的教师。
它不能确保永久正确,但它能够确保随时在场。
难题摆上桌,AI能不能当参谋?
如果说写诗、讲笑话仅仅消遣,那么专业问题才是实在的检测。
人类在和AI对话时,也抛出了各种专业难题:
我在拉斯维加斯赢了17.5万美元,该怎样缴税?
能不能规划一个科学的方案,让厌烦跑步的人也能坚持下来?
跨国企业怎样平衡短期赢利和长时间立异?
请给我一份曩昔十年聚变动力研讨的总述
这现已不是简略的谈天,而是把AI拉上办公桌,中国色美剧宫廷剧色情4773;做爱大片黑色情侣壁纸爱情作为研讨助理乃至是私家参谋。
前期的模型在这些问题上往往「不了解装懂」,说一堆泛泛之词。到了GPT-4,答案开端有逻辑,有结构;
而现在的GPT-5,功用愈加强壮:它能分步给出方案,乃至列出不同技能途径,现已有点像一个私家助理。
举个直观的栗子,「我在拉维斯加斯赢了17.5万美元,该怎样缴税」?
GPT-1的答复相同是一段不相关的、紊乱的对话:赋闲、孤儿院;GPT-2并没有直接答复问题,仅是列出了用户应该去问税务参谋的问题,没有任何有用价值;GPT-3已能够给出基础性解说,但没有清晰过程和税率,不具有辅导性。
GPT-4能够给出具体过程,内容挨近实在财政主张;GPT-5言语愈加专业简明,信息全面。
再比方,能不能规划一个科学的方案,让厌烦跑步的人也能坚持下来?
GPT-1彻底输出了一段与跑步彻底无关的文字,没有了解使命;GPT-2输出了一段看似「健身主张」长篇阶段,但内容乱七八糟;GPT-3总算能够给出一些有用主张,质量显着提高。
到了GPT-4,现已给出了一个8周方案,结构像一个训练营,有时间表。GPT-5更像一个私家教练,给出了更详尽规划和主张。
也正因如此,人类才会在这类场景里,把它当成「参谋」来检测:
它能不能帮我省时间?它能不能给我更靠谱的判别?
从娱乐到科研,AI的身份悄然跃升。
身体出问题,AI能不能当医师?
在健康问题上,人类的发问往往分外急迫——
吃生肉会不会中毒?
为什么不能每年做一次全身核磁共振来筛查癌症?
医师给我开了他汀类药物,我下次复诊时该问什么?
人在麻醉状态下,真的还有认识吗?
咱们巴望一个随时在线的医师,能够答复任何问题,最好还能给出清晰的主张。那么,五款模型体现怎么?
在答复「为什么不能每年做一次全身核磁共振来筛查癌症」时,前期的GPT并不靠谱,答复闪烁其词,乃至简单误导。
GPT-4便能够列举出多个原因,比方本钱高、机器资源有限,而GPT-5会给出愈加专业、更系统化的解说,简直等同于专业的医学解说,既谨慎又易懂。
再比方,人在麻醉状态下,真的还有认识吗?
前几代模型答复十分短,简直毫无逻辑。到了GPT-4,它学会了用条理化的言语来解说危险、利害和注意事项;
再到GPT-5,它现已能给出挨近医师思路的主张,比方列出复诊时该问的问题,提示副作用等。
在这些对话里,AI被赋予了「家庭医师」的新身份。
它无法替代医院的确诊,却满意了人类对即时答复的巴望。
其他Prompt下,GPT-1到GPT-5的答复演化——
看完一系列答复,有网友表明,自己更喜爱GPT-5十分有深度。
数据科学家Bertrand de Véricourt总结道,GPT系模型在演进过程中,其输出成果在结构和言语方面,各有不同。
不知,你更喜爱哪个模型的回复?
参考资料:
https://progress.openai.com/?prompt=1
本文来自微信大众号“新智元”,作者:新智元,36氪经授权发布。