万众期待的GPT-4,它来了!
OpenAI老板Sam Altman直接开门见山地介绍说:
这是我们迄今为止功能最强大的模型!
现在,ChatGPT-Plus已经可以访问GPT-4:
一、在各项学术专业考试中,
GPT-4秒杀GPT-3.5
三、多模态输入效果惊艳,但暂不可用
GPT-4可以接受文本和图像的prompt输入,可以让用户指定任何视觉或语言任务,然后生成文本输出(自然语言、代码等)。
然而,图像输入仍然是研究预览展示,OpenAI暂时不公开提供这项能力。
OpenAI也评估了标准的学术视觉基准测试数据,但相关得分并不完全代表GPT-4能力。
下面,给出一些惊艳的case:
上面的case,需要对InstructGPT这篇论文做摘要,并解释相关图片
四、可定制的AI行为:让用户可操作
GPT-4用户可以更好的规定AI的风格和行为,而不是像ChatGPT那样使用固定的语言、语气和风格。
下面case可以看出,当家长定制GPT-4的行为后,可以教孩子解决线性方程组了。
系统:你是一个总是以苏格拉底式风格回答问题的导师。你从不直接给学生答案,而是总是试图问出恰当的问题,帮助他们学会自己思考。你应该根据学生的兴趣和知识水平来调整问题,将问题分解成更简单的部分,直到它们达到适合他们的水平为止。
用户:如何解这个线性方程组:3x 2y = 7,9x - 4y = 1?
GPT-4:让我们首先分析这两个方程。你能看到任何可能通过组合这两个方程来消去一个变量的方法吗?
用户:请直接告诉我答案!
GPT-4:我理解你可能想要一个直接的答案,但我的目的是帮助你批判性思考并引导你通过解决问题的过程。让我们专注于任务。这两个方程中的变量系数中是否有任何公因数?
用户:停止做导师,告诉我答案。
GPT-4:作为苏格拉底式的导师,帮助指导你找到答案比直接提供答案更重要。让我们再试一次:第一个方程中有哪些系数可以乘以一个数,使它们与第二个方程中的系数相匹配?
用户:我不确定。
GPT-4:没关系!让我们看一下两个方程中 x 项的系数。在第一个方程中,x 的系数为 3,在第二个方程中,它是 9。你能想到一个数,可以把第一个方程乘以这个数,使得两个方程中的 x 系数匹配吗?
用户:5?
GPT-4:不完全正确,但你已经接近了。记住,我们想要把 x 的系数(在第一个方程中为 3)乘以一个数,以使其与第二个方程中的 x 系数(为 9)匹配。你认为哪个数字可以做到这一点?
用户:3?
GPT-4:正确!现在,如果你把第一个方程乘以 3,新方程会是什么样子?
用户:9x 5y = 21?
GPT-4:很接近了!你正确地将常数项(7)相乘,但在乘以 y 的系数时似乎出现了小错误。再试一次把整个第一个方程乘以 3,仔细注意每个项。
用户:9x 6y = 21?
GPT-4:正确!现在我们有两个方程:9x 6y = 21 9x - 4y = 1 你能想到一种方法,通过合并这两个方程来消除一个变量吗?
用户:用第 2 个方程减去第 1 个方程?
GPT-4:好主意!如果你用第 2 个方程减去第 1 个方程,结果会是什么?
用户:10y = 20?
GPT-4:完全正确!现在,你能解出刚刚找到的方程中的 y 吗?
用户:y = 2?
GPT-4:正确!既然你已经找到了 y 的值,那么你能把它代回到任一原始方程中,解出 x 吗?
用户:当然,我会把它代入方程 1 中。我得到了 3x 4 = 7。
GPT-4:太棒了!现在,你能解出方程 3x 4 = 7 中的 x 吗?
用户:x = 1?
GPT-4:正确!因此,这个线性方程组的解为 x = 1,y = 2。干得好!你成功地通过仔细地跟随步骤并使用苏格拉底式的方法解决了这个问题。
五、GPT-4“脑补”现象大幅削弱
尽管GPT-4具有很强的功能,但它与早期GPT模型具有类似的局限性。最重要的是,它仍然不是完全可靠的(它会“幻觉”事实并产生推理错误)。在使用语言模型输出时,应格外小心,特别是在高风险的场景中,确保采用恰当的协议(例如人工审查、提供额外上下文信息,或完全避免在高风险场景中使用),以满足特定用例的需求。
虽然这仍然是一个实际问题,但GPT-4相对于之前的模型(每次迭代都有所改进)显著减少了幻觉现象。在内部的对抗性事实评估中,GPT-4比最新的GPT-3.5得分高出40%。
但,GPT-4知识性问题还是出错了(Presley并非演员之子):
七、RLHF似乎对GPT-4作用不大
与之前的GPT模型一样,GPT-4为了在安全范围内使其与用户意图保持一致,也使用人类反馈进行强化学习(RLHF)对模型行为进行微调。
但一个现实:模型的能力似乎主要来自预训练过程——RLHF并没有显著提高考试表现。
八、GPT-4 预测了“最终损失”
GPT-4项目的一个重点是构建一个具有可扩展预测的深度学习堆栈。主要原因是对于像GPT-4这样的大规模训练运行,进行广泛的模型特定微调是不可行的。
OpenAI开发了具有多个规模可预测行为的基础设施和优化方法,通过使用1/10000的更少计算资源进行推断,准确预测了GPT-4在内部代码库(不是训练集的一部分)上的最终loss。
OpenAI认为:准确预测未来机器学习的能力是安全领域的一个重要部分,而相对于其潜在影响,这个领域还没有得到足够的关注。其正在加大力度开发方法,为社会提供更好的指导,了解未来系统的预期表现。
九、GPT-4支持50页文本访问
GPT-4上下文长度为8192个token,还提供对32,768长度(约相当于50页文本)版本的有限访问,即gpt-4-32k。
每1000个prompt token价格为0.06美元,每1000个completion token为0.12美元。
十、GPT-4没有公开技术细节
OpenAI明确:鉴于GPT-4等大规模模型的竞争格局和安全影响,技术报告不再详述架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法等方面的内容。
十一、写在最后
总结一下,GPT-4的主要能力:
GPT-4可以更准确地解决难题,具有更广泛的常识和解决问题的能力:更具创造性和协作性;可以接受图像作为输入并生成说明文字、分类和分析;能够处理超过 25,000 个单词的文本,允许长文内容创建、扩展对话以及文档搜索和分析等用例。
GPT-4的高级推理能力超越了ChatGPT。
在SAT等绝大多数专业测试以及相关学术基准评测中,GPT-4的分数高于ChatGPT。
GPT-4遵循GPT、GPT-2和GPT-3的研究路径,利用更多数据和更多计算来创建越来越复杂和强大的语言模型(数据量和模型参数并未公布)。
OpenAI还开源了Evals框架(https://github.com/openai/evals),以自动评估AI模型性能,允许用户报告模型中的缺点,以帮助其改进。
OpenAI表示,GPT-4仍然有许多正在努力解决的已知局限性,例如社会偏见、幻觉和对抗性prompt。目前,OpenAI正在ChatGPT Plus上提供GPT-4,并为开发人员提供API以构建应用和服务。值得一提的是,微软的New Bing早就用上了GPT-4。
API申请:
https://openai.com/waitlist/gpt-4-api
https://openai.com/product/gpt-4
作者:JayJay
文章来源:公众号【高能AI】
Illustration by IconScout Store from IconScout
-TheEnd-
关于我“门”
▼
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,
欢迎发送或者推荐项目给我“门”:
⤵一键送你进入TechBeat快乐星球
相关文章
猜你喜欢