还记得今年 3 月 OpenAI 在发布 GPT-4 时提到的多模态功能吗?
▲ 新增了一个识图图标 图片来自:Reddit
然而,近日 Reddit 有网友发现,自己的 Bing Chat 账号悄悄新增了一个上传图片的入口,把图片上传上去后,Bing Chat 竟然会识图回答!
此前微软曾透露 Bing Chat 使用的正是 GPT-4 模型,并在上个月的大更新日志中有提到会为 Bing 加入多模态支持,综合来看,Bing Chat 很可能正在逐步开发向用户开放识图功能测试。
该网友对 Bing Chat 做了大量测试,让我们一起看看「长了眼睛」的 Bing Chat 有多厉害吧。
首先是 GPT-4 最让人拍案叫绝的看梗图功能。GPT-4 不仅可以理解图片里的内容,还能像人类一样分析出梗图的笑点在哪里。
例如这张梗图中,GPT-4 可以看出图片想要表达用过时的 VGA 形状的接口给 iPhone 充电是一件很荒谬的事,引入发笑。
Bing Chat 对另一张在汽车上烫衣服的梗图分析也同样到位。
OpenAI 在发布时还展示了一个拍手绘图就能编程网页的案例,该网友也手画了一张图考考 Bing。
让我们跳过冗长的代码环节,直接看看这个网页跑起来的效果。可以看出,基础的网页雏形还是搭出来了。
识图功能的加入给 Bing Chat 增添非常多的用途,毕竟现实中很多内容(例如公式、图表)很难用文字表达清楚,这时候直接一张图甩给 AI 就能得到回答。
让它扮演生物老师,分析一下肾元过滤的工作原理。
甚至可以让它充当网络医生,简单诊断一下皮肤症。
此前,ChatGPT 由于出色的文字理解和表达能力,已经被人们开发出了学外语、练口语的功能。
再加入视觉识别后,Bing Chat 甚至可以担任一个初高中乃至大学老师的角色,帮助学生解答复杂的数理化问题,如果未来能把识图功能推广开来的话,这也许在一定程度上可以解决教育资源不均衡的问题。
用户还可以用它做基础的医疗诊断,节约就医所需要的金钱和时间,体现出 AI 普惠大众的价值。
当然,Bing Chat 虽然能基本看懂现实世界的内容,但它的回答终究只能作为参考,不可以当做专业意见。
所以要完全向公众开放识图功能的话,微软还需要做大量的限制和调试,才能确保公众不会因为误信 AI 的回答而出现安全问题。
在短期内,Bing Chat 识图应该还只是少部分用户才可以使用的测试性功能,如果你感兴趣的话,可以立刻登录一下你的微软账号,看看在 Bing Chat 的聊天栏上是否多了一个图片的图标。
目前 Bing Chat 面向所有微软账户开放,快来开盲盒看看你有没有收到测试资格吧 ⬇️
相关文章
猜你喜欢