机器视觉领域迎来GPT-3时刻！新模型接连炸场图像识别门槛大幅降低-华威派

> 自媒体 > AI人工智能 > 机器视觉领域迎来GPT-3时刻！新模型接连炸场图像识别门槛大幅降低

机器视觉领域迎来GPT-3时刻！新模型接连炸场图像识别门槛大幅降低

来源：科创板日报

2023-05-05

305

管理

《科创板日报》4月10日讯（编辑郑远方）短短一周不到，视觉领域接连迎来新模型“炸场”，图像识别门槛大幅降低——

这场AI热潮中鲜见动静的Meta终于出手，推出Segment Anything工具，可准确识别图像中的对象，模型和数据全部开源；

国内智源研究院视觉团队也提出了通用分割模型SegGPT（Segment Everything in Context），这也是首个利用视觉上下文完成各种分割任务的通用视觉模型。

其中，Meta的项目包括模型Segment Anything Model（SAM）、数据集Segment Anything 1-Billion mask dataset（SA-1B），公司称后者是有史以来最大的分割数据集。

引起业内轰动的便是这一SAM模型：

1. 正如名字“Segment Anything”一样，该模型可以用于分割图像中的一切对象，包括训练数据中没有的内容；

2. 交互方面，SAM可使用点击、框选、文字等各种输入提示（prompt），指定要在图像中分割的内容，这也意味着，用于自然语言处理的Prompt模式也开始被应用在计算机视觉领域。

3. 对于视频中物体，SAM也能准确识别并快速标记物品的种类、名字、大小，并自动用ID为这些物品进行记录和分类。

英伟达人工智能科学家Jim Fan将Meta的这项研究称作计算机视觉领域的“GPT-3时刻”之一——其分割方法可以通用，可对不熟悉的物体和图像进行零样本泛化，初步验证了多模态技术路径及其泛化能力。

进一步来说，SAM可以灵活集成于更大的AI系统。例如，理解网页的视觉和文本内容；在AR/VR领域，将头显用户视线作为提示来选择对象，然后将其“提升”到3D中；对于内容创作者，SAM可提取图像区域以进行拼贴或视频编辑；SAM还可通过定位动物或物体在视频中进行研究和跟踪。

另一方面，智源研究院视觉团队的SegGPT模型则更偏重于批量化标注分割能力。无论是在图像还是视频环境，用户在画面上标注识别一类物体，即可批量化识别分割出其他所有同类物体。

例如，若在一张图像中标注彩虹，便可将其他图像中的彩虹也一同批量识别分割出来。

西部证券指出，Meta此次推出SAM，预示着大模型在多模态发展方面更进一步，布局计算机视觉/视频的厂商有望持续受；还有券商补充称，SAM模型突破了机器视觉底层技术。

国盛证券预计，预计1-5年内，多模态发展将带来AI泛化能力提升，通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活；5-10年内，结合复杂多模态方案的大模型有望具备完备的与世界交互的能力，在通用机器人、虚拟现实等领域得到应用。

据《科创板日报》不完全统计，A股中有望受益于多模态发展的公司有：

赏钱

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

普通用户玩不起的GPT-3 API，已在300多个应用中部署

2023-05-05 20:36

Meta复刻GPT-3“背刺”OpenAI，完整模型权重及训练代码全公开

2023-05-05 20:35