CV不存在了？Meta发布“分割一切”AI 模型，CV或迎来GPT-3时刻-华威派

> 自媒体 > AI人工智能 > CV不存在了？Meta发布“分割一切”AI 模型，CV或迎来GPT-3时刻

CV不存在了？Meta发布“分割一切”AI 模型，CV或迎来GPT-3时刻

来源：机器之心Pro

2023-05-10

264

管理

机器之心报道

机器之心编辑部

CV 研究者接下来的路要怎么走？

SAM 还能用交互式点和框的方式进行提示：

方法介绍

此前解决分割问题大致有两种方法。第一种是交互式分割，该方法允许分割任何类别的对象，但需要一个人通过迭代细化掩码来指导该方法。第二种，自动分割，允许分割提前定义的特定对象类别（例如，猫或椅子），但需要大量的手动注释对象来训练（例如，数千甚至数万个分割猫的例子）。这两种方法都没有提供通用的、全自动的分割方法。

SAM 很好的概括了这两种方法。它是一个单一的模型，可以轻松地执行交互式分割和自动分割。该模型的可提示界面允许用户以灵活的方式使用它，只需为模型设计正确的提示（点击、boxes、文本等），就可以完成范围广泛的分割任务。

总而言之，这些功能使 SAM 能够泛化到新任务和新领域。这种灵活性在图像分割领域尚属首创。

Meta 表示，他们受到语言模型中提示的启发，因而其训练完成的 SAM 可以为任何提示返回有效的分割掩码，其中提示可以是前景、背景点、粗框或掩码、自由格式文本，或者说能指示图像中要分割内容的任何信息。而有效掩码的要求仅仅意味着即使提示不明确并且可能指代多个对象（例如，衬衫上的一个点可能表示衬衫或穿着它的人），输出也应该是一个合理的掩码（就如上面动图「SAM 还能为为不明确的提示生成多个有效掩码」所示）。此任务用于预训练模型并通过提示解决一般的下游分割任务。

如下图所示，在引擎盖（hood）下，图像编码器为图像生成一次性嵌入，而轻量级编码器将提示实时转换为嵌入向量。然后将这两个信息源组合在一个预测分割掩码的轻量级解码器中。在计算图像嵌入后，SAM 可以在 50 毫秒内根据网络浏览器中的任何提示生成一个分割。

SAM 还有可能在农业领域帮助农民或者协助生物学家进行研究。

未来在像素级别的图像理解与更高级别的视觉内容语义理解之间，我们将看到更紧密的耦合，进而解锁更强大的 AI 系统。

参考链接：

https://ai.facebook.com/blog/segment-anything-foundation-model-image-segmentation/

https://www.zhihu.com/question/593914819

赏钱

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

启明创投周志峰：硬科技创投的冰与火，三大领域大有可为｜WISE2022 新经济之王大会

2023-05-10 22:13

开发者利用GPT-3开发语音助手

2023-05-10 22:10