首页 AI

微软推出最新视觉基础模型Florence-2 ,可在WebGPU的浏览器独立运行!

2024-07-06 1 次阅读 会员专享
微软推出最新视觉基础模型Florence-2 ,可在WebGPU的浏览器独立运行!

Florence-2:微软全新开源视觉模型! 能够执行超过10种不同的视觉任务 包括图像字幕生成、对象检测、图像区域关联和分割等。 它不仅能描述图片的内容,还能识别图片中的物体,并指出这些物体的位置。 比如,如果你给它一张公园里的图片,它可以告诉你图片里有一个穿蓝衣服的女孩在玩耍,旁边还有一只狗。 Florence-2 系列包括 Florence-2-base 和 Florence-2-large,参数分别为 0.23 亿和 0.77 亿。尽管模型较小,但性能并不逊色。 可以运行在各种资源受限的移动端设备上。 Florence-2 采用统一的、基于提示的表示方式来处理各种视觉任务。 通过简单的文本提示,模型可以生成所需的文本形式结果,无论是图片描述、目标检测、视觉定位还是图像分割。这种方法简化了多任务处理的复杂性,提高了模型的通用性和适应性   Florence-2是Microsoft 在MIT 许可下开源的轻量级视觉语言模式。该模型在字幕、物件侦测、接地和分割等任务中展示了强大的零样本和微调功能。 尽管尺寸很小,但它所取得的结果与大许多倍的模...

🔒

登录后继续阅读

登录账号即可免费阅读本文

立即登录 还没账户? 注册