谷歌发布全新PaliGemma 2视觉模型能识别人们的情绪 2024-12-06 10:59:00

　　【CNMO科技消息】在众多为人工智能（AI）赋予“视觉”能力的模型中，谷歌的PaliGemma模型占据一席之地。作为谷歌的视觉语言模型，它能够识别图像中的物体和文字。近日，谷歌正式推出了全新的PaliGemma 2模型，并已投进使用。

谷歌发布全新PaliGemma 2视觉模型能识别人们的情绪

　　PaliGemma初代模型已是一款实用的工具，能够识别图像中的物体，并为图像添加字幕，甚至还能为短视频添加字幕。PaliGemma的一个更为实用的功能是能够回答关于图像的题目。因此，它是一款功能强大的综合模型。

　　谷歌于今年5月正式向公众先容了PaliGemma模型。谷歌希看PaliGemma 2能够成为初代模型的直接替换品。谷歌提供了多个版本的PaliGemma 2，包括30亿、100亿和280亿参数变体，以及224像素、448像素和896像素分辨率版本。

　　在其他规格方面，PaliGemma 2支持长文本字幕天生。谷歌表示，它将不仅仅局限于识别物体，还能识别人物并解读其情绪。因此，假如某人感到兴奋、悲伤等情绪，PaliGemma 2都能捕捉到。

　　此外，该模型似乎还能识别场景中发生的更多内收留，以讲述完整的故事。谷歌称，PaliGemma在识别乐谱、化学公式、识别深度以及制作胸部X光片报告方面表现更佳。谷歌为PaliGemma带来了相当明显的更新。假如你想使用它，可以在Hugging Face、Kaggle和Ollama平台上获取其代码。

　　谷歌还发布了其视频天生模型Veo的私有预览版。该公司在今年的谷歌I/O大会上公布了这一消息。假如你正在使用谷歌的Vertex云平台，那么你将有机会进行尝鲜。你可以天生最高达1080p分辨率的视频。

本文地址：/news/533.html

评论列表（条）

发布评论取消回复

谷歌发布全新PaliGemma 2视觉模型 能识别人们的情绪 2024-12-06 10:59:00

谷歌发布全新PaliGemma 2视觉模型能识别人们的情绪 2024-12-06 10:59:00