AI情绪识别软件,瞬间读懂你笑容背后的秘密!

【CNMO科技新闻】在人工智能(AI)领域中,谷歌的PaliGemma模型以其卓越的视觉识别能力独树一帜。作为谷歌推出的一款视觉语言模型,PaliGemma具备识别图像中物体和文字的强大功能。最近,谷歌又推出了全面升级的PaliGemma 2模型,并已投入实际应用。

PaliGemma初代模型已然成为业界的实用工具,不仅能够识别图像中的物体,还能为图像和短视频添加精确的字幕。更令人印象深刻的是,它还能回答关于图像的各类问题,展现了其卓越的综合性能。

今年5月,谷歌公开向全球用户介绍了PaliGemma模型。谷歌期待PaliGemma 2能够成为初代模型的继任者。为了满足不同用户的需求,谷歌提供了多个版本的PaliGemma 2,参数变体包括30亿、100亿以及280亿,同时还有224像素、448像素和896像素不同分辨率的版本供用户选择。

在技术规格上,PaliGemma 2实现了长文本字幕生成的突破。不仅限于识别物体,它还能识别人物并解读其情绪状态。无论是高兴、悲伤或是其他情绪,PaliGemma 2都能敏锐地捕捉到。

该模型在讲述完整故事方面展现出了更高的潜力。谷歌表示,PaliGemma在识别乐谱、化学公式以及制作深度学习和胸部X光片报告等方面表现出色。这无疑为PaliGemma带来了显著的升级。如果您希望使用这一强大模型,可以在Hugging Face、Kaggle以及Ollama平台上获取其代码。

与此谷歌还发布了其视频生成模型Veo的私有预览版本。这一消息是在今年的谷歌I/O上公布的。如果您正在使用谷歌的Vertex云平台,将有机会率先体验这一创新技术。您可以生成分辨率高达1080p的视频。