Gemini的多模态能力很强,在使用英文提问的情况下,但总体能力比目前GPT-4V官方的web版本好用很多,也很准。

地址:https://ai.google.dev/?hl=zh-cn

Gemini模型是一个系列模型,包含三个不同参数规模的4个模型。

根据官方的提示,这四个模型均为多模态大模型。Google的Pro版本的多模态接口已经开放,Gemini Pro可以根据输入的视频、图片以及图文混合指令生成文本内容。

点击“Get API key in Google AI Studio”进入Google AI Studio,弹出框的协议同意第一个即可。

2023-12-17T12:19:10.275270626-tdfs.png进入AI Studio后的界面如下

2023-12-17T12:26:32.133112623-ntvb.png