2023.9.26-ChatGPT 支持多模态

个人微信:duge360;推特:Gorden_Sun

1、ChatGPT 支持多模态

ChatGPT 支持了多模态,能力逐步开放。包括:识别图片内容、识别语音、生成语音。支持中文语音识别和生成中文语音,但是生成的中文语音稍微有点老外说中文的口音。

官方新闻:https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

GPT-4V图像识别能力的论文:https://cdn.openai.com/papers/GPTV_System_Card.pdf

图片识别效果演示:

ssstwitter.com_1695644509964.mp4

语音对话效果演示(来源:一口新饭):

ssstwitter.com_1695726728405.mp4

2、Spotify 推出播客的语音翻译功能

使用的是 OpenAI 新发布的语音生成技术。

效果演示:

ssstwitter.com_1695727764417.mp4

3、AnimateDiff也支持镜头控制功能了

Github:https://github.com/guoyww/AnimateDiff

Untitled