个人微信:duge360;推特:Gorden_Sun
1、ChatGPT 支持多模态
ChatGPT 支持了多模态,能力逐步开放。包括:识别图片内容、识别语音、生成语音。支持中文语音识别和生成中文语音,但是生成的中文语音稍微有点老外说中文的口音。
官方新闻:https://openai.com/blog/chatgpt-can-now-see-hear-and-speak
GPT-4V图像识别能力的论文:https://cdn.openai.com/papers/GPTV_System_Card.pdf
图片识别效果演示:
ssstwitter.com_1695644509964.mp4
语音对话效果演示(来源:一口新饭):
ssstwitter.com_1695726728405.mp4
2、Spotify 推出播客的语音翻译功能
使用的是 OpenAI 新发布的语音生成技术。
效果演示:
ssstwitter.com_1695727764417.mp4
3、AnimateDiff也支持镜头控制功能了
Github:https://github.com/guoyww/AnimateDiff