1、o1正式版
OpenAI o1正式版发布,新增了读取图片和文件的能力。同时推出了200美元/月的Pro会员,权益是能使用思考深度更深的o1 Pro Mode,且不限量,一般人是用不上。
2、PaliGemma 2:谷歌开源的视觉模型
3B, 10B, 28B三个大小的模型,能描述图片,也能识别公式、乐谱等。
模型地址:https://huggingface.co/collections/google/paligemma-2-release-67500e1e1dbfdd4dee27ba48
3、TRELLIS:微软开源的图片生成3D模型 效果超预期的好,一键生成手办不远了。这张芙莉莲的图片,之前没有任何一个产品能生成看得过去的模型。
项目地址:https://trellis3d.github.io/ Github:https://github.com/Microsoft/TRELLIS 在线使用:https://huggingface.co/spaces/JeffreyXiang/TRELLIS
3c87fbfb-bf0b-4a20-a42f-136ea8386036.mp4
4、ClearerVoice-Studio:开源语音处理工具
支持语音降噪、语音分离、视频中语音人物识别。阿里通义团队开源,且是可商用的协议。
Github:https://github.com/modelscope/ClearerVoice-Studio
在线使用:https://huggingface.co/spaces/alibabasglab/ClearVoice
我的知识星球