每周精选最具潜力的 AI 开源工具与技术。我们为你解析项目亮点与应用场景,并推荐实用资源,帮助你在 AI 开发中领先一步!无论是学习还是实践,《开源 AIGC 周刊》都是你的每周灵感来源!
本周不可错过的 AI 开源项目腾讯混元视频模型
混元[1]是腾讯开源的视频大模型, 用于视频生成。它拥有超过 130 亿个参数, 是所有开源模型中最大的模型。根据专业的人工评估结果,混元视频的性能优于之前的最先进模型,包括 Runway Gen-3、Luma 1.6 和 3 个性能最好的中文视频生成模型。目前已有 4.7k star。
Fish Speech 1.5
Fish Speech 1.5[2]是一款文本生成语音(TTS)模型,由 Fish Audio 研发。这是一项在 TTS-Arena 排名第二的开源语音合成技术,支持 13 种语言,并提供 150 毫秒以内的低延迟高质量即时语音克隆。目前已有 16.2k star。
MEMO
MEMO[3]是一个开源数字人头项目,能够根据音频生成人物肖像的视频。MEMO 可生成更逼真的谈话视频,涵盖不同的图像和音频类型,在整体质量、音频-唇部同步、身份一致性和表情-情绪一致性方面均优于最先进的方法。目前已有 193 star。
GenCast
GenCast[4]是谷歌开源的一款天气预报模型,专门用于预测天气和极端天气事件。该模型提供更快、更准确的预报,最远可达 15 天。目前已有 5.2k star。
TRELLIS
TRELLIS[5]是微软开源的一款图片生成3D模型,是提供了多达 20 亿个参数的大规模预训练模型。TRELLIS 大大超越了现有的3D模型,并展示了灵活的输出格式选择和本地三维编辑功能,这是以前的模型所不具备的。目前已有 1.9k star。
ClearerVoice-Studio
ClearerVoice-Studio[6]是由阿里通义团队开源的人工智能语音处理工具包,支持语音增强、语音分离、目标扬声器提取等功能,且是可商用的协议。目前已有 661 star。
行业动态
OpenAI 12Days Day1: OpenAI o1正式版发布
12月5日是OpenAI 12Days: Day1[7], 主要内容包括:
Hailuo I2V-01-Live
海螺I2V-01-Live[8]是 I2V 系列的最新成员,它专门针对动漫图片,让角色以前所未有的方式移动、说话。
谷歌 Genie 2:AI 生成无尽可操作的游戏世界
Genie 2[9]是由谷歌开发的大型世界模型,基于单张图片即可生成无尽的可操作和交互式 3D 游戏世界。用户可以通过键盘和鼠标控制这些生成的世界,主要用于训练或评估 AI agent。
警惕:ComfyUI热门插件Impact-Pack被植入病毒
ComfyUI-Impact-Pack[10]插件依赖的 ultralytics 包被恶意植入了挖矿病毒,这几乎是一个必装的插件。如果你正在使用,请务必立即卸载。或可以直接通过 GitHub 安装 ultralytics 这个依赖,或者使用8.3.43 版本[11]。
Meta发布 LLaMA 3.3 70B
Meta 正式发布了Llama 3.3 70B[12],这款模型支持 128K 的上下文窗口,具备多语言能力,并且增强了工具调用功能。与 Llama 3.1 70B 相比,其性能有了显著提升,部分基准测试结果甚至可与 Llama 405B 媲美。
参考资料
[1]腾讯混元视频模型: /Tencent/Hun…
[2]Fish Speech 1.5:
huggingface.co/spaces/fish…
[3]MEMO:*
/lobehub/lob…
[4]GenCast:*
/hmrishavban…
[5]TRELLIS:*
/Microsoft/T…
[6]ClearerVoice-Studio:
/modelscope/…
[7]OpenAI 12Days:
/12-days/
[8]Hailuo I2V-01-Live:
/ltdrdata/Co…
[9]谷歌 Genie 2:
deepmind.google/discover/bl…
[10]警惕:ComfyUI热门插件Impact-Pack被植入病毒
/ltdrdata/Co…
[11]8.3.43 版本
/ltdrdata/Co…
[12]Meta发布 LLaMA 3.3 70B*
huggingface.co/meta-llama/…
关于周刊
开源 AIGC 周刊,为你挑选最值得分享的文章、教程、开源项目、副业变现等内容。希望帮助所有读者学习 AIGC,并增长职业和副业的收入。
周刊在 Github 开源,可以通过 issue 投稿。