中国电信人工智能研究院发布的视频生成大模型TeleAI-VAST在VBench评测中排名第一,其语义理解和视频生成质量均领先其他模型,尤其在主体一致性和物理规律遵循方面表现突出,实现了高精度多主体互动场景和复杂动作序列的生成,例如流畅的武打场景和逼真的跳水画面。该模型采用二阶段生成技术,先绘制分镜再生成视频,显著提升了视频生成的可控性,并计划应用于AI短剧创作平台,实现从剧本创作到视频生成的一站式服务,为短剧市场带来重大机遇。 TeleAI-VAST的突破性进展使其成为AI视频生成领域的重要里程碑,有望推动AI短剧产业发展。
研究人员探讨了扩散模型与最优传输(OT)之间的关系,发现先前猜想扩散模型的逆向流映射总是最优传输映射是错误的。Lavenant和Santambrogio通过构造反例证明了这一点,指出在某些情况下,扩散模型生成的映射并非最优传输映射。他们的研究纠正了先前文献中的错误结论。 Peyré的文章对该证明进行了更清晰的阐述,指出一般情况下,扩散模型无法定义最优传输映射。 该研究主要通过数学推导和反例证明来进行,对生成模型中映射关系的理解具有重要意义。 研究结果表明,需要更深入的研究来理解扩散模型的优化性质。
腾讯宣布其130亿参数的混元视频生成大模型HunYuan-Video开源,并可在腾讯元宝APP上免费试用。该模型具有超写实画质,流畅的动态效果,并能精准理解复杂指令,实现多视角镜头切换和艺术化镜头衔接。其采用先进技术,包括新一代文本编码器和自研3D视觉编码器,提升了语义理解和画面质量。HunYuan-Video的开源将促进视频生成领域的生态发展,为开发者和企业提供强大的工具,并加速行业创新。 该模型在画质、流畅度和语义一致性方面表现出色,是业界首个采用多模态大语言模型作为文本编码器的视频生成模型。
这篇综述文章全面探讨了利用大型语言模型(LLM)进行评判和评估的“LLM-as-a-judge”范式。文章首先定义了LLM-as-a-judge,并根据输入输出格式对其进行了分类,包括逐点、成对/列表输入和评分、排序、选择输出等。接着,文章从“评判什么”(属性)、“如何评判”(方法,包括微调和提示技术)、“在哪里评判”(应用场景,例如模型评估、对齐、检索和推理)三个维度对LLM-as-a-judge进行了分类和总结。此外,文章还总结了相关的基准数据集,并指出了该领域面临的挑战,例如偏见、脆弱性以及如何实现LLM的自我评判和人机协同评判等未来研究方向。 最后,文章强调了该领域对推动人工智能和自然语言处理发展的重要意义。
2013年电影《星际穿越》中令人印象深刻的机器人TARS,其微型复制品由一位开发者Charles Diaz使用树莓派成功复刻并开源。 这个迷你TARS能够行走、转向,甚至配备了机械臂,外观高度还原电影设定。 Diaz历经两年,制作了多个版本,不断改进其可靠性和功能性。 最近,有人在此基础上开发了名为GPTARS的进阶版,它利用ChatGPT技术,可以与用户进行自然语言对话,并模仿TARS的语气,展现了令人惊叹的交互能力。 该项目开源,代码和详细制作过程已公开分享。
卡内基梅隆大学的研究人员在《Nature Machine Intelligence》发表论文,提出一种图辅助多模态预训练框架,用于提高催化剂筛选中的吸附能预测精度。该框架结合图神经网络和语言模型,利用自监督学习将两者潜在空间对齐,降低了预测误差7.4%-9.8%。 研究人员还利用生成式大语言模型创建文本输入,无需精确原子位置即可进行预测,拓展了语言模型在催化剂筛选中的应用。 该框架的核心是图辅助预训练,它弥合了图神经网络和语言模型在处理催化剂数据方面的差距。未来,研究人员计划构建一个更全面的基于语言的催化剂设计平台,整合更多功能。
李飞飞教授创立的World Labs发布首个项目,能通过单张图片或一句话生成逼真的3D世界,标志着生成式AI进入3D沉浸式新时代。该技术能生成具有持久现实、实时控制和正确几何形状的3D场景,并可与其他AI工具结合使用,例如先用文本生成图像再转化为3D模型。 World Labs展示了该技术在艺术作品再现和交互式体验方面的应用,例如将名画转化为可探索的3D场景。目前,该技术仍在持续改进中,旨在提升生成世界的规模和保真度,并探索更多用户交互方式。
ViralVideo is a powerful AI-driven video creation tool designed to effortlessly transform text into stunning video content. With its user-friendly text-to-video editor, realistic AI-powered voiceovers, dynamic scene generation, and a wide array of advanced AI features, creating professional-quality marketing and social videos has never been easier—no technical skills required. Whether you're crafting ads, social media content, or faceless videos, ViralVideo has you covered. Its intelligent gameplay templates, cutting-edge text-to-speech technology, AI scene generator, and automatic video editing tools streamline the entire content creation process. Additionally, ViralVideo offers a suite of handy tools like a YouTube Thumbnail Downloader, video converters, and more to enhance your creative workflow. With ViralVideo, embrace the future of AI-powered video production and take your brand storytelling and marketing to the next level effortlessly!