推广 热搜： 教师系统蒸汽经纪参数金杯行业设备机械

五、Google 将推出的一个AI 视频工具：Google Vids

日期：2024-04-12 移动：http://www.xrbh.cn/mobile/quote/4008.html

解决了现有文本到视频（T2V）生成模型未能充分编码现实世界物理知识的问题。

在传统的T2V生成中，生成的视频往往具有有限的动作和变化较差的问题

MagicTime通过引入变形时间延迟视频的概念，旨在克服这些限制，提高视频生成的质量和动态性。

主要解决的问题：

?物理知识编码不足：现有的T2V模型生成的视频缺乏对现实世界物理规律的准确反映。?有限的动作和变化：生成的视频动作单一，变化不足，难以反映复杂的变形过程。

主要功能：

1.变形时间延迟视频生成： MagicTime专注于生成包含物理知识、长期持续性和强烈变化的变形视频，这些视频比常规视频包含更丰富的物理知识和变形过程。

2.MagicAdapter方案：通过设计MagicAdapter方案，MagicTime能够解耦空间和时间训练，从变形视频中编码更多的物理知识，并转换预训练的T2V模型以生成变形视频。

3.动态帧提取策略：引入动态帧提取策略来适应变化范围更广的变形时间延迟视频，更好地体现物理知识。

4.Magic Text-Encoder：改进了对变形视频提示的理解，提高文本到视频生成的准确性和质量。

5.ChronoMagic数据集：创建了专门的时间延迟视频文本数据集ChronoMagic，为解锁变形视频生成能力提供支持。

实现目标：

MagicTime通过生成高质量和动态的变形视频，证明了其对生成时间延迟视频的优越性和有效性，为构建物理世界的变形模拟器开辟了一条有希望的道路。

集成DiT-based架构：

该项目的使命是帮助复现Sora，并提供高质量的视频文本数据和数据注释管道，以支持Open-Sora-Plan或其他基于DiT的T2V模型。MagicTime计划将额外的变形景观时间延迟视频集成到同一注释框架中，以获得ChronoMagic-Landscape数据集，然后使用该数据集微调Open-Sora-Plan v1.0.0，得到MagicTime-DiT模型。

项目及演示：https://github.com/PKU-YuanGroup/MagicTime…

论文：https://arxiv.org/abs/2404.05014

GitHub：https://github.com/PKU-YuanGroup/MagicTime/tree/main…

产品发布（蓝）、产品上线（红）、成立机构（黄）、其它（绿）

从2月26日央视发布《千秋诗颂》开始，从总台到上海台、芒果台，各地广电密集发布了13部AI作品。

各家媒体切入AIGC一般以一场动员作为起点，媒体们一般会成立一个“工作室”，负责统筹AIGC应用。我们看到的电视台AIGC片段大多以静态图片为基础，再加上动态效果如简单的缩放和移动。

2024 年 4 月 9 日东部时间——今天，微软宣布将在未来两年内投资 29 亿美元，以增加其在日本的超大规模云计算和 AI 基础设施。它还将扩大其数字技能培训计划，目标是在下一年内为 300 万人提供 AI 技能培训，在日本开设#first微软亚洲研究院实验室

来源：https://news.microsoft.com/apac/2024/04/10/microsoft-to-invest-us2-9-billion-in-ai-and-cloud-infrastructure-in-japan-while-boosting-the-nations-skills-research-and-cybersecurity/

现已在180多个国家提供

新增对原生音频（语音）理解能力、文件API、系统指令、JSON模式等功能

现在Gemini模型能够直接处理音频输入，而不需要将音频先转换为文本。

新的使用案例解锁：音频和视频模态

Gemini 1.5 Pro扩展了输入模态，包括在Gemini API和Google AI Studio中理解音频（语音）。

此外，Gemini 1.5 Pro能够对上传到Google AI Studio中的视频进行图像（帧）和音频（语音）的同时推理，意味着这个模型具备了理解和处理视频内容的能力，不仅限于视频的视觉部分（如图像帧），也包括音频部分（如对话、背景音乐等）。

应用潜力包括：

1.多模态理解：Gemini 1.5 Pro能够综合视频中的视觉信息和音频信息，进行更全面的内容理解。例如，它可以通过分析视频帧中的场景和物体，同时听取视频中的对话或声音，来更准确地识别和解释视频内容。

2.内容索引和搜索：通过对视频图像和音频的深入理解，Gemini 1.5 Pro可以帮助创建更详细的内容索引，使用户能够基于视频内容的视觉和听觉信息进行搜索。

3.增强的交互体验：利用对视频的综合理解，可以开发更丰富的交互式应用，比如自动生成视频摘要、基于内容的推荐系统，或者创建互动式学习和娱乐体验。

4.视频内容分析：Gemini 1.5 Pro可以用于视频监控、内容审查、情感分析等场景，通过同时理解视频和音频内容，AI可以自动识别视频中的关键事件、情感倾向或者特定的内容标签。

5.创意内容生成：对视频图像和音频的综合理解也使得Gemini 1.5 Pro能够在内容创作领域发挥作用，如自动生成视频字幕、配音或者根据给定的脚本制作动画视频。

Gemini API改进

1.系统指令：通过系统指令引导模型响应，现已在Google AI Studio和Gemini API中提供。定义角色、格式、目标和规则来指导模型的行为，以适应特定用例。

2.JSON模式：指示模型仅输出JSON对象。该模式支持从文本或图像中提取结构化数据。可以使用cURL开始，并且Python SDK支持即将推出。

3.函数调用的改进：现在可以选择模式来限制模型的输出，提高可靠性。选择文本、函数调用或仅函数本身。

新的嵌入模型，性能得到提升

从今天开始，开发者将能够通过Gemini API访问Gemini下一代文本嵌入模型。这个新模型，text-embedding-004（在Vertex AI中为text-embedding-preview-0409），在MTEB基准测试中取得更强的检索性能，超过了具有可比维度的所有现有模型。

详细：https://goo.gle/3xxaUH1

音频理解能力：https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb…

Google Vids 集多种功能于一体，它可以一键帮助你创作故事板，还会通过AI协助你编辑内容，选择适合的场景、图片和音乐，自动帮你生成一个完整的类似PPT的宣讲视频。

你还可以给视频加上自己或预设的配音。

Google Vids 的目的是生成各种工作宣讲或者销售视频，无论是 HR 介绍公司文化，培训团队创建数字学习经验，还是销售人员向新客户推销产品。

6月份Google Vids将登陆Google Workspace...

带有视觉能力，上下文 128k 主要信息包括

全面开放，可通过“gpt-4-turbo”来使用此模型，最新版本为“gpt-4-turbo-2024-04-09”

基础能力更新，按官方说法：Majorly improved GPT-4 Turbo model

128k 上下文

Vision 请求现在也可以使用 JSON 模式和函数调用。

训练数据截止至 2023 年 12 月这里查阅接口信息：https://platform.openai.com/docs/models/gpt-4-turbo-and-gpt-4…

以下是它与 NVIDIA H100 的比较

训练时间 1.7倍
推理 1.5倍
电源使用省电50%
性能效率提升50%

详细：https://intel.com/content/www/us/en/newsroom/news/vision-2024-gaudi-3-ai-accelerator.html#gs.7q3dlc…

本文地址：http://www.xrbh.cn/quote/4008.html 迅博思语 http://www.xrbh.cn/ , 查看更多

特别提示：本信息由相关企业自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

相关行业动态

推荐行业动态

点击排行