推广 热搜: 教师  系统  蒸汽  经纪  参数      行业  设备  机械 

五、Google 将推出的一个AI 视频工具:Google Vids

   日期:2024-04-12     移动:http://www.xrbh.cn/mobile/quote/4008.html

 

解决了现有文本到视频(T2V)生成模型未能充分编码现实世界物理知识的问题。

在传统的T2V生成中,生成的视频往往具有有限的动作和变化较差的问题

MagicTime通过引入变形时间延迟视频的概念,旨在克服这些限制,提高视频生成的质量和动态性。

 

主要解决的问题:

?物理知识编码不足: 现有的T2V模型生成的视频缺乏对现实世界物理规律的准确反映。?有限的动作和变化: 生成的视频动作单一,变化不足,难以反映复杂的变形过程。

 

主要功能:

1.变形时间延迟视频生成: MagicTime专注于生成包含物理知识、长期持续性和强烈变化的变形视频,这些视频比常规视频包含更丰富的物理知识和变形过程。

2.MagicAdapter方案: 通过设计MagicAdapter方案,MagicTime能够解耦空间和时间训练,从变形视频中编码更多的物理知识,并转换预训练的T2V模型以生成变形视频。

3.动态帧提取策略: 引入动态帧提取策略来适应变化范围更广的变形时间延迟视频,更好地体现物理知识。

4.Magic Text-Encoder: 改进了对变形视频提示的理解,提高文本到视频生成的准确性和质量。

5.ChronoMagic数据集: 创建了专门的时间延迟视频文本数据集ChronoMagic,为解锁变形视频生成能力提供支持。

 

实现目标:

MagicTime通过生成高质量和动态的变形视频,证明了其对生成时间延迟视频的优越性和有效性,为构建物理世界的变形模拟器开辟了一条有希望的道路。

 

集成DiT-based架构:

该项目的使命是帮助复现Sora,并提供高质量的视频文本数据和数据注释管道,以支持Open-Sora-Plan或其他基于DiT的T2V模型。MagicTime计划将额外的变形景观时间延迟视频集成到同一注释框架中,以获得ChronoMagic-Landscape数据集,然后使用该数据集微调Open-Sora-Plan v1.0.0,得到MagicTime-DiT模型。

项目及演示:https://github.com/PKU-YuanGroup/MagicTime…

论文:https://arxiv.org/abs/2404.05014

GitHub:https://github.com/PKU-YuanGroup/MagicTime/tree/main…

 

 

 

 

产品发布(蓝)、产品上线(红)、成立机构(黄)、其它(绿)

从2月26日央视发布《千秋诗颂》开始,从总台到上海台、芒果台,各地广电密集发布了13部AI作品。

各家媒体切入AIGC一般以一场动员作为起点 ,媒体们一般会成立一个“工作室”,负责统筹AIGC应用。我们看到的电视台AIGC片段大多以静态图片为基础,再加上动态效果如简单的缩放和移动。

 

 

 

 

2024 年 4 月 9 日东部时间——今天,微软宣布将在未来两年内投资 29 亿美元,以增加其在日本的超大规模云计算和 AI 基础设施。它还将扩大其数字技能培训计划,目标是在下一年内为 300 万人提供 AI 技能培训,在日本开设#first微软亚洲研究院实验室

来源:https://news.microsoft.com/apac/2024/04/10/microsoft-to-invest-us2-9-billion-in-ai-and-cloud-infrastructure-in-japan-while-boosting-the-nations-skills-research-and-cybersecurity/

 

 

 

现已在180多个国家提供

新增对原生音频(语音)理解能力、文件API、系统指令、JSON模式等功能

现在Gemini模型能够直接处理音频输入,而不需要将音频先转换为文本。

新的使用案例解锁:音频和视频模态

Gemini 1.5 Pro扩展了输入模态,包括在Gemini API和Google AI Studio中理解音频(语音)。

此外,Gemini 1.5 Pro能够对上传到Google AI Studio中的视频进行图像(帧)和音频(语音)的同时推理,意味着这个模型具备了理解和处理视频内容的能力,不仅限于视频的视觉部分(如图像帧),也包括音频部分(如对话、背景音乐等)。

 

应用潜力包括:

1.多模态理解:Gemini 1.5 Pro能够综合视频中的视觉信息和音频信息,进行更全面的内容理解。例如,它可以通过分析视频帧中的场景和物体,同时听取视频中的对话或声音,来更准确地识别和解释视频内容。

2.内容索引和搜索:通过对视频图像和音频的深入理解,Gemini 1.5 Pro可以帮助创建更详细的内容索引,使用户能够基于视频内容的视觉和听觉信息进行搜索。

3.增强的交互体验:利用对视频的综合理解,可以开发更丰富的交互式应用,比如自动生成视频摘要、基于内容的推荐系统,或者创建互动式学习和娱乐体验。

4.视频内容分析:Gemini 1.5 Pro可以用于视频监控、内容审查、情感分析等场景,通过同时理解视频和音频内容,AI可以自动识别视频中的关键事件、情感倾向或者特定的内容标签。

5.创意内容生成:对视频图像和音频的综合理解也使得Gemini 1.5 Pro能够在内容创作领域发挥作用,如自动生成视频字幕、配音或者根据给定的脚本制作动画视频。

 

Gemini API改进

1.系统指令:通过系统指令引导模型响应,现已在Google AI Studio和Gemini API中提供。定义角色、格式、目标和规则来指导模型的行为,以适应特定用例。

2.JSON模式:指示模型仅输出JSON对象。该模式支持从文本或图像中提取结构化数据。可以使用cURL开始,并且Python SDK支持即将推出。

3.函数调用的改进:现在可以选择模式来限制模型的输出,提高可靠性。选择文本、函数调用或仅函数本身。

新的嵌入模型,性能得到提升

从今天开始,开发者将能够通过Gemini API访问Gemini下一代文本嵌入模型。这个新模型,text-embedding-004(在Vertex AI中为text-embedding-preview-0409),在MTEB基准测试中取得更强的检索性能,超过了具有可比维度的所有现有模型。

详细:https://goo.gle/3xxaUH1

音频理解能力:https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb…

 

 

 

 

Google Vids 集多种功能于一体,它可以一键帮助你创作故事板,还会通过AI协助你编辑内容,选择适合的场景、图片和音乐,自动帮你生成一个完整的类似PPT的宣讲视频。

你还可以给视频加上自己或预设的配音。

Google Vids 的目的是生成各种工作宣讲或者销售视频,无论是 HR 介绍公司文化,培训团队创建数字学习经验,还是销售人员向新客户推销产品。

6月份Google Vids将登陆Google Workspace... 

 

 

 

 

带有视觉能力,上下文 128k 主要信息包括

全面开放,可通过“gpt-4-turbo”来使用此模型,最新版本为“gpt-4-turbo-2024-04-09”

基础能力更新,按官方说法:Majorly improved GPT-4 Turbo model

128k 上下文

Vision 请求现在也可以使用 JSON 模式和函数调用。

训练数据截止至 2023 年 12 月 这里查阅接口信息:https://platform.openai.com/docs/models/gpt-4-turbo-and-gpt-4…

 

 

 

以下是它与 NVIDIA H100 的比较

  1. 训练时间 1.7倍
  2.  推理 1.5倍
  3. 电源使用省电50%
  4. 性能效率提升50%

详细:https://intel.com/content/www/us/en/newsroom/news/vision-2024-gaudi-3-ai-accelerator.html#gs.7q3dlc…

本文地址:http://www.xrbh.cn/quote/4008.html    迅博思语 http://www.xrbh.cn/ , 查看更多

特别提示:本信息由相关企业自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


相关行业动态
推荐行业动态
点击排行
网站首页  |  二维码  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2023022329号