硬核推荐(阿里DreaMoving怎么使用)阿里出品!DreaMoving:图片+文字提示就能生成高质量舞蹈视频,乐享资源网,

**划重点工程项目:**

1. 🌐 **构架如是说:** DreaMoving是一类如前所述蔓延数学模型的受控音频聚合构架,如前所述Grignols就能制做高效率订制的人类文明唱歌音频音频。

2. 🔄 **构架导出:** 该文提出了Video ControlNet和Content Guider三大关键性模块,分别负责管理体育运动掌控和身分留存,可适用于于各种卡通化的蔓延数学模型。

3. 🎬 **丰硕成果展现:** DreaMoving透过坐姿字符串和单纯的文本叙述,如文档和参照影像,聚合高效率、高画面质量的订制音频。

值班员爱家(ChinaZ.com)12月12日 消息:DreaMoving由穆萨巴巴集团的几组研究人员倾情打造出,一类如前所述蔓延数学模型的受控音频聚合构架,。该构架的核心最终目标如前所述Grignols就能聚合高效率、订制化的人类文明现代舞音频。

DreaMoving以其出众的蔓延数学模型为依据,能够根据人物形象的身分和坐姿字符串聚合最终目标身分在任何地方唱歌的音频。

DreaMoving 可以聚合高效率和高画面质量的音频,取值辅导字符串和单纯的文本叙述,例如文档和参照影像作为输出。简而言之,DreaMoving 透过人脸识别参照影像、透过坐姿字符串进行准确体育运动操作和由选定文档提示信息提示信息的综合音频外形掌控来展现身分掌控的熟练度。

比如说你“投喂”两张人像,和几段prompt就能聚合相关联的音频,而且改变prompt,人物形象背景和身上的鞋子也会跟着变化。

为同时实现这一最终目标,该技术导入了Video ControlNet和Content Guider两个关键性模块。

Video ControlNet:这是一个影像ControlNet,透过在每个U-Net块后转化成体育运动块,处理掌控字符串(坐姿或广度)以产生附加的时间状态参数。这有效同时实现了对体育运动的掌控。

Content Guider:该模块负责管理将输出文档提示信息和外形抒发,如人脸识别(鞋子是较旧的),切换为文本内嵌,同时实现跨目光的传达。

值得一提,目前DreaMoving工程项目并没有开源码。点选赶赴DreaMoving官方网站新体验出口处

工程项目邮箱:https://dreamoving.github.io/dreamoving/

学术论文邮箱:https://arxiv.org/abs/2312.05107

(检举)

© 版权声明
喜欢就支持一下吧
点赞8赞赏 分享
相关推荐