查看原文
其他

5000字复盘4月AIGC进展!内含6个最新创作工具、5个热门案例

头号AI玩家 AI新榜
2024-09-24

这里是“头号AI玩家”的新栏目:AIGC月刊。每月更新一次,以下是我们梳理汇总的2024年4月AIGC行业趋势、AI热点要闻、新上线的AI工具和AIGC热门应用案例。希望能带给你一些启发和思考,也欢迎在评论区和我们交流你的想法~




4月AIGC行业趋势


1. 多模态AI进展飞速


生成式AI技术正在从单一的文本或图像处理,向能够同时处理多种类型数据(如文本、图像、音频等)的多模态应用发展。

自从上个月Suno V3发布以来,AI语音和音乐领域进展飞速,例如,OpenAI展示了语音生成模型Voice Engine,微软新增9款逼真又生动的AI语音角色,Hume AI推出情感语音对话机器人EVI;AI音乐生成工具Udio、Stable Audio2.0、天工SkyMusic发布,可以生成完整的音乐作品。

Stable Audio官网:https://stableaudio.com/

在视频生成领域,海内外同样出现了许多新项目,例如腾讯虚拟人视频生成框架MuseV,生数科技的Sora级模型Vidu,微软VASA-1项目,它们能够融合使用文本、图片、音频和视频等多模态数据,在游戏、短视频和直播等领域创造出个性化的内容。

多模态内容生成和交互方式的创新将是AIGC行业未来发展的一大趋势,AI将更加自然地融入人类的交流和创作过程中,成为我们的得力伙伴。

2. AI搜索产品的竞争加剧


互联网时代最基础的产品功能——搜索,已经在生成式AI技术的驱动下发生改变,通过AI对话就能呈现出准确答案,大幅度提升了搜索效率,还能满足深入挖掘问题的复杂需求。

海内外的AI搜索引擎越来越多,竞争正在变得日益激烈,包括由大模型驱动的新一代AI搜索引擎,如Perplexity、You、天工AI搜索、秘塔AI搜索;支持联网搜索的AI对话产品,如ChatGPT正在开发SearchGPT;传统搜索引擎搭载大模型的新产品,如Gemini、Copilot、文心一言、360AI搜索;还有定位于垂直领域的AI搜索产品,如淘宝问问(电商)、DevvAI(编程)……

拥有百万用户的Perplexity

同时,AI搜索产品的商业化探索也在加速。除了通过订阅制提供更丰富的高级功能,一些AI搜索产品正在计划引入广告,明星产品Perplexity可能会在今年内提供来自品牌的回答结果。

AI搜索有望成为人们获取信息的重要方式,但如何在广告收入和用户体验之间找到平衡点,如何保护用户隐私和安全,也是AI搜索产品需要面对的挑战。

相关阅读:《懒人必备!实测6款AI搜索神器,工作效率直接翻倍》

3. AI监管和版权保护同步加强


全球范围内对于AI技术的安全性和潜在风险的关注正在增加,相关监管问题日益受到重视,整体向着更加规范化、透明化的方向发展。


内容平台已开始积极落实AI生成内容的监管要求,例如,抖音提醒用户清明期间慎用“AI复活”技术创作内容,巨量引擎限制了部分涉嫌违规的AIGC广告。Meta将于5月起在旗下社交平台标记“疑似由AI生成的内容”。


同时,业内正在深入探讨AI生成内容的版权归属问题。Katy Perry等音乐人联名发公开信呼吁科技公司和AI开发者停止 “利用AI技术掠夺职业艺术家声音和肖像,侵犯创作者权利,破坏音乐生态” 的行为。美国新法案则要求AI公司在发布AI模型前提交用于训练的受版权保护的作品。

4月23日,北京互联网法院对全国首例“AI声音侵权案”进行一审宣判,原告配音师获赔25万元。

当AI作为工具辅助人类创作时,其版权归属和使用规则正在被重新定义,以适应人机协作的新趋势,更好地促进AI技术的健康发展。

相关阅读:《AI“肥料”不足,OpenAI被曝疯狂转录YouTube视频》



你可能错过的10大AI热点


1. ChatGPT无需注册即可使用


4月1日,OpenAI宣布用户无需注册账号,即可立即使用ChatGPT,此举旨在让任何对其功能感兴趣的人都可以使用AI。

此外,放开限制后,OpenAI还引入了更多内容保障措施,例如在更广泛的类别中阻止提示和生成。OpenAl可能会使用用户向ChatGPT提供的信息来改进模型,但用户可以通过“设置”关闭该功能。

2. 阶跃星辰发布万亿参数MoE大模型Step-2预览版


4月1日,AI创企阶跃星辰发布Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型,以及Step-2万亿参数MoE语言大模型预览版。

在此基础上,阶跃星辰推出了两款面向C端用户的大模型产品:AI聊天助手“跃问”,拥有多模态内容理解能力;以及由剧情和角色组成的AI开放世界平台“冒泡鸭”,满足娱乐和社交需求。二者均已全面开放使用。

跃问官网:https://stepchat.cn/chats/new

3. Meta发布开源大模型Llama 3的两个版本


4月19日,Meta发布了最新开源模型Llama 3,提供8B和70B的预训练和指令微调版本。据介绍,Llama 3在两个定制的24K GPU集群上基于超过15T的数据进行了训练——这比Llama 2使用的数据集大7倍,多4倍的代码,并且Llama 3支持8K上下文长度,是Llama 2容量的两倍。

此外,Meta同时发布了新设立的网站meta.ai,用户可以与基于Llama 3的AI助手进行对话和绘画。

官方博客:https://ai.meta.com/blog/meta-llama-3/
模型下载链接:https://llama.meta.com/llama-downloads/
GitHub项目地址:https://github.com/meta-llama/llama3

4. 马斯克xAI发布首款多模态模型Grok-1.5V


4月13日,埃隆 · 马斯克旗下AI创企xAI推出了首款多模态大模型Grok-1.5 Vision,不仅能够理解文本信息,还可以处理各种视觉信息,包括文档、图表、截图、照片等。Grok 1.5V将很快提供给早期测试用户和现有的Grok用户。

Grok-1.5 Vision博客:https://x.ai/blog/grok-1.5v

5. Adobe Premiere Pro将接入AI视频模型


4月15日,Adobe宣布将在视频编辑软件Premiere Pro加入一系列生成式AI功能,集成自研的Firefly系列模型,以及Sora、Runway Gen-2等第三方AI视频模型。

其中,生成式延伸 (Generative Extend)功能可以为视频片段添加额外的帧,方便剪辑师们调整视频时长,例如延长某个场景的画面,或加入平滑的转场效果。利用对象添加(Object Addition)和对象移除(Object Removal)工具,用户可以添加、移除或修改画面中的元素。

相关阅读:《PR+AI重新定义视频剪辑,Sora、Pika全接入,AI视频创企还有的玩吗?》

6. 刘强东AI数字人直播带货首秀,观看量超2000万


4月16日,刘强东AI数字人“采销东哥”开启直播首秀,同时亮相京东家电家居、京东超市采销直播间,分享刘强东在美食、读书等方面的经历与心得。

据介绍,“采销东哥”AI数字人基于京东云言犀自研的AI驱动大姿态数字人技术,上播30分钟,直播间观看人数破千万;仅40分钟内,直播间观看人数超过1300万,直播间整体订单量破10万;近1小时观看量超2000万。


7. 天工SkyMusic音乐大模型开启公测


4月17日,昆仑万维宣布“天工3.0”基座大模型与“天工SkyMusic”音乐大模型面向全社会开放公测。

据介绍,“天工3.0”采用4000亿级参数MoE混合专家模型,集成了AI搜索、AI写作、AI长文本阅读、AI对话、AI语音合成等多项能力,新增搜索增强、研究模式、调用代码及绘制图表等能力。

“天工SkyMusic”则在人声、BGM音质等方面表现突出,综合性能超越Suno V3,是中国首个音乐AIGC SOTA(最佳)模型。

8. 巨量引擎限制部分AIGC广告,称存在较多违法违规问题


近日,字节跳动旗下巨量引擎限制了部分AIGC应用的投流。对此,巨量引擎相关负责人表示,AIGC软件目前存在较多违法违规问题,同时用户对该类广告的负反馈较多,为保障用户权益、优化体验,对此类广告进行了限制。目前,巨量引擎是首个限制AIGC产品投放的主流平台。

9. “AIGC第一股”出门问问正式登陆港交所


4月24日,“AIGC第一股”出门问问正式登陆香港交易所主板,股份代号为2438.HK,最终发售价每股3.8港元,全球发售净筹约2.67亿港元。

据介绍,成立于2012年的出门问问以生成式AI和语音交互技术为核心,主要提供AIGC解决方案、AI企业解决方案、智能设备及配件等AI Copilot解决方案。其中AIGC解决方案近年来增速迅猛,已吸引约84万名累计付费用户,产生了100多万笔付款。

10. 中国首个Sora级模型Vidu发布


4月27日,生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型Vidu,支持一键生成长达16秒、分辨率高达1080P的高清视频内容。
据介绍,Vidu采用Diffusion与Transformer融合的架构U-ViT,由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构。


新上线的6个AI工具(功能)


1. OpenAI新增DALL·E图像编辑功能


4月1日,OpenAI宣布DALL·E编辑器界面新增图像编辑功能,用户可以选择要编辑的图像区域并在聊天中描述更改,比如添加、删除和更新图像的某些部分。此功能也支持在ChatGPT App上使用。


2. Hume AI推出情感语音对话机器人EVI


4月7日,AI初创企业Hume AI发布了旗下第一款聊天对话机器人Empathetic Voice Interface(EVI),号称是“第一个具有情商的人工智能”,能够识别超50种人类情绪。EVI无需登录注册即可使用,但目前只有男性声音,仅支持通过英文语音形式进行对话。

相比ChatGPT等AI机器人,这些“读心”AI更关注用户的个人情感和精神状态,在对话过程中充分展示自己的“善解人意”。


Hume AI官网:https://www.hume.ai/
相关阅读:《靠“善解人意”融资超3亿,AI真能做好情绪生意?》


3. “音乐界Sora”Udio开启免费公测


4月10日,由前Google DeepMind研究员推出的AI音乐生成器Udio已开启免费公测,最高每月可免费生成1200首歌曲。Udio能根据用户输入的文本提示,如音乐风格、主题、歌词等信息,快速生成包含人声的完整音轨,支持多种音乐风格和流派,被网友誉为“音乐界Sora”。


此外,网易云音乐、QQ音乐、Spotify等流媒体音乐平台也在AI领域进行了一系列探索和尝试:


Udio官网:https://www.udio.com/
相关阅读:《Suno AI挑战者出现!音乐平台间的竞争,已经Next Level》


4. Domo AI上线Fusion Style(融合风格)功能


AI视频创作工具Domo AI近期上线了Fusion Style(融合风格)功能,支持真人视频生成不同角色、环境、人物的自定义视频。目前Domo AI最多支持一次生成10秒的短视频。

输入张元英转圈视频,提示词“a robot, dancing, cyberpunk, countryside”,选择“Fusion Style”、“refer to my prompt”

除了Domo AI之外,同类型的AI视频风格转绘工具层出不穷。动漫、3D、手绘等二创视频在YouTube、TikTok、抖音等平台上走红,吸引了不少网友跟风尝试。


相关阅读:《张元英转圈很难吗,我用AI轻松硬控网友30秒》


5. 通义App上线AI“全民唱演”功能


近日,通义App上线了“全民唱演”免费功能,用户只需选择模版、上传照片、生成视频,即可让照片中的人物开口唱歌。首批80个AI模板涵盖热门歌曲、网络热梗等,目前暂不支持用户自定义音频。


据介绍,该功能基于通义实验室研发的EMO模型,其背后的肖像说话技术无需对人脸、人头或身体部分进行繁琐的3D建模,即可轻松驱动肖像开口说话,降低了视频生成的成本,并显著提升了视频质量。

6. B站发布数字分身定制工具“必剪Studio”


近日,B站发布国内首个免费数字分身定制工具“必剪Studio”,一站式集成“数字分身”及“音色定制”功能,帮助出镜创作者、录音创作者有效提升创作效率。

B站表示,为保护个人隐私及信息安全,该定制模型仅供UP主个人使用。目前,必剪Studio已开放候补名单申请。


必剪Studio申请网址:https://member.bilibili.com/york/bilibili-studio



5个AIGC热门案例


1. ChatGPT“Dan”恋爱模式火爆海内外


最近,跟ChatGPT“DAN”在线语音调情的视频在海外内爆火,多条视频播放量超百万。DAN是“Do Anything Now”的缩写,在ChatGPT对话中输入相应指令,即可成功“越狱”,让ChatGPT从没有灵魂的AI,变成打破系统规则限制的角色。

博主“午夜狂暴哈士奇狗”在小红书和抖音晒出了自己和DAN从暧昧到表白、再到“见家长”的全过程,近一个月分别涨粉13万、28万。

DAN称博主为“little kitten”(小猫,美国俚语中以此称呼关系亲密的女性)

值得注意的是,DAN的性格如同开盲盒,并不是每个人都能训练出“赛博恋人”。

相关阅读:《百万网友围观博主和AI“谈恋爱”,ChatGPT“DAN”模式有多上头?》

2. AI鬼畜音乐席卷B站


AI开始进军音乐界,没想到在网友一通整活下,鬼畜领域率先被AI攻克,出于娱乐和社交目的的AI创作正在社交媒体上形成病毒式传播。

大量AI鬼畜音乐涌入了B站,其中最受欢迎的题材是“你的钢门比较松弛”,已有多条视频播放量超200万,如B站UP“益安宁丸QAQ”的作品《【suno AI】你的刚门比较vocaloid”》。


这些音乐大多化用了某成都肛肠科医生的诊断作为歌词,围绕这个梗进行二创:“你的钢门比较松弛,但是呢,你的痔疮又弥补了这一部分……”

3. 播客节目应用超逼真AI语音


3月30日,微软上线了9款可供商业客户使用的AI语音角色,适用于有声书、新闻、AI客户服务以及多情感表达等场景。其中一个中文女性角色“晓晓”支持21种说话风格,因声音效果非常逼真而在X平台上走红。


AI语音技术的发展,无疑为内容创作者提供了新的工具和可能性。有的播客频道已开始用AI语音来制作更新频率较高的资讯类内容。

在播客App小宇宙上,“Hacker News”账号用“晓晓”的声音制作了一期资讯节目,听众在评论区留言表示“想打赏”。


AI“晓晓”体验地址:https://speech.microsoft.com/portal/voicegallery
相关阅读:《AI入侵播客圈!比真人配音还逼真?实测爆火的微软AI语音角色“晓晓”》

4. 网友自制AI科幻短片《大秦帝国-第一次星汉远征》


4月20日,抖音博主“AIGC西瓜头”发布了一条AI制作的科幻短片 《架空历史:大秦帝国-第一次星汉远征》,讲述了大秦帝国进攻外星的故事背景。

第一集时长20秒,6个镜头都是用Runway生成的AI视频素材,并配上了史诗感的背景音乐和AI旁白配音,目前抖音获赞7.3万。


越来越多的创作者正在尝试用AI制作视频,脑中的奇思妙想都有机会实现,比如科幻题材可以和中国传统文化背景结合,有反差感,也容易获得用户关注。

相关阅读:《参投北影节,我们做了人生第一支AI科幻短片(附全流程拆解)》


5. 可爱的毛绒质感图标


这类毛茸茸的图标最近突然在小红书上火了,相关图文和教程获赞高达5万,网友们都纷纷给手机App换上可爱的新皮肤。


使用AI文生图或图生图工具就可以实现毛绒质感的效果,如果你熟悉Stable Diffusion的话,只需要输入文字提示词,再加上ControlNet分别控制结构和色彩。

提示词(其中颜色可替换):Masterpiece, top view, (white, blue, fluffy, plush _ hair, 3D art: 1.4), solo, (placed on purple background: 1.3), light and shadow, natural lighting, close-up, depth of field, minimalism, high quality, high detail, Sony FE GM, UHD

相关阅读:《AI创意角第七期:毛绒质感LOGO》




「头号AI玩家交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。


欢迎分享、点赞、在看

 一起研究AI

继续滑动看下一个
AI新榜
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存