基于AIGC技术,「Akool」帮助品牌和电商用户生产高质量文字、图像、视频类营销物料|早期项目女大学生请假条走红,请假理由很“硬核”,导员:3天不够给7天
提及真正被生成式AI改变的赛道,营销肯定算一个。最近一段时间,不论是对话机器人的自然度,还是文本、图片等AIGC类素材的成熟度,都让营销领域最先尝到这一波AI的甜头。
36氪日前接触到的「Akool」,即是一家基于AIGC技术,为品牌和电商用户提供内容素材的公司。创始人吕家俊表示,其本人具备多年AI视觉的产学研经验,一直了解生成式AI的进展。在2022年,基于此前积累和对行业进展的观察,吕家俊成立了Akool。
吕家俊告诉36氪,当前Akool主要有三块生成式AI业务,覆盖文字、图片、视频。电商商家可以通过Akool的平台,生成自身所需的营销素材。
在视频场景中,Akool首先可以帮助客户变化视频的背景、人脸、物体等素材。针对这一场景,吕家俊表示,虽然在视频中更换人脸、背景、物体等并不属于新鲜事物,但生成式AI的出现,能够让素材效果更自然,质量更高,提升营销效果。另外如果客户有指定生成某一个图像,要求"复刻"的需求,Akool也会进行平衡。"自然和真实之间可以调整。"吕家俊认为。
另在图像场景中,Akool能基于图片生成超写实的虚拟人形象。"只需要提供一张你的照片,就可以生成一个属于你自己的虚拟人。"吕家俊表示。在文字场景,Akool也能帮用户生成产品介绍、投放文案等内容。
基于这些功能,Akool打造了多款产品,主要包括Akool content platform、Akool content platform、 Akool talking avatar,、Akool beyond journey、Akool face swap。
其中,Akool content platform内置Akool所有生成文字、图片、视频的功能,是一个综合型平台产品。而针对一些Killing features,Akool还提供单独的APP。具体来说,Akool talking avatar可以帮助用户生成虚拟人形象;Akool beyond journey则是对标Midjourney的文生图产品; Akool face swap能帮助用户实现在视频、图片中换素材的功能。
吕家俊表示,公司创始团队在视觉方向有着较深积累,所以在视频、图像场景中有着较为独特的技术优势。另外,公司目前计算资源丰富,可以使用近一千张A100进行大规模训练。
在具体架构上,他进一步介绍,Akool的主要自研架构包括用于数字虚拟人的扩散模型和3维NerF结构的生成模型框架、基于能量的扩散模型框架。吕家俊告诉36氪,用这些自研框架开发的图片视频应用,具有生成结果质量高,清晰度高,多样性好等特点。一个例证是,基于这些架构,Akool在包括可口可乐等多家品牌客户的方案调研对比中取得最高分,并获得订单。
另外,公司还把Stable Diffusion作为预训练基础模型,Fine-Tune自定义的网络结构,进行后续的开发和研究。在文字大模型方面,Akool目前基于LLAMA开源模型进行Fine-Tune。"它的参数量比GPT4小很多,属于轻量级的模型,参数量在65B左右,但性能堪比GPT4。"吕家俊向36氪表示。
模型之外,吕家俊还认为,Akool在训练数据集方面也多有心得。他表示,Akool针对数据集做了很多分类,针对不同任务运用不同数据集训练。同时,Akool针对数据集的数据做筛选,如果数据质量没能达到要求,便不会加入训练集。
当前,Akool的文生图大模型生成一张1024 x 512的图片需要8-10秒左右。而在音频生成视频场景下,生成一段11秒共347帧分辨率为3840 x 2160 的视频,耗时约500秒。
另在商业化层面,2023年初起,Akool迎来了一波用户量爆发。吕家俊介绍,当前Akool已经拥有20万用户,其中3000+是订阅付费用户,包括个人用户和企业用户。其中,可口可乐是Akool的典型案例。吕家俊介绍,可口可乐出于营销需求,已在自己的营销APP里接入Akool的API,让更多的用户基于可口可乐的元素生成个性化物料。在营收预期上,吕家俊预计年底Akool会稳定在每月营收超百万美金的水平。
团队方面,目前Akool的员工数在30人左右。其中,CEO吕家俊是伊利诺伊大学香槟分校人工智能博士,斯坦福大学访问研究员,曾在哈佛商学院总裁班(PLDA)学习。并且,他还深度参与过两家B+轮科技公司的早期运行,在生成式人工智能有十年以上的研究经历。此外,公司创始团队、顾问团队中还有不少全球头部企业高管和顶级高校的产学研人员。
本站所有文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。
如果侵犯了你的权益请来信告知我们删除。邮箱:dacesmiling@qq.com