TransPixar TransPixar是由多所高校及研究机构联合开发的开源文本到视频生成工具,基于扩散变换器(DiT)架构,支持生成包含透明度信息的RGBA视频。该技术通过alpha通道生成、LoRA微调和注意力机制优化,实现高质量、多样化的视频内容生成。适用于影视特效、广告制作、教育演示及虚拟现实等多个领域,为视觉内容创作提供高效解决方案。 AI项目与工具 2025年06月12日 17 点赞 0 评论 690 浏览
SigStyle SigStyle是一款由多所高校与Adobe合作开发的签名风格迁移框架,能将单张风格图像的视觉特征(如几何结构、色彩和笔触)精准迁移到目标图像,同时保持内容的语义和结构。其核心技术基于个性化文本到图像扩散模型,结合超网络和时间感知注意力交换技术,实现高效且高质量的风格迁移。支持多种应用场景,如艺术创作、时尚设计、影视制作等,具备灵活性和广泛适用性。 AI项目与工具 2025年06月12日 63 点赞 0 评论 689 浏览
RepText RepText是一款由Shakker Labs与Liblib AI联合开发的多语言视觉文本渲染框架,采用字形模仿技术实现高质量文本生成。支持多种语言及复杂排版,具备精准控制、高效兼容和自然融合等特点,广泛应用于平面设计、艺术创作和数字内容生产等领域。 AI项目与工具 2025年06月11日 85 点赞 0 评论 689 浏览
AgileGen AgileGen是一个基于人机协作的生成式软件开发框架,通过Gherkin语言定义用户需求并生成代码,支持快速原型设计和迭代优化。其主要功能包括需求收集与澄清、场景设计、代码生成及反馈迭代,同时具备记忆池机制以提升决策效率。适用于初创公司、教育领域及企业内部工具开发等场景。 AI项目与工具 2025年06月12日 94 点赞 0 评论 689 浏览
Step1X Step1X-Edit 是由阶跃星辰团队推出的通用图像编辑框架,结合多模态大语言模型与扩散模型,支持多样化的图像编辑任务,如主体修改、背景更换、风格转换等。用户可通过自然语言指令进行操作,系统能精准理解并生成高质量图像。该工具基于大规模数据集训练,具备强大的真实场景适应能力,适用于创意设计、影视制作、社交媒体等多个领域。 AI项目与工具 2025年06月11日 81 点赞 0 评论 689 浏览
TripoSR TripoSR是一款由Stability AI与VAST联合开发的开源3D生成模型,能够在不到0.5秒内从单张2D图像生成高质量的3D模型。基于Transformer架构和大型重建模型(LRM)设计,采用先进的图像编码、三平面NeRF表示及优化训练策略,支持无GPU设备运行。适用于游戏开发、影视制作、建筑设计、产品设计等多个领域,具有高效、高精度和广泛适用性的特点。 AI项目与工具 2025年06月12日 80 点赞 0 评论 689 浏览
GPDiT GPDiT是一种由多所高校和企业联合开发的视频生成模型,结合了扩散模型与自回归模型的优势,具备高质量视频生成、视频表示学习、少样本学习和多任务处理能力。其核心技术包括轻量级因果注意力机制和无参数的旋转基时间条件策略,提升了生成效率与质量。该模型适用于视频创作、编辑、内容理解及创意生成等多种应用场景。 AI项目与工具 2025年06月11日 81 点赞 0 评论 689 浏览
AndroidGen AndroidGen 是一个基于大语言模型(LLM)的智能代理框架,专注于提升 Agent 在数据稀缺环境下的任务执行能力。它通过无监督方式收集用户操作轨迹并进行训练,结合 ExpSearch、ReflectPlan、AutoCheck 和 StepCritic 四个核心模块,增强任务规划、执行和评估能力。该框架在 AndroidWorld 和 AitW 基准测试中表现出色,适用于自动化任务处理、 AI项目与工具 2025年06月12日 31 点赞 0 评论 689 浏览
VALL-E VALL-E一种用于文本到语音合成 (TTS) 的语言建模方法。具体来说,我们使用从现成的神经音频编解码器模型派生的离散代码来训练神经编解码器语言模型(称为 VALL-E),并将 TTS 视为... Ai平台模型 1970年01月01日 0 点赞 0 评论 689 浏览