3DTown 3DTown是由哥伦比亚大学联合Cybever AI等机构开发的AI工具,能够从单张俯视图生成高精度的3D城镇场景。它采用区域化生成和空间感知3D修复技术,将输入图像分解为重叠区域,分别生成3D内容并修复缺失结构,确保几何和纹理一致性。支持多种风格的场景生成,适用于虚拟世界构建、游戏开发、机器人模拟等领域,优于现有方法。 AI项目与工具 2025年06月11日 17 点赞 0 评论 262 浏览
MMaDA MMaDA(Multimodal Large Diffusion Language Models)是由普林斯顿大学、清华大学、北京大学和字节跳动联合开发的多模态扩散模型,支持跨文本推理、多模态理解和文本到图像生成等多种功能。其采用统一的扩散架构和模态不可知设计,结合混合长链推理微调策略与UniGRPO强化学习算法,提升跨模态任务性能。MMaDA在多项任务中表现优异,适用于内容创作、教育辅助、智能客 AI项目与工具 2025年06月11日 80 点赞 0 评论 373 浏览
MedGemma MedGemma是谷歌推出的开源AI模型,专注于医疗图像与文本分析。它包含4B参数的多模态模型和27B参数的纯文本模型。4B模型擅长解读医疗图像并生成诊断报告,27B模型则用于医疗文本理解与临床推理。支持本地运行或通过Google Cloud部署,适用于医疗诊断、患者分诊、临床决策辅助等场景,提升医疗服务效率与准确性。 AI项目与工具 2025年06月11日 81 点赞 0 评论 194 浏览
Stitch Stitch是谷歌实验室推出的基于生成式AI的工具,能够将简单的英语描述或图像快速转化为用户界面(UI)设计及前端代码。它基于Gemini 2.5 Pro模型的多模态能力,支持文本、图像输入,并能识别图像生成UI组件。Stitch可生成简洁可用的前端代码,支持HTML、CSS和JavaScript,同时与Figma无缝集成,便于团队协作和优化设计。其功能包括文本生成设计、图像生成设计、代码生成与优 AI项目与工具 2025年06月11日 91 点赞 0 评论 459 浏览
BAGEL BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,采用混合变换器专家架构(MoT),通过两个独立编码器捕捉图像的像素级和语义级特征。它能够进行图像与文本融合理解、视频内容理解、文本到图像生成、图像编辑与修改、视频帧预测、三维场景理解与操作、世界导航以及跨模态检索等任务。BAGEL在多模态理解基准测试中表现优异,生成质量接近SD3,并适用于内容创作、三维场景生成、可视化学习和创意广告生成等 AI项目与工具 2025年06月11日 92 点赞 0 评论 142 浏览
Gemma 3n Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型,基于 Gemini Nano 架构,采用逐层嵌入技术,将内存占用压缩至 2-4B 参数模型水平。支持文本、图像、短视频和音频输入,可生成结构化文本输出,并具备音频转录、情感分析等功能。可在本地设备运行,响应时间低至 50 毫秒,适用于语音助手、内容生成和学术任务定制。 AI项目与工具 2025年06月11日 87 点赞 0 评论 138 浏览
Pixel3DMM Pixel3DMM是由慕尼黑工业大学、伦敦大学学院和Synthesia联合开发的单图像3D人脸重建框架,基于DINOv2模型,能从单张RGB图像中准确重建出3D人脸的几何结构。该工具擅长处理复杂表情和姿态,支持身份和表情的解耦,并通过FLAME模型优化实现高精度重建。其应用场景涵盖影视游戏、VR/AR、社交视频、医疗美容和学术研究。 AI项目与工具 2025年06月11日 88 点赞 0 评论 305 浏览
Imagen 4 Imagen 4是谷歌推出的最新图像生成AI模型,支持高达2K分辨率的图像生成,具备出色的细节呈现能力,可清晰展示复杂织物纹理、水滴折射及动物毛发质感。其文本渲染能力显著提升,适合广告、漫画等设计场景。支持多种艺术风格,包括超现实、抽象、插图和摄影,满足多样化创作需求。同时,Imagen 4拥有快速生成模式和高效的特征蒸馏技术,提升了生成速度,并已集成到Gemini应用、Google Worksp AI项目与工具 2025年06月11日 76 点赞 0 评论 358 浏览
Steamer Steamer-I2V 是百度 Steamer 团队推出的图像到视频生成模型,能够将静态图像转化为动态视频,具备卓越的视觉生成能力。该模型基于 Transformer 扩散架构,支持多模态输入,包括中文文本提示和参考图像,实现像素级的画面控制与电影级构图效果。在 VBench 评测中荣获榜首,生成高清 1080P 视频,优化时间一致性与运动规律性,适用于广告、影视、游戏开发和内容创作等多个领域。 AI项目与工具 2025年06月11日 95 点赞 0 评论 195 浏览
Custom Custom-SVG 是一种基于文本提示生成定制风格 SVG 图形的框架,结合前馈模型与扩散模型的优势,实现结构规整且风格统一的矢量图形生成。支持风格定制、语义对齐和高效生成,适用于图形设计、UI 设计、网页设计及教育等多个领域。其核心技术包括路径级表示的扩散模型训练和基于图像扩散先验的风格迁移。 AI项目与工具 2025年06月11日 62 点赞 0 评论 493 浏览