深度学习 - 智狐AI导航

Gemini Robotics

Gemini Robotics 是谷歌 DeepMind 基于 Gemini 2.0 开发的机器人系统，融合视觉-语言-动作模型，支持复杂任务执行与环境适应。具备三维空间理解、物体检测、轨迹预测和开放词汇指令执行能力，适用于工业制造、物流仓储、家庭服务、医疗健康等多个领域。系统通过数据驱动训练，结合真实操作与多模态信息，实现高效、灵活的机器人控制。

AI项目与工具 2025年06月12日 17 点赞 0 评论 905 浏览

I2V

I2V-01-Live是一款基于深度学习技术的图生视频工具，可将静态二维图像转化为动态视频，具有高度流畅的动作表现和多样化的艺术风格适配能力。其核心功能包括动态呈现、动作效果增强及稳定的表情管理，广泛应用于社交媒体、广告营销、动画制作、教育培训以及游戏开发等领域。

AI项目与工具 2024年12月06日 82 点赞 0 评论 908 浏览

Astria AI

Astria是一个利用生成AI创建定制图像的平台。Astria AI允许用户上传一组主题的图像，然后根据文本提示生成新图像。

Ai绘画生成 2025年06月05日 28 点赞 0 评论 911 浏览

LipRead Pro

LipRead Pro 是一款基于AI技术的视频唇读工具，可将视频中的唇部动作转换为文字，支持多语言和口音识别。其高精度算法确保了文字输出的准确性，适用于内容创作、无障碍辅助、安全监控、历史档案修复等多种场景。操作简便，处理高效，注重用户数据隐私保护，适合专业用户和普通用户使用。

AI项目与工具 2025年06月12日 100 点赞 0 评论 912 浏览

星火语音同传大模型

星火语音同传大模型是科大讯飞推出的国内首个端到端语音同传AI系统，支持37种语言，具备高精度翻译、流式处理、语境理解和语音合成优化等功能。模型可在5秒内完成同传，准确度高，适用于国际会议、商务交流、教育等场景，支持译文长度调节和设备兼容，提升跨语言沟通效率。

AI项目与工具 2025年06月12日 53 点赞 0 评论 914 浏览

Filmfotos

Filmfotos是一款基于Flux架构的LoRA模型，专注于模拟和还原胶片质感。其低饱和度的日系胶片风格适用于多种场景，包括人物、风景、静物、食物和动物等，能够提升照片的艺术感和复古氛围。Filmfotos利用LoRA技术、深度学习和图像处理算法，实现高精度的图像生成，适用于摄影爱好者、专业人士及创意工作者。

AI项目与工具 2025年06月12日 39 点赞 0 评论 917 浏览

GPT学术优化

GPT学术优化是一款专为学术研究与写作设计的开源工具，提供论文翻译、代码解析、信息提取、LaTeX校对、论文润色及摘要生成等功能。其模块化设计支持灵活扩展，通过大型语言模型实现高效的语言处理任务，适用于学术研究、教育辅导、项目开发和技术文档撰写等多个场景。

AI项目与工具 2025年06月12日 58 点赞 0 评论 919 浏览

OutofFocus

OutofFocus是一款基于AI的图像编辑工具，支持文本提示驱动的图像生成与编辑。其核心功能包括风格转换、内容填充、图像修复和增强等，通过自然语言处理与扩散逆过程重建技术实现高效编辑。该工具具有易用性和灵活性，广泛适用于艺术创作、内容营销、教育研究等多个领域。

AI项目与工具 2025年06月12日 58 点赞 0 评论 920 浏览

DocMind

DocMind是一款基于Transformer架构的文档智能大模型，融合了深度学习、NLP和CV技术，用于处理富文本文档的复杂结构和视觉信息。它能够精准识别文档实体、捕捉文本依赖关系并深入理解文档内容，支持知识库结合，提升专业文档理解能力。DocMind还具备自动执行文档相关任务的功能，如问题解答、文档分类整理等，广泛应用于法律、教育、金融等领域。

AI项目与工具 2025年06月12日 89 点赞 0 评论 927 浏览

EchoMimic是一款由阿里蚂蚁集团开发的AI数字人开源项目，通过深度学习模型结合音频和面部标志点，创造出高度逼真的动态肖像视频。该工具支持音频同步动画、面部特征融合、多模态学习和跨语言能力，适用于娱乐、教育和虚拟现实等领域。其独特的技术原理包括音频特征提取、面部标志点定位、面部动画生成和多模态学习，使用了卷积神经网络（CNN）、循环神经网络（RNN）和生成对抗网络（GAN）等深度学习模型，实现

AI项目与工具 2025年06月12日 79 点赞 0 评论 941 浏览

深度学习

首页

深度学习

列表

默认

浏览次数

发布日期