Gemini 2.0 Flash Thinking Gemini 2.0 Flash Thinking 是谷歌发布的一款推理增强型AI模型,具有高达百万tokens的长上下文窗口、可解释的推理过程、代码执行功能及多模态处理能力。它能够有效减少推理矛盾,提升输出结果的可靠性和一致性,广泛适用于教育、科研、内容创作、客户服务以及数据分析等多个领域。 AI项目与工具 2025年06月12日 33 点赞 0 评论 143 浏览
STIV STIV是一款由苹果公司开发的视频生成大模型,具有8.7亿参数,擅长文本到视频(T2V)及文本图像到视频(TI2V)任务。它通过联合图像-文本分类器自由引导(JIT-CFG)技术提升生成质量,并结合时空注意力机制、旋转位置编码(RoPE)及流匹配训练目标优化性能。STIV支持多种应用场景,包括视频预测、帧插值、长视频生成等,适用于娱乐、教育、广告及自动驾驶等多个领域。 AI项目与工具 2025年06月12日 57 点赞 0 评论 143 浏览
GenMAC GenMAC是一款基于多代理协作的迭代框架,旨在解决文本到视频生成中的复杂场景生成问题。它通过任务分解为设计、生成和重新设计三阶段,结合验证、建议、修正和输出结构化子任务,利用自适应自路由机制优化视频生成效果。该工具可应用于电影制作、游戏开发、广告设计、教育培训和新闻报道等多个领域,显著提升视频生成的效率和质量。 AI项目与工具 2025年06月12日 42 点赞 0 评论 143 浏览
小爱同学 AI 助手 小爱同学 AI 助手是一款功能全面、智能化程度高的多模态AI助手。它不仅能够提供丰富的信息查询和知识问答服务,还能通过智能分析和建议,帮助用户更高效地规划生活和工作。 创作工具 1970年01月01日 0 点赞 0 评论 144 浏览
PUMA PUMA是一款先进的多模态大型语言模型,专注于通过整合多粒度视觉特征提升视觉生成与理解能力。它支持文本到图像生成、图像编辑、条件图像生成及多粒度视觉解码等功能,适用于艺术创作、媒体娱乐、广告营销等多个领域,凭借其强大的多模态预训练和微调技术,成为多模态AI领域的前沿探索。 AI项目与工具 2025年06月12日 72 点赞 0 评论 145 浏览
Eagle 2.5 Eagle 2.5 是一款由英伟达开发的视觉语言模型,专注于长上下文多模态学习,具备处理高分辨率图像和长视频序列的能力。其参数规模为 8B,但性能接近更大模型。采用信息优先采样和渐进式后训练策略,提升模型稳定性与适应性。支持多样任务,适用于视频分析、图像处理、内容创作及教育等多个领域。 AI项目与工具 2025年06月11日 59 点赞 0 评论 146 浏览
觅果·Migo 觅果·Migo 是一款基于 AI 技术的学习与研究平台,支持多模态内容处理,涵盖文本、图像和数据。提供智能问答、网页辅读、文献分析、学术写作、化学辅助等功能,适用于科研、学习与内容创作。用户可通过云端访问,实现多设备无缝切换,提升信息处理与知识管理效率。 AI项目与工具 2025年06月11日 45 点赞 0 评论 148 浏览
LongLLaVA LongLLaVA是由香港中文大学(深圳)研究团队开发的多模态大型语言模型,结合Mamba和Transformer模块,利用2D池化技术压缩图像token,大幅提升处理大规模图像数据的效率。该模型在视频理解、高分辨率图像分析及多模态代理任务中表现优异,特别擅长检索、计数和排序任务。其技术亮点包括渐进式训练策略和混合架构优化,支持多种多模态输入处理,广泛应用于视频分析、医学影像诊断、环境监测等领域。 AI项目与工具 2025年06月12日 67 点赞 0 评论 149 浏览