VideoAgent VideoAgent是一款基于自改进机制的视频生成系统,结合图像观察与语言指令生成机器人控制视频计划。它采用自我条件一致性方法优化视频质量,通过预训练视觉-语言模型反馈和实际执行数据的收集,持续提升生成效果,减少幻觉内容并提高任务成功率。VideoAgent在模拟环境中有优异表现,并已应用于机器人控制、模拟训练、教育研究、游戏开发以及电影制作等领域,展现出广泛的应用潜力。 AI项目与工具 2025年06月12日 66 点赞 0 评论 698 浏览
LLM2LLM LLM2LLM是一种基于教师-学生架构的迭代数据增强方法,通过生成针对性的合成数据提升语言模型在低数据量场景下的性能。该技术通过识别并强化模型预测错误的数据点,实现精准优化,同时控制数据质量和规模。适用于医学、法律、教育等数据稀缺领域,具有良好的可扩展性和实用性。 AI项目与工具 2025年06月12日 96 点赞 0 评论 698 浏览
ScreenAI ScreenAI是一款专为理解和处理用户界面(UI)及信息图表而设计的AI视觉语言模型。它能够识别和理解UI元素及其相互关系,并生成与屏幕UI元素相关的文本,如问题回答、UI导航指令和内容摘要。ScreenAI通过多模态编码器结合视觉和语言信息,并采用自回归解码器生成自然语言响应。此外,ScreenAI还能适应不同屏幕格式,提供精确的UI导航和内容摘要功能。 AI项目与工具 2024年01月01日 16 点赞 0 评论 698 浏览
元象大模型XChat 元象大模型XChat是元象XVERSE推出的高性能AI产品,它通过自研技术,能够满足不同复杂度任务的需求,并在中文领域表现突出。 Ai平台模型 1970年01月01日 0 点赞 0 评论 698 浏览
MedRAG MedRAG是由南洋理工大学研发的医学诊断模型,结合知识图谱与大语言模型(LLM),提升医学诊断的精准度与效率。该模型构建了四层细粒度知识图谱,支持多模态输入,具备主动补问机制,能有效补充患者信息,提升诊断准确性。在真实数据集上,其诊断准确率提升了11.32%。MedRAG可应用于急诊、慢病管理、医学教育等多个领域,为医疗决策提供科学依据。 AI项目与工具 2025年06月12日 79 点赞 0 评论 699 浏览
rStar rStar-Math是由微软亚洲研究院研发的数学推理工具,采用蒙特卡洛树搜索(MCTS)驱动的深度思考机制,使小型语言模型在数学推理方面达到或超越大型模型水平。通过代码增强的推理轨迹生成、过程偏好模型(PPM)训练和四轮自我进化策略,显著提升了模型的准确率与自我反思能力。该工具已在多个数学基准测试中取得优异成绩,适用于教育、科研、金融、工程和数据分析等多个领域。 AI项目与工具 2025年06月12日 60 点赞 0 评论 700 浏览
AgentSquare AgentSquare是一款由清华大学团队研发的模块化设计工具,专注于在大型语言模型代理的设计空间内实现高效搜索。其核心功能包括模块化设计、模块重组与进化、性能预测及自动化搜索等,通过标准化接口支持模块间无缝集成,广泛应用于客户服务、个人助理、教育、医疗及金融等多个领域,旨在提升智能体性能并降低推理成本。 AI项目与工具 2025年06月12日 39 点赞 0 评论 700 浏览
封神榜 封神榜-IDEA研究院是一套致力于中文认知智能的研究项目,它通过一系列先进的语言模型和多模态模型,推动了中文自然语言处理技术的发展。 Ai平台模型 1970年01月01日 0 点赞 0 评论 703 浏览
Valley Valley是一款由字节跳动开发的多模态大语言模型,擅长处理文本、图像和视频数据,广泛应用于内容分析、图像和视频描述、电子商务及短视频平台等领域。其Eagle版本通过引入VisionEncoder增强了模型性能,支持灵活调整令牌数量,实现了更高效的多模态数据处理。Valley在多项基准测试中表现出色,尤其在参数规模较小的情况下依然保持优异的成绩。 AI项目与工具 2025年06月12日 60 点赞 0 评论 705 浏览
Co Co-op Translator是一款基于Azure AI服务的开源多语言翻译工具,支持Markdown文件及图像文本的自动化翻译。它采用先进的大型语言模型(LLM)技术,确保翻译质量的同时保持语义准确性和上下文连贯性。该工具可无缝集成到现有项目中,帮助简化本地化流程,适用于开源项目文档、软件开发、技术博客、教育材料以及企业内部文档等多种应用场景。 AI项目与工具 2025年06月12日 81 点赞 0 评论 705 浏览