开源

CogVideo

目前最大的通用领域文本生成视频预训练模型,含94亿参数。CogVideo将预训练文本到图像生成模型(CogView2)有效地利用到文本到视频生成模型,并使用了多帧率分层训练策略。

VPP

VPP(Video Prediction Policy)是清华大学与星动纪元联合开发的AIGC机器人模型,基于视频扩散模型实现未来场景预测与动作生成。支持高频预测与跨机器人本体学习,显著降低对真实数据的依赖。在复杂任务中表现出色,适用于家庭、工业、医疗、教育等多个领域。其开源特性推动了具身智能机器人技术的发展。

NPOA

NPOA是一款开源的舆情监测工具,支持实时数据采集、情感分析、话题分类及多渠道媒体分析,适用于企业品牌管理、政府舆论监控、市场研究等多个领域。系统提供预警机制、可视化报告和大屏展示功能,便于用户快速获取关键信息并做出应对。

VLM

VLM-R1 是由 Om AI Lab 开发的视觉语言模型,基于 Qwen2.5-VL 架构,结合强化学习优化技术,具备精准的指代表达理解和多模态处理能力。该模型适用于复杂场景下的视觉分析,支持自然语言指令定位图像目标,并在跨域数据中表现出良好的泛化能力。其应用场景涵盖智能交互、无障碍辅助、自动驾驶、医疗影像分析等多个领域。

Jules

Jules 是 Google Labs 推出的 AI 编程智能体,通过自动化技术提升开发效率。它能根据任务描述自动生成代码,将复杂任务分解为多个步骤,并理解代码库、定位关键模块、自动运行单元测试。Jules 可根据开发者反馈调整方案,支持 GitHub 集成,适用于软件开发、敏捷团队协作、开源项目贡献及企业级应用开发等场景。

Westlake

Westlake-Omni是西湖心辰推出的一款开源中文情感端到端语音交互大模型,融合了语音识别、自然语言处理、情感理解和对话管理等功能,具备实时性和端到端交互特性。它通过深度学习技术和离散表示法,实现从语音输入到语音输出的全流程自动化,生成自然流畅的语音回应,并广泛应用于智能助手、客户服务、教育辅助、健康医疗等领域。

Challympics(赛林匹克)

Challympics是一个专注于人工智能与技术创新的赛事平台,涵盖创新创意、量子计算、AIGC大模型应用等多个领域。平台提供赛事管理、技术支持、算力资源、交流讨论、专家指导等功能,助力开发者展示技能与创意。同时,平台举办多项赛事,推动技术应用与产业合作,促进人工智能技术的发展与落地。

Agent Squad

Agent Squad 是一个轻量级、开源的多 Agents 框架,用于协调多个 AI Agents 处理复杂对话。它支持 Python 和 TypeScript 两种语言,具备智能意图分类、灵活的 Agent 响应(流式与非流式)、上下文管理等功能,并提供模块化安装和可扩展架构。适用于智能客服、旅行规划、企业助手等场景,帮助开发者快速构建高效的多 Agents 系统。

SuperTinyIcons

一个收集了丰富 Logo的SVG 图标库,目前已收集386+ 个主流的品牌和产品的 Logo,包括GitHub、Twitter、Facebook等。适合用于网页设计、移动应用开发。

DiffusionGPT

DiffusionGPT是一款基于大型语言模型的开源文本到图像生成系统,由字节跳动与中山大学联合开发。它采用思维树和优势数据库技术,能够解析和处理多样化的文本提示,生成高质量图像。系统通过多模型的选择与集成、基于人类反馈的优化以及高效的图像生成执行,实现了从文本到图像的无缝转换。DiffusionGPT适用于多种应用场景,具有广泛适用性和灵活性。