开源

CogVideo

目前最大的通用领域文本生成视频预训练模型,含94亿参数。CogVideo将预训练文本到图像生成模型(CogView2)有效地利用到文本到视频生成模型,并使用了多帧率分层训练策略。

Chatlog

Chatlog 是一款开源聊天记录分析工具,支持微信、QQ、Telegram 等平台的数据解析与可视化。通过智能分析高频词、情感倾向及活跃时段,帮助用户快速提取关键信息。具备本地化处理、数据可视化、自动化报告生成等功能,适用于个人社交分析、团队协作优化及商业客户洞察场景。

Comic Translate

Comic Translate 是一款基于开源框架的漫画翻译工具,支持多语言翻译,涵盖英语、韩语、日语、法语、简体中文、繁体中文、俄语、德语、荷兰语、西班牙语和意大利语等主流语言。它利用深度学习技术和图像处理库,实现从文本检测、OCR 到翻译渲染的全流程自动化,旨在帮助用户突破语言限制,享受跨文化阅读体验。同时,该工具支持自定义翻译服务,适合个人娱乐、教育学习、翻译本地化及学术研究等多个领域。

F

F-Lite是一款由Freepik与FAL开源项目联合开发的10B参数文本到图像生成模型,基于版权安全数据集训练,支持商业应用。它采用T5-XXL文本编码器,结合扩散模型架构,实现高精度图像生成。支持多分辨率输出,包含256、512和1024像素,并推出专为纹理优化的F-Lite Texture版本。模型通过强化学习和多项优化技术提升生成质量与效率,适用于创意设计、内容创作、游戏开发等多个领域。

Open Code Reasoning

Open Code Reasoning(OCR)是英伟达推出的开源代码推理AI模型,基于Nemotron架构设计,支持多种编程语言。它具备代码生成、逻辑补全、多语言处理及高效推理能力,适用于代码优化、教育、测试等多个场景。OCR提供32B、14B和7B三种参数版本,满足不同计算需求,并与主流框架兼容,具有良好的扩展性。

Dify.AI

一个开源的大语言模型(LLM)应用开发平台。它结合了后端即服务和 LLMOps 的概念,使开发人员能够快速构建生产级的生成式 AI 应用程序。

OOMOL

OOMOL(悟墨)是一款基于 VSCode 的现代化 IDE,专为工作流自动化设计。通过拖拽式界面,用户可快速构建复杂流程,无需编程基础。内置 Python 和 Node.js 环境,结合容器化技术实现跨平台一致性和数据安全。原生支持 AI 功能,涵盖数据科学、多媒体处理和模型开发等场景,适合开发者高效构建和共享工作流。

O1

O1-CODER是一款由北京交通大学研究团队开发的开源编码工具,专精于编程任务。它通过结合强化学习和蒙特卡洛树搜索技术,实现了从伪代码到完整代码的生成,并通过测试用例生成器和过程奖励模型优化代码质量。该工具支持自动化代码生成、代码质量提升、教育辅助以及软件测试等多种应用场景。

Memento

一款基于mpv构建的开源视频播放器,专为学习日语设计。它巧妙地将视频播放与语言学习功能结合,支持通过影视内容进行语法分析、生词捕捉和记忆卡片制作。

Westlake

Westlake-Omni是西湖心辰推出的一款开源中文情感端到端语音交互大模型,融合了语音识别、自然语言处理、情感理解和对话管理等功能,具备实时性和端到端交互特性。它通过深度学习技术和离散表示法,实现从语音输入到语音输出的全流程自动化,生成自然流畅的语音回应,并广泛应用于智能助手、客户服务、教育辅助、健康医疗等领域。