自然语言

Vision Parse

Vision Parse 是一款开源工具,旨在通过视觉语言模型将 PDF 文件转换为 Markdown 格式。它具备智能识别和提取 PDF 内容的能力,包括文本和表格,并能保持原有格式与结构。此外,Vision Parse 支持多种视觉语言模型,确保解析的高精度与高速度。其应用场景广泛,涵盖学术研究、法律文件处理、技术支持文档以及电子书制作等领域。

乾元BigBangTransformer

BBT-2-12B-Text基于中文700亿tokens进行预训练,经过指令微调的BBT-2基础模型可以回答百科类和日常生活的问题。BBT-2.5-13B-Text基于中文+英文 2000亿tokens进行预训练。

Wren AI

Wren AI 是一个开源的文本到 SQL 工具,基于自然语言处理技术,允许用户通过自然语言提问来执行数据库查询,无需编写 SQL 代码。它支持多种数据库和数据源,具有语义理解能力,能准确解析业务上下文并提供精确的结果。Wren AI 的核心功能包括语义引擎、向量数据库和大型语言模型,支持数据集成、安全性和结果导出,广泛应用于业务智能分析、数据探索、报告生成等领域。

Chonkie

Chonkie是一款轻量级、高性能的RAG分块库,支持多种分块方法(基于Token、单词、句子和语义),适用于自然语言处理任务。它具备高效性能、广泛tokenizer支持及灵活的安装选项,适用于RAG应用、对话系统、文本摘要和机器翻译等场景。

AI Now

AI Now是一款由联想推出的个人AI助手,内置Meta Llama 3等本地大型语言模型,支持自然语言交互、内容生成、设备管理和跨设备数据传输等功能。它注重数据安全与隐私保护,通过本地加密和个人知识库实现全面的数据控制。AI Now适用于个人助理、教育辅导、办公自动化、内容创作以及客户服务等多种应用场景,旨在提高用户的工作效率和生活质量。

Takin AudioLLM

Takin AudioLLM是一套由喜马拉雅Everest团队研发的语音生成模型,包含文本转语音(Takin TTS)、音色转换(Takin VC)及声音风格变换(Takin Morphing)。它采用最新大型语言模型技术,可生成接近真人的高质量语音,并支持个性化定制与零样本学习。该工具广泛应用于有声书制作、虚拟助手、电影配音等领域,具有音色精准、风格多样等特点。

DeckSpeed

DeckSpeed是一款基于AI的智能演示文稿生成工具,通过自然语言交互实现个性化内容创作。用户可实时调整设计元素,无需依赖模板,提升制作效率与灵活性。适用于商业、教育、学术、产品推广等多个领域,满足多样化的演示需求。

Qwen3

Qwen3 是阿里巴巴推出的下一代大型语言模型,支持“思考模式”和“非思考模式”,适用于复杂与简单任务。具备 119 种语言支持,优化了编码与 Agent 能力,数据量达 36 万亿 token,采用四阶段训练流程。提供多种模型配置,涵盖从轻量级到企业级应用。在多项基准测试中表现优异,广泛应用于文本生成、机器翻译、法律文书、技术文档、医疗辅助等领域。

autoMate

autoMate是一款基于AI与RPA技术的本地化自动化工具,用户可通过自然语言描述任务,无需编程即可完成复杂操作。支持本地部署,确保数据安全,兼容主流大模型,具备智能学习能力。适用于数据处理、报告生成、邮件自动化、跨平台流程管理及日常任务调度等场景,提升工作效率并释放创造力。

PaliGemma 2 mix

PaliGemma 2 Mix 是谷歌 DeepMind 推出的多任务视觉语言模型,支持图像描述、目标检测、OCR、文档理解等功能。模型提供多种参数规模和分辨率选项,适用于不同场景。其基于开源框架开发,易于扩展,可通过简单提示切换任务。适用于科学问题解答、文档分析、电商内容生成等多个领域。