语言模型 - 智狐AI导航

ParGo

ParGo是一种由字节与中山大学联合开发的多模态大语言模型连接器，通过结合局部与全局token，提升视觉与语言模态的对齐效果。其核心模块PGP和CPP分别提取图像的局部和全局信息，增强细节感知能力。在多个基准测试中表现优异，尤其在文字识别和图像描述任务中优势明显。采用自监督学习策略，提高模型泛化能力，适用于视觉问答、图像字幕生成、跨模态检索等多种场景。

AI项目与工具 2025年06月12日 38 点赞 0 评论 790 浏览

百聆

百聆是一款开源语音对话系统，融合语音识别、语音活动检测、大语言模型和语音合成技术，实现自然流畅的语音交互。支持低延迟运行，无需GPU，适用于边缘设备。具备记忆、工具调用和任务管理等功能，适用于智能家居、个人助理、车载系统等多种场景，提供高效的语音交互解决方案。

AI项目与工具 2025年06月12日 90 点赞 0 评论 517 浏览

OmniManip

OmniManip是由北京大学与智元机器人联合实验室开发的通用机器人操作框架，结合视觉语言模型与三维操作技术，实现机器人在非结构化环境中的任务执行。其核心为以对象为中心的交互基元表示法，支持零样本泛化、跨平台部署及大规模仿真数据生成。通过双闭环系统设计与任务分解机制，提升操作精度与适应性，适用于日常操作、工业自动化及服务机器人等场景。

AI项目与工具 2025年06月12日 53 点赞 0 评论 496 浏览

WebWalker

WebWalker是阿里巴巴研发的AI工具，用于评估和优化大型语言模型在网页浏览任务中的表现。它通过多智能体框架、垂直探索策略及WebWalkerQA数据集，提升模型处理长上下文和多源信息的能力。支持多语言、多领域和多难度任务，适用于信息检索、数据分析和内容监控等场景，具备良好的适应性和可扩展性。

AI项目与工具 2025年06月12日 22 点赞 0 评论 435 浏览

WhisperKeyboard

WhisperKeyboard 是一款基于 OpenAI Whisper 技术的 AI 语音输入工具，支持多语言实时语音转文字，适用于写作、编程、会议记录等场景。具备离线识别、文本润色、多语言翻译和隐私保护等功能，兼容多平台，提升输入效率与文本质量。

AI项目与工具 2025年06月12日 76 点赞 0 评论 657 浏览

Tarsier2

Tarsier2是字节跳动研发的大规模视觉语言模型，擅长生成高精度视频描述并在多项视频理解任务中表现优异。其核心技术包括大规模数据预训练、细粒度时间对齐微调以及直接偏好优化（DPO）。该模型在视频问答、定位、幻觉检测及具身问答等任务中均取得领先成绩，支持多语言处理，具有广泛的应用潜力。

AI项目与工具 2025年06月12日 59 点赞 0 评论 452 浏览

VARGPT

VARGPT是一款多模态大语言模型，整合了视觉理解和生成任务于统一的自回归框架中。它通过next-token和next-scale预测机制，支持文本与图像的混合输入和输出，具备高效的视觉生成能力。模型采用三阶段训练策略，提升了在视觉问答、推理及图像生成任务中的表现。适用于多模态内容创作、指令到图像合成等场景。

AI项目与工具 2025年06月12日 17 点赞 0 评论 467 浏览

SpeechGPT 2.0

SpeechGPT 2.0-preview 是复旦大学 OpenMOSS 团队开发的拟人化实时交互系统，基于大量中文语音数据训练，支持低延迟、高自然度的语音与文本交互。具备情感控制、实时打断、多风格语音生成等功能，适用于智能助手、内容创作及无障碍通信等场景，技术上融合了语音-文本联合建模与多阶段训练策略，提升语音表现力与智能化水平。

AI项目与工具 2025年06月12日 23 点赞 0 评论 534 浏览

Aligner

Aligner是由北京大学团队开发的大语言模型对齐工具，通过学习对齐答案与未对齐答案之间的差异来提升模型性能。采用自回归seq2seq结构，在Q-A-C数据集上训练，无需RLHF流程。具备高效、灵活、即插即用等特点，支持多模型兼容，提升模型帮助性和安全性。适用于多轮对话、价值观对齐及MoE架构优化等场景。

AI项目与工具 2025年06月12日 44 点赞 0 评论 442 浏览

Mistral Small 3

Mistral Small 3 是一款由 Mistral AI 推出的开源大语言模型，具备 240 亿参数，支持多语言处理，适用于低延迟场景。模型基于 Transformer 架构，支持长文本输入，具备高性能和本地部署能力。其可定制性强，适用于虚拟助手、客服系统、自动化任务及专业领域应用，如医疗和法律咨询。

AI项目与工具 2025年06月12日 77 点赞 0 评论 710 浏览

语言模型

首页

语言模型

列表

默认

浏览次数

发布日期