数据

Chinese

Chinese-LiPS是由智源研究院与南开大学联合开发的高质量中文多模态语音识别数据集,包含100小时语音、视频及手动转录文本。其创新性融合唇读视频与幻灯片内容,显著提升语音识别性能,实验表明可降低字符错误率约35%。适用于教学、科普、虚拟讲解等复杂语境,为多模态语音识别研究提供丰富数据支持。

AgentScope

AgentScope是一个由阿里巴巴集团开源的多智能体开发平台,支持构建和部署复杂的多智能体应用。它提供易用的拖拽式界面、实时监控和丰富的开发资源,涵盖聊天、图像生成、文本嵌入等任务。AgentScope具备高鲁棒性、分布式支持及容错机制,同时支持多模态数据处理和外部知识库的整合,适用于智能助手、客户服务、软件工程、社会模拟和教育培训等多个应用场景。

OmniManip

OmniManip是由北京大学与智元机器人联合实验室开发的通用机器人操作框架,结合视觉语言模型与三维操作技术,实现机器人在非结构化环境中的任务执行。其核心为以对象为中心的交互基元表示法,支持零样本泛化、跨平台部署及大规模仿真数据生成。通过双闭环系统设计与任务分解机制,提升操作精度与适应性,适用于日常操作、工业自动化及服务机器人等场景。

CAD

CAD-MLLM 是一款基于多模态输入生成参数化 CAD 模型的系统,融合了文本、图像和点云等多种数据形式。它通过命令序列与大型语言模型的结合,实现了高效的数据对齐与处理,并提出了创新的评估指标。CAD-MLLM 具备强大的鲁棒性和交互式设计能力,适用于工业设计、建筑设计、汽车制造等多个领域。

LongVILA

LongVILA是一款专为长视频理解设计的视觉语言AI模型,由多家知名研究机构共同开发。它具备强大的长上下文处理能力和多模态序列并行性,能在大量GPU上高效训练,无需梯度检查点。LongVILA通过五阶段训练流程,结合大规模数据集构建和高性能推理,显著提升了长视频字幕的准确性和处理效率。此外,它还支持多种应用场景,包括视频字幕生成、内容分析、视频问答系统等。

AgentReview

AgentReview是一款基于大型语言模型构建的学术同行评审模拟工具,通过模拟评审者、作者和领域主席的角色,研究评审偏见和决策机制对评审结果的影响。它支持隐私保护,无需真实敏感数据,同时验证了多种社会学理论在评审中的应用,为优化学术评审流程提供了重要参考。

新简剪辑

提供免费的在线视频去水印能力,热门视频平台视频水印一键去除

海豚知道

一个知识付费平台,类似于小鹅通、千聊、创客匠人,主要通过抖音、微信、快手等小程序的形式提供服务。内容创作者通过海豚知道发布和销售自己的课程,同时也支持直播与录播课程、专栏等功能。

T

T-Rex Label是一款基于AI的自动标注工具,依托T-Rex2模型实现一键标注和零样本检测功能。它通过视觉提示简化标注流程,无需额外训练即可直接应用于多种场景,包括农业、工业、生物医药等。用户可通过GitHub账号快速登录并上传数据,利用AI自动生成初步标注结果,随后人工检查与修正,最终导出为常用格式供模型训练使用。