自然语言

Browser Operator

Browser Operator 是 Opera 浏览器推出的 AI 工具,通过自然语言指令实现网页浏览任务的自动化操作,如购物、预订、信息收集等。支持用户随时监控和干预任务,所有操作在本地完成,确保数据隐私。适用于多种日常场景,提升浏览效率和用户体验。

GraphMaker

GraphMaker是一款基于AI的图表制作工具,能够通过自然语言理解实现数据可视化。它支持多种数据格式,可生成柱状图、饼图、散点图等多样化图表,并提供编辑和美化功能,广泛应用于商业报告、学术研究、市场分析等领域,注重数据安全与用户体验。

OpenScholar

OpenScholar是一款由华盛顿大学与艾伦AI研究所联合研发的检索增强型语言模型,专为科学家设计,能够高效检索并综合海量科学文献信息,生成基于文献的事实性回答。该工具具备强大的跨学科适用性,涵盖计算机科学、生物医学等多个领域,同时支持自我反馈迭代优化,显著提升回答质量和引用可靠性。所有相关资源已完全开源,便于全球学者使用与研究。

Finedefics

Finedefics是由北京大学彭宇新教授团队开发的细粒度多模态大模型,专注于提升多模态大语言模型在细粒度视觉识别任务中的表现。该模型通过引入对象的细粒度属性描述,结合对比学习方法,实现视觉对象与类别名称的精准对齐。在多个权威数据集上表现出色,准确率达76.84%。其应用场景涵盖生物多样性监测、智能交通、零售管理及工业检测等领域。

Style AI

Style AI 是一款支持图像、视频生成与编辑的 AI 工具,能够将照片转换为各种艺术风格,如古典绘画或现代数字艺术,同时保留图像核心元素。用户可通过自然语言指令轻松编辑图像,支持无缝合并多张照片,生成集体照或新场景,并能根据文字描述直接生成图像和视频。该工具提供高效、精准的解决方案,适用于艺术创作、创意设计、视频制作、照片编辑及虚拟场景合成等多种场景。

OSUM

OSUM是一款由西北工业大学研发的开源语音理解模型,结合Whisper编码器与Qwen2 LLM,支持语音识别、情感分析、说话者性别分类等多种任务。采用“ASR+X”多任务训练策略,提升模型泛化能力和稳定性。基于约5万小时语音数据训练,性能优异,适用于智能客服、教育、心理健康监测等多个领域。

Scenethesis

Scenethesis是NVIDIA推出的AI框架,可通过文本生成高质量的3D场景。它结合LLM与视觉技术,经过布局规划、视觉细化、物理优化和场景验证四个阶段,确保生成结果具备物理合理性和空间连贯性。支持用户交互与多样化场景构建,广泛应用于VR/AR、游戏开发、具身智能及虚拟内容创作等领域。

ChatBotKit

ChatBotKit是一个领先的对话式AI平台,专为简化高级对话系统的开发而设计。它允许用户通过简单的界面快速创建和部署聊天机器人,支持多渠道集成,并强调数据隐私保护。主要功能包括强大的自然语言处理、灵活的数据集管理和定制化机器人配置,适用于客户服务、销售支持、教育培训等多个领域。

Toucan TTS

Toucan TTS是一款由德国斯图加特大学自然语言处理研究所开发的文本到语音合成工具箱。它基于Python和PyTorch构建,支持超过7000种语言及多种方言和变体。主要功能包括多说话人语音合成、语音风格克隆、人机交互编辑、语音参数调整以及发音清晰度和性别特征调整。该工具箱适用于语音模型教学、文字朗读和多语言应用开发等场景,并提供在线交互式演示功能,方便用户快速理解和使用。

广电运通望道大模型

广电运通望道大模型是一个多功能的人工智能平台,它通过集成的高级自然语言处理和数据分析能力,为用户提供了从文本分析到创意生成的一系列服务。