AI项目与工具

Bocha Semantic Reranker

Bocha Semantic Reranker是一款基于语义的排序模型,用于提升搜索和问答系统的准确性。它通过二次优化初步排序结果,评估查询与文档的语义相关性,并为文档分配语义得分。该工具支持多种语言模型,适用于搜索引擎优化、问答系统、推荐系统和智能客服等领域,旨在改善用户体验并提高系统效率。

百度AI搜

百度AI搜是一款基于文心大模型构建的桌面端AI搜索引擎,融合了百度多领域的资源与技术,提供智能创作、画图修图、AI阅读及精选智能体等功能。它支持文档阅读、图片处理、代码助手以及法律咨询等多样化应用,适用于学习、工作和生活中的多种场景,助力用户高效获取信息与创造价值。

CleanS2S

CleanS2S是一款流式语音到语音交互智能体原型,通过集成自动语音识别(ASR)、大型语言模型(LLM)、文本到语音(TTS)以及WebSockets等技术,提供高质量、实时的语音交互体验。它支持全双工交互和打断功能,可整合网络搜索和RAG模型以增强回答能力,适用于客户服务、智能家居控制、教育辅助、健康咨询及车载系统等多个领域。

Director

Director是一款基于VideoDB的视频智能处理框架,利用自然语言指令实现视频搜索、编辑、合成及生成等功能,同时支持实时流式传输。它提供了聊天式用户界面和预构建的视频代理,便于开发者和创作者快速构建定制化解决方案。此外,Director适用于视频内容管理、编辑、创作以及教育等多个领域,为企业和内容生产者提升工作效率。

CorrDiff

CorrDiff是NVIDIA开发的生成式AI模型,用于将低分辨率天气数据提升至高分辨率,提升天气预测的精度和效率。采用UNet与扩散模型结合的两步法,显著提升计算速度并降低能耗。支持多变量预测和极端天气模拟,适用于灾害预警和高精度气象分析,具备良好的部署灵活性。

QLIP

QLIP是一种基于二进制球形量化(BSQ)的视觉标记化方法,具备高质量图像重建和零样本图像理解能力。通过对比学习目标和两阶段训练策略,QLIP可作为视觉编码器或图像标记器,广泛应用于多模态任务,如文本到图像生成、图像到文本生成及多模态理解。其技术设计提升了模型的语义表达与训练效率,为统一多模态模型的开发提供了新思路。

clone

Clone-Voice是一款基于深度学习的声音克隆工具,支持16种语言的文本转语音及声音风格转换,具有友好的操作界面和较低的硬件要求。它被广泛应用于视频制作、语言学习、有声出版物创作、广告宣传及游戏开发等领域,为用户提供多样化的个性化声音解决方案。

星声AI

星声AI是一款智能化播客生成工具,支持文字、网页链接或文档输入,自动生成结构完整的播客脚本,并通过高质量语音合成技术转化为自然流畅的音频内容。平台支持中、英、日、韩四国语言,提供多种音色与风格选择,具备音频编辑、内容拆解、多平台发布等功能,适用于知识分享、企业培训、内容创作等多种场景。

Stitch

Stitch是谷歌实验室推出的基于生成式AI的工具,能够将简单的英语描述或图像快速转化为用户界面(UI)设计及前端代码。它基于Gemini 2.5 Pro模型的多模态能力,支持文本、图像输入,并能识别图像生成UI组件。Stitch可生成简洁可用的前端代码,支持HTML、CSS和JavaScript,同时与Figma无缝集成,便于团队协作和优化设计。其功能包括文本生成设计、图像生成设计、代码生成与优

有挂

“有挂”是一款基于自然语言处理技术的浏览器AI插件,允许用户通过简单命令或对话修改网页内容,无需编程知识。它支持多种浏览器,具备个性化定制、跨平台兼容及保存功能,可帮助用户轻松调整网页样式,如改变背景颜色、添加功能等。此外,“有挂”还能用于去除广告、优化网页布局以及辅助学习和数据提取。