ChatGPT Canvas Canvas是一款由OpenAI开发的AI协作工具,集成了写作与编程功能。它支持实时运行Python代码,提供代码审查、注释、错误修复及多语言代码转换等辅助功能。其上下文感知功能可实时优化文章结构,同时支持自定义GPT模型。Canvas在写作和编程领域均表现出色,适用于个人和团队协作。 AI项目与工具 2025年06月12日 65 点赞 0 评论 735 浏览
QLIP QLIP是一种基于二进制球形量化(BSQ)的视觉标记化方法,具备高质量图像重建和零样本图像理解能力。通过对比学习目标和两阶段训练策略,QLIP可作为视觉编码器或图像标记器,广泛应用于多模态任务,如文本到图像生成、图像到文本生成及多模态理解。其技术设计提升了模型的语义表达与训练效率,为统一多模态模型的开发提供了新思路。 AI项目与工具 2025年06月11日 18 点赞 0 评论 735 浏览
WebSSL WebSSL是由Meta和纽约大学等机构开发的视觉自监督学习模型,基于大规模网络图像数据训练,无需语言监督即可学习有效视觉表示。其包含多个变体,参数规模从3亿到70亿不等,在多模态任务如视觉问答、OCR和图表理解中表现出色。通过筛选含文本图像数据,显著提升特定任务性能。模型具备良好的扩展性,适用于智能客服、文档处理、医疗影像分析等多个领域。 AI项目与工具 2025年06月11日 92 点赞 0 评论 736 浏览
DeepEP DeepEP 是 DeepSeek 开发的开源 EP 通信库,专为混合专家模型(MoE)的训练和推理设计。它提供高吞吐、低延迟的 GPU 内核,支持 NVLink 和 RDMA 通信,优化了组限制门控算法,兼容 FP8 等低精度数据格式。适用于大规模模型训练、推理解码及高性能计算场景,具有良好的系统兼容性和网络优化能力。 AI项目与工具 2025年06月12日 43 点赞 0 评论 737 浏览
小虫快读 小虫快读(BugQR)是一款集成OCR技术和AI大语言模型的高效阅读工具,支持拍照识别、文字提取、核心内容总结及语音播放等功能。其三大总结模式(Summary、Explain、Note)满足多样化阅读需求,适用于学生、教师、研究人员、商业分析人士及法律专业人士等多个领域。免费版提供基础功能,高级版本支持内容导出。 AI项目与工具 2025年06月12日 24 点赞 0 评论 737 浏览
Perplexica Perplexica是一款开源的AI驱动搜索引擎,支持多模式搜索(如全网、学术、视频等),兼容本地大型语言模型,具备强大的自然语言理解和实时信息更新能力。适用于个人、学术、企业和教育场景,帮助用户高效获取所需信息。 AI项目与工具 2025年06月12日 65 点赞 0 评论 737 浏览
Spirit LM Spirit LM 是一种由 Meta AI 开发的多模态语言模型,能够处理文本和语音数据,支持跨模态学习。其基础版(BASE)和表达版(EXPRESSIVE)分别侧重于语义理解和情感表达。Spirit LM 可用于自动语音识别(ASR)、文本到语音(TTS)、语音分类及情感分析等任务,在语音助手、语音转写、有声读物等领域具有广泛应用前景。 AI项目与工具 2025年06月12日 40 点赞 0 评论 737 浏览
光语大模型 无限光年公司发布的一款结合大语言模型与符号推理的AI大模型,光语大模型目的是解决大模型在行业应用中的幻觉问题,提高了模型的可信度和专业性。 Ai平台模型 2025年06月05日 89 点赞 0 评论 737 浏览
ComfyGen ComfyGen是一款基于大型语言模型(LLM)的文本到图像生成系统,能够根据用户提供的文本提示自动生成高质量图像。它通过结合多种专业组件如微调基础模型、LoRAs、嵌入技术和超分辨率处理等构建复杂工作流,并采用两种基于LLM的方法优化图像生成质量,适用于艺术创作、游戏开发、广告设计、电影制作等多个领域。 AI项目与工具 2025年06月12日 54 点赞 0 评论 738 浏览
PlayDiffusion PlayDiffusion是Play AI推出的音频编辑模型,基于扩散模型技术实现音频的精细编辑和修复。它将音频编码为离散标记序列,通过掩码处理和去噪生成高质量音频,保持语音连贯性和自然性。支持局部编辑、高效文本到语音合成、动态语音修改等功能,具有非自回归特性,提升生成速度与质量。适用于配音纠错、播客剪辑、实时语音互动等场景。 AI项目与工具 2025年06月11日 94 点赞 0 评论 738 浏览