Finedefics Finedefics是由北京大学彭宇新教授团队开发的细粒度多模态大模型,专注于提升多模态大语言模型在细粒度视觉识别任务中的表现。该模型通过引入对象的细粒度属性描述,结合对比学习方法,实现视觉对象与类别名称的精准对齐。在多个权威数据集上表现出色,准确率达76.84%。其应用场景涵盖生物多样性监测、智能交通、零售管理及工业检测等领域。 AI项目与工具 2025年06月12日 10 点赞 0 评论 661 浏览
阿帕斯大模型 阿帕斯大模型是APUS公司推出的以人工智能技术为核心的多模态大模型,它通过提供行业定制化的AI解决方案和创意工具,致力于帮助全球用户实现更优质的移动互联网使用体验和创造个性... 创作工具 1970年01月01日 0 点赞 0 评论 660 浏览
Veo 3 Veo 3是谷歌推出的新一代视频生成模型,在I/O开发者大会上发布。它是首个能生成视频背景音效的模型,可合成画面并匹配人物对话和口型,支持1080P高质量视频生成,具备物理模拟与口型同步能力,可生成超过60秒的视频片段,并支持多种视觉风格。Veo 3整合了多项先进技术,适用于影视制作、广告营销及教育领域。 AI项目与工具 2025年06月11日 90 点赞 0 评论 660 浏览
Amphion Amphion是一款开源音频生成工具包,包含文本转语音(TTS)、歌声合成(SVS)、语音转换(VC)、歌声转换(SVC)、文本转音频(TTA)和文本转音乐(TTM)等功能。它支持多种神经声码器,并提供可视化模型架构,帮助用户快速掌握音频生成技术。通过统一框架和预训练模型,Amphion推动了音频生成领域的研究和应用发展。 AI项目与工具 2025年06月12日 63 点赞 0 评论 660 浏览
AMD AMD-135M是一款由AMD开发的小型语言模型,基于LLaMA2架构,具有文本生成、代码生成、自然语言理解和多平台兼容性等特点。该模型通过推测解码技术提高了推理速度,降低了内存占用,并在多项自然语言处理任务中表现出色。适用于聊天机器人、内容创作、编程辅助、语言翻译和文本摘要等多种应用场景。 AI项目与工具 2025年06月12日 100 点赞 0 评论 660 浏览
Docky AI 多合一AI助手,集成了 ChatGPT、 GPT-4o,为您的对话、阅读和写作提供无缝帮助,助力您的工作效率飞跃。 AI写作对话 2025年06月05日 58 点赞 0 评论 660 浏览
文心大模型X1 文心大模型X1是百度开发的深度思考型AI模型,具备中文知识问答、逻辑推理、文学创作等能力,支持多模态内容生成与工具调用。采用递进式强化学习与端到端训练技术,结合飞桨平台实现高效推理。适用于文学创作、文案生成、学术研究、代码开发等多个领域,提供高性价比的AI服务。 AI项目与工具 2025年06月12日 64 点赞 0 评论 659 浏览
Reflection 70B Reflection 70B是一款基于Meta的Llama 3.1 70B Instruct构建的开源AI大模型,采用“Reflection-Tuning”技术,能够在生成最终回答前检测并纠正错误,显著提高输出的准确性。该模型特别适用于需要高精度推理的任务,并具备出色的零样本推理能力。用户可以通过引入特殊token,以更结构化的方式与模型交互。此外,Reflection 70B支持通过Huggin AI项目与工具 2025年06月12日 98 点赞 0 评论 659 浏览
CogView4 CogView4是一款由智谱推出的开源文生图模型,具有60亿参数,支持中英文输入与高分辨率图像生成。在DPG-Bench基准测试中表现优异,达到当前开源模型的领先水平。模型具备强大的语义理解能力,尤其在中文文字生成方面表现突出,适用于广告设计、教育、儿童绘本及电商等领域。其技术架构融合扩散模型与Transformer,并采用显存优化技术提升推理效率。 AI项目与工具 2025年06月12日 83 点赞 0 评论 659 浏览
FunASR FunASR是一个由阿里巴巴达摩院开源的多功能语音识别工具包,涵盖语音识别(ASR)、语音活动检测(VAD)、标点恢复、说话人验证及分离等功能。它支持工业级模型的训练与微调,并提供预训练模型和易用接口,便于快速部署。新增的Whisper-large-v3-turbo模型进一步提升了其性能,广泛应用于智能助手、会议记录、客服系统和语音搜索等领域。 AI项目与工具 2025年06月12日 99 点赞 0 评论 659 浏览