深度学习

GLM

GLM-4-Flash是一款由智谱AI开发的免费大模型API,具备强大的多轮对话、多语言处理能力以及网页检索和代码执行等功能。它利用深度学习技术,尤其是Transformer架构,来实现高效的语言处理和生成。该工具广泛应用于客户服务、内容创作、语言翻译、教育辅助和编程辅助等多个领域,为用户提供了一个全面而高效的AI解决方案。

DreamClear

DreamClear是一款由中国科学院自动化研究所与字节跳动团队联合开发的高性能图像修复工具,利用深度学习技术将低质量图像恢复为高质量图像,同时注重隐私保护。其核心技术包括深度扩散先验、方差保持采样和自适应调制器混合模块,广泛应用于图像质量提升、细节恢复、隐私保护及商业项目开发等领域。

Fancy123

Fancy123是一种基于深度学习的3D网格生成工具,利用单张图像生成高质量3D模型。其核心技术包括多视图扩散模型、大型重建模型、外观增强模块、保真度增强模块及反投影操作,能够有效解决多视图图像的局部不一致问题,提升网格保真度和清晰度。该工具适用于虚拟现实、游戏开发、影视制作等多个领域,具备高度灵活性和实用性。

AlphaEvolve

AlphaEvolve是谷歌DeepMind开发的通用科学代理,结合大型语言模型与进化算法,用于设计和优化复杂算法。它在数据中心调度、硬件设计、AI训练和数学问题解决等领域取得显著成果,如优化矩阵乘法、提升系统效率等。系统采用自动化评估机制,支持跨领域应用,具备高效计算和持续优化能力。

Inf

Inf-DiT是由清华大学与智谱AI联合开发的图像上采样技术,基于扩散模型并引入单向块注意力机制(UniBA),有效降低内存消耗,支持超高分辨率图像生成。其采用扩散变换器(DiT)架构,具备灵活的图像上采样能力,并通过全局图像嵌入和交叉注意力机制增强图像的一致性与质量。该技术适用于设计、影视、印刷及医学等领域,具有广泛的应用前景。

OmniParse

OmniParse是一款开源数据解析平台,支持多种文件类型的非结构化数据转换为结构化格式,包括文档、图像、视频、音频及网页内容。其核心功能涵盖表格提取、图像字幕生成、音视频转录以及网页内容结构化处理,利用自然语言处理、光学字符识别及深度学习技术提升解析效率与准确性。OmniParse完全在本地运行,确保数据隐私与安全,广泛应用于文档自动化处理、客户服务、市场研究、法律合规及医疗记录管理等领域。

RF

RF-DETR是一款由Roboflow推出的实时目标检测模型,支持多分辨率训练,具备高精度和低延迟特性,在COCO数据集上达到60+ mAP。结合Transformer架构和预训练DINOv2主干,提升领域适应性和检测效果。适用于安防、自动驾驶、工业检测等多个场景,提供预训练检查点以支持快速微调和部署。

Wear

Wear-Any-Way是阿里巴巴拍立淘团队研发的虚拟试穿框架,通过稀疏对应对齐机制实现高保真、可定制的试穿效果。用户可自由调整服装样式、颜色及搭配方式,适用于多种场景。具备多件服装搭配、多场景支持及智能推荐功能,适用于电商、时尚设计等领域,提升用户体验与效率。

ElevenLabs

ElevenLabs 是一个为内容创作者和出版商提供功能强大且用途广泛的 AI 语音软件的平台。它允许用户使用其先进的多用途 AI 语音工具以任何语音和风格生成高质量的口语音频。

智能答人

一款基于AI大语言模型、自然语言处理、深度学习等技术的AI客服机器人。它可以通过对企业上传的私有化数据进行自主化训练学习,生成企业专属的、定制化的智能客服,能够精准理解用户诉求,并以更接近人类对话方式交互问答。