生成

Docmatix

Docmatix 是一个专为文档视觉问答任务设计的大规模数据集,包含240万张图像和950万个问题-答案对,源自130万个PDF文档。数据集覆盖广泛,包括扫描图片、PDF文件和数字文档,且具有高质量的问答对。Docmatix 支持模型训练和微调,可用于训练视觉语言模型,提高其在理解和回答与文档内容相关问题方面的性能。应用场景包括自动化客户服务、智能文档分析、教育和学术研究以及业务流程自动化等。

Image AI

专注于图片AI工具,用于处理和生成图片,提供换脸、人脸修复、百变人脸、图片识别、文本生成图片、图片去背景、图片去水印、图片去文字、图片高清放大、图片重新创作、人脸变贴纸等AI图片工具。

讯飞公文写作助手

一款依托于星火大模型技术的公文写作助手,讯飞公文写作助手专为广大公文材料撰稿人打造的高效写作平台。

Sourcely

Sourcely是一款利用AI技术打造的学术搜索工具,支持用户快速查找、总结并引用学术资源。它拥有超过2亿篇论文的数据库,提供免费PDF下载、高级搜索过滤器及即时引用导出等功能,适用于学术论文撰写、文献综述、研究项目等多个场景,显著提升研究效率和质量。

书生·筑梦2.0(Vchitect 2.0)

书生·筑梦2.0是一款由上海人工智能实验室开发的开源视频生成大模型,支持文本到视频和图像到视频的转换,生成高质量的2K分辨率视频内容。它具备灵活的宽高比选择、强大的超分辨率处理能力以及创新的视频评测框架,适用于广告、教育、影视等多个领域。

VideoSrt

VideoSrt是一个可以识别视频语音自动生成字幕SRT文件的开源软件工具。适用于快速、批量的为媒体(视频/音频)生成中/英文字幕、文本文件的业务场景。

Spark

Spark-TTS是一款基于大型语言模型的高效文本转语音工具,支持中英文双语及跨语言合成。它无需额外生成模型,通过LLM预测编码直接生成音频,实现零样本语音克隆。用户可自定义语音参数,如音色、语速等,适用于语音助手、多语言内容创作、智能客服及虚拟角色配音等多种场景。

DALL

OpenAI 的人工智能图像生成器,允许用户根据文本描述轻松生成高度准确的图像。DALL·E 3 理解细微差别和细节,从而生成完全符合所提供文本的图像。

GENERator

GENERator是阿里云飞天实验室开发的生成式基因组基础模型,基于Transformer解码器架构,具备98k碱基对的上下文长度和120亿参数。它能生成具有生物学意义的DNA序列,应用于蛋白质家族设计、启动子优化、基因组分析及合成生物学等领域。模型通过大规模数据预训练,并经过生物学验证,展现出强大的序列生成与优化能力。

CSM

CSM是一款基于人工智能的3D建模平台,能够将2D图像、文本描述或手绘草图快速转换为高质量的3D模型。其主要功能包括图像到三维、文本到三维、草图到三维以及实时建模等,并支持动画和纹理编辑。CSM适用于游戏开发、影视制作、产品设计及建筑设计等多个行业,助力创意工作者高效完成从概念到原型的创作流程。