学习

Mogao

Mogao是由字节跳动开发的多模态生成基础模型,结合双视觉编码器和先进位置嵌入技术,实现高质量的图像与文本生成。支持零样本图像编辑、多模态理解与生成、高分辨率图像输出以及优化的中文文本渲染。适用于内容创作、智能交互、医疗影像分析等多个领域,具备强大的跨模态处理能力和生成稳定性。

UnZipLoRA

UnZipLoRA是一种由伊利诺伊大学厄巴纳-香槟分校研发的图像处理技术,能够将图像内容与风格分离,并分别以两个LoRA模型表示。该技术通过提示分离、列分离和块分离策略,有效解决内容与风格纠缠的问题,支持高效训练和兼容性组合。可用于艺术创作、图像编辑、风格迁移及个性化图像生成等场景,提升图像处理的灵活性和可控性。

VE

VE-Bench是北京大学MMCAL团队研发的一款视频编辑质量评估工具,包含数据库(VE-Bench DB)和量化评估模块(VE-Bench QA)。它综合考虑了视觉质量、文本-视频一致性及源视频与编辑后视频的动态关联性,旨在实现与人类感知一致的精准评估。适用于电影制作、短视频优化、广告行业等多个领域。

TutorEva

TutorEva是一款面向大学生的智能学习工具,集成了AI作业解决器、论文写作助手、教科书解析等功能,支持文本、图片和文档输入,提供个性化辅导与互动式学习体验,助力学生高效完成学业任务并提升学术水平。

Copilot Vision

Copilot Vision是一款由微软开发的人工智能辅助工具,专为Microsoft Edge浏览器设计,处于预览阶段。它能够理解网页内容,通过语音交互为用户提供实时分析和见解,帮助用户进行活动规划、购物决策和学习辅助,同时确保用户隐私安全。

MakeMyTale

一个可让您使用人工智能为儿童创作短篇小说的Ai故事生成器。您可以选择年龄组、流派、主要角色和他们的名字,AI 将在几分钟内为您生成一个独特的故事。

Realtime API

Realtime API是一款由OpenAI研发的低延迟、多模态对话式API,支持文本与音频输入输出,具备实时语音处理、自然语音合成及多模态交互等功能。通过WebSocket协议实现持久连接,支持事件驱动的交互模式,适用于客户服务、语言学习、游戏娱乐等多种应用场景。

TPDM

TPDM是一种基于扩散模型的图像生成技术,通过引入时间预测模块(TPM)和强化学习优化策略,实现了对去噪步骤的自适应调整,从而在保证图像质量的同时提高了生成效率。该模型适用于多种应用场景,包括文本到图像生成、艺术创作辅助以及数字媒体内容生产等,广泛应用于广告、游戏设计、影视制作等领域。

Thetawave AI

Thetawave AI 是一款面向大学生的智能笔记工具,支持实时课堂转录、视频内容提炼、PPT 内容整理等功能。它能自动生成结构化笔记,并提供聊天机器人、思维导图、Flashcard 和 Quiz 等辅助学习工具,提升学习效率与知识整理能力。