AI项目与工具

BizGen

BizGen是由清华大学与微软研究院联合开发的AI信息图生成工具,能将长篇文章自动转化为专业级的信息图和幻灯片。其核心技术包括高质量数据集Infographics-650K和“布局引导的交叉注意力机制”,可精准控制图像中各区域的文本与视觉元素。支持多语言和多种风格,适用于商业汇报、产品展示、学术研究等多个场景,具备高准确性与排版质量。

novelistAI

NovelistAI是一款基于AI技术的小说创作平台,支持多种文学体裁和语言的创作,提供封面设计、插图生成和有声书制作等功能,旨在提升创作体验并扩大全球影响力。用户可以通过个性化图书馆功能管理自己的创作成果,适用于个人、教育、语言学习和专业写作等多个场景。

Riona

Riona-AI-Agent 是一款基于 Node.js 和 TypeScript 开发的自动化工具,支持 Twitter、Instagram 和 GitHub 等平台的社交内容生成与管理。它提供定时发布、自动点赞评论、多账户管理及 Cookie 保持等功能,并集成 Google 生成式 AI 模型提升内容质量。用户可上传个性化内容进行训练,实现定制化输出,适用于企业品牌建设和个人账号运营。

PixelFlow

PixelFlow是由香港大学与Adobe联合开发的图像生成模型,支持在像素空间中直接生成高质量图像。其基于流匹配技术和多尺度生成策略,实现从低分辨率到高分辨率的逐步生成,有效降低计算成本。该模型在类别条件图像生成和文本到图像生成任务中表现优异,具备强大的语义理解和视觉表达能力。此外,PixelFlow采用端到端训练方式,支持多种ODE求解器,适用于艺术设计、内容创作、教育研究等多个领域。

Mistral Small 3.1

Mistral Small 3.1 是一款由 Mistral AI 开发的开源多模态 AI 模型,拥有 240 亿参数,支持文本与图像处理,具备长达 128k tokens 的上下文窗口和每秒 150 token 的推理速度。采用 Transformer 架构与 MoE 技术,提升计算效率,支持多语言和本地部署。适用于文档处理、图像分析、质量检测、虚拟助手等多种场景。

VideoLLaMA3

VideoLLaMA3 是阿里巴巴开发的多模态基础模型,支持视频与图像的深度理解和分析。基于 Qwen 2.5 架构,结合先进视觉编码器与语言生成能力,具备高效时空建模与多语言处理能力。适用于视频内容分析、视觉问答、字幕生成等场景,提供多种参数版本,支持灵活部署。

QANDA

QANDA是一款由韩国Mathpresso公司开发的AI学习应用,主要面向学生,提供数学及其他学科的即时解答与详细解析。用户可通过拍照或输入问题,获取分步解答、常见错误提示及个性化辅导。应用还支持多语言、学习数据分析和类似题目推荐,适用于家庭作业、考试复习、日常学习及教学辅助等多种场景,帮助用户提升学习效率和理解能力。

Cleanvoice

Cleanvoice是一款利用AI技术优化音频和视频编辑的工具,适用于播客制作、视频内容编辑、企业培训、教育讲座及采访等多种场景。其核心功能包括填充词移除、背景噪音过滤、播客摘要生成、语音转录、多轨混音等,旨在提升音频质量并节省编辑时间。无论是个人创作者还是团队用户,均可通过Cleanvoice轻松实现高效的内容整理与发布。

Talk AI练口语

Talk AI是一款基于AI技术的语言学习应用,支持超过60种语言,提供实时语法纠错、智能生词本、视频通话等功能。它通过模拟真实对话场景,帮助用户提升口语能力,同时提供语言考试模拟练习。无论是在日常交流、商务场景还是旅行准备中,Talk AI都能满足不同用户的需求。

桐小乌

桐小乌是一款由桐乡市政府与支付宝合作开发的AI智能助手,专为2024年世界互联网大会参会者及乌镇游客设计。它集成了会议日程查询、展区导航、景点讲解、餐饮住宿推荐等功能,并支持租借服务和AI伴游体验。通过支付宝“碰一下”、首页下拉或支小宝APP访问,用户可享受个性化服务和实时信息推送,助力高效便捷的会务与旅行体验。