AI项目与工具

ResAdapter

ResAdapter是一种专为扩散模型设计的分辨率适配器,允许图像生成模型生成任意分辨率和宽高比的图像,同时保持原始风格。其主要功能包括分辨率插值、分辨率外推、域一致性、即插即用设计以及广泛的兼容性。通过在扩散模型中插入ResCLoRA和引入ResENorm,ResAdapter能够在不影响模型风格的情况下扩展其分辨率范围。

Promptic

Promptic 是一款基于 Python 的轻量级 LLM 应用开发框架,提供类型安全的输出验证、流式响应支持、对话记忆管理及错误处理等特性。它通过集成 LiteLLM 和装饰器模式,帮助开发者快速构建稳定高效的 LLM 应用,同时支持多种主流 LLM 服务提供商的无缝切换。主要功能包括动态提示生成、响应验证、状态管理和工具函数代理构建,广泛应用于聊天机器人、内容生成、语言翻译、情感分析和数据摘

EasySlide

EasySlide是一款基于AI的演示文稿生成工具,支持通过自然语言处理技术快速生成专业PPT。具备智能幻灯片生成、内容优化、多语言支持、模板选择等功能,还支持实时预览、编辑及多种格式导出。适用于企业演示、教育培训、学术研究、培训工作坊等多个领域,旨在提升演示文稿制作效率与质量。

EPLB

EPLB是DeepSeek推出的专家并行负载均衡工具,用于优化大规模模型训练中的资源分配。它通过冗余专家策略和分层/全局负载均衡机制,提升GPU利用率和训练效率。支持多层MoE模型,减少通信开销,适应不同场景需求。

SleepFM

SleepFM是一款由斯坦福大学开发的开源多模态睡眠分析模型,利用脑电图(EEG)、心电图(ECG)和呼吸信号等数据,实现睡眠阶段分类、睡眠呼吸障碍检测及人口统计属性预测等功能。它通过对比学习技术和自监督预训练方法提升分析精度,并支持临床诊断、药物开发、健康管理等多个应用场景,为睡眠医学研究提供重要工具。

3D

3D-Speaker是一个多模态开源项目,专注于通过结合声学、语义和视觉信息,实现高精度的说话人识别和语种识别。其主要功能包括说话人日志、说话人识别、语种识别、多模态识别以及重叠说话人检测。项目提供了工业级模型、训练与推理代码,以及多样化数据集,并支持复杂环境下的语音处理任务。应用场景涵盖会议记录、法庭记录、广播制作、电话客服和安全监控等领域。

News Agents

News Agents是一个基于终端的新闻聚合与摘要系统,利用Amazon Q CLI作为Agent框架,通过Model Context Protocol(MCP)解析RSS新闻源,并借助tmux实现多任务监控。系统从多个新闻源抓取文章,分配给多个子Agents并行处理,生成简洁摘要并汇总到main-summary.md文件中,提供高效、个性化的新闻阅读体验。

Pemo

Pemo是一款AI驱动的文档管理工具,支持多格式文档导入与管理,提供智能翻译、摘要生成、思维导图、格式转换及语音朗读等功能。用户可自定义阅读模式并进行标注与笔记,提升阅读效率与知识整理能力,适用于学习、科研、办公及日常阅读等多种场景。

Boardy

Boardy是一款基于AI与语音技术的人脉拓展工具,通过智能对话了解用户需求并提供精准推荐。支持双向确认连接,提升合作质量。内置数据可视化模块,用户可轻松创建自动更新的仪表板,适用于创业者、高管及企业用户,助力资源拓展与职业发展。

TimeSuite

TimeSuite是一种由上海AI Lab开发的框架,专注于提升多模态大型语言模型在长视频理解任务中的表现。它通过引入高效的长视频处理框架、高质量的视频数据集TimePro和Temporal Grounded Caption任务,提升了模型对视频内容的时间感知能力,减少了幻觉风险,并显著提高了长视频问答和时间定位任务的性能。其核心技术包括视频令牌压缩、时间自适应位置编码、U-Net结构及多样化任务