jtysdty

帅气的我简直无法用语言描述!
Enhance-A-Video

Enhance-A-Video

Enhance-A-Video,新加坡国立大学、上海人工智能实验室和德克萨斯大学奥斯汀分校联合开发的视频生成增强算法。
0790
LangBot

LangBot

LangBot,一个开源大模型原生即时通信机器人平台,支持多平台(如 微信、飞书 等)和多种大语言模型(如 ChatGPT、DeepSeek等),具备多模态交互能力。
0930
Video-Subtitle-Master

Video-Subtitle-Master

Video-Subtitle-Master,一个用于批量为视频生成字幕的客户端开源工具,并支持将字幕翻译成其他语言。
0710
Proxy

Proxy

Proxy,Convergence Ai开发的基于LMLM的个人AI智能体,Proxy具备自动化浏览Web的能力,能够通过自然语言交互来帮助用户完成各种日常任务。
0940
LiberSonora

LiberSonora

LiberSonora,一个基于AI的、开源有声书工具集,LiberSonora提供智能字幕提取、AI标题生成、多语言翻译等功能,并且支持 GPU 加速、批量离线处理。
0810
Simba

Simba

Simba,一个能够帮助用户轻松收纳各种文档的强大工具,Simba可以作为一个后端知识库与任何检索增强生成(RAG)系统进行无缝集成。
0760
Light-A-Video

Light-A-Video

Light-A-Video,一个应用于逐帧图像重光照模型的简单应用,无需重新训练DiT视频模型,即可实现调整视频的光照效果,并且生成的视频帧在光源和外观上更加一致。
0820
RAGFlow

RAGFlow

RAGFlow,一种用于检索增强生成(RAG)架构的框架,适用于需要动态生成内容且依赖外部知识库的场景,如智能客服、文档生成和数据分析等。
01330
MakeAnything

MakeAnything

MakeAnything,一个基于扩散变换器的序列生成模型,通过其强大的生成能力,生成一致性的序列图像。
0790
Step-Audio

Step-Audio

Step-Audio,由阶跃星辰与吉利汽车集团联合研发的一个开源的集成语音识别、语义理解、对话生成、语音克隆、音频编辑和语音合成等功能的语音交互模型。
01260
Step-Video-T2V

Step-Video-T2V

Step-Video-T2V,一个由阶跃星辰与吉利汽车合作开源的先进文本到视频生成模型。支持中文与英文提示输入,应用于在如广告、影视制作、自动化内容创作等场景。
0850
Phantom

Phantom

Phantom,字节跳动基于跨模态对齐的主体一致性视频生成系统,Phantomsk可以严格保持参考脸部的身份特征,同时生成生动的视频内容。
01280