支持原生24K,拓展96K的国产多模态LLM模型?😮
GitHub - InternLM/InternLM-XComposer: InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output
🧐InternLM-XComposer-2.5是一个多功能的大型视觉语言模型,支持长上下文输入和输出,适用于文本图像理解和生成等多种任务。
➡️链接:http://t.cn/A6YWDU08
✨重点
●📊 多功能应用:支持视频理解、多图片对话、高分辨率图像理解、网页创建和高质量图文文章创作等任务。
●🧠 高性能:在28个多模态基准测试中表现优异,在16个基准测试中超过现有开源模型,接近或超越GPT-4V和Gemini Pro。
●🔧 技术优势:采用链式思维(CoT)和直接偏好优化(DPO)技术,显著提升生成内容质量。
●📈 扩展性:通过RoPE外推技术,模型可以无缝扩展到96K长上下文,提高任务处理能力。
●🖥️ 实用工具:提供了代码示例、评估工具和支持多GPU推理的指南,便于用户进行模型的快速部署和优化。
有意思~!根据文字输入生成多个独立的3D模型再自动合理组合~!(而不是生成一整坨)🥹
DreamDissector: Learning Disentangled Text-to-3D Generation from 2D Diffusion Priors
🧐DreamDissector 是一种文本生成3D对象的方法,通过将多对象文本生成的NeRF输入并生成独立的纹理网格,提供了对象级别的控制和多种应用可能性。
➡️链接:http://t.cn/A68CpyJC
✨重点
●🔍 方法概述:DreamDissector接受多对象文本生成的NeRF作为输入,通过神经类别场(NeCF)和类别评分蒸馏采样(CSDS)生成独立的纹理网格,解决了现有方法中对象独立性和空间互动不足的问题。
●🎨 实际应用:该方法可以实现对象级别的纹理引导、几何编辑和可控对象替换,适用于创意和实用领域的多种应用。
●📊 技术细节:通过深度概念挖掘模块(DCM)和NeCF对输入的NeRF进行解耦,进一步优化几何和纹理,最终导出独立的表面网格。
#你好人工智能时代#
⬆️⬆️以上分享内容精选自我每周更新的AIGC百宝箱—知识星球:AI白日梦想家([抱一抱]可以向我提问/信息分类查找/72小时无理由退款),加入方法请见置顶帖图9:http://t.cn/A6jz8QLy(WX扫才能享受6折优惠哦) ,感谢大家打赏支持 [爱你]
发布于 广西
