Skip to content

该项目旨在开发一种新颖的多模态大型语言模型,能够接受过去3秒内的连续多帧图像作为输入,结合给定的文本提示,输出未来3秒内的推荐驾驶路径。模型将融合计算机视觉和自然语言处理两大领域,实现对复杂交通场景的理解和决策。

Notifications You must be signed in to change notification settings

chaochen1998/MMAD-LLM

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 

Repository files navigation

MMAD-LLM

该项目旨在开发一种新颖的多模态大型语言模型,能够接受过去3秒内的连续多帧图像作为输入,结合给定的文本提示,输出未来3秒内的推荐驾驶路径。模型将融合计算机视觉和自然语言处理两大领域,实现对复杂交通场景的理解和决策。 项目概述: 该项目旨在开发一种新颖的多模态大型语言模型,能够接受过去3秒内的连续多帧图像作为输入,结合给定的文本提示,输出未来3秒内的推荐驾驶路径。模型将融合计算机视觉和自然语言处理两大领域,实现对复杂交通场景的理解和决策。

关键技术:

1 多模态融合:

视觉编码器: 对输入图像序列进行编码,提取关键视觉特征 文本编码器: 对输入文本提示进行编码,获取语义表示 跨模态注意力机制: 融合视觉和文本特征,捕捉跨模态交互

2 序列生成:

序列到序列模型: 基于注意力机制,生成未来路径序列 约束优化: 确保生成路径满足物理约束和交通规则

3 模型训练:

大规模多模态数据集: 包含真实和合成的自动驾驶场景 监督学习和自监督学习相结合

4 模型部署:

轻量化模型: 满足实时推理需求 容错和安全保护机制

预期效果:

该模型将显著提高自动驾驶系统的场景理解和决策能力,能够根据实时传感器数据和人类指令生成合理的未来行驶路径,大幅提升自动驾驶的安全性和用户体验。同时,模型所采用的多模态融合技术也可推广应用于其他领域。

About

该项目旨在开发一种新颖的多模态大型语言模型,能够接受过去3秒内的连续多帧图像作为输入,结合给定的文本提示,输出未来3秒内的推荐驾驶路径。模型将融合计算机视觉和自然语言处理两大领域,实现对复杂交通场景的理解和决策。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published