以下是关于95后华人沈俊潇(Shawn Shen)创业开发全球首个大型视觉记忆模型(LVMM)的详细解析,综合各搜索结果的核心信息整理:
🔍 一、核心突破:首个大型视觉记忆模型(LVMM)
技术定位
全球首创:Memories.ai 公司推出的LVMM(Large Visual Memory Model)是全球首个实现海量视觉信息长期存储、快速检索与深度推理的模型124。
类人能力:模仿人类记忆机制,实现对视觉信息的长期存储(情景记忆)和复杂推理,突破传统AI仅依赖短期文字上下文的局限14。
关键性能
毫秒级理解:可精确解析视频内容,支持亿级规模数据库处理14。
多项测试领先:
视频问答能力超越OpenAI GPT-4o、GPT-4.1和谷歌Gemini 2.5 Pro(如MVBench、NextQA等基准测试)4。
视频检索性能全面超越历史最优模型Perception Encoder4。
🧠 二、技术架构:受人类记忆机制启发
模型包含6大核心模块,形成完整记忆处理链条
查询模型:将用户线索(文本、图像等)转化为可检索请求。
检索模型:粗粒度筛选相关视觉片段。
存储模型:全模态索引支持海量数据存储。
选择模型:细粒度提取关键细节(如物体、动作)。
反思模型:监控记忆质量与关联性。
重建模型:整合碎片化信息形成完整记忆图景。
💡 创新点:解决传统AI无法长期存储视觉信息的痛点,支持跨场景关联推理(例如从监控视频中追踪特定人物行为)14。
🌐 三、应用场景与商业化进展
安防领域
替代人工筛查海量监控视频(如在刑侦剧中需数百人通宵作业的场景),实现秒级目标追踪1。
AI助手与硬件
与Rokid、Angry Miao等硬件厂商合作,开发具备多模态记忆的个性化AI助手,理解用户所见所闻14。
端侧部署:正与三星合作将LVMM集成至手机1。
媒体与教育
与BBC等机构合作,构建历史视频素材的“动态数据湖”,提升搜索与问答效率1。
为视频创作者提供自动剪辑、趋势分析(如内容流行度规律识别)
👥 四、团队背景与融资情况
创始人沈俊潇:
28岁,剑桥大学本硕博(工程学),曾任Meta Reality Labs研究科学家,现任英国布里斯托大学助理教授14。
14岁获全额奖学金赴英留学,学术与工业界经验兼备。
融资动态:
2025年7月完成800万美元种子轮融资,由Susa Ventures领投,三星Next、Crane Venture Partners等跟投43。
💎 五、行业意义
LVMM被视为构建下一代通用人工智能(AGI)的核心基础,其价值在于:
✅ 持续学习:使AI通过长期观察积累知识(如理解不同地区安防标准差异)1。
✅ 多模态交互:打破文本局限,让AI真正“理解”视觉世界4。
更多技术细节与测试数据可参考原文:
此技术标志着AI从“短期上下文处理”迈向“长期视觉记忆”的关键跃迁,有望重塑安防、人机交互等领域的智能化边界