← 返回文章列表

a16z Big Ideas 2026 01: 初创公司让混乱的多模态数据变得可用

2025-12-27
投资创业a16z

来源于我对于a16z内容的学习总结。https://a16z.com/newsletter/big-ideas-2026-part-1/#startups-tame-the-chaos-of-multimodal-data

a16z 合伙人 Jennifer Li 在文中的核心判断是:企业 AI 越来越卡在输入太乱,而不是模型不够聪明。因为核心知识往往不在清晰整洁数据库里,而是散落在各种非结构化材料中。来源混杂、版本不清、内容过期、权限错配,会让 RAG 用错内容,让 Agent 做出看似合理但代价很高的动作,结果是关键流程仍离不开人工核对。她把这种长期的混乱与衰减称为“数据熵”,并认为机会在于:持续把这些材料整理成有效的上下文,让下游 AI 稳定工作。

所以对于材料的整理,不是一次性导入、解析、建索引就结束了,而是把数据当成会变化的东西来维护:文件会更新、流程会改、条款会替换、截图会过期、邮件会补充细节。系统至少要能识别:内容变更、版本冲突、权限不匹配等问题,并做好有效归因,避免过度依赖人工。

根据这个思路,个人觉得值得探索的:

1)把非结构化材料产品化为可复用知识:不只是能读 PDF/截图/视频,而是把关键信息拆出来、附上来源和时间,让它像数据库一样能被稳定查询和复用。

2)让系统具备自我把关能力:不仅给答案,还能判断证据够不够、有没有用错版本;不确定就降级(只返回材料/强制引用/转人工),避免把错答案推进业务。

3)把口径冲突收敛成可执行规则:让企业明确同一问题在不同时间/范围/部门该以哪份材料为准,并把这套优先级固化下来,减少反复争论与返工。

4)把公司的定义与术语抽成统一说明书:指标口径、字段含义、流程定义不再散落在文档里,而是形成一套可被所有系统调用的解释,让不同团队问同一件事得到一致答案。

同时无论是什么方向,都应该从这两个维度衡量价值:其一,ROI 必须可量化,花费多少成本,节省多少人工核对、缩短多少处理时长;其二,必须有反馈闭环,让用户行为沉淀为可用反馈,持续优化系统。

ScreenShot_2025-12-27_030312_118.png