a16z Big Ideas 2026 01: 初创公司让混乱的多模态数据变得可用

a16z 合伙人 Jennifer Li 在文中的核心判断是：企业 AI 越来越卡在输入太乱，而不是模型不够聪明。因为核心知识往往不在清晰整洁数据库里，而是散落在各种非结构化材料中。来源混杂、版本不清、内容过期、权限错配，会让 RAG 用错内容，让 Agent 做出看似合理但代价很高的动作，结果是关键流程仍离不开人工核对。她把这种长期的混乱与衰减称为“数据熵”，并认为机会在于：持续把这些材料整理成有效的上下文，让下游 AI 稳定工作。

所以对于材料的整理，不是一次性导入、解析、建索引就结束了，而是把数据当成会变化的东西来维护：文件会更新、流程会改、条款会替换、截图会过期、邮件会补充细节。系统至少要能识别：内容变更、版本冲突、权限不匹配等问题，并做好有效归因，避免过度依赖人工。

根据这个思路，个人觉得值得探索的：

1）把非结构化材料产品化为可复用知识：不只是能读 PDF/截图/视频，而是把关键信息拆出来、附上来源和时间，让它像数据库一样能被稳定查询和复用。

2）让系统具备自我把关能力：不仅给答案，还能判断证据够不够、有没有用错版本；不确定就降级（只返回材料/强制引用/转人工），避免把错答案推进业务。

3）把口径冲突收敛成可执行规则：让企业明确同一问题在不同时间/范围/部门该以哪份材料为准，并把这套优先级固化下来，减少反复争论与返工。

4）把公司的定义与术语抽成统一说明书：指标口径、字段含义、流程定义不再散落在文档里，而是形成一套可被所有系统调用的解释，让不同团队问同一件事得到一致答案。

同时无论是什么方向，都应该从这两个维度衡量价值：其一，ROI 必须可量化，花费多少成本，节省多少人工核对、缩短多少处理时长；其二，必须有反馈闭环，让用户行为沉淀为可用反馈，持续优化系统。