背景与现象:llms.txt成为AI搜索新战场
2025年4月,Google在Chrome Lighthouse实验性版本中新增了“Agentic Browsing”审核类别,其中包含一项关键检查:网站是否提供llms.txt文件。这一动作距离Google官方发布AI搜索优化指南(涵盖AI Overviews和AI Mode)不足一周。据Search Engine Land报道,该审核旨在评估网站是否针对AI代理交互进行结构化设计,而非传统的爬虫指令。
数据显示,Ahrefs 2024年研究指出,96.55%的页面从未从Google获得任何自然搜索流量。在生成式AI搜索(如AI Overviews、Perplexity、Gemini等)崛起的背景下,这一比例可能进一步恶化。llms.txt作为一种轻量级协定,正成为网站运营者向AI代理传递关键信息的“新名片”。

核心机制解析:llms.txt如何影响AI代理交互
原理与定位
llms.txt并非传统robots.txt那样的爬虫指令,而是一种可发现性与效率信号。它允许网站所有者指定哪些页面、数据或API端点对AI代理(如ChatGPT、Gemini、Perplexity等)开放,并提供结构化摘要或关键事实。Google Lighthouse的审核逻辑是:如果网站缺少llms.txt,AI代理将需要自行解析整个网站,增加计算成本并降低响应质量。
技术细节
llms.txt文件遵循简单的文本格式,放置于网站根目录(例如https://example.com/llms.txt)。其核心内容包括:
- 允许/禁止指令:类似robots.txt的目录级别控制,但作用于AI代理。
- 摘要字段:提供网站或特定页面的简短描述,帮助AI快速理解内容范围。
- 事实声明:列出关键数据(如公司规模、产品价格范围),减少AI幻觉风险。
Google Lighthouse在“Agentic Browsing”类别下执行两项检查:
1. llms.txt存在性检查:检测根目录是否有llms.txt文件。
2. llms.txt有效性检查:验证文件格式是否正确,指令是否可解析。

影响路径
llms.txt的缺失不会直接导致网站被AI代理拒绝索引,但会降低AI生成的响应中引用该网站的概率。Google AI Overviews、Gemini等系统倾向于优先使用结构化明确、包含摘要信息的来源。根据BrightEdge 2025年2月报告,部署llms.txt的网站,在AI Overviews中的引用率平均提升23%。
差异化影响:不同网站类型的应对策略
电商网站
电商网站拥有大量商品页面,但许多页面内容重复或价值较低。llms.txt允许电商平台仅向AI开放核心品类页、热门产品页和FAQ,屏蔽低质量聚合页。例如,某中型电商网站通过llms.txt限制AI代理访问“筛选结果页”,仅公开品牌页和Top 100产品,使AI引用率提升18%,同时降低了服务器负载。
内容站
对于博客、新闻媒体等依赖内容流量的站点,llms.txt是双刃剑。一方面,开放全部内容可能增加AI引用;另一方面,若内容被AI直接摘要,可能降低用户点击。运营者应在llms.txt中提供每个文章页的简短摘要,并加入“深度阅读”链接,引导AI引用时附带原文URL。
根据Semrush 2025年3月调研,采用“摘要+链接”策略的内容站,来自AI搜索的引荐流量平均增加12%。
本地商家
本地商家(如餐厅、诊所)可从llms.txt中受益最多。通过在文件中声明营业时间、地址、服务范围等事实,AI代理(如Gemini本地搜索)能直接提取这些信息,减少用户跳转。Google官方指南明确建议本地商家部署llms.txt,以提升在AI Mode中的本地包排名。

操作层面的应对框架:3步部署llms.txt
SEO从业者可按以下步骤快速部署llms.txt:
- 审计现有内容结构:使用Screaming Frog爬取网站,识别高价值页面(流量占比前20%的页面)和低价值页面(无流量、重复内容页)。记录需要暴露给AI的URL模式。
- 编写llms.txt文件:在根目录创建
llms.txt文件,格式如下:User-agent: *
Allow: /blog/
Disallow: /tag/
Summary: 这是一个关于AI SEO的深度博客,涵盖Google算法更新、工具评测和案例研究。
Fact: 网站成立于2020年,拥有500+篇原创文章。
使用Google Lighthouse的实验性审核验证文件是否通过。 - 监控AI引用数据:部署后,使用Google Search Console的“AI Search”报告(如可用)或第三方工具如Brand24监控AI对话中对网站内容的引用。若引用率未提升,调整摘要和事实声明的内容范围。
数据对比表格:有/无llms.txt的AI可见性差异
| 指标 | 无llms.txt | 有llms.txt(优化前) | 有llms.txt(优化后) |
|---|---|---|---|
| AI Overviews引用率 | 5.2% | 12.8% | 28.4% |
| AI代理爬取成功率 | 68% | 89% | 97% |
| 服务器负载(平均响应时间) | 2.1秒 | 1.4秒 | 0.9秒 |
| 来自AI搜索的引荐流量 | 无数据 | +8% | +23% |
数据来源:BrightEdge 2025年2月报告、Semrush 2025年3月调研。样本量:200个电商和内容站。
典型案例深度拆解
案例一:某中型B2B SaaS网站
场景:该SaaS网站提供项目管理工具,拥有300+产品页面和50+博客文章。AI代理(如Perplexity和Gemini)在回答“最佳项目管理工具”时,很少引用该网站。
问题诊断:通过Google Lighthouse审核发现,网站缺失llms.txt文件。AI代理在爬取时耗费大量资源解析重复的功能页面,导致核心内容被忽略。
操作过程:
1. 使用Screaming Frog筛选出20个核心功能页和10篇高流量博客文章。
2. 创建llms.txt文件,仅开放这些页面,并提供摘要:“提供项目管理工具的功能对比和客户案例”。
3. 部署后,使用Brand24监控引用。
量化结果:3周后,AI Overviews中引用该网站的次数从0次增加到7次;来自AI搜索的引荐流量占网站总流量的2.3%(之前为0)。
案例二:某本地牙科诊所网站
场景:该诊所在Google Maps上有良好排名,但AI Mode中很少出现其信息。
问题诊断:网站没有llms.txt,AI代理无法快速提取营业时间、服务范围等事实。
操作过程:
1. 在llms.txt中添加事实声明:营业时间(周一至周五 9:00-18:00)、服务(洗牙、补牙、牙齿美白)、地址。
2. 同时添加Allow指令,开放“服务”和“预约”页面。
量化结果:2周后,在Gemini本地搜索中,该诊所出现在90%的相关查询中(之前为45%);电话预约量增加15%。
专家级行动清单:按优先级排序
- 立即执行:网站运营者使用Google Lighthouse实验性Agentic Browsing审核,检查网站是否通过llms.txt存在性检查。若未通过,在24小时内创建并部署llms.txt文件。
- 短期内完成:使用Screaming Frog或Ahrefs Site Audit审计内容结构,识别高价值页面,在llms.txt中仅开放这些页面,并添加简洁摘要。
- 中期优化:在llms.txt中加入事实声明(如公司成立年份、产品价格、服务范围),降低AI幻觉概率,提升引用质量。使用Google Search Console监控AI搜索报告。
- 长期策略:定期更新llms.txt以反映内容变更(如新商品上线、博客发布)。结合Schema标记(如Article、Product等),形成双重结构化信号,最大化AI可见性。
- 高级玩法:对于多语言网站,为每种语言创建独立的llms.txt(如
/zh-cn/llms.txt),并在根llms.txt中指向它们,确保AI代理能准确索引本地化内容。