技术 SEO 深入:抓取预算、重复内容、参数页、分页与索引异常怎么治理
用 URL 家族技术治理矩阵处理抓取预算、faceted navigation、重复 URL、参数页、分页、canonical、可抓取 noindex、robots.txt、结构化数据、重定向和 Page indexing 状态。
快速解读
TL;DR: 从 Search Console、sitemap、站点抓取工具或日志抽 30 条 URL,覆盖主集合页、参数筛选、排序参数、分页、旧活动页、停售商品和 404。先分成 5-8 个 URL 家族,不要直接按工具状态排序。
Q: 这一节最关键的执行点是什么?A: 记录主 URL、重复来源、独立搜索价值、商品供给、内容差异、抓取入口、sitemap 状态、内链入口、Page indexing 状态、URL Inspection 中的 declared canonical 和 Google-selected canonical。
本课 HowTo 步骤
按这 4 步完成本课
- 1
抽样并分组 URL 家族
从 Search Console、sitemap、站点抓取工具或日志抽 30 条 URL,覆盖主集合页、参数筛选、排序参数、分页、旧活动页、停售商品和 404。先分成 5-8 个 URL 家族,不要直接按工具状态排序。
- 2
为每个 URL 家族填写判断证据
记录主 URL、重复来源、独立搜索价值、商品供给、内容差异、抓取入口、sitemap 状态、内链入口、Page indexing 状态、URL Inspection 中的 declared canonical 和 Google-selected canonical。
- 3
选择技术动作并避免信号冲突
按 URL 角色选择保留 200、canonical、可抓取 noindex、robots.txt 限制抓取、301/308、404/410、移出 sitemap 或补内链。不要让 canonical、sitemap、内链、robots.txt、noindex 和状态码互相打架。
- 4
上线后验证并写入复制笔记总结
上线后用 Page indexing、URL Inspection、站点抓取、日志、sitemap 和页面源代码复查。记录负责人、上线日期、回滚条件、7-14 天复查和 28 天核心 URL 表现,不要只看页面能不能打开。
正文 FAQ
先回答最容易误解的问题
小站也需要纠结 crawl budget 吗?
通常不需要把 crawl budget 当第一优先级。Google 的 crawl budget 指南主要面向超大、频繁更新,或大量 URL 处于 Discovered - currently not indexed 的站点。小站更应该先处理重复 URL、参数页、soft 404、过期 sitemap、内链入口和页面独立价值。
canonical、noindex、robots.txt 和 301 能互相替代吗?
不能。canonical 是主版本偏好信号;noindex 需要 crawler 能看到页面;robots.txt 管理 crawler 能不能访问 URL,不是让已知网页退出 Google Search 的可靠方式;301/308 适合永久迁移到相关目标页。选动作前先判断 URL 家族、独立价值、重复来源和抓取入口。
Crawled - currently not indexed 应该一直点请求收录吗?
不应该默认反复提交。这个状态说明页面被抓取过,但是否值得进入索引还要看独立搜索价值、内容质量、内链、sitemap、canonical 和站内信号。先把 URL 放回家族判断,再决定升级页面、收束参数、noindex、canonical 或减少入口。
学完这篇后应该留下什么结果?
留下一份 URL 家族技术治理矩阵:主 URL、参数/分页/筛选/旧 URL、独立价值、重复来源、抓取入口、技术动作、sitemap/内链改动、Page indexing 状态、URL Inspection 验证、负责人和复查日期。
这篇教程需要更高等级会员权限
当前内容需要 Pro 会员 或以上会员。登录后我们会自动识别您的会员等级,并立即解锁可访问的教程内容。
这篇教程值得转发给团队
看完这篇后,可以先转给同事或朋友,再决定是否继续进入下一篇。