纯文字版教程展开阅读
这篇是 seo-basics 系列的第 6 课。很多人一提技术 SEO 就觉得那是开发者才需要懂的东西,其实新手最先要掌握的,不是复杂渲染、日志分析或大规模抓取策略,而是那些会直接把搜索流量挡在门外的基础设置。内容写得再认真,如果抓不到、收不进、信号被拆散,SEO 还是会卡住。
本课任务:技术 SEO 入门:新手必须知道的底层设置
团队看到技术提示就全部修,却不知道哪些会阻塞抓取、哪些只是偏好。
按阻塞、提示、偏好分级:robots、canonical、sitemap、重定向和性能先服务可访问性。
本课术语只按操作口径理解
- 搜索意图: 用户搜索背后的任务,而不是关键词本身。
- 可索引资产: 能被抓取、理解、收录并服务用户问题的页面或内容。
- SEO 复盘: 把展现、点击、排名、收录和转化翻译成下一步动作。
读完这课,最低有效结果不是记住概念,而是留下 基础技术 SEO 阻塞检查表:当前现象、可复查证据、一个 owner、下一步动作和验收口径都要写清楚。
本课产出:基础技术 SEO 阻塞检查表
前一课讲的是内容值不值得做,这一课解决的是:当页面和内容本身没问题时,还有哪些底层设置会让 SEO 效果打折,甚至让前面的努力直接失效。
这节课的核心结论
基础技术 SEO 的重点不是做高难动作,而是先确保搜索引擎能找到页面、理解哪个版本是主版本,并且没有被错误阻止抓取或收录。
技术 SEO 问题先分阻塞、提示和偏好
技术 SEO 最怕看到提示就全部修。先判断它会不会阻塞抓取、收录或主版本理解,再决定优先级和 owner。
| 问题类型 | 例子 | 优先级 | Owner / 验收 |
|---|---|---|---|
| 阻塞 | 核心页面 noindex、robots 阻挡、404、错误重定向 | 当天修 | 技术 owner,Search Console/抓取验证 |
| 主版本混乱 | canonical 指向错误,参数页和主集合页互抢 | 本周修 | SEO + 技术,URL 抽样 |
| 发现问题 | sitemap 缺核心页,重要页面没有内链 | 本周/本月 | SEO owner,收录和内链检查 |
| 性能阻碍 | 移动端首屏慢、图片过重、脚本阻塞 | 按页面价值排序 | 技术/CRO,核心页面优先 |
| 偏好优化 | 小的结构化数据 warning 或工具分数建议 | 排在阻塞项之后 | 技术 owner,月度处理 |
完成标准
先抽查 20 个核心 URL,把问题标成阻塞、提示或偏好。阻塞项必须有截图、owner、修复时间和复查方式;偏好项不要挤掉真实阻塞项。
读完先交付:基础技术 SEO 阻塞检查表
按阻塞、提示、偏好分级:robots、canonical、sitemap、重定向和性能先服务可访问性。
| 字段 | 要写清楚什么 | 验收方式 |
|---|---|---|
| robots | robots当前状态、证据来源和负责人 | 能说明为什么先处理这一层 |
| canonical | canonical当前状态、证据来源和负责人 | 能被下一位同事复查 |
| sitemap | sitemap当前状态、证据来源和负责人 | 能被下一位同事复查 |
| 重定向 | 重定向当前状态、证据来源和负责人 | 能被下一位同事复查 |
| 性能阻塞 | 性能阻塞当前状态、证据来源和负责人 | 能转成下一步动作或停止条件 |
本课不要这样误读
团队看到技术提示就全部修,却不知道哪些会阻塞抓取、哪些只是偏好。 如果只凭感觉改动作,这课就没有进入业务。
概念加深:技术 SEO 先分清阻塞、提示、偏好三类信号
新手做技术 SEO 时,最容易把所有标签都当成同等强度的命令。实际上,robots.txt、noindex、canonical、sitemap、redirect 的作用完全不同。实战复盘里很多事故来自误用:用 robots.txt 想解决重复内容、用 noindex 处理 canonical、迁移后忘记去掉 noindex、把重要页面藏成孤岛。
| 机制 | 更像什么 | 新手要记住 |
|---|---|---|
| robots.txt | 抓取请求控制 | 不等于保证不收录,也不适合做 canonical。 |
| noindex | 收录退出指令 | 会让页面退出搜索结果,不能随便加在重要页面。 |
| canonical | 主版本偏好信号 | 用于相似/重复页面,不是删除页面的工具。 |
| sitemap | 发现和重要性提示 | 只放你希望被抓取和理解的规范 URL。 |
技术 SEO 入门术语卡
| 术语 | 一句话解释 | 新手判断 |
|---|---|---|
| Sitemap | 给搜索引擎的 URL 清单。 | 它帮助发现 URL,但不保证收录。 |
| robots.txt | 告诉爬虫哪些路径不应被请求的文件。 | 它不是删除索引的工具。 |
| canonical | 告诉搜索引擎相似页面中你偏好的主版本。 | canonical 是信号,不是强制命令。 |
| noindex | 要求搜索引擎不要把页面放进索引。 | 重要页面误加 noindex 会直接失去展示资格。 |
错误示例 vs 优化后示例:技术设置要先判断页面职责
| 错误示例 | 为什么弱 | 优化后示例 |
|---|---|---|
| 看到参数 URL 很多,就全部 robots.txt 禁止抓取。 | 可能挡住 canonical 信号,也可能让搜索引擎看不到真实关系。 | 先盘点参数是否产生独立需求;无价值排序参数 canonical 到主栏目,高价值筛选页保留并优化,噪音页面再 noindex 或阻断。 |
先建立一个正确认知:技术 SEO 不是加分项,它经常是门槛项
很多团队会把 SEO 问题理解成内容不够多或者关键词不够准,但现实里经常是更基础的问题:页面打不开、站点结构混乱、搜索引擎被错误拦住、同一内容出现多个 URL 却没有规范化。这些问题不是让你少拿一点分,而是让你连正常参与排序都变得困难。
很常见的误区
- 以为技术 SEO 只和开发团队有关,内容团队不用懂。
- 以为页面能打开就代表技术上没问题。
- 以为先疯狂发内容,技术问题以后再说。
sitemap 是什么,它为什么重要
sitemap 可以理解为给搜索引擎的一份页面清单。它不是排名技巧,但它会帮助搜索引擎更快发现你希望被关注的重要页面,尤其是新页面、层级较深的页面,或者内链还不够成熟的网站。
对新手来说,先理解 sitemap 的 3 个作用
要注意的现实边界
sitemap 不是提交了就一定收录,也不是替代内链结构。它只是帮助发现,不负责保证排名。
robots.txt 是什么,它在控制什么
robots.txt 是放在站点根目录的一份规则文件,用来告诉抓取程序哪些路径可以抓、哪些路径不建议抓。它操作上管理的是抓取入口,不是排名开关。
这里最容易混淆的一点是:robots.txt 管的是能不能来读这个页面,而像 noindex 这样的规则管的是读完之后要不要把它留在索引里。这两个层不是一回事。
| 设置项 | 主要影响 | 新手常见误解 |
|---|---|---|
| Allow / Disallow | 控制抓取范围 | 误以为它直接控制页面能不能被排名 |
| Sitemap | 告诉搜索引擎 sitemap 地址 | 误以为 sitemap 只能在后台工具里提交 |
| 根目录可访问 | 让搜索引擎能读到规则 | 误以为文件存在本地就算配置完成 |
非常高频的基础错误
- 把整个站点或关键目录误设成
Disallow。 - 把产品页、文章页、分类页这些本该被抓取的页面挡掉。
- 只顾着拦爬虫,却没意识到自己把搜索引擎也一起拦住了。
canonical 是什么,它在解决哪个版本才是主版本
同一份内容在技术上常常会出现多个 URL,比如带参数、不带参数、分页、筛选、大小写差异、末尾斜杠差异等。canonical 的作用,就是告诉搜索引擎:这些相似版本里,哪一个才是你希望被当作主版本的页面。
而且 canonical 不是一个孤立标签。更稳妥的做法通常是:主版本 URL 在内链里一致、在 sitemap 里一致、在 canonical 里一致;如果旧 URL 本来就应该退出,配合 redirect 一起使用会更强。换句话说,规范化更像一组信号的一致性,而不是只塞一个标签就结束。
减少信号被分散的概率。
结果可能不是你想要的那个 URL。
甚至让页面自己否定自己。
先确保它真的指向最该保留的版本。
一个很常见的场景
如果同一篇文章能通过多个 URL 打开,而这些 URL 都在被抓取和分享,搜索引擎就可能把原本集中在一页上的信号拆散。canonical 的存在,就是为了减少这种分裂。
noindex 是什么,什么时候该用,什么时候别乱用
noindex 的意思很直接:告诉搜索引擎不要把这个页面作为索引页保留。它很有用,但也很危险。因为一旦你把本该参与搜索的页面标成 noindex,那这个页面就可能根本不出现在搜索结果里。
还有一个很关键的边界:像 noindex、nosnippet 这样的页面级指令,前提通常是搜索引擎能先访问到页面并读取到这些规则。所以如果你把页面直接挡在抓取层,很多页面级控制就可能根本没机会被正常读取。另外,官方也建议尽量不要依赖 JavaScript 去动态注入或移除这类 meta 规则,风险更高。
更常见的合理使用场景
- 重复价值很低的内部搜索结果页。
- 测试页、临时页、无独立搜索价值的工具状态页。
- 明确不想让搜索结果承接的薄页面。
新手最该避免的误用
- 把核心文章页、产品页、分类页意外设成
noindex。 - 上线后忘了移除测试环境留下的
noindex。 - 自己以为页面内容不够好,先全站保守 noindex,结果把 SEO 入口直接关掉。
页面速度和移动端体验,为什么也属于基础技术 SEO
SEO 不是只看你写了什么,也看用户能不能顺畅访问。页面速度太慢、移动端排版错位、按钮难点、图片太重、核心内容加载太晚,这些问题会同时影响抓取效率、用户停留和页面整体质量判断。
这里也要避免一个误解:页面体验不是靠某一个分数决定成败。更实用的理解是,速度、移动端可用性、HTTPS、主内容可访问性和整体浏览感受共同组成页面体验。基础阶段先抓最明显的坏体验,比追单一跑分更重要。
新手先盯住这 4 类体验问题
新手最常见的 4 类基础技术错误
基础阶段不需要追求复杂的技术审计,但至少要对几类最容易白做内容的问题有感觉。
| 错误类型 | 会发生什么 | 典型表现 |
|---|---|---|
| 重复页面 | 信号被分散,主版本不清楚 | 同内容多个 URL、参数页乱收录 |
| 无法访问 | 抓取失败,用户也进不去 | 404、500、权限拦截、资源加载失败 |
| 跳转混乱 | 抓取路径变长,用户体验变差 | 多次跳转、错误跳转、循环跳转 |
| 错误阻止抓取或收录 | 核心页面根本不进搜索系统 | robots 配错、误加 noindex |
更现实的理解
技术 SEO 的入门排查,不是为了做一份漂亮的报告,而是先确认内容有没有机会被正常发现、正常理解、正常保留。
一个很典型的例子:页面明明存在,为什么 SEO 还是起不来
假设你有一篇写得不错的文章,但它既能通过主 URL 打开,也能通过带参数 URL、旧路径 URL、预览路径 URL 打开;同时主页面还被错误加上了 noindex,或者被 canonical 到别的地址。表面上看,内容是上线了,但搜索引擎收到的是一组混乱信号。这时候问题就不是文章写得够不够好,而是系统有没有告诉搜索引擎哪个版本该被留下来。
基础排查顺序
先看页面能不能访问,再看有没有被 robots 拦住,再看是否被错误 noindex,最后看 canonical 和 URL 版本是否一致。这个顺序比一上来研究高级技巧更重要。
技术 SEO 的正确心态:先修阻塞,再谈高级优化
新手最容易被各种技术 SEO 术语吓住,或者反过来迷上高级玩法。更实用的心态是:先把阻塞项排清楚,再谈更深层的技术优化。因为如果基础层已经出错,后面很多优化都只是叠在错误地基上。
技术 SEO 的入门优先级
- 先确认核心页面可访问。
- 先确认没有被 robots 或 noindex 错误挡住。
- 先确认重复 URL 是否有主版本规则。
- 再看速度、移动端和更细节的体验问题。
- 最后才考虑更深的技术扩展项。
读完先做这 3 个检查:技术设置是否阻塞搜索系统
学完这一课,先确认这些点
- 你知道
sitemap是帮助发现页面,不是排名魔法。 - 你知道
robots.txt控制的是抓取范围,配错会直接挡掉页面。 - 你知道
canonical的作用是明确主版本。 - 你知道
noindex一旦误用,会直接影响收录。 - 你开始建立速度、移动端和基础技术错误的排查意识。
把检查落到一页资产:基础技术 SEO 阻塞检查表
今天就能做的 4 个动作
sitemap,以及里面是不是主要公开页面。robots.txt,确认没有误挡住文章页、产品页或分类页。canonical 或 noindex。本课收束:基础技术 SEO 阻塞检查表交接材料
把本课结论交给下一位同事前,只交一个清楚版本:robots、canonical、sitemap、重定向、性能阻塞。把 SEO 解释成可被搜索系统理解、可被团队维护、可被数据复盘的经营资产。
交接前验收
- 证据能被复查,不只是写已确认。
- owner 是一个角色或姓名,不是团队一起看。
- 下一步动作有时间、对象和验收指标。
- 如果判断错了,已经写出最可能的反证信号。