技术 SEO 入门:新手必须知道的底层设置
这篇是 seo-basics 系列的第 6 课。很多人一提技术 SEO 就觉得那是开发者才需要懂的东西,其实新手最先要掌握的,不是复杂渲染、日志分析或大规模抓取策略,而是那些会直接把搜索流量挡在门外的基础设置。内容写得再认真,如果抓不到、收不进、信号被拆散,SEO 还是会卡住。
这节课解决什么问题
前一课讲的是内容值不值得做,这一课解决的是:当页面和内容本身没问题时,还有哪些底层设置会让 SEO 效果打折,甚至让前面的努力直接失效。
这节课的核心结论
基础技术 SEO 的重点不是“做高难动作”,而是先确保搜索引擎能找到页面、理解哪个版本是主版本,并且没有被错误阻止抓取或收录。
概念加深:技术 SEO 先分清“阻塞、提示、偏好”三类信号
新手做技术 SEO 时,最容易把所有标签都当成同等强度的命令。实际上,robots.txt、noindex、canonical、sitemap、redirect 的作用完全不同。社区里很多事故来自误用:用 robots.txt 想解决重复内容、用 noindex 处理 canonical、迁移后忘记去掉 noindex、把重要页面藏成孤岛。
| 机制 | 更像什么 | 新手要记住 |
|---|---|---|
| robots.txt | 抓取请求控制 | 不等于“保证不收录”,也不适合做 canonical。 |
| noindex | 收录退出指令 | 会让页面退出搜索结果,不能随便加在重要页面。 |
| canonical | 主版本偏好信号 | 用于相似/重复页面,不是删除页面的工具。 |
| sitemap | 发现和重要性提示 | 只放你希望被抓取和理解的规范 URL。 |
本课术语卡
| 术语 | 一句话解释 | 新手判断 |
|---|---|---|
| Sitemap | 给搜索引擎的 URL 清单。 | 它帮助发现 URL,但不保证收录。 |
| robots.txt | 告诉爬虫哪些路径不应被请求的文件。 | 它不是删除索引的工具。 |
| canonical | 告诉搜索引擎相似页面中你偏好的主版本。 | canonical 是信号,不是强制命令。 |
| noindex | 要求搜索引擎不要把页面放进索引。 | 重要页面误加 noindex 会直接失去展示资格。 |
错误示例 vs 优化后示例:技术设置要先判断页面职责
| 错误示例 | 为什么弱 | 优化后示例 |
|---|---|---|
| 看到参数 URL 很多,就全部 robots.txt 禁止抓取。 | 可能挡住 canonical 信号,也可能让搜索引擎看不到真实关系。 | 先盘点参数是否产生独立需求;无价值排序参数 canonical 到主栏目,高价值筛选页保留并优化,噪音页面再 noindex 或阻断。 |
先建立一个正确认知:技术 SEO 不是加分项,它经常是门槛项
很多团队会把 SEO 问题理解成“内容不够多”或者“关键词不够准”,但现实里经常是更基础的问题:页面打不开、站点结构混乱、搜索引擎被错误拦住、同一内容出现多个 URL 却没有规范化。这些问题不是让你少拿一点分,而是让你连正常参与排序都变得困难。
很常见的误区
- 以为技术 SEO 只和开发团队有关,内容团队不用懂。
- 以为页面能打开就代表技术上没问题。
- 以为先疯狂发内容,技术问题以后再说。
sitemap 是什么,它为什么重要
sitemap 可以理解为给搜索引擎的一份页面清单。它不是排名技巧,但它会帮助搜索引擎更快发现你希望被关注的重要页面,尤其是新页面、层级较深的页面,或者内链还不够成熟的网站。
对新手来说,先理解 sitemap 的 3 个作用
要注意的现实边界
sitemap 不是提交了就一定收录,也不是替代内链结构。它只是帮助发现,不负责保证排名。
robots.txt 是什么,它在控制什么
robots.txt 是放在站点根目录的一份规则文件,用来告诉抓取程序哪些路径可以抓、哪些路径不建议抓。它本质上管理的是“抓取入口”,不是“排名开关”。
这里最容易混淆的一点是:robots.txt 管的是“能不能来读这个页面”,而像 noindex 这样的规则管的是“读完之后要不要把它留在索引里”。这两个层不是一回事。
| 设置项 | 主要影响 | 新手常见误解 |
|---|---|---|
| Allow / Disallow | 控制抓取范围 | 误以为它直接控制页面能不能被排名 |
| Sitemap | 告诉搜索引擎 sitemap 地址 | 误以为 sitemap 只能在后台工具里提交 |
| 根目录可访问 | 让搜索引擎能读到规则 | 误以为文件存在本地就算配置完成 |
非常高频的基础错误
- 把整个站点或关键目录误设成
Disallow。 - 把产品页、文章页、分类页这些本该被抓取的页面挡掉。
- 只顾着拦爬虫,却没意识到自己把搜索引擎也一起拦住了。
canonical 是什么,它在解决“哪个版本才是主版本”
同一份内容在技术上常常会出现多个 URL,比如带参数、不带参数、分页、筛选、大小写差异、末尾斜杠差异等。canonical 的作用,就是告诉搜索引擎:这些相似版本里,哪一个才是你希望被当作主版本的页面。
而且 canonical 不是一个孤立标签。更稳妥的做法通常是:主版本 URL 在内链里一致、在 sitemap 里一致、在 canonical 里一致;如果旧 URL 本来就应该退出,配合 redirect 一起使用会更强。换句话说,规范化更像一组信号的一致性,而不是只塞一个标签就结束。
减少信号被分散的概率。
结果可能不是你想要的那个 URL。
甚至让页面自己“否定自己”。
先确保它真的指向最该保留的版本。
一个很常见的场景
如果同一篇文章能通过多个 URL 打开,而这些 URL 都在被抓取和分享,搜索引擎就可能把原本集中在一页上的信号拆散。canonical 的存在,就是为了减少这种分裂。
noindex 是什么,什么时候该用,什么时候别乱用
noindex 的意思很直接:告诉搜索引擎不要把这个页面作为索引页保留。它很有用,但也很危险。因为一旦你把本该参与搜索的页面标成 noindex,那这个页面就可能根本不出现在搜索结果里。
还有一个很关键的边界:像 noindex、nosnippet 这样的页面级指令,前提通常是搜索引擎能先访问到页面并读取到这些规则。所以如果你把页面直接挡在抓取层,很多页面级控制就可能根本没机会被正常读取。另外,官方也建议尽量不要依赖 JavaScript 去动态注入或移除这类 meta 规则,风险更高。
更常见的合理使用场景
- 重复价值很低的内部搜索结果页。
- 测试页、临时页、无独立搜索价值的工具状态页。
- 明确不想让搜索结果承接的薄页面。
新手最该避免的误用
- 把核心文章页、产品页、分类页意外设成
noindex。 - 上线后忘了移除测试环境留下的
noindex。 - 自己以为页面内容不够好,先全站保守 noindex,结果把 SEO 入口直接关掉。
页面速度和移动端体验,为什么也属于基础技术 SEO
SEO 不是只看你写了什么,也看用户能不能顺畅访问。页面速度太慢、移动端排版错位、按钮难点、图片太重、核心内容加载太晚,这些问题会同时影响抓取效率、用户停留和页面整体质量判断。
这里也要避免一个误解:页面体验不是靠某一个分数决定成败。更实用的理解是,速度、移动端可用性、HTTPS、主内容可访问性和整体浏览感受共同组成“页面体验”。基础阶段先抓最明显的坏体验,比追单一跑分更重要。
新手先盯住这 4 类体验问题
新手最常见的 4 类基础技术错误
基础阶段不需要追求复杂的技术审计,但至少要对几类最容易白做内容的问题有感觉。
| 错误类型 | 会发生什么 | 典型表现 |
|---|---|---|
| 重复页面 | 信号被分散,主版本不清楚 | 同内容多个 URL、参数页乱收录 |
| 无法访问 | 抓取失败,用户也进不去 | 404、500、权限拦截、资源加载失败 |
| 跳转混乱 | 抓取路径变长,用户体验变差 | 多次跳转、错误跳转、循环跳转 |
| 错误阻止抓取或收录 | 核心页面根本不进搜索系统 | robots 配错、误加 noindex |
更现实的理解
技术 SEO 的入门排查,不是为了做一份漂亮的报告,而是先确认“内容有没有机会被正常发现、正常理解、正常保留”。
一个很典型的例子:页面明明存在,为什么 SEO 还是起不来
假设你有一篇写得不错的文章,但它既能通过主 URL 打开,也能通过带参数 URL、旧路径 URL、预览路径 URL 打开;同时主页面还被错误加上了 noindex,或者被 canonical 到别的地址。表面上看,内容是上线了,但搜索引擎收到的是一组混乱信号。这时候问题就不是“文章写得够不够好”,而是“系统有没有告诉搜索引擎哪个版本该被留下来”。
基础排查顺序
先看页面能不能访问,再看有没有被 robots 拦住,再看是否被错误 noindex,最后看 canonical 和 URL 版本是否一致。这个顺序比一上来研究高级技巧更重要。
技术 SEO 的正确心态:先修阻塞,再谈高级优化
新手最容易被各种技术 SEO 术语吓住,或者反过来迷上“高级玩法”。更实用的心态是:先把阻塞项排清楚,再谈更深层的技术优化。因为如果基础层已经出错,后面很多优化都只是叠在错误地基上。
技术 SEO 的入门优先级
- 先确认核心页面可访问。
- 先确认没有被 robots 或 noindex 错误挡住。
- 先确认重复 URL 是否有主版本规则。
- 再看速度、移动端和更细节的体验问题。
- 最后才考虑更深的技术扩展项。
执行清单
学完这一课,先确认这些点
- 你知道
sitemap是帮助发现页面,不是排名魔法。 - 你知道
robots.txt控制的是抓取范围,配错会直接挡掉页面。 - 你知道
canonical的作用是明确主版本。 - 你知道
noindex一旦误用,会直接影响收录。 - 你开始建立速度、移动端和基础技术错误的排查意识。
课后作业
今天就能做的 4 个动作
sitemap,以及里面是不是主要公开页面。robots.txt,确认没有误挡住文章页、产品页或分类页。canonical 或 noindex。下一步读哪篇
继续往下学
现在你已经知道内容之外还有哪些技术底层会影响 SEO,下一节建议继续读 SEO 数据入门:如何判断你的优化有没有效果。因为做完基础优化之后,下一步不是凭感觉判断,而是学会看展现、点击、排名和收录这些过程数据。