编辑:庸庸
【新智元导读】就在刚才,一份2500页的内部文档泄密,谷歌搜索算法的内幕,让不少人大跌眼镜。
日前,谷歌2500页的内部文档被泄密,揭示了搜索——「互联网最强大的仲裁者」的运作方式。
爆料人是SparkToro的联合创始人兼CEO,他在自家网站上发布博客文案,宣叫作「一位匿名人士与我分享了数千页泄密的谷歌搜索API文档,seo中的每一个人都应该看到它们」!
数年来,Rand Fishkin始终是SEO行业(Search Engine Optimization,搜索引擎优化)的顶级代言人,「网站权威性」(Domain Rating)这个概念便是他提出的。
既然在这个行业德高望重,Rand Fishkin爆料之前自然要对这位不明身份的匿名人士小心查验。
上周五,在发送了几封电子邮件之后,Rand Fishkin与这位奥秘人进行了视频通话,当然,对方并无露脸。
此次通话让Rand认识了这份泄密文件的更加多信息:这是一份超过2500页的API文档,其中包括14014条Attributes,这些属性似乎来自Google的内部「Content API Warehouse」。
按照文档的提交历史记录,该代码于2024年3月27日上传到GitHub,直到2024年5月7日才被删除。
通话结束后,Rand确认了匿名人的工作经历和她们在营销界一起认识的人,他决定满足匿名人的期望——发布一篇文案来分享这次泄密,并驳斥了谷歌员工「数年来始终传播的有些谎言」。
Matt Cutts、Gary Ilyes和John Mueller否认谷歌在数年来将基于点击的用户数据用于排名
Rand的文案谈到了沙箱、点击率、停留时间等影响SEO的原因,而这正是谷歌之前极力否认的。
文案一经发布,果然立刻诱发了舆论哗然,尤其受到了SEO圈的尤其关注。
另一位SEO专家Mike King亦发布文案,揭示谷歌「算法的奥密」。
Mike King暗示,「泄密的文件触及谷歌收集和运用那些数据、谷歌将那些网站提高为选举等敏锐专题、谷歌怎样处理小型网站等主题。」
许多信息显示,谷歌数年来并未完全如实报告,「文件中的有些信息似乎与谷歌表率的公开声明相冲突。」
面对大众的质疑,谷歌选取沉默,拒绝对此次爆炸性泄漏事件发布评论。
正主无发声,反倒是此前匿名供给信息的奥秘人士露面了。5月28日,奥秘人最终决定挺身而出,发布了一段视频,在视频中颁布了他的身份。
他叫Erfan Azimi,亦是一名SEO从业者,EA Eagle Digital的创始人。
那样,既然Erfan Azimi供给的文档来自Google的内部「Content API Warehouse」,咱们有必要认识一下什么是谷歌API Content Warehouse,以及这份文档到底泄密了那些内容?
谷歌搜索「黑箱」
这次泄密事件似乎来自GitHub,最可信的解释与Erfan Azimi在通话中告诉Rand的一致:
这些文档可能是无意中被短暂公开了,由于文档中的许多链接指向私人GitHub仓库,以及谷歌机构网站上需要特定认证登录的内部页面。
在2024年3月至5月这段可能是偶然的公开时间里,API文档被传播到Hexdocs(索引公开的GitHub仓库),并被其他人发掘并传播。
让Rand疑惑的是,他确信其他人亦有一份副本,但直到此次爆料出现以前,这份文件并无被公开讨论。
据前谷歌研发人员透露,几乎每一个谷歌团队都有这般的文档,用于解释各样API属性和模块,帮忙项目人员熟练可用的数据元素。
该泄漏信息与GitHub公共仓库和谷歌云API文档中的其他信息相吻合,运用了相同的符号风格、格式,乃至流程/模块/功能名叫作和引用。
「API Content Warehouse」听起来像个技术术语,但咱们能够把它看作是给谷歌搜索引擎团队成员的一份指南。
它就像图书馆里的图书目录,谷歌用它来告诉员工有那些书以及怎样获取。
但区别的是,图书馆是公开的,而谷歌搜索却是世界上最奥秘、防守森严的黑匣子之一。在过去的二十数年中,谷歌搜索分部从未出现过如此大规模或如此仔细的泄密事件。
「泄密」了什么?
1. 对用户点击数据的运用
文档中的有些模块说到了「goodClicks」、「badClicks」、「lastLongestClicks」、印象、压扁、未压扁和独角兽点击等功能。这些都与Navboost和Glue相关,看过谷歌司法部证词的人可能对这两个词并不陌生。
以下是司法部律师Kenneth Dintzer对搜索质量团队搜索副总裁Pandu Nayak的交叉询问的关联摘录:
Q. 那样请提醒我一下,Navboost是不是能够追溯到 2005 年?
A. 在这个范围内,乃至可能更早。
Q. 它已然更新过了,它已然不是当年的那个Navboost了?
A. 不是了
Q. 还有一个是glue,对吗?
A. glue只是Navboost的另一个名叫作,包含页面上的所有其他功能。
Q. 好的。我本来打算稍后再谈,但咱们此刻就能够谈。就像咱们讨论过的那样,Navboost能够生成网页结果,对吗?
A. 是的。
Q. glue还能够处理页面上所有不是网页结果的内容,对吗?
A. 没错。
Q. 它们一起帮忙找到最后表示在咱们搜索结果页上的内容并对其进行排名?
A. 没错。它们都是这方面的信号,是的。
这份泄密的API文档支持Nayak先生的证词,并与Google的网站质量专利保持一致。
谷歌似乎有办法过滤掉她们不想计入排名系统的点击量,并将她们期盼计入排名系统的点击量纳入其中。
她们似乎还能衡量点击时长(pogo-sticking,指搜索者点击结果后,因对找到的答案不满意而快速点击返回按钮)和印象。
2. 征用Chrome的点击流
谷歌表率多次暗示,它不会运用Chrome数据对页面进行排名,但泄密文档在相关网站怎样在搜索中表示的部分中,尤其说到了Chrome。
泄密文件的匿名信息源叫作,早在2005年,谷歌就期盼得到数十亿互联网用户的完整点击流,而经过Chrome浏览器,她们已然得偿所愿。
API文档表示,谷歌能够运用Chrome浏览器计算与单个页面和全部域关联的几类指标。
这份文档介绍了谷歌怎样创建Sitelinks的关联功能,尤其有趣。
它展示了一个名为topUrl的调用,即 「A list of top urls with highest two_level_score, i.e., chrome_trans_clicks.」
据此能够推测出,谷歌很可能运用了 Chrome 浏览器中网页的点击次数,并以此来确定网站上最受欢迎或是最重要的 URL,从而计算出那些URL应包括在Sitelinks功能中。
在谷歌搜索结果中,它总能表示用户拜访量最大的页面,这是它经过跟踪数十亿Chrome用户的点击流得来的。
针对谷歌的这一行径,网友当然暗示不满。
3. 为严肃专题创建白名单
咱们不难经过「优秀旅游网站」 模块得出这般一个推论——谷歌在旅游行业存在一个白名单,尽管尚不清楚这是不是专门用于谷歌的「旅游」搜索选项,还是更广泛的网络搜索。
另外,文档中多处说到的 「isCovidLocalAuthority」(新冠本地权威)和 「isElectionAuthority」(选举权威)进一步显示,谷歌正在对特定域名进行白名单管理,这些域名可能会在用户搜索极具争议的问题时被优先表示。
例如,在2020年美国总统大选之后,某位候选人在无证据的状况下声叫作选票被偷,并鼓励其追随者冲击国会山。
谷歌几乎肯定会作为人们最先搜索这一事件关联信息的地区之一,倘若她们的搜索引擎返回的是不准确描述选举证据的宣传网站,这可能会直接引起更加多的争论、暴力,乃至是美百姓主的终结。
从这个方向上来讲,白名单有其现实道理。Rand Fishkin暗示「咱们这些期盼自由公正的选举继续下去的人应该非常感谢谷歌的工程师们在这种状况下运用了白名单。」
4. 采用人工评定网站质量
长时间败兴,谷歌始终有一个名为EWOK的质量评级平台,咱们此刻有证据显示,搜索系统中运用了质量评定者中的某些元素。
Rand Fishkin觉得有趣的是,EWOK质量评定者生成的分数和数据可能会直接参与谷歌的搜索系统,而不仅是实验的训练集。
当然,这些可能「只是用于测试」,然则当浏览泄密的文档时,你就会发掘当这是真的,它会在注释和模块仔细信息中知道指出。
其中说到的「每份文档关联性评级」即来自 EWOK 的评定,虽然无详细的说明,但咱们不难想象,人类对网站的评定到底有多重要。
文档还说到了「人工评级」(例如来自 EWOK 的评级),并指出它们「一般只填充在评定管道中」,这显示它们可能重点是该模块中的训练数据。
但Rand Fishkin认为这仍然是一个非常重要的角色,营销人员不该忽略质量评级者对其网站的良好感知和评级有多么重要。
5. 利用点击数据确定权重
谷歌将链接索引分为三个等级(低、中、高质量),点击数据用于确定网站属于哪个等级。
- 倘若网站无被点击,就会进入低质量索引,链接亦会被忽略
- 倘若网站来自可验证设备的点击量很高,它就会进入高质量索引,并且链接会传递排名信号
一旦链接由于属于更高层次的索引而作为 “可信 ”链接,它就能够流动PageRank和锚点,或被垃圾链接系统过滤/删除。
来自低质量链接索引的链接不会损害网站的排名,它们只会被忽略。
谷歌的搜索算法可能是互联网上最重要的系统,它决定了区别网站的生死存亡以及咱们在网上所能看到的内容。
可它到底是怎样对网站进行排名的,长时间败兴始终是个谜,记者、科研人员和从事SEO工作的人们都在持续拼凑这个谜题的答案。
在这次泄漏事件中,谷歌依旧保持沉默,似乎会让这个谜题很久存在下去。
但这次谷歌有史败兴最严重的泄密,还是撕开了一个裂缝,让人们对搜索的工作原理有了前所未有的认识。
参考资料:
https://sparktoro.com/blog/an-anonymous-source-shared-thousands-of-leaked-google-search-api-documents-with-me-everyone-in-seo-should-see-them/
|