很多人认为 Google 已经解决了搜索的问题,但是在 Google 看来搜索的发展才刚刚起步。如果说搜索是一本书,那 Google 才刚写完了开篇。 10 多年来, Google 搜索一直在不断改进,通过数据驱动和实验评估等科学的方法不断完善搜索引擎。 日前, Google 工程总监斯科特 • 霍夫曼 (Scott Huffman) 介绍了 Google 算法改进背后的数字: Google 已解决超过 45000 亿次搜索请求;在 2011 年进行了 41931 次必要性评估、 9250 次小规模试验、 7363 项在线实时实验,最终完成了 520 多项改进。

Google 工程总监斯科特 • 霍夫曼 (Scott Huffman)
当通过 Google 搜索信息时,用户并不是在对网页执行操作,而是在 Google 的网页索引中进行查找。 Google 旗下庞大的计算机群统称 “Google 机器人 ” ,它由算法控制,抓取、浏览网络中的几十亿网页,并为其中的每一个词编写索引。当用户输入搜索请求后,机器便会在索引中搜索匹配网页,并将关联度最高的搜索结果呈现给用户 。
Google 致力于在最短的时间内为用户提供最为相关的搜索结果,这也是其对搜索算法不断改进的动力。 Google 对算法的改进通常有三个步骤,首先对每项改进做必要性评估,然后在全球不同地区进行小规模实验,之后随机挑选用户进行在线实时实验。在特定时间, Google 针对搜索功能会进行 50-200 个在线实验。借助这些精准有序的科学方法,一个好的改进方案从构思到在 Google.com 上实施操作,最多只需 24 小时。 2011 年, Google 进行了 58000 多项实验,并对搜索系统做出 520 多处改进 。
通过这些实验, Google 可以不断提升用户的搜索体验,诸如 : 在搜索结果中剔除垃圾信息;根据用户需求改变搜索界面呈现的结果数量;相同词在不同地域搜索,呈现的结果不同 。
同时, Google 搜索算法进行了一系列重大改进,比如 :
● 新鲜度算法调整:在某些情况下, Google 需要为用户提供最新搜索结果,比如即时新闻、定期发生的重大事件以及内容频繁更新的话题等。如果搜索 “ 奥运会 ” ,用户会得到与即将举办的伦敦奥运会相关的最新搜索结果,而非关于 1984 年奥运会的陈旧信息 。
● 优质网站算法调整:它对包含原始信息、研究调查、深度报道、精准分析等内容的高质量网站十分有利,提高了它们在搜索结果中的排名 。
● 页面布局算法调整:这一改进关注用户在点击搜索结果后所看到的网页布局,提升网页信息的丰富程度 ,提高信息容易被搜索到的网页的排名 。
Google 搜索背后的数字
● Google 通常只需 0.25 秒便可对搜索请求做出回应,而人平均每眨一次眼睛需要 0.1 秒
● 自 2003 年到现在, Google 搜索已解决 4500 亿个搜索请 求
● 用户每天搜索的关键词中, 16-20% 都是新 的
● 平均每个 Google 搜索关键词往返于用户电脑和数据中心的单程距离长达 750 英 里
● Google 对搜索结果使用了包括 “ 网页排名 ” 在内的 200 多种排名指 标
● Google 的索引库中收录了几十亿个网页,数据存储多达 1 亿 GB
● 截止目前, Google 在搜索算法开发上投入的时间超过 1000 人工 年
● Google 搜索覆盖的语言多达 146 种
● Google 搜索全球范围内拥有 181 个域 名


