新授予的谷歌专利揭示了搜索引擎如何看待实体

作者:饶泔

任何了解我的人都知道我是阅读Google专利的忠实粉丝 - 或者,当我感到懒惰时,在他的博客上阅读Bill Slawski对他们的分析,SEO By The Sea我也特别感兴趣实体,因为它们(至少对我来说是那些)正在定义谷歌试图解决的问题随着机器学习的发展,实体代表了搜索引擎越来越多地看待世界在我们深入研究这一最新的谷歌专利之前在2016年12月22日,让我们首先定义一个实体以确保我们都在同一页面上根据专利,定义如下:[A] n实体是一个单一,独特,很好的事物或概念 - 可定义和可区分例如,实体可以是人,地点,项目,想法,抽象概念,具体元素,其他合适的东西,或其任何组合。为了简单起见,您可以随意地将实体视为名词。将导入的定义要理解的是非结构化数据,这在维基百科中非常准确地定义:非结构化数据......指的是没有预定义数据模型或者没有以预定义方式组织的信息。我们将直接进入专利本文的结构方式,我将以斜体字包括专利重要部分的确切措辞,然后解释每个部分的含义,方法,系统和计算机 - 提供可读介质用于集体协调在一些实现中,接收查询,其中查询至少部分地与实体类型相关联至少部分地基于查询生成一个或多个搜索结果先前生成的数据被检索与搜索结果中的一个或多个的至少一个搜索结果相关联,该数据包括与所述典型对应的至少一个搜索结果中的一个或多个实体参考实体的e对一个或多个实体引用进行排序,并且至少部分地基于排名从一个或多个实体引用中选择实体结果。至少部分地基于实体结果提供对查询的回答。是一个很难描述专利中包含的内容的摘要之一就摘要而言,我们所要读的只是实体得到排名,而排名决定了查询的答案。这足以让我进入专利,这确实是准确的 - 但正如你很快就会看到的那样,有一个简单的“我们排名名词”中描述的内容更多以下摘录包含在专利部分的摘要部分中2 [A]系统通过依赖基于与搜索结果相关联的非结构化数据识别的实体引用来提供自然语言搜索查询的答案... [T]他系统检索附加的,预处理的信息关联编辑至少一些搜索结果的每个相应网页...附加信息包括例如出现在网页中的人的姓名。在一个示例中,为了回答“谁”问题,系统编辑出现在网页中的名称。前十个搜索结果,在附加信息中确定系统将最常出现的名称识别为答案...在上面的摘录中,我们开始看到系统背后的方法Google正在讨论的是确定答案的想法对于“谁”的问题,他们将使用出现在前10个搜索结果中的最常见名称。第4节查询是自然语言查询...对一个或多个实体引用进行排名包括基于至少一个排名信号的排名在一些实现中,一个或多个排序信号包括每个相应实体参考的出现频率。在一些实现中,一个或多个排序信号包括topi每个相应实体参考的cality得分在一些实现中,先前生成的数据对应于非结构化数据。为了进一步提供关于如何在专利中概述该方法的信息,我们在文档中看到该术语的使用频率,并且可能跨越多个文档此外,我们看到时事性是一个相关因素,这是一种应用于非结构化数据的方法第5节[Q]可以为自动且不断更新的方式提供查询 在一些实施方式中,问答可以利用搜索结果排名技术。在一些实现中,可以基于诸如因特网之类的网络的非结构化内容自动识别问题答案。在本节中,我们看到它强化了问题的答案可能是根据搜索结果或排名技术确定,但似乎我们也看到专利扩展到包括基于其他技术自动确定问题答案,以及他们在非结构化数据中确定答案的能力第14至96节详细说明本专利中包含的图像,流程图和真实肉类下面将包含一些图像,一些图像将被简单地注明,具体取决于哪些图像将更好地获取信息第19节系统可以检索与十大搜索结果......排名和/或选择基于质量得分,新鲜度scor e,相关性分数,任何其他合适的信息,或其任何组合在这里,我们看到谷歌澄清不同类型的实体和答案可能基于不同的信息集合例如,如果你可以选择新鲜度作为更强的信号如果你正在寻找一个定义,健康信息等,那么质量可能会更强,但我承认,我必须多次阅读本节以完全掌握他们所谈论的内容。该部分涉及专利图1,其如下:图1:根据本公开的一些实施方式的用于问答的系统的高级框图他们写道:[T]从实体参考检索的信息与特定网页相关联的110是出现在该网页中的人的列表。例如,特定网页可以包括多个人的名称,并且实体引用110可以包括nam的列表。包括在网页内的实体引用110还可以包括其他信息在一些实现中,实体引用110包括不同类型的实体引用,例如,人,地点和日期。在一些实现中,多个实体类型的实体引用被维护为单个带注释的实体引用列表,作为分隔列表,以任何其他合适的信息格式或其任何组合。应当理解,在一些实现中,实体引用110和索引108可以存储在单个索引中,在多个索引中,在任何其他合适的结构或其任何组合中他们所指的内容背后的想法在专利的其他地方重复了我在阅读这一专利时遇到的一个重大问题是它需要的巨大处理能力。实体搜索在其自己的索引上运行查询所需的引擎,处理前10个结果,然后确定最常使用的术语i为了建立一个问题最可能的答案,像这样处理搜索结果会花费更多倍的资源在第20节中,他们讨论围绕这个的方法,即预先填充参考列表(图中的110) )与索引本身分离因此,当输入诸如“谁是dav davies”的查询时,从索引中提取数据(以确定具有答案的可能页面),但是也存在第二参考点(110)这将包含实体数据(例如每个文档中提到“dave davies”的次数),从而使Google无需动态计算第21节[O]或更多排名指标用于对实体引用,包括发生的频率和时事性分数发生的频率与实体引用在特定文档,文档集合或其他内容中发生的次数有关时间性分数包括权利之间的关系y引用及其出现的内容除了重复使用术语作为度量的次数之外,我们还在本节中看到了对话题性的强化虽然这可能与站点的相关性有关一个主题和权重参考应该给出,我倾向于认为它更多地与帮助理解哪个实体被引用有关例如,如果在与SEO相关的页面上看到实体“dave davies”,那么它很可能是我 另一方面,如果“dave davies”出现在与音乐相关的页面上,很可能是“那个Kinks家伙”(因为我喜欢引用他)在与音乐主题相关的页面上看到更多“dave davies”会帮助他们选择显示:第25节系统基于一个或多个质量分数对搜索结果进行排序在一些实现中,质量分数包括与搜索查询的相关性,与搜索结果相关联的质量分数,与该搜索结果相关联的新鲜度分数。上次生成或更新内容的数据的时间,与先前从搜索结果集合中选择的特定搜索结果相关联的分数,任何其他合适的质量分数,或其任何组合在示例中,与搜索相关联的质量分数结果可能包括进出相应网页的链接数量在第25节中,我们看到更多关于质量得分的澄清作为指标当然,这部分不仅仅包括在内它引用传入链接作为质量指标,但也包含出站链接作为可能的信号第28节系统通过将结构化或非结构化文本与已知列表进行比较,生成出现在网页中的实体引用集合实体引用,例如名称列表在一些实现中,基于发生的频率或其他聚类技术来识别先前未知的实体引用。在一些实现中,实体引用是人实体引用,例如,出现在人实体引用中的人的名称。网页文本在一个示例中,系统维护一个显示在特定网页中的所有人名的列表,当网页出现在搜索结果框的顶部结果框中时检索该列表206在第28节中,我们看到的理解是,并非所有实体都是已知的,并且需要开发方法来理解新的实体。如果首先提到一个人,就会发生这种情况。在互联网上,开发了一个新的建筑物,然后谷歌将使用他们对其他实体如何被引用的理解(例如,页面上的位置)并开始将新实体添加到实体参考列表中(参见图中的“110”)在一些实现中,系统处理网页和其他内容以识别实体引用。在一些实现中,系统离线执行该处理,使得在搜索时检索它。在一些实现中,系统处理信息。在搜索时实时进行在第36节中,我们看到正在讨论的系统通过离线处理来适应更快的结果,正如我们在第20节中所见,我们也看到了对实时运行的系统的参考显然,有查询需要这种类型的类型(如天气),并且可以假设Google将拥有此类信息的可靠来源列表,使他们仍能处理信息n快速且资源最少第37节[L] ist条目包括实体引用,与实体引用相关联的唯一标识符,实体引用的发生频率,实体引用发生的页面上的位置,与之相关的元数据诸如新鲜度和排序,任何其他合适的数据或其任何组合的内容在一些实现中,先前生成的数据可以包括实体参考的类型,例如,人,位置,日期,任何其他合适的类型,或者其中任何组合在一些实现中,先前生成的数据包括将实体标识为特定类型的信息,诸如人实体引用,地点实体引用或时间实体引用。在一些实现中,可以为网站生成多组数据。或其他内容,其中每个集合与一个或多个类型相关联在一个示例中,网站可以与人员实体ref的列表相关联。在其中发生的事件以及在其中发生的位置实体参考列表对于那些对如何隔离不同实体感到好奇的人,我们在这里得到答案,他们在这里讨论实体的“唯一标识符”,而不是想到Dave Davies作为本文的作者,The Kinks和Dave Davies作为“Dave Davies”的两个版本,谷歌会将我们视为具有相同属性的标识符 如果你或我想到一个人的名字,谷歌就不会;他们会通过一个独特的,可能是字母数字的序列来思考它们,我将在下面进一步说明,但最简单的形式,它可能看起来像:唯一ID(00000001A) - >有名字(Dave Davies) - >有工作(音乐家)和唯一ID(00000001B) - >有姓名(戴夫戴维斯) - >有工作(SEO)过去,这部分主要强化已知的SEO和相关性强化因素,如实体使用频率,位置内容页面,链接等第38节内容中出现的名称或实体引用可用于消除引用的歧义在一个示例中,与[Martha Washington]相同的文本中出现的名称[George Washington]可能被确定为与美国总统名单中的独特实体参考有关,而与[大学]和[华盛顿特区]相同内容的[乔治华盛顿]被确定为与[乔治华盛顿大学]有关在本节中,我们进一步了解如何通过con理解实体文本当有两个或多个具有相似名称属性的实体时,该专利概述了使用页面中的其他数据来帮助确定引用哪个特定实体。使用我的示例,对“Dave Davies”的引用发生在带有“The Kinks”的页面将Dave Davies与上面的唯一ID 00000001A相关联而不是00000001B第41节在另一个示例中,系统通过将文档长度或任何其他合适的度量标准化出现次数来确定频率。老实说,我在这篇文章中包含第41节的一部分的唯一原因是,这可能是我最后一次能够将关键字密度作为一个度量标准而没有“在21世纪初期”的上下文“有趣的是,这正是他们在这里提到的,在这种情况下它确实有意义如果一个人使用前10个结果中实体参考的频率作为问题答案的指标,那么应该考虑到一个10,000字的页面应该对这个数字产生不同的影响而不是700字的页面尽管如此,你可能永远不会再读取或听到来自Unique ID 00000001B的关键字密度的引用第42节[T]系统使用时事性分数作为排名信号在一些实现中,时事性分数包括新鲜度,文档的年龄,到文档的链接的数量和/或来自文档的链接的数量,在先前的搜索结果中该文档的选择的数量,文档和查询之间的关系强度,任何其他合适的分数,或其任何组合在一些实现中,时事性分数取决于实体引用与实体引用所在的内容之间的关系。例如,实体引用[乔治华盛顿]在历史网页上的时事性得分可能高于当前的新闻网页。在另一个例子中,实体参考[巴拉克奥巴马]可能有一个在政治网站上比在法学院网站上更高的时事性得分在本节中,我们看到谷歌澄清了时事性意味着什么以及它对结果的影响这与选择特定实体作为答案没有关系(例如,选择哪个Dave Davies被引用)并且更多地与用于制作答案的数据有关例如,他出生时是八个孩子中的最后一个并不具有足够的局部相关性以包含在答案中如上图所示,“dav davies是谁”,相反,他的出生日期和频段等信息都是准确的,但是由于诸如文件频率等话题性信号,选择的“重要”信息越多,第47节第47节如果我们想要真正理解Google如何回答问题和组织数据的逻辑,那么可靠地依赖于最重要的数字所以在我们进入所写内容之前,让我们看一下插图重要的是要注意,红色文本不是最初专利的一部分,并且我已经添加了提供上下文的节点每个节点包含一个或多个数据,边缘表示边缘节点中包含的数据之间的关系在一些实现中,图形包括由边缘连接的一对或多对节点边缘,因此图形可以是定向的,即单向的,无向的,即 双向或两者,即一个或多个边可以是无向的,并且一个或多个边可以在同一图中是方向的。所引用的节点是圆形元素并包含数据;线是边缘并包含关系例如,Dave Davies(402)有兄弟Ray Davies(404)并且都有乐队The Kinks(408)这个图非常简化以便于理解实际上,这些节点中的每一个都代表唯一ID,这些ID将具有“具有名称”的元素 - 但是出于我们的目的,上面的插图很有效第52节域指的是相关实体类型的集合例如,域[Film]可能包括,例如,实体类型[Actor],[Director],[Filming Location],[Movie],任何其他合适的实体类型或其任何组合在一些实现中,实体与多个域中的类型相关联例如,实体节点[Benjamin Franklin]可以与域[Government]中的实体类型节点[Politician]以及域中的实体类型节点[Inventor]连接[Business]在本节中,我们看到进一步将信息分组到域中合理地,我们可以假设大多数或所有域也将是其他应用程序中的节点“基努·里维斯”,例如,将是通过边缘“行为”链接到另一个节点“电影”的节点。这两个节点都将包含在域中“电影“第56节知识图表可以包括用于区分和消除术语和/或实体的歧义的信息。如本文所使用的,区分是指多个名称与单个实体相关联的多对一情况。如本文所用,消歧是指一对多的情况,其中相同的名称与多个实体相关联在一些实现中,可以为节点分配唯一的标识引用。在一些实现中,唯一标识引用可以是字母数字字符串,名称,数字。 ,二进制代码,任何其他合适的标识符,或其任何组合。唯一标识引用可以允许系统为具有相同或相似的节点分配唯一引用。文本标识符在一些实现中,唯一标识符和其他技术用于区分,消歧或两者。在第56节中,我们对差异进行了澄清(解决了一个实体有很多名称的情况 - 例如:电影,电影,轻弹和消歧(解决多个实体共享一个名称的情况 - 例如:戴夫戴维斯)我们在唯一标识符及其用途的部分再次说话简而言之,你不是你,也没有实体本身在我们沟通的方式中每个实体都是一个唯一的ID,并且该唯一ID被分配给包含更多公共引用的节点,例如名称和特征。这里的第58节[T]可以是与城市相关的实体节点[Philadelphia] ,与电影[费城]相关的实体节点,以及与奶油干酪品牌[费城]相关的实体节点这些节点中的每一个可以具有唯一的识别参考,例如存储为数字,在知识图中消除歧义在一些实现中,知识图中的消歧是由多个节点之间的连接和关系提供的。例如,城市[纽约]可以从州[纽约]消除歧义,因为城市连接到实体类型[City]并且状态连接到实体类型[State]可以理解,更复杂的关系也可以定义和消除节点的歧义。例如,节点可以由关联类型定义,由连接到它的其他实体定义特定属性,其名称,任何其他合适的信息,或其任何组合。这些连接可用于消除歧义,例如,连接到节点[美国]的节点[格鲁吉亚]可以被理解为代表美国。状态,而连接节点[亚洲]和[东欧]的节点[格鲁吉亚]可以理解为代表东欧的国家,而第58节则侧重于讨论如何通过节点和连接识别特定实体,这里真正重要的是,这是他们确定哪个答案更可能是正确的方法这将基于节点的组合,如本节所述如前所述,部分和域 如果我向谷歌询问这个问题:“谁在费城?”Google明白基于问题类型(我正在搜索的人)的最可能的参考是电影,“费城”可以用列表回答曾经访问过这座城市的所有知名人士,但这不太可能是我想要的信息因此,谷歌提供了基于电影的答案如果我将我的问题改为:“有多少人在费城?”谷歌给出了答案是1553百万它可以用电影中演员的总数来回答,但它根据可用的实体和正在寻找的数据的框架选择了最感兴趣的答案第61节[N] odes和edge定义实体类型节点与其属性之间的关系,从而定义模式在这里,我们看到Google基本上通过创建自己的边缘和节点模式将非结构化数据转换为结构。 sly undefined这将允许Google为Person生成自己的架构(例如)并不断调整,添加和删除与其关联的架构。第68节[S]为不同的相应域维护不同的知识图,针对不同的实体类型,或根据任何其他合适的划界特征在本节中,我们看到谷歌为不同类型的数据创建单独类型的知识图表,即根据所请求的信息类型对答案进行不同的构建我们将在下面讨论为什么这很重要现在我们已经完成了关键信息的结束,你可能会问,“那又怎么样?”好问题虽然理解Google如何组织数据本身就是一件好事,但是有特定的可操作项目我们可以从中汲取这一点,这可以大大提高我们的排名和相关性最好的部分是,它们并不难,实际上并没有付出太多努力 - 只是一个简单的你正在寻找的东西实际上,在我看来,谷歌的算法最重要的一个方面是理解,这个专利增加了理解理解实体正在理解谷歌如何看待一切之间的联系它遇到了这有助于决定你应该如何构建你的内容(以及那些内容应该包括哪些内容)被认为不仅仅是相关的,而是最相关的,你还想要什么呢?本文中表达的观点是客座作者的观点,....