关联反馈
相关反馈是一些信息检索系统的特征。 相关反馈背后的观点是,利用起初返回的给定查询的结果,利用那些结果是否相关的结果信息去执行一个新的查询。我们能够有效的区分三种形式的反馈:显式反馈,隐式反馈,盲反馈或“假”反馈。
显式反馈
[编辑]显式反馈来自一个文档查询的相关性显示的评估者。该种形式的反馈被定义为显式反馈,只有评估者(或其他系统的用户)知道反馈倘若被解释为关联 判断。 用户用“二进制”,或者“按等级的”相关系统来表明相关性显示。二进制相关显示表明对于给的查询一个文档要么相关要么不相关。分及相关反馈表明一个文档对一个查询的相关性,在某种程度上用数字,字母,或者说明(例如“不相关”“某种程度相关”“相关”“非常相关”。分级关联也可能会采取一个主要的顺序形式由一位评估员创建的文件;也就是说,评估人按照相关顺序(通常是下降顺序)设置文件的结果。一个这方面的例子是谷歌 在他们的搜索网站的搜索 功能的应用。
相关反馈信息,需要用原始查询来解释,去改变搜索行为。例如著名的Rocchio 算法。一个性能的度量在2005年变得流行,去度量有用的排序算法,基于显式的相关反馈的是NDCG。其他的度量包括“K”精度和平均精度。
隐式反馈
[编辑]隐式反馈,来自用户使用行为,例如文档注释,这些文档是可见性是可选的,花费查看一个文档的持续时间,页码浏览或滚动行。[1](页面存档备份,存于互联网档案馆)。
隐式反馈与显示反馈的关键区别包括[2]:
- 用户不评估IR system的利益相关性。只是仅仅满足他们特有的需要。
- 用户没有必要告知他们的(选择文档)的行为将被用来作为相关反馈。
搜索 浏览器扩充套件,是一个例子。先进的搜索来自基于两用户交互作用(点击图标)和在搜索结果中查看页面链接的时间的结果集的较后面的页面。
盲式反馈
[编辑]伪相关反馈,也被称为盲相关反馈。提供一个自动本地分析的方法。它自动操作相关反馈的手工部分,以便在没有扩展的交互作用时,用户得到改进的检索行为。这种方法是去做一个正常的检索,去发现大部分相关文档的初始集,之后认为,前“k”个文档是相关的,最后按照之前的假定做相关反馈。流程如下:
- 利用起初的查询返回的结果作为相关结果(只是前K,在大部分的实验中,k在10到50之间)。
- 选择前20-30(象征性的)来至于这些文档的术语,例如terms tf-idf权重。
- 做扩展查询,增加一些查询术语,匹配查询的返回文件,最后返回最相关的文件。
一些实验,例如结果来自康内尔智能系统,出版在(Buckley et al.1995),显示用伪相关反馈改进的在TREC 4 实验背景下检索系统性能。
这种自动技术大都运行很好。证据表明,它常常比全局分析系统要好。[1] 通过一个扩展查询,一些相关文件在首轮检索时可能丢失,然后检索去改变全部的性能。显然,该种方法的效果,强烈依赖选择扩展措辞的性能。该方法被创立应用改进TREC特别任务的性能。 [来源请求]。但是一个自动进程也存在威胁。例如,如果查询是关于铜矿山和前几个文件都是关于智利的矿山,那么或许应该查询朝向文档方向上的资历智利。此外,若单词添加到与初始查询无关的查询主题中,检索的质量可能降低,特别是在网络搜索中,Web文档通常覆盖多个不同的主题。 去改进在伪相关反馈中扩展词的性能,来自于伪反馈中的按位相关反馈,被提出从反馈文档中选择,那些单词关注查询主题基于位置的词汇反馈文档。 [2]
具体来说,位置相关性模型的权重分配更多查询词发生的词接近基于直觉,文字接近查询单词更容易被搜索词相关的话题。 盲反馈的自动操作手工部分的相关反馈,有评估者没有的优势。
使用相关信息
[编辑]利用相关性信息,使用相关的文档内容来要么调整术语的原始查询权重,或者使用这些内容添加到查询词。相关反馈往往使用Rocchio算法。
扩展阅读
[编辑]- 相关反馈课堂讲稿 - Jimmy Lin's 演讲笔记,改编自Doug Oard's
- [3] (页面存档备份,存于互联网档案馆) - chapter from 现代信息检索
- Stefan Büttcher, Charles L. A. Clarke, and Gordon V. Cormack. 信息检索:搜索引擎的应用和评估 (页面存档备份,存于互联网档案馆)。MIT剑桥联合出版, 2010。