内容生成与向量检索模型的对抗性应用

清华包揽最佳论文+时间检验奖,山大获荣誉提名,SIGIR 2024奖项出炉_百度...

第47届国际计算机协会信息检索大会（ACM SIGIR）于2024年7月14日至18日在美国华盛顿特区举行，并公布了多个奖项，清华大学包揽最佳论文奖与时间检验奖，山东大学（青岛）获最佳论文荣誉提名奖。具体奖项信息如下：最佳论文奖获奖团队：清华大学、中国人民大学高瓴人工智能学院、小红书团队。论文名称：Scaling Laws For Dense Retrieval。论文作者：方言、Jingtao Zhan、艾清遥、毛佳昕、Weihang Su、Jia Chen、刘奕群。论文简介：研究背景：在语言生成中，扩展定律已被广泛观察，但密集检索中的扩展定律尚未得到充分探索。研究内容：研究团队实现了具有不同数量参数的密集检索模型，并使用不同数量的注释数据进行训练，使用对比熵作为评估指标。研究结果：密集检索模型的性能遵循与模型大小以及注释数量相关的精确幂律扩展，扩展定律有助于优化训练过程。研究意义：该研究极大地有助于理解密集检索模型的扩展效应，为未来的研究提供了有意义的指导。论文链接：https://dl.acm.org/doi/abs/10.1145/3626772.3657743最佳论文亚军获奖团队：来自格拉斯哥大学的Sean MacAvaney、以及来自比萨大学的Nicola Tonellotto。论文名称：A Reproducibility Study of PLAID。论文摘要：ColBERTv2的PLAID算法使用聚类术语表示来检索和逐步剪枝文档，以获得最终的文档评分。本文复制并填补了原文中缺失的空白。通过研究PLAID引入的参数，研究者发现它的帕累托边界是由三个参数之间的平衡形成的。超出建议设置的偏差可能会大大增加延迟，而不一定会提高其有效性。本文将PLAID与论文中缺失的一个重要基线进行比较：对词汇系统进行重新排序。发现在初始BM25结果池之上应用ColBERTv2作为重新排序器，在低延迟设置中提供了更好的效率-有效性权衡。这项工作强调了在评估检索引擎效率时仔细选择相关基线的重要性。论文地址：https://arxiv.org/pdf/2404.14989最佳论文荣誉提名奖获奖团队：山东大学（青岛）、莱顿大学、阿姆斯特丹大学的研究者。论文名称：Generative Retrieval as Multi-Vector Dense Retrieval。论文作者：吴世广，魏闻达，张孟奇，陈竹敏，马军，任昭春，Maarten de Rijke，任鹏杰。论文摘要：本文通过证明生成检索和多向量密集检索共享相同的框架来衡量文档查询的相关性。具体来说，他们研究了生成检索的注意力层和预测头，揭示了生成检索可以理解为多向量密集检索的一个特例。这两种方法都通过计算查询向量和文档向量与对齐矩阵的乘积之和来计算相关性。然后，研究者探讨了生成检索如何应用此框架，他们采用不同的策略来计算文档token向量和对齐矩阵。并进行了实验来验证结论，表明这两种范式在其对齐矩阵中都表现出术语匹配的共性。论文地址：https://arxiv.org/pdf/2404.00684时间检验奖获奖团队：清华大学、加州大学圣克鲁斯分校的研究者。获奖论文：Explicit Factor Models for Explainable Recommendation based on Phrase-level Sentiment Analysis（发表于10年前的SIGIR 2014）。论文作者：张永锋、赖国堃、张敏、 Yi Zhang 、刘奕群、马少平。论文简介：研究背景：基于协同过滤（CF）的推荐算法，例如潜在因子模型（LFM），在预测准确率方面表现良好。然而，潜在特征使得向用户解释推荐结果变得困难。研究内容：随着在线用户评论的不断增长，可用于训练推荐系统的信息不再仅限于数字星级评分或用户/商品特征。通过从评论中提取用户对产品各个方面的明确意见，可以更详细地了解用户关心的方面，这进一步揭示了做出可解释推荐的可能性。本文提出了EFM（Explicit Factor Model ）来生成可解释的推荐，同时保持较高的预测准确率。研究方法：研究者首先通过对用户评论进行短语级情感分析来提取显性产品特征和用户意见，然后根据用户兴趣的特定产品特征和学习到的隐藏特征生成推荐和不推荐。此外，从模型中还生成了关于为什么推荐或不推荐某件商品的直观特征级解释。研究结果：在多个真实数据集上的离线实验结果表明，该研究提出的框架在评分预测和top-K推荐任务上均优于竞争基线算法。在线实验表明，详细的解释使推荐和不推荐对用户的购买行为更具影响力。论文链接：https://www.cs.cmu.edu/~glai1/papers/yongfeng-guokun-sigir14.pdf青年学者奖获奖者：来自清华大学计算机系的助理教授艾清遥、来自中国科学技术大学网络空间安全学院、大数据学院教授、博士生导师王翔。艾清遥简介：清华大学计算机系助理教授，主要研究领域集中在信息检索、机器学习以及自然语言处理研究方面。重点研究方向为智能信息检索系统的研究与设计，包括信息表示学习、排序优化理论、大语言模型在互联网搜推和智慧司法上的应用等。王翔简介：中国科学技术大学网络空间安全学院、大数据学院教授、博士生导师。研究兴趣包括信息检索、数据挖掘以及可信、可解释人工智能，特别是推荐系统、图学习和社交媒体分析。

nginx