自然语言生成对比爬虫行为分析的实施路径

从文本匹配到语义相关——新闻相似度计算的一般思路

从文本匹配到语义相关——新闻相似度计算的一般思路新闻相似度计算是自然语言处理（NLP）中的一个重要任务，它涉及从文本匹配到语义相关的多个层面。以下是从统计特征到语义特征，再到结合主题信息和实体信息的新闻相似度计算的一般思路。一、统计特征 + 汉明距离Simhash算法：核心思想：通过分词选用文中关键词来代表一篇文章，将这些关键词hash编码为固定长度的二进制序列，然后通过设置好的权重对关键词的编码进行加权，简单合并后再次降维为二进制数据。关键词选取与权重设置：常用TF-IDF算法计算文章中各个词的TF-IDF值，取topN的内容作为关键词，并以TF-IDF值作为权重。相似度计算：通过汉明距离计算不同文章之间的相似性。存在问题：TF-IDF算法在关键词选取和权重设置上精度不高，无法很好地反映单词的重要程度和特征词的分布情况。Simhash算法无法显式考虑和控制某些关键词语的相近含义、代表医药项目进度的词汇或表示否定语义的词汇内容，这些因素会很大程度上影响两篇文章的相似结果。二、语义特征 + 余弦距离word2vec与doc2vec：word2vec：基础的文本表示方式之一，通过对一篇文章进行embedding，词向量直接平均或采用TF-IDF进行加权平均都能得到一篇文章的向量表示。doc2vec：能够学习长文本的连续向量表示，适用于句子、段落和文章等不同长度的文本数据。通过PV-DM模块存储不同段落的特征向量，与窗口内其他词向量拼接输入模型进行梯度更新。优势与缺点：优势：doc2vec能够在大规模的语料上无监督训练，考虑到词义信息并具备局部语序信息。缺点：文本向量需要反向传播过程，若未随机化固定，每次产生的文本向量会不同，影响相似度计算。此外，doc2vec与word2vec一样存在OOV问题。三、语义特征 + 主题信息 + 余弦距离P-SIF方法：核心思想：通过主题聚类的思想产生不同主题下的权重因子，对每个主题下的词向量进行concat作为该word的最终向量表示。最终文本表征表示为各个词向量的加权求和。主题权重因子：采用ksvd方法分解得到，需要指定主题数目。优势与缺点：优势：加入主题信息可以更细粒度地表征文本，相比基于TF-IDF的word2vec表征文本是一种进步。缺点：包括OOV问题、主题数不好确定、语义表征能力不足等。特别是加权求和的文本表征不容易平衡单个词的关键作用。四、语义特征 + 主题信息 + 余弦距离 + 实体信息实体信息抽取：从新闻的导语或标题内容中抽取时间、地点、事件、起因、人员（或组织）等关键因素，用于辅助判断两新闻之间的相似性。作用：实体内容的抽取在本任务中起到提供辅助信息的作用，暂时并未与文章的embedding表示有过于紧密的结合。五、预训练语言模型获取语义特征BERT-flow与BERT-whitening：BERT-flow：使用flow模型来校正BERT得到的句向量的分布，使其满足“各向同性”的特质。BERT-whitening：提出使用简单的线性变换（相当于白化操作）来浅层地对BERT的向量进行转换，达到与BERT-flow接近甚至超越的效果。优势：基于大规模训练的语言模型对语义的理解天生要高于字符和基于word2vec的方式，预训练模型在长文本的复杂度和效果的突破将直接为长文本的下游处理带来新的方向。总结：新闻长文本的表征可以用于相似度的计算、文本分类、文本聚合等方向。新闻相似度计算包括字符级别的相似和事件级别的相似。字符级别的相似可以直接采用基于字符的对比方法，如Simhash、编辑距离等；而事件级别的相似则需要有一定的语义理解和关键实体的识别。基于大规模训练的语言模型对语义的理解能力更强，将为新闻相似度计算带来新的突破。

nginx