流量分析与搜索趋势模型的交互研究

【论文解读】搞懂《ET-BERT在加密流量上的分类》,有这一篇就够了...

《ET-BERT: A Contextualized Datagram Representation with Pre-training Transformers for Encrypted Traffic Classification》论文介绍与ET-BERT性能展示 目标人群:网络安全领域的学生、上班族或爱好者 本文将分为三个部分:ET-BERT性能分析、原理解析、以及实现复现 ET-BERT性能 论文中使用了7个数据集,实验中复现了4个:USTC-TFC、ISCV-VPN-Service、ISCV-VPN-App、App60。App60是新增的数据集,包含60个标签。实验结果包括:acc、平均精确率、平均召回率和平均f1。ET-BERT在4个数据集上的表现整体良好,与其他方法(XGBoost、1D-CNN、DeepPacket)相比,ET-BERT在准确性、精确率、召回率和F1值上均表现最佳。 ET-BERT原理 ET-BERT是基于预训练模型BERT的加密流量表征模型。BERT通过学习上下文相关单词表示,捕捉丰富的语义信息。ET-BERT将BERT的思想和框架应用于加密流量分析领域,包括数据预处理、模型预训练、模型微调和模型测试等关键步骤。 工作原理 数据预处理:将原始加密流量数据转换为适用于BERT输入的格式,包括分词、标记化等。 模型预训练:使用大规模跨域的未标记加密流量数据进行预训练,以学习统计规律和语义表示。 模型微调:利用少量带有标记的样本对预训练模型进行微调,以适应特定的下游任务。 模型测试:输入测试样本,模型输出预测标签。 ET-BERT实现复现 复现实验包含数据预处理、模型预训练、模型微调和模型测试及评估等步骤。配置参数后,执行main.py,输出预处理数据。无需进行模型预训练阶段,直接加载预训练模型。微调过程后得到微调模型,将nolabel_test_dataset输入模型进行测试,并评估模型在测试集上的性能。 如果您觉得文章有用,别忘了点赞和收藏哦!


nginx