内容聚合对爬虫规则适配的内容风险监控

网络爬虫的法律规制(文章来自中国网信)

我国通过立法确立了利用自动化手段（网络爬虫）收集数据不得妨碍他人网站正常运行的原则，并明确了严重影响网站运行的具体判断标准，以规范数据收集行为，保障网络运营者的经营自由和网站安全。以下是对网络爬虫法律规制的详细分析：一、网络爬虫的功能和价值定位：网络爬虫，又称为网络蜘蛛或网络机器人，是互联网时代一项普遍运用的网络信息搜集技术。它最早应用于搜索引擎领域，是搜索引擎获取数据来源的支撑性技术之一。应用场景：随着数据资源的爆炸式增长，网络爬虫的应用场景和商业模式变得更加广泛和多样。例如，新闻平台的内容汇聚和生成、电子商务平台的价格对比功能、基于气象数据的天气预报应用等。价值：网络爬虫技术是互联网开放共享精神的重要实现工具。它能够通过聚合信息、提供链接，为数据所有者的网站带来更多的访问量。相较于数据所有者通过开发API来提供数据，网络爬虫技术为数据收集者提供了极大的便利。二、网络爬虫规制的必要性恶意抓取侵害他人权益和经营自由：恶意机器人可以掠夺资源、削弱竞争对手，甚至被滥用于从一个站点抓取内容，然后将该内容发布至另一个站点，而不显示数据源或链接。这种行为将帮助非法组织建立虚假网站，产生欺诈风险，以及对知识产权、商业秘密的窃取行为。恶意爬虫危及网络安全：恶意爬虫会对目标网站产生DDOS攻击的效果，使网站难以确定哪些流量来自真实用户，哪些流量来自机器人。这可能导致平台做出错误的营销决策，造成大量时间和金钱的损失。现行法律规制方式的不足：目前，我国已有法律对网络爬虫进行规制，但主要集中在刑法有关计算机信息系统犯罪的相关条文上。刑法只能在网络爬虫行为产生严重社会危害而无刑罚以外手段进行规制的情形下起到惩治效果，对于一般性危害行为很难起到规制作用。三、完善网络爬虫规制方式的建议确立数据访问、获取的规则：在数字时代，数据利用成为网络产业的中心。亟待通过立法确立数据访问、获取的规则，以规范爬虫技术的应用。基于客观结果进行规制：网络爬虫规制的目标是在数据资源开放共享与互联网平台经营自由、网站安全之间取得平衡。对网络爬虫进行规制应当基于客观结果，即是否妨碍网站的正常运行或者对他人合法权益造成严重危害。构建完善的责任体系：需要建立在刑法以外的行政规制手段，构建完善的刑事责任、行政责任乃至民事责任体系，以保护互联网平台的合法权益，维护网络空间的正常秩序。设置严重影响网站正常运行的判断标准：通过数据安全立法设置爬虫技术严重影响网站正常运行的判断标准，对具有危害性的网络爬虫行为进行适当规制。

nginx