Prompt工程与爬虫规则的协同机制成本评估

简述协程爬虫的运行流程

协程爬虫的运行流程主要包括准备待爬取网址列表、创建并启动协程、存储抓取数据以及遍历并存储数据这几个关键步骤。首先，准备待爬取网址列表。在开始爬虫任务之前，需要明确要爬取的目标网址。将这些网址收集起来，存储在一个列表当中。这个列表是后续创建协程的基础，因为针对列表中的每一个网址，都会创建一个对应的协程来进行网页的爬取工作。例如，如果要爬取多个新闻网站的特定栏目页面，就把这些栏目的网址依次添加到列表里。接着，创建并启动协程。为待爬取网址列表中的每一个网址创建一个协程，并启动这些协程。协程开始依次执行爬取任务，每个协程负责爬取对应网址的网页内容。在执行过程中，如果某个协程遇到网络阻塞，比如等待服务器响应时间过长，或者出现其他异常情况，如网页无法访问等，程序会马上切换到下一个协程继续执行。由于协程的切换不需要切换线程上下文，其消耗的资源相对较小，所以不需要严格限制协程的数量。每个协程在成功爬取网页后，会将网页中的目标数据解析出来，比如从新闻网页中提取出标题、正文内容等信息。然后，存储抓取数据。将各个协程解析出来的目标数据存储在一个列表里。这个列表起到了临时存储的作用，方便后续对数据进行统一的处理和存储。例如，把从不同新闻网页提取的标题和正文信息，按照一定的格式存储在这个列表中。最后，遍历并存储数据。对存储抓取数据的列表进行遍历，将列表中的数据按照预定的格式和路径存储在本地文件中。比如，可以将数据以文本的形式存储，每一行记录一条新闻的标题和正文；也可以将数据存储为特定的数据格式文件，如 JSON 格式，方便后续的数据分析和处理。至此，就完成了协程爬虫的全部过程。

nginx