协程爬虫的运行流程主要包括准备待爬取网址列表、创建并启动协程、存储抓取数据以及遍历并存储数据这几个关键步骤。首先,准备待爬取网址列表。在开始爬虫任务之前,需要明确要爬取的目标网址。将这些网址收集起来,存储在一个列表当中。这个列表是后续创建协程的基础,因为针对列表中的每一个网址,都会创建一个对应的协程来进行网页的爬取工作。例如,如果要爬取多个新闻网站的特定栏目页面,就把这些栏目的网址依次添加到列表里。接着,创建并启动协程。为待爬取网址列表中的每一个网址创建一个协程,并启动这些协程。协程开始依次执行爬取任务,每个协程负责爬取对应网址的网页内容。在执行过程中,如果某个协程遇到网络阻塞,比如等待服务器响应时间过长,或者出现其他异常情况,如网页无法访问等,程序会马上切换到下一个协程继续执行。由于协程的切换不需要切换线程上下文,其消耗的资源相对较小,所以不需要严格限制协程的数量。每个协程在成功爬取网页后,会将网页中的目标数据解析出来,比如从新闻网页中提取出标题、正文内容等信息。然后,存储抓取数据。将各个协程解析出来的目标数据存储在一个列表里。这个列表起到了临时存储的作用,方便后续对数据进行统一的处理和存储。例如,把从不同新闻网页提取的标题和正文信息,按照一定的格式存储在这个列表中。最后,遍历并存储数据。对存储抓取数据的列表进行遍历,将列表中的数据按照预定的格式和路径存储在本地文件中。比如,可以将数据以文本的形式存储,每一行记录一条新闻的标题和正文;也可以将数据存储为特定的数据格式文件,如 JSON 格式,方便后续的数据分析和处理。至此,就完成了协程爬虫的全部过程。



































