博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
团队编程需求分析
阅读量:5892 次
发布时间:2019-06-19

本文共 495 字,大约阅读时间需要 1 分钟。

1. 引言

1.1 目的:为网络数据爱好者更好的收集数据

1.2背景:软件系统名称:网络爬虫

1.3 定义 :网络爬虫 搜索引擎Web url信息互联网

1.4 参考资料  百度搜索

2.任务概述

2.1 目标

系统流程图:

1) 客户端向服务器发送自己设定好的请求

2)通过通过http将Web服务器上协议站点的网页代码提取出来

3)亘古一定的正则表达式提取出需要的信息

4)采用深度优先so8usuo从网页中某个链接出发,访问该连接的网页,并通过递归算    法实现一次向下访问

5)采用广度优先搜索从网页中某个链接出发,访问该链接网页上的所有连接,访问完

   成后,再通过递归算法实现下一层的访问

2.2 运行系统

支持所有系统

3.需求规定

3.1功能规定

从网站某一个页面开始,读取网页的内容,找到在网页中的其他链接地址,然后通过 这些链接地址寻找下一个网页。

 

3.2使用库

urllib

 

4.运行环境规定

4.1支持软件

本系统采用python制作 测试软件python2.7

4.2 数据流图

 

转载于:https://www.cnblogs.com/a1s2/p/7491059.html

你可能感兴趣的文章
Microsoft Windows 8.1 使用记录
查看>>
C语言博客作业03--函数
查看>>
web.xml 中CharacterEncodingFilter类的学习
查看>>
显示刚刚添加的最后一条数据,access,选择语句,select
查看>>
贪吃蛇逻辑代码
查看>>
实现c协程
查看>>
ASP.NET视频教程 手把手教你做企业论坛网站 视频教程
查看>>
[LeetCode] Meeting Rooms II
查看>>
从Swift学习iOS开发的路线指引
查看>>
3.1链表----链表(Linked List)入门
查看>>
[布局] bootstrap基本标签总结
查看>>
异步编程思想
查看>>
"数学口袋精灵"bug(团队)
查看>>
2017python第六天作业 面向对象 本节作业: 选课系统
查看>>
【找规律】Divide by Zero 2017 and Codeforces Round #399 (Div. 1 + Div. 2, combined) B. Code For 1...
查看>>
Scribes:小型文本编辑器,支持远程编辑
查看>>
为什么要使用 SPL中的 SplQueue实现队列
查看>>
文件的相关操作(创建、打开、写入、读出、重命名)
查看>>
品尝阿里云容器服务:用nginx镜像创建容器,体验基于域名的路由机制
查看>>
PHP const关键字
查看>>