用urllib库几行代码实现最简单爬虫

小程序：扫一扫查出行
【扫一扫了解最新限行尾号】
复制小程序

""" 使用urllib.request()请求一个网页内容，并且把内容打印出来。"""from urllib import requestimport chardetif __name__ == '__main__': # 有的网站url使用不了 url = "https://www.cnblogs.com/gshelldon/p/13332798.html" # 打开url把内容赋值给rsp rsp = request.urlopen(url) # 存取到内存当中是bytes流，使用read方法把rsp的内容读取出来，赋值给变量html。 html = rsp.read() # 使用decode解码成我们能够看懂的格式。 # print(type(html)) # 查看返回的格式 html = html.decode('utf-8') # 默认的是utf-8 print(html)

返回的内容是html格式的文本

D:\ProgramData\Anaconda3\envs\spider\python.exe D:/爬虫/v1-最简单的爬虫.py <!DOCTYPE html> <html lang="zh-cn"> <head> <meta charset="utf-8" /> <meta name="viewport" content="width=device-width, initial-scale=1.0" /> <meta name="referrer" content="origin" /> <meta property="og:description" content="nginx 动静分离不需要运维来做，开发做的。动态请求：该请求会调用数据库中的数据。静态请求：用户请求不会调用数据库。动态页面：后端开发写的需要调用数据库的页面(python、java、C、p" /> <meta http-equiv="Cache-Control" content="no-transform" />省略。。。。。。。