9159金沙游艺场-奥门金沙游艺场-[欢迎您]

9159金沙游艺场为您呈现最新的面貌!,目前注册送体验金,欢迎您将成为影视娱乐行业新的风向标,是亚洲的优质娱乐先锋。

python爬虫预备

日期:2020-01-04编辑作者:前端

Python爬虫预备知识,python爬虫预备

1.http编程知识

  • http中client 和server的工作模式

  client和server建立可靠的tcp链接(在HTTP1.1中这个链接是长时间的,超时断开策略)

  client通过socket与server通信,发送request并接受response

  http协议是无状态的,是指每一条的请求是相互独立的,client和server都不会记录客户的行为。

  client通过在HTTP请求中添加headers告诉server 他请求的内容,可以接受的格式

 

  • 常用的请求方式有get和post

  Get:client请求一个文件

  Post:client发送数据让server处理

 class urllib2.Request(url[, data][, headers][, origin_req_host][, unverifiable])

URL:应该是一个字符串

Data:是一个经过urllib.urlencode()编码的编码后字符串

Headers:用来哄骗user_agent,把来自script访问伪装成浏览器的访问。

示例代码:

import urllib 

import urllib2 

url = 'http://www.someserver.com/cgi-bin/register.cgi'

user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' 

values = {'name' : 'WHY', 

          'location' : 'SDU', 

          'language' : 'Python' } 

headers = { 'User-Agent' : user_agent } 

data = urllib.urlencode(values) 

req = urllib2.Request(url, data, headers) 

response = urllib2.urlopen(req) 

the_page = response.read()

 参考博客:

  1. 把如下代码保存成html格式,用相应的浏览器打开,得到浏览器的版本信息

<html><head></head><body><script language="javascript">javascript:alert(navigator.userAgent); </script></body></html>

 搜狗浏览器的user_agent

 图片 1

百度浏览器的user_agent

 图片 2

Google chorme的user_agent

图片 3

1.http编程知识 http中client 和server的工作模式 client和server建立可靠的tcp链接(在HTTP1.1中这个链接是长时间的...

本文由9159金沙游艺场-奥门金沙游艺场-[欢迎您]发布于前端,转载请注明出处:python爬虫预备

关键词:

清理文件的python脚本

清理文件的python脚本, 由于刚开始在cnblog写博客,发现网页版没法直接贴图片,加上使用的是mac电脑,快捷键直接把...

详细>>

PPTP连接类型

CentOS6配置VPN PPTP连接类型 今天在自己的CentOS6上要连接远端的VPN服务器,但是在安装了下面的两个包以后,在连接配置...

详细>>

python实现session

python实现session 第一种,将浏览器产生的session会话保存在磁盘上的主程序。 #-*- coding:utf-8 -*- ''' @author:cuiruiqiang @date...

详细>>

Btrfs文件系统在Linux中的创建及其特性

Btrfs文件系统在Linux中的创建及其特性 Btrfs(B-tree filesystem,B-tree文件系统)是针对Linux开发的一个新的CoW(copy-on-wri...

详细>>