3.32 小猪短租的爬虫-

 够造主网页的url获取函数,从主网页中获取到详情页的链接,从详情页中获取到标题,价格,评论等内容

 

这里因为ip反爬,返回的是错误的网页,所以后续失败

#这里进行了反爬,返回的网页进行了重定向,不是自己要爬的网址

from bs4 import BeautifulSoup
import requests
import time			#导入相应的库文件
url ="https://bj.xiaozhu.com/fangzi/1047842478.html"	
headers = {
        "Cookie": "abtest_ABTest4SearchDate=b; sajssdk_2015_cross_new_user=1; distinctId=17663eb00672c9-0d67d3dfd2265d-e726559-2073600-17663eb006841a; Hm_lvt_92e8bc890f374994dd570aa15afc99e1=1607994115,1608023687; xzuuid=87961465; xzuinfo=%7B%22user_id%22%3A153018699197%2C%22user_name%22%3A%2217317126846%22%2C%22user_key%22%3A%223d865d010085%22%2C%22user_nickName%22%3A%22wangwangluo123%22%7D; xzucode=1e98f258b6137a484cf910d72d023371; xzucode4im=ac7725f797e9e2a2b0ad8cdbe1351291; xztoken=WyIwMTA1MTIyNjE1V0xoRCIseyJ1c2VyaWQiOjE1MzAxODY5OTE5NywiZXhwaXJlIjowLCJjIjoid2ViIn0sImZmMTk3MWQ0MDg4ZWNiYjA1MTU1Nzc1ZGQ3YWYzY2RhIl0%3D; xzSessId4H5=b5a5b64d28b22fc6567fdbe586a5770c; _pykey_=ed9c883e-5526-519d-801c-4be4c37724ca; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%22153018699197%22%2C%22first_id%22%3A%2217663eb00672c9-0d67d3dfd2265d-e726559-2073600-17663eb006841a%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E8%87%AA%E7%84%B6%E6%90%9C%E7%B4%A2%E6%B5%81%E9%87%8F%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC%22%2C%22%24latest_referrer%22%3A%22https%3A%2F%2Fwww.baidu.com%2Flink%22%7D%2C%22%24device_id%22%3A%2217663eb00511d9-0a4d3fd6b7de7e-e726559-2073600-17663eb005298%22%7D; rule_math=tckf4hwakbq; Hm_lpvt_92e8bc890f374994dd570aa15afc99e1=1608024368",
        "Referer": "https://bj.xiaozhu.com/fangzi/1047842478.html",
	   "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0",
       "accept": "*/*",
"accept-encoding": "gzip, deflate, br",
"accept-language": "zh-CN,zh;q=0.9",
"access-control-request-headers": "content-type",
"access-control-request-method": "GET",
"sec-fetch-dest": "empty",
"sec-fetch-mode": "cors",
"sec-fetch-site": "same-site"
	}					#加入请求头

def get_info(url):
    wb_data = requests.get(url, headers = headers)
    print(wb_data.text)
    soup = BeautifulSoup(wb_data.text, "lxml")
    titles = soup.select("#page_list > ul > li:nth-of-type(1) > div.result_btm_con.lodgeunitname > div:nth-child(1) > span > i ")
    print(titles)
get_info(url)

热门文章

暂无图片
编程学习 ·

python文件路径的操作

1、得到指定文件路径:os.path.dirname(带路径文件名) 查找处理文件要调用os库,和openpyxl一样,先用import 导入。 import os file r’e:\python\删除最小值.xlsx’ pwd os.path.dirname(file) print(pwd) 运行结果为:e:\py…
暂无图片
编程学习 ·

也要适当晋升

和一个哥们聊天,说到要不要当组长这个话题。 我说我被无良组长们坑坏了,自己搞不定老往下属身上推。我如果当组长,肯定也是无良组长,水平菜,成为自己讨厌的人。 他说,哥们,你还是不懂职场规则…
暂无图片
编程学习 ·

SpringCloud之服务配置中心

转载请标明出处:https://blog.csdn.net/men_ma/article/details/106847165. 本文出自 不怕报错 就怕不报错的小猿猿 的博客 Docker入门之Docker安装镜像和容器的相关命令操作目标1.SpringCloud Config简介2.Config Server基本使用目标 1、SpringCloud Config简介 2…
暂无图片
编程学习 ·

Macbook安装Cplex记录

学术版还是免费版 感觉Cplex店大欺客啊,学术版邮件都发好多天了始终不给学术版下载,好气啊,所以只能先用免费版凑合了,但是由于自己的问题确实变量一跑远超1000个了所以就有了这篇记录。 安装下载 官方网站:点我带你…
暂无图片
编程学习 ·

c语言输出时%d,%c这些都分别代表什么

1、%u 十进制无符号整数。 2、%f 表示输出浮点数。 3、%s表示输出 字符串。 4、%c表示输出单个字符。 5、%p表示输出指针的值。 6、%e表示输出指数形式的浮点数。 7、%x, %X 表示输出无符号以十六进制表示的整数。 8、%0 表示输出无符号以八进制表示的整数。 9、%g表示…
暂无图片
编程学习 ·

HOME%分号导致环境变量无效-以javac为例(第N个小插曲)

今天使用javac命令突然报错: E:\test>javac ‘javac’ 不是内部或外部命令,也不是可运行的程序 或批处理文件。 这个错误常比较见,一般是jdk安装和环境变量是否设置的问题,多篇文章和问答已经提供了解决方法。 但是我的问题不是…
暂无图片
编程学习 ·

微信小程序的学习日志

微信小程序的学习日志(一) 开发准备: 1.首先,学习微信小程序要在官方微信公众平台上注册账号 2.在注册好账号后,下载小程序开发工具,vscode,安装VSCODE的插件minapp和wechat-snippet 3.创建项目 学习心…
暂无图片
编程学习 ·

关键词指数是什么意思?

本文来自:优优蜘蛛池(http://www.zhizhuchi.vip) 关键词指数是指一段时间内该关键词被用户搜索的次数,可以说是关键词的热度。而关键词指数越高优化的时间也就越长,优化的流量数量也越多,竞争程度也就越激烈。 在变化莫测及高速…
暂无图片
编程学习 ·

SEO文章关键词怎么优化?如何布局

本文来自:优优蜘蛛池(http://www.zhizhuchi.vip) SEO文章关键词可以通过围绕关键词撰写相关内容、保持高质量的原创内容、做好外链建设、使用通俗易懂的关键代替这四个方面进行优化。而想要文章关键词优化更有效果就还要做好布局,下面就让优优蜘蛛池小编…
暂无图片
编程学习 ·

2021年市政方向-岗位技能(质量员)考试题库及市政方向-岗位技能(质量员)复审模拟考试

题库来源:安全生产模拟考试一点通公众号小程序 2021年市政方向-岗位技能(质量员)考试题库及市政方向-岗位技能(质量员)复审模拟考试,包含市政方向-岗位技能(质量员)考试题库答案和解析及市政方向-岗位技能(质量员)复审模拟考试练习。由安全生产模拟考试…
暂无图片
编程学习 ·

【干货总结】:可能是史上最全的MySQL和PGSQL对比材料

【干货总结】:可能是史上最全的MySQL和PGSQL的对比材料 运维了MySQL和PGSQL已经有一段时间了,最近接到一个数据库选型需求,于是便开始收集资料整理了一下,然后就有了下面的对比表 关键词:PostgreSQL 11、MySQL5.7 比较版本&#x…
暂无图片
编程学习 ·

Hibernate的使用

一、概述 掌握Hiberate的基本配置——即搭建Hiberate开发环境 掌握Hiberate常用API——即如何使用Hiberate框架进行开发 掌握Hiberate的关联映射——解决表与表之间存在的关系问题,有1n(一对多)、 11(一对一)、mn(多对多)关系 掌握Hiberate的检索方式——即掌握Hib…
暂无图片
编程学习 ·

2021年压力焊证考试及压力焊实操考试视频

题库来源:安全生产模拟考试一点通公众号小程序 2021年压力焊证考试及压力焊实操考试视频,包含压力焊证考试答案和解析及压力焊实操考试视频练习。由安全生产模拟考试一点通公众号结合国家压力焊考试最新大纲及压力焊考试真题汇总,有助于压力…
暂无图片
编程学习 ·

mybatis源码编译出现问题

1 mybatis-3 下载GitHub源码后 pom文件 <parent><groupId>org.mybatis</groupId><artifactId>mybatis-parent</artifactId><version>32</version><relativePath /> </parent> 其中你需要下载mybatis-parent GitHub的…
暂无图片
编程学习 ·

Java基础练习目录(练习案例)

本目录已完结 总 「笔记总结」>>> Java基础总结 • 【目录】 第1章 通过java理解程序逻辑 >>> Java程序编写 • 【第1章 程序&#xff1a;打印输出练习】 第2章 变量和数据类型 >>> Java程序编写 • 【第2章 程序&#xff1a;变量赋值练习】 …
暂无图片
编程学习 ·

Java程序编写 • 【第5章 程序:赌博游戏】

本章节总结 返回作业目录 练习一赌博游戏 import java.util.Scanner; public class day4_03 {public static void main(String[]args){int qian20000;int jj(int)(Math.random()*(20000-01));int dj(int)(Math.random()*(100-01));int mai1100;int mai21000;int mai310000;int…
暂无图片
编程学习 ·

计算机视觉入门系列(一) 综述

计算机视觉入门系列&#xff08;一&#xff09; 综述 自大二下学期以来&#xff0c;学习计算机视觉及机器学习方面的各种课程和论文&#xff0c;也亲身参与了一些项目&#xff0c;回想起来求学过程中难免走了不少弯路和坎坷&#xff0c;至今方才敢说堪堪入门。因此准备写一个计…
暂无图片
编程学习 ·

Java 集合系列01之 总体框架

Java集合是java提供的工具包&#xff0c;包含了常用的数据结构&#xff1a;集合、链表、队列、栈、数组、映射等。Java集合工具包位置是java.util.*Java集合主要可以划分为4个部分&#xff1a;List列表、Set集合、Map映射、工具类(Iterator迭代器、Enumeration枚举类、Arrays和…