下面介绍一下BeautifulSoup
和Parsel
的用法
<ulid="J_UlThumb"class="tb-thumbtb-clearfix"><liclass="tb-selected"><divclass="tb-pictb-s50"><ahref="#"><imgdata-src="//gd2.alicdn.com/imgextra/i1/3182511188/O1CN01ZWKx7o1Ke9IzG4XFA_!!3182511188.jpg_50x50.jpg"/></a></div></li><liclass="tb-selected"><divclass="tb-pictb-s50"><ahref="#"><imgdata-src="//gd2.alicdn.com/imgextra/i1/3182511188/O1CN01ZWKx7o1Ke9IzG4XFA_!!3182511188.jpg_50x50.jpg"/></a></div></li></ul>
现在我想要得到img
标签里的data-src
属性
把上面这些获取到的内容用json_data
保存
第一种方式先用BeautifulSoup
soup=BeautifulSoup(json_data,'html.parser')clearfix=soup.select('ul[class="tb-thumbtb-clearfix"]')foriinclearfix:foriiini.find_all('img'):data_src=ii.get('data-src')print(data_src)
第二种方式Parsel
#Parsel的用法,使用Selector类结合reselector=Selector(json_data)clearfix=selector.css('ul[class="tb-thumbtb-clearfix"]').re('data-src="https://blog.csdn.net/weixin_45289656/article/details/(.*?)"')
两种方式都可以拿到html中的数据
据说第二种更快一些
如果是获取标签内的内容
<h3class="tb-main-title">新款现货Apple/苹果iPhone14ProMax官方正品手机14Pro灵动岛</h3>tbRmbNum=selector.css('h3[class="tb-main-title"]::text').get()