Python爬取豆瓣数据实现过程解析

脚本专栏 2024/9/24 佚名

3 1 2

代码如下

from bs4 import BeautifulSoup #网页解析，获取数据
import sys #正则表达式，进行文字匹配
import re
import urllib.request,urllib.error #指定url，获取网页数据
import xlwt #使用表格
import sqlite3
import lxml

以上是引用的库，引用库的方法很简单，直接上图：

上面第一步算有了，下面分模块来，步骤算第二步来：

这个放在开头

def main():
  baseurl ="https://movie.douban.com/top250"
  datalist = getData(baseurl)
  savepath=('douban.xls')
  saveData(datalist,savepath)

这个放在末尾

if __name__ == '__main__':
main()

不难看出这是主函数，里面的话是对子函数的调用，下面是第三个步骤：子函数的代码

对网页正则表达提取（放在主函数的后面就可以）

findLink = re.compile(r'<a href="(.*" rel="external nofollow" rel="external nofollow" >') #创建正则表达式对象，表示规则（字符串的模式）
#影片图片
findImg = re.compile(r'<img.*src="/UploadFiles/2021-04-08/(.*"> #影片片面
findtitle= re.compile(r'<span class="title">(.*"rating_num" property="v:average">(.*"inq">(.*"">(.*"htmlcode">

def getData(baseurl):
  datalist=[]
  for i in range(0,10):#调用获取页面的函数10次
    url = baseurl + str(i*25)
    html = askURl(url)
  #逐一解析
    soup = BeautifulSoup(html,"html.parser")
    for item in soup.find_all('div',class_="item"):
    #print(item)
      data=[]
      item = str(item)
 
      link = re.findall(findLink,item)[0] #re库用来通过正则表达式查找指定的字符串
      data.append(link)
      titles =re.findall(findtitle,item)
      if(len(titles)==2):
        ctitle=titles[0].replace('\xa0',"")
        data.append(ctitle)#添加中文名
        otitle = titles[1].replace("\xa0/\xa0Perfume:","")
        data.append(otitle)#添加外国名
      else:
        data.append(titles[0])
        data.append(' ')#外国名字留空
 
      imgSrc = re.findall(findImg,item)[0]
      data.append(imgSrc)
 
      rating=re.findall(fileRating,item)[0]
      data.append(rating)
 
      judgenum = re.findall(findJudge,item)[0]
      data.append(judgenum)
 
      inq=re.findall(findInq,item)
      if len(inq) != 0:
        inq =inq[0].replace(".","")
        data.append(inq)
      else:
        data.append(" ")
      bd=re.findall(findBd,item)[0]
      bd=re.sub('<br(\s+)" ",bd) #去掉<br/>
      bd =re.sub('\xa0'," ",bd)
      data.append(bd.strip()) #去掉前后的空格
 
      datalist.append(data) #把处理好的一部电影信息放入datalist
 
  return datalist

获取指定网页内容

def askURl(url):
 
  head = {
    "User-Agent": "Mozilla / 5.0(Windows NT 10.0;WOW64) Apple"
    +"WebKit / 537.36(KHTML, likeGecko) Chrome / 78.0.3904.108 Safari / 537.36"
  }
#告诉豆瓣我们是浏览器我们可以接受什么水平的内容
  request = urllib.request.Request(url,headers=head)
  html=""
  try:
    response = urllib.request.urlopen(request)
    html = response.read().decode("utf-8")
    # print(html)
  except urllib.error.URLError as e:
    if hasattr(e,"code"):
      print(e.code)
    if hasattr(e,"reason"):
      print(e.reason)
  return html

将爬下来的数据保存到表格中

ef saveData(datalist,savepath):
  print("保存中。。。")
  book = xlwt.Workbook(encoding="utf-8",style_compression=0) # 创建workbook对象
  sheet = book.add_sheet('douban',cell_overwrite_ok=True) #创建工作表 cell_overwrite_ok表示直接覆盖
  col = ("电影详情链接","影片中文网","影片外国名","图片链接","评分","评价数","概况","相关信息")
  for i in range(0,8):
    sheet.write(0,i,col[i])
  for i in range(0,250):
    print("第%d条" %(i+1))
    data = datalist[i]
    for j in range(0,8):
      sheet.write(i+1,j,data[j])
 
  book.save(savepath)

以上就是整个爬数据的整个程序，这仅仅是一个非常简单的爬取，如果想要爬更难的网页需要实时分析

整个程序代码

from bs4 import BeautifulSoup #网页解析，获取数据
import sys #正则表达式，进行文字匹配
import re
import urllib.request,urllib.error #指定url，获取网页数据
import xlwt #使用表格
import sqlite3
import lxml
 
def main():
  baseurl ="https://movie.douban.com/top250"
  datalist = getData(baseurl)
  savepath=('douban.xls')
  saveData(datalist,savepath)
#影片播放链接
findLink = re.compile(r'<a href="(.*" rel="external nofollow" rel="external nofollow" >') #创建正则表达式对象，表示规则（字符串的模式）
#影片图片
findImg = re.compile(r'<img.*src="/UploadFiles/2021-04-08/(.*">

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

Python,爬取,豆瓣数据

风云阁资源网 Design By www.bgabc.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

风云阁资源网 Design By www.bgabc.com

评论“Python爬取豆瓣数据实现过程解析”

暂无评论...

www.bgabc.com 风云阁资源网

120,135影音资源

344,641技术资源

22,817软件资源

435,032站长资源

稳了！魔兽国服回归的3条重磅消息！官宣时间再确认！

昨天有一位朋友在大神群里分享，自己亚服账号被封号之后居然弹出了国服的封号信息对话框。

这里面让他访问的是一个国服的战网网址，com.cn和后面的zh都非常明白地表明这就是国服战网。
而他在复制这个网址并且进行登录之后，确实是网易的网址，也就是我们熟悉的停服之后国服发布的暴雪游戏产品运营到期开放退款的说明。这是一件比较奇怪的事情，因为以前都没有出现这样的情况，现在突然提示跳转到国服战网的网址，是不是说明了简体中文客户端已经开始进行更新了呢？

更新日志

2024年09月24日

Python爬取豆瓣数据实现过程解析

Python字符串查找基本操作代码案例

UI自动化定位常用实现方法代码示例

评论“Python爬取豆瓣数据实现过程解析”

稳了！魔兽国服回归的3条重磅消息！官宣时间再确认！

更新日志

友情链接