Python实现的爬取豆瓣电影信息功能案例

脚本专栏 2024/11/11 佚名

3 1 2

本文实例讲述了Python实现的爬取豆瓣电影信息功能。分享给大家供大家参考，具体如下：

本案例的任务为，爬取豆瓣电影top250的电影信息（包括序号、电影名称、导演和主演、评分以及经典台词），并将信息作为字典形式保存进txt文件。这里只用到requests库，没有用到beautifulsoup库

step1：首先获取每一页的源代码，用requests.get函数获取，为了防止请求错误，使用try...except..

def getpage(url):
  try:
    res=requests.get(url)
    if res.status_code==200:
      return res.text
    return None
  except RequestException:
    return None

step2：做每一页的网址解析，打开原网址https://movie.douban.com/top250"" src="/UploadFiles/2021-04-08/201909150935281.png">

对单个网页的进行解析的代码如下：

def parsepage(html):
  pat=re.compile('<li>.*"">(.*"100" alt="(.*" src=.*"">'
          +'(.*"v:average">(.*"inq">(.*"htmlcode">

def write_tofile(content):
  with open('doubanfilms.txt','a',encoding='utf-8' ) as f:
    f.write(json.dumps(content,ensure_ascii=False)+'\n')
    f.close()




最后，需要用循环语句将每一页（共10页）内容都进行以上操作。这里，第二页的网址就是在第一页的url上加上一个start=25, 第三页是加上start=50，也就是每一页的start=为25*i。最后一段代码如下：


def main():
  url="https://movie.douban.com/top250"
  for i in range(0,9):
    url_i=url+'start='+str(25*i)
    html_i=getpage(url_i)
    for item in parsepage(html_i):
      print(item)
      write_tofile(item)
if __name__ == '__main__':
  main()




当然，这一段代码还有一种写法：


def main(start):
  url="https://movie.douban.com/top250"+str(start)
  html=getpage(url)
  for item in parsepage(html):
    print(item)
    write_tofile(item)
if __name__ == '__main__':
  for i in range(10):
    main(i*10)




如果想让你的程序跑的更快，可以用多线程爬虫（当然这里其实没有必要）：


#在最开始加载Pool包
from multiprocessing import Pool
#最后的执行段改为：
if __name__ == '__main__':
  for i in range(10):
    main(i*10)
  pool=Pool() #在循环外写
  pool.map(main,[i*10 for i in range (10)])




更多关于Python相关内容可查看本站专题：《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》
希望本文所述对大家Python程序设计有所帮助。

Python,爬取,豆瓣电影信息

风云阁资源网 Design By www.bgabc.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

风云阁资源网 Design By www.bgabc.com

评论“Python实现的爬取豆瓣电影信息功能案例”

暂无评论...

更新日志

2024年11月11日

Python实现的爬取豆瓣电影信息功能案例

Python函数中的可变长参数详解

python爬虫-模拟微博登录功能

评论“Python实现的爬取豆瓣电影信息功能案例”

更新日志

友情链接