Python爬虫抓取论坛关键字过程解析

脚本专栏 2024/12/28 佚名

3 1 2

前言：

之前学习了用python爬虫的基本知识，现在计划用爬虫去做一些实际的数据统计功能。由于前段时间演员的诞生带火了几个年轻的实力派演员，想用爬虫程序搜索某论坛中对于某些演员的讨论热度，并按照日期统计每天的讨论量。

这个项目总共分为两步：

1.获取所有帖子的链接：

将最近一个月内的帖子链接保存到数组中

2.从回帖中搜索演员名字：

从数组中打开链接，翻出该链接的所有回帖，在回帖中查找演员的名字

获取所有帖子的链接：

搜索的范围依然是以虎扑影视区为界限。虎扑影视区一天约5000个回帖，一月下来超过15万回帖，作为样本来说也不算小，有一定的参考价值。

完成这一步骤，主要分为以下几步：

1.获取当前日期

2.获取30天前的日期

3.记录从第一页往后翻的所有发帖链接

1.获取当前日期

这里我们用到了datetime模块。使用datetime.datetime.now()，可以获取当前的日期信息以及时间信息。在这个项目中，只需要用到日期信息就好。

2.获取30天前的日期

用datetime模块的优点在于，它还有一个很好用的函数叫做timedelta，可以自行计算时间差。当给定参数days=30时，就会生成30天的时间差，再用当前日期减去delta，可以得到30天前的日期，将该日期保存为startday，即开始进行统计的日期。不然计算时间差需要自行考虑跨年闰年等因素，要通过一个较为复杂的函数才可以完成。

today = datetime.datetime.now()
delta = datetime.timedelta(days=30)
i = "%s" %(today - delta)
startday = i.split(' ')[0]
today = "%s" %today
today = today.split(' ')[0]

在获得开始日期与结束日期后，由于依然需要记录每一天每个人的讨论数，根据这两个日期生成两个字典，分别为actor1_dict与actor2_dict。字典以日期为key，以当日讨论数目作为value，便于每次新增查找记录时更新对应的value值。

strptime, strftime = datetime.datetime.strptime, datetime.datetime.strftime
days = (strptime(today, "%Y-%m-%d") - strptime(startday, "%Y-%m-%d")).days
for i in range(days+1):
temp = strftime(strptime(startday, "%Y-%m-%d") + datetime.timedelta(i), "%Y-%m-%d")
actor1_dict[temp] = 0
actor2_dict[temp] = 0

3.记录从第一页往后翻的所有发帖链接

"text-align: center">

比较发帖时间，如果小于30天前的日期，则获取发帖链接结束，返回当前拿到的链接数组，代码如下

def all_movie_post(ori_url):
  i = datetime.datetime.now()
  delta = datetime.timedelta(days=30)
  i = "%s" %(i - delta)
  day = i.split(' ')[0] # 获得30天前的日子
  print day
 
  user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
  headers = { 'User-Agent' : user_agent }
 
  post_list = []
  for i in range(1,100):
    request = urllib2.Request(ori_url + '-{}'.format(i),headers = headers)
    response = urllib2.urlopen(request)
    content = response.read().decode('utf-8')
    pattern = re.compile('<a href="(.*" rel="external nofollow" class="truetit" >.*"color:#808080;cursor: initial; ">(.*"text-align: center">
"htmlcode">

if i == 0:
        index = content.find('更多亮了的回帖')
        if index >= 0:
          content = content[index:]
        else:
          index = content.find('我要推荐')
          content = content[index:]


去除的规则其实并不重要，因为每个论坛都有自己的格式，只要能搞清楚源代码中是怎么写的，剩下的操作就可以自己根据规则进行。
每个回帖格式大致如图4，

用对应的正则表达式再去匹配，找到每个帖子每一个回帖的内容，在内容中搜索演员名字，即一开始的actor_1与actor_2，如果搜到，则在对应回帖日期下+1。
最终将两位演员名字出现频率返回，按日期记录的字典由于是全局变量，不需要返回。


web_str = '<span class="stime">(.*?) .*?</span>.*?<tbody>[\s]*<tr>[\s]*<td>(.*?)<br />' #找到回帖内容的正则
      pattern = re.compile(web_str, re.S)
      items = re.findall(pattern,content)
      for item in items:
        #if '<b>引用' in item: #如果引用别人的回帖，则去除引用部分
          #try:
            #item = item.split('</blockquote>')[1]
          #except:
            #print item
            #print item.decode('utf-8')
        if actor_1 in item[1]:
          actor1_dict[item[0]] += 1
          actor_1_freq += 1
        if actor_2 in item[1]:
          actor2_dict[item[0]] += 1
          actor_2_freq += 1


至此，我们就利用爬虫知识，成功完成对论坛关键字的频率搜索了。
这只是一个例子，关键字可以任意，这也不只是一个针对演员的诞生而写的程序。将演员名字换成其他词，就可以做到类似“您的年度关键字”这样的结果，根据频率大小来显示文字大小。
以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

Python,爬虫,抓取,论坛,关键字

风云阁资源网 Design By www.bgabc.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

风云阁资源网 Design By www.bgabc.com

评论“Python爬虫抓取论坛关键字过程解析”

暂无评论...

www.bgabc.com 风云阁资源网

120,135影音资源

344,641技术资源

22,817软件资源

435,032站长资源

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。

首次推出的GDDR7内存模块密度为16GB，每个模块容量为2GB。其速度预设为32 Gbps（PAM3），但也可以降至28 Gbps，以提高产量和初始阶段的整体性能和成本效益。
据三星表示，GDDR7内存的能效将提高20%，同时工作电压仅为1.1V，低于标准的1.2V。通过采用更新的封装材料和优化的电路设计，使得在高速运行时的发热量降低，GDDR7的热阻比GDDR6降低了70%。

更新日志

2024年12月28日

Python爬虫抓取论坛关键字过程解析

Python调用REST API接口的几种方式汇总

python爬取音频下载的示例代码

评论“Python爬虫抓取论坛关键字过程解析”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

Python爬虫抓取论坛关键字过程解析

Python调用REST API接口的几种方式汇总

python爬取音频下载的示例代码

评论“Python爬虫抓取论坛关键字过程解析”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存