手把手教你网络爬虫（爬取豆瓣电影top250，附带源代码）

概念

网络爬虫就是按照一定的规则，自动抓取互联网信息的程序或脚本。其本质就是模拟浏览器打开网页，获取网页中我们需要的数据。

基本流程

准备工作（构建流程）
获取数据
解析内容
保存数据

1. 准备工作

'''
#执行流程
def main(a):
    print("hello",a)

main(2)

if __name__ == '__main__':      #当程序执行时
    main(1)             #调用函数
'''
'''
#引入模块
#引入自定义的模块
# from test1 import t1

#引入系统的模块
import os
import sys

#引入第三方的模块
import re
'''

from bs4 import BeautifulSoup    #网页解析，获取数据
import re       #正则表达式，进行文字匹配
import urllib.request,urllib.error      #制定url，获取网页数据
import xlwt     #进行excel操作
import sqlite3      #进行sqlite数据库操作

下载第三方模块文件：file——setting——project——python interpreter—— +

2. 构建流程

def main():
    baseurl = "https://movie.douban.com/top250"
    #1.爬取网页
    datalist = getData(baseurl)
    savepath = ".\\豆瓣电影top250.xls"
    #3.保存数据
    saveData(savepath)
#爬取网页
def getData(baseurl):
    datalist = []
    # 2.逐一解析数据
    return datalist

#保存数据
def saveData(savepath):
    print("save....")

if __name__ == '__main__':
    main()

3. 获取数据

#获取单个指定url网页的内容
def askUrl(url):
    head = {        #模拟浏览器头部信息，向豆瓣服务器发送消息
        "User-Agent": "Mozilla / 5.0(Linux; Android 6.0; Nexus 5 Build / MRA58N) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 110.0.0.0 Mobile Safari / 537.36 Edg / 110.0.1587.50"
    }
            #用户代理：告诉豆瓣服务器我们是什么类型的机器、浏览器，本质上是告诉服务器，我们可以接受什么样的文件内容
    request = urllib.request.Request(url,headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
        print(html)
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)

    return html

4. 解析内容

#影片详情的规则
findLink = re.compile(r'<a href="(.*?)"')
#影片图片的规则
findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S)
#影片片名
findTitle = re.compile(r'<span class="title">(.*)</span>')
#影片的评分
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
#评价人数
findJudge = re.compile(r'<span>(\d*)人评价</span>')
#概况
findInq = re.compile(r'<span class="inq">(.*)</span>')
#影片相关内容
findBd = re.compile(r'<p class="">(.*?)</p>',re.S)

 # 2.逐一解析数据
        soup = BeautifulSoup(html,"html.parser")
        for item in soup.find_all("div",class_ = "item"):   #查找符合要求的字符串，形成列表
            # print(item)         #测试：查看电影item全部信息
            # break
            data = []

            item = str(item)
            #影片详情的链接
            link = re.findall(findLink,item)[0]     #re库通过正则表达式查找指定的字符串
            data.append(link)           #添加链接

            imgSrc = re.findall(findImgSrc,item)[0]
            data.append(imgSrc)         #添加图片

            titles = re.findall(findTitle,item) #名字可能只有中文名，没有外文名，需要区分一下
            if len(titles) == 2:
                ctitle = titles[0]
                data.append(ctitle)
                otitle = titles[1].replace("/","")      #去掉无关符号
                data.append(otitle)
            else:
                data.append(titles[0])
                data.append(" ")            #外文名留空

            rating = re.findall(findRating,item)[0]
            data.append(rating)             #添加评分

            judgeNum = re.findall(findJudge,item)[0]
            data.append(judgeNum)           #添加评价人数

            inq = re.findall(findInq,item)
            # data.append(inq)                #添加概述
            if len(inq) != 0:
                inq = inq[0].replace("。","")        #去掉句号
                data.append(inq)
            else:
                data.append(" ")        #留空

            bd = re.findall(findBd,item)[0]
            bd = re.sub("<br(\s+)?/>(s+)?"," ",bd)
            bd = re.sub("/"," ",bd)     #替换/
            data.append(bd.strip())     #去掉前后空格

            datalist.append(data)           #把处理好的一部电影信息放入dataList

    print(datalist)
    return datalist

5.保存数据

(1)保存数据到excel

#保存数据
def saveData(datalist,savepath):
    workbook = xlwt.Workbook(encoding="utf-8",style_compression=0)
    worksheet = workbook.add_sheet("豆瓣电影top250",cell_overwrite_ok=True)
    col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")
    for i in range(0,8):
        worksheet.write(0,i,col[i]) #列名
    for i in range(0,250):
        print("第%d条"%(i+1))
        data = datalist[i]
        for j in range(0,8):
            worksheet.write(i+1,j,data[j])

    workbook.save(savepath)

（2）保存数据到SQLite

完整代码

from bs4 import BeautifulSoup    #网页解析，获取数据
import re       #正则表达式，进行文字匹配
import urllib.request,urllib.error      #制定url，获取网页数据
import xlwt     #进行excel操作

#影片详情的规则
findLink = re.compile(r'<a href="(.*?)"')
#影片图片的规则
findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S)
#影片片名
findTitle = re.compile(r'<span class="title">(.*)</span>')
#影片的评分
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
#评价人数
findJudge = re.compile(r'<span>(\d*)人评价</span>')
#概况
findInq = re.compile(r'<span class="inq">(.*)</span>')
#影片相关内容
findBd = re.compile(r'<p class="">(.*?)</p>',re.S)

def main():
    baseurl = "https://movie.douban.com/top250?start="
    #1.爬取网页
    datalist = getData(baseurl)
    savepath = "豆瓣电影top250.xls"
    #3.保存数据
    saveData(datalist,savepath)



#爬取网页
def getData(baseurl):
    datalist = []
    for i in range(0,10):
        url = baseurl + str(i * 25)
        html = askUrl(url)

        # 2.逐一解析数据
        soup = BeautifulSoup(html,"html.parser")
        for item in soup.find_all("div",class_ = "item"):   #查找符合要求的字符串，形成列表
            # print(item)         #测试：查看电影item全部信息
            # break
            data = []

            item = str(item)
            #影片详情的链接
            link = re.findall(findLink,item)[0]     #re库通过正则表达式查找指定的字符串
            data.append(link)           #添加链接

            imgSrc = re.findall(findImgSrc,item)[0]
            data.append(imgSrc)         #添加图片

            titles = re.findall(findTitle,item) #名字可能只有中文名，没有外文名，需要区分一下
            if len(titles) == 2:
                ctitle = titles[0]
                data.append(ctitle)
                otitle = titles[1].replace("/","")      #去掉无关符号
                data.append(otitle)
            else:
                data.append(titles[0])
                data.append(" ")            #外文名留空

            rating = re.findall(findRating,item)[0]
            data.append(rating)             #添加评分

            judgeNum = re.findall(findJudge,item)[0]
            data.append(judgeNum)           #添加评价人数

            inq = re.findall(findInq,item)
            if len(inq) != 0:
                inq = inq[0].replace("。","")        #去掉句号
                data.append(inq)
            else:
                data.append(" ")        #留空

            bd = re.findall(findBd,item)[0]
            bd = re.sub("<br(\s+)?/>(s+)?"," ",bd)
            bd = re.sub("/"," ",bd)     #替换/
            data.append(bd.strip())     #去掉前后空格

            datalist.append(data)           #把处理好的一部电影信息放入dataList

    print(datalist)
    return datalist


#获取单个指定url网页的内容
def askUrl(url):
    head = {        #模拟浏览器头部信息，向豆瓣服务器发送消息
        "User-Agent": "Mozilla / 5.0(Linux; Android 6.0; Nexus 5 Build / MRA58N) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 110.0.0.0 Mobile Safari / 537.36 Edg / 110.0.1587.50"
    }
            #用户代理：告诉豆瓣服务器我们是什么类型的机器、浏览器，本质上是告诉服务器，我们可以接受什么样的文件内容
    request = urllib.request.Request(url,headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
        # print(html)
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)

    return html


#保存数据
def saveData(datalist,savepath):
    workbook = xlwt.Workbook(encoding="utf-8",style_compression=0)
    worksheet = workbook.add_sheet("豆瓣电影top250",cell_overwrite_ok=True)
    col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")
    for i in range(0,8):
        worksheet.write(0,i,col[i]) #列名
    for i in range(0,250):
        print("第%d条"%(i+1))
        data = datalist[i]
        for j in range(0,8):
            worksheet.write(i+1,j,data[j])

    workbook.save(savepath)

if __name__ == '__main__':
    main()
    print("爬取完毕")

posted @ 2023-03-04 20:03 鹤城阅读(6) 评论(0) 编辑收藏举报

手把手教你网络爬虫（爬取豆瓣电影top250，附带源代码）

手把手教你网络爬虫（爬取豆瓣电影top250，附带源代码）

概念

基本流程

1. 准备工作

2. 构建流程

3. 获取数据

4. 解析内容

5.保存数据

完整代码

张三（王者段位）

温馨提示

最新会员

手把手教你网络爬虫（爬取豆瓣电影top250，附带源代码）

手把手教你网络爬虫（爬取豆瓣电影top250，附带源代码）

概念

基本流程

1. 准备工作

2. 构建流程

3. 获取数据

4. 解析内容

5.保存数据

完整代码

张三 （王者 段位）

温馨提示

最新会员

张三（王者段位）