python爬虫教程爬取电视剧天地剑心演员表
以下是一个使用 Python 爬虫爬取电视剧《天地剑心》演员信息的简单教程,我们将使用requests库发送请求获取网页内容,使用BeautifulSoup库解析网页,从腾讯新闻的相关页面中提取演员信息:
1. 安装所需库
在命令行中执行以下命令安装requests和beautifulsoup4库:
pip install requests beautifulsoup4 -i https://pypi.tuna.tsinghua.edu.cn/simple
2. 编写爬虫代码
import requests
from bs4 import BeautifulSoup
# 目标网页URL
url = "http://news.qq.com/rain/a/20251025A022OX00"
# 发送请求获取网页内容
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 设置响应内容的编码为utf-8
response.encoding = 'utf-8'
# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 查找演员信息所在的元素,根据网页结构,演员信息在<p>标签内,且包含“主演”字样
actor_info = soup.find('p', string=lambda text: text and "主演" in text)
if actor_info:
# 获取演员信息文本
actors = actor_info.text.replace('主演', '').strip()
print(actors)
else:
print("未找到演员信息")
else:
print(f"请求失败,状态码:{response.status_code}")上述代码首先发送请求获取目标网页的内容,然后使用BeautifulSoup对网页进行解析,接着根据网页结构查找包含演员信息的元素,并提取出演员信息进行打印。
需要注意的是,网站的结构可能会发生变化,如果后续发现代码无法正常获取演员信息,可能需要重新分析网页结构并调整代码。另外,爬取数据时应遵守网站的robots.txt协议以及相关法律法规。
实际上,电视剧《天地剑心》的主演有成毅、李一桐领衔主演,郭俊辰、张智尧、谭凯、范明特别主演,常华森、张凯莹、何瑞贤、佟梦实、加奈那、王弘毅、毛晓慧、卢靖姗特别出演,晏云璟主演。