Apol1oBelvedere

Apol1oBelvedere

V2EX 第 380208 号会员,加入于 2019-01-25 20:04:22 +08:00
今日活跃度排名 7858
根据 Apol1oBelvedere 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
Apol1oBelvedere 最近回复了
@googlefans 谢谢,调试通过可用的代码:

```
# 原先安装 pip install requests beautifulsoup4

import os
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin

# 提示用户输入要抓取的网页 URL
url = input('请输入要抓取的网页 URL: ')

# 创建一个目录来保存下载的 PDF 文件
download_dir = 'pdf_downloads'
os.makedirs(download_dir, exist_ok=True)

# 获取网页内容,并显式指定编码为 UTF-8
response = requests.get(url)
response.encoding = 'utf-8'
response.raise_for_status()

# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')

# 查找所有的 PDF 链接
pdf_links = soup.find_all('a', href=True)

for link in pdf_links:
href = link['href']
if href.lower().endswith('.pdf'):
# 获取超链接文本作为文件名
file_name = link.get_text(strip=True) + '.pdf'
# 处理文件名中的非法字符
file_name = "".join(x for x in file_name if x.isalnum() or x in " ._-")

# 拼接完整的下载 URL
download_url = urljoin(url, href)

# 下载 PDF 文件
pdf_response = requests.get(download_url)
pdf_response.raise_for_status()

# 保存文件
file_path = os.path.join(download_dir, file_name)
with open(file_path, 'wb') as f:
f.write(pdf_response.content)

# 打印下载信息,确保控制台输出使用 UTF-8 编码
print(f"Downloaded: {file_name}")

print("All PDF files have been downloaded.")


```
在 NAS 上不要完整解压,手工打开文件按 20%分阶段解压,尽最大可能挽救一些数据。
@wogong 全网最佳推荐,太精华了,绝对是甄选。
@HeavenlyChorus 都乐菠萝干是不是停产了,买不到了啊?能推荐一个店铺吗?
11 天前
回复了 VmuTargh 创建的主题 健康 过敏检测结果出来了,真的感觉药丸
@limbo0 那你后来好了后再吃面食还发作吗?
14 天前
回复了 limyel 创建的主题 Windows Windows 备份有什么好的方案吗
@hanru Drive Snapshot 不能指定文件夹,只能全分区备份?
@flynaj 文件历史记录需要开卷影复制 VSS 但是也不是实时的。syncthing 多了个软件不能最简化。

@aagaguai 确实没找到办法,或许 OMV 是最简的方案了,用过 VMware+黑裙结果某次突然系统进不去无论怎么修复都进不去,最后找了个专门能恢复群晖映像的工具才救回数据再也不敢用了。

@NewYear 那太底层了,自己难以做到完美。
19 天前
回复了 imhd 创建的主题 问与答 党政机关有什么推荐的文件共享系统吗?
@HuHui FTP 不能直接在映射文件夹编辑和查看,如果要编辑和查看就不方便。
@Fris 最新 free 版限制两个连接数,能否分享一个最新版不限连接数的?
感谢一直还在运行,有个问题背景图像每次打开都加载很慢,逐个逐个加载显示的。这些背景图像不在服务器本地吗?我自己本地 Docker 部署后加载背景图像也很慢,您知道原因吗?
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1714 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 16:41 · PVG 00:41 · LAX 09:41 · JFK 12:41
Developed with CodeLauncher
♥ Do have faith in what you're doing.