V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Apol1oBelvedere  ›  全部回复第 1 页 / 共 30 页
回复总数  582
1  2  3  4  5  6  7  8  9  10 ... 30  
@googlefans 谢谢,调试通过可用的代码:

```
# 原先安装 pip install requests beautifulsoup4

import os
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin

# 提示用户输入要抓取的网页 URL
url = input('请输入要抓取的网页 URL: ')

# 创建一个目录来保存下载的 PDF 文件
download_dir = 'pdf_downloads'
os.makedirs(download_dir, exist_ok=True)

# 获取网页内容,并显式指定编码为 UTF-8
response = requests.get(url)
response.encoding = 'utf-8'
response.raise_for_status()

# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')

# 查找所有的 PDF 链接
pdf_links = soup.find_all('a', href=True)

for link in pdf_links:
href = link['href']
if href.lower().endswith('.pdf'):
# 获取超链接文本作为文件名
file_name = link.get_text(strip=True) + '.pdf'
# 处理文件名中的非法字符
file_name = "".join(x for x in file_name if x.isalnum() or x in " ._-")

# 拼接完整的下载 URL
download_url = urljoin(url, href)

# 下载 PDF 文件
pdf_response = requests.get(download_url)
pdf_response.raise_for_status()

# 保存文件
file_path = os.path.join(download_dir, file_name)
with open(file_path, 'wb') as f:
f.write(pdf_response.content)

# 打印下载信息,确保控制台输出使用 UTF-8 编码
print(f"Downloaded: {file_name}")

print("All PDF files have been downloaded.")


```
在 NAS 上不要完整解压,手工打开文件按 20%分阶段解压,尽最大可能挽救一些数据。
@wogong 全网最佳推荐,太精华了,绝对是甄选。
@HeavenlyChorus 都乐菠萝干是不是停产了,买不到了啊?能推荐一个店铺吗?
11 天前
回复了 VmuTargh 创建的主题 健康 过敏检测结果出来了,真的感觉药丸
@limbo0 那你后来好了后再吃面食还发作吗?
14 天前
回复了 limyel 创建的主题 Windows Windows 备份有什么好的方案吗
@hanru Drive Snapshot 不能指定文件夹,只能全分区备份?
@flynaj 文件历史记录需要开卷影复制 VSS 但是也不是实时的。syncthing 多了个软件不能最简化。

@aagaguai 确实没找到办法,或许 OMV 是最简的方案了,用过 VMware+黑裙结果某次突然系统进不去无论怎么修复都进不去,最后找了个专门能恢复群晖映像的工具才救回数据再也不敢用了。

@NewYear 那太底层了,自己难以做到完美。
19 天前
回复了 imhd 创建的主题 问与答 党政机关有什么推荐的文件共享系统吗?
@HuHui FTP 不能直接在映射文件夹编辑和查看,如果要编辑和查看就不方便。
@Fris 最新 free 版限制两个连接数,能否分享一个最新版不限连接数的?
感谢一直还在运行,有个问题背景图像每次打开都加载很慢,逐个逐个加载显示的。这些背景图像不在服务器本地吗?我自己本地 Docker 部署后加载背景图像也很慢,您知道原因吗?
民办本科找不到好工作,学校资源不足(其实对比 C9 高校教学也只是中规中矩还是多靠学生天赋。),学生几十年整体水平低综合导致的。所以高考一刀切平分后,职业教育形式更严峻。
@levine 代理服务嚣那里属于 http/https 代理,底层程序需要 socks 代理才行但是群晖没有。
@monkey110 #17 为什么群晖不能加一个 Socks 代理功能?目前只有 http 代理功能。
45 天前
回复了 tengxunkuku 创建的主题 NAS 怎样才能让我的 docker 走代理
@BugCry 如果某个 image 在 hub.docker.com 里存在而不在 https://repo.nju.edu.cn/#browse/browse:docker-hub 里面那该怎么快速拖下来呢?
57 天前
回复了 businessch 创建的主题 问与答 多标签批量远程桌面
@liansishen 免费版只能 2 个连接限制,太少了。
@hxy100 我的问题太特殊,搜遍试遍互联网方法都不起作用,最后还把网络适配器全部丢失,重装驱动,重置 Winsock 等都不行,最后用 WIndows iso 镜像替换安装法解决。Win11 出现太多 Bug 要开重装解决,质量品控太差。
恭喜你已开出盲盒奖品为“代码如诗”程序员日历(一分钟后生效)。分享更多好友参与,有机会赢取 iPhone15 、机械键盘等大奖!
补充:勾选 虚拟机 - 菜单 - 增强会话,直接导致虚拟机会话窗口无响应卡死。
60 天前
回复了 cat1879 创建的主题 推广 免费德国加密网盘
https://filen.io/r/3415249d8916a8387ebf744fe9b68a12
好人一生平安,往下接力,每人点一个邀请。
1  2  3  4  5  6  7  8  9  10 ... 30  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1745 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 38ms · UTC 16:39 · PVG 00:39 · LAX 09:39 · JFK 12:39
Developed with CodeLauncher
♥ Do have faith in what you're doing.