V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  00aa  ›  全部回复第 1 页 / 共 1 页
回复总数  2
2017-08-21 08:40:22 +08:00
回复了 00aa 创建的主题 Python 萌新关于 Python 爬虫方面的问题
import os
import selenium.webdriver as webdriver
driver=webdriver.Chrome()
import xlrd
data = xlrd.open_workbook("C://Python27//2.xlsx")
table = data.sheets()[0]
nrows = table.nrows
ncols = table.ncols
rowValues=[]
for i in xrange(0,nrows):
rowValues.append(table.row_values(i))
a=[]
for r in rowValues:
s = ('').join(r)
base_url = 'http://www.qichacha.com/search?key=' + s
a.append(base_url)

res=[]
for r in a:
driver.get(r)
results=driver.find_elements_by_xpath("//tr[1]//td[2]/p[1][@class='m-t-xs']/a")
for result in results:
res.append(result.text)

from xlutils.copy import copy
from xlrd import open_workbook
from xlwt import easyxf
excel=r'C://Python27//2.xlsx'
rb=xlrd.open_workbook(excel)
wb=copy(rb)
sheet=wb.get_sheet(0)
x=0
y=5
for tag in res:
sheet.write(x,y,tag)
x+=1

wb.save(excel)

大概是这样的过程,怎么去使用代理 ip。避免网页验证
2017-08-18 11:56:39 +08:00
回复了 00aa 创建的主题 Python 萌新关于 Python 爬虫方面的问题
nobody ?
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   942 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 10ms · UTC 21:58 · PVG 05:58 · LAX 13:58 · JFK 16:58
Developed with CodeLauncher
♥ Do have faith in what you're doing.