V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  revotu  ›  全部回复第 1 页 / 共 2 页
回复总数  21
1  2  
2017-09-18 18:54:19 +08:00
回复了 revotu 创建的主题 程序员 想做一个垂直类的搜索引擎,大家觉得靠谱吗
怕一不小心踩了雷
2017-09-18 18:52:05 +08:00
回复了 revotu 创建的主题 程序员 想做一个垂直类的搜索引擎,大家觉得靠谱吗
还有一点很担忧 爬了别人的东西 没经过别人许可使用了 不犯法吗 有没什么相关案例之类的
2017-09-17 22:08:36 +08:00
回复了 revotu 创建的主题 程序员 想做一个垂直类的搜索引擎,大家觉得靠谱吗
@yongSir 老司机
2017-09-17 22:01:28 +08:00
回复了 revotu 创建的主题 程序员 想做一个垂直类的搜索引擎,大家觉得靠谱吗
@qiayue 朋友 我问这个问题时 想到的就是 可不可以做个程序员用的搜索引擎 也是你说的那个思路 哈哈
2017-09-11 23:16:24 +08:00
回复了 revotu 创建的主题 Python 分享下你遇到过的 Python 经典面试题
https://github.com/revotu/python-interviews (自己一点点整理的)

这里面整理的 python 面试题都很经典,非常有面试参考复习价值

而且里面的文章链接讲解每个问题都很简明清晰
2017-08-09 15:14:00 +08:00
回复了 revotu 创建的主题 Python Python 如何模拟登陆知乎(目前知乎有倒立文字的验证码)
@leavic
@OpenJerry
没想到还有这招 多谢提供思路
2017-08-03 12:41:37 +08:00
回复了 revotu 创建的主题 程序员 想做个关键词排名查询的工具,大家都有什么好思路么
@BillowSky
@khjian

看你们这一说 好像确实没什么必要做了。。。
之前以为 目前没有什么成熟的这类关键词排名网站的
@zhengxiaowai 多谢讲解的这么细致及相关资源链接,我这种小白学到了不少。话说回复确实不支持 markdown,我之前也好奇为啥回复不支持 markdown 啊
2017-06-30 17:36:21 +08:00
回复了 revotu 创建的主题 Python Python 如何从 css 文件中提取所有 ID 名和 CLASS 名
idValues = re.findall(r'#([\w_-]+)',content)

我想知道 我这种匹配 id 的时候 怎样能排除那种后面紧跟着着分号的:

background-color: #fff;

排除了这种 我的匹配 id 应该就准确了吧
2017-06-30 15:09:22 +08:00
回复了 revotu 创建的主题 Python Python 如何从 css 文件中提取所有 ID 名和 CLASS 名
@ShindouHIkaru 注释可以不考虑 , 可是派生选择器 得考虑 所以我是宁可多了一些 没有少

还是没有准确得到我想要的, 但也很感谢了 提供的思路
2017-06-30 13:32:49 +08:00
回复了 revotu 创建的主题 Python Python 如何从 css 文件中提取所有 ID 名和 CLASS 名
@ShindouHIkaru

classValues = re.findall(r'\.([\w_-]+)',content)

idValues = re.findall(r'#([\w_-]+)',content)

但是会多出好多并不属于 ID 和 class 的值,

比如下面情况:

background-color: #fff;
-webkit-box-shadow: 0 0 2px 0 rgba(31, 31, 31, 0.07);
2017-06-30 13:10:49 +08:00
回复了 revotu 创建的主题 程序员 百度的 spider 有啥策略么
@operafans 多谢解释 哈哈 嘿嘿!!!
2017-06-30 13:05:07 +08:00
回复了 revotu 创建的主题 程序员 百度的 spider 有啥策略么
@operafans 在百度站长那提交了 sitemap,后台显示抓取也正常

但是, 为啥 site:www.revotu.com 还是只有首页?
2017-06-29 18:54:27 +08:00
回复了 donglongtu 创建的主题 Python Python 检测文件夹为空则删除
Python 文件操作相关问题 :www.revotu.com/python-file-operation-related-issues.html

```Python
try:
os.rmdir(directory)
except OSError:
pass
```
2017-06-29 09:57:30 +08:00
回复了 donglongtu 创建的主题 MySQL MySQL 如何从 datetime 类型的字段选择 date
MySQL 时间处理相关函数 : http://www.revotu.com/mysql-date-and-time-functions.html


WHERE DATE(created_at) = '2017-06-29'

或是

WHERE created_at LIKE '2017-06-29%'
2017-06-28 22:39:34 +08:00
回复了 donglongtu 创建的主题 Python Scrapy 如何得到原始的 start_url
Scrapy 爬虫常见问题总结 : http://www.revotu.com/scrapy-reptile-faq.html

利用 Request 中的 meta 参数传递信息

def start_requests(self):
start_url = 'your_scrapy_start_url'
yield Request(start_url, self.parse, meta={'start_url':start_url})

def parse(self, response):
item = YourItem()
item['start_url'] = response.meta['start_url']
yield item
2017-06-28 19:18:37 +08:00
回复了 donglongtu 创建的主题 Python Scrapy 中 xpath 用到中文报错
参见文章:[解决 Scrapy 中 xpath 用到中文报错问题][1]

## 解决方法 ##
方法一:将整个 xpath 语句转成 Unicode
```Python
links = sel.xpath(u'//i[contains(@title,"置顶")]/following-sibling::a/@href').extract()
```
方法二:xpath 语句用已转成 Unicode 的 title 变量
```Python
title = u"置顶"
links = sel.xpath('//i[contains(@title,"%s")]/following-sibling::a/@href' %(title)).extract()
```
方法三:直接用 xpath 中变量语法(`$`符号加变量名)`$title`, 传参 title 即可
```Python
links = sel.xpath('//i[contains(@title,$title)]/following-sibling::a/@href', title="置顶").extract()
```


[1]: http://www.revotu.com/solve-unicode-erros-using-xpath-in-scrapy.html
2017-06-28 09:34:21 +08:00
回复了 donglongtu 创建的主题 Python Python 获取 HTTP 请求的状态码(200,404 等)
Python 实用脚本清单 : http://www.revotu.com/python-practical-script-list.html

http 不只有 get 方法(请求头部+正文),还有 head 方法,只请求头部。


import httplib

def get_status_code(host, path="/"):
""" This function retreives the status code of a website by requesting
HEAD data from the host. This means that it only requests the headers.
If the host cannot be reached or something else goes wrong, it returns
None instead.
"""
try:
conn = httplib.HTTPConnection(host)
conn.request("HEAD", path)
return conn.getresponse().status
except StandardError:
return None

print get_status_code("www.v2ex.com") # prints 200
print get_status_code("www.v2ex.com", "/nonexistant") # prints 404
2017-06-27 22:48:33 +08:00
回复了 donglongtu 创建的主题 Linux Ubuntu apt-get 时出现 Segmentation faultsts... 0%错误
http://www.revotu.com/apt-get-command-ends-with-segmentation-fault.html


执行如下命令,即可解决此问题:

sudo rm -rf /var/cache/apt/*.bin
2017-06-27 17:39:33 +08:00
回复了 donglongtu 创建的主题 Python Python 统计某一文件夹下文件数量
Python 文件操作相关问题: http://www.revotu.com/python-file-operation-related-issues.html

>>> import os
>>> DIR = '/tmp'
>>> print len([name for name in os.listdir(DIR) if os.path.isfile(os.path.join(DIR, name))])

如统计文件夹数量,用 os.path.isdir(path)做判断语句。
1  2  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1114 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 30ms · UTC 19:01 · PVG 03:01 · LAX 11:01 · JFK 14:01
Developed with CodeLauncher
♥ Do have faith in what you're doing.