V2EX › revotu 的所有回复 › 第 1 页 / 共 2 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2

❮

❯

2017-09-18 18:54:19 +08:00

回复了 revotu 创建的主题 › 程序员 › 想做一个垂直类的搜索引擎，大家觉得靠谱吗

怕一不小心踩了雷

2017-09-18 18:52:05 +08:00

回复了 revotu 创建的主题 › 程序员 › 想做一个垂直类的搜索引擎，大家觉得靠谱吗

还有一点很担忧爬了别人的东西没经过别人许可使用了不犯法吗有没什么相关案例之类的

2017-09-17 22:08:36 +08:00

回复了 revotu 创建的主题 › 程序员 › 想做一个垂直类的搜索引擎，大家觉得靠谱吗

@yongSir 老司机

2017-09-17 22:01:28 +08:00

回复了 revotu 创建的主题 › 程序员 › 想做一个垂直类的搜索引擎，大家觉得靠谱吗

@qiayue 朋友我问这个问题时想到的就是可不可以做个程序员用的搜索引擎也是你说的那个思路哈哈

2017-09-11 23:16:24 +08:00

回复了 revotu 创建的主题 › Python › 分享下你遇到过的 Python 经典面试题

https://github.com/revotu/python-interviews （自己一点点整理的）

这里面整理的 python 面试题都很经典，非常有面试参考复习价值

而且里面的文章链接讲解每个问题都很简明清晰

2017-08-09 15:14:00 +08:00

回复了 revotu 创建的主题 › Python › Python 如何模拟登陆知乎（目前知乎有倒立文字的验证码）

@leavic
@OpenJerry
没想到还有这招多谢提供思路

2017-08-03 12:41:37 +08:00

回复了 revotu 创建的主题 › 程序员 › 想做个关键词排名查询的工具，大家都有什么好思路么

@BillowSky
@khjian

看你们这一说好像确实没什么必要做了。。。
之前以为目前没有什么成熟的这类关键词排名网站的

2017-07-17 14:18:22 +08:00

回复了 revotu 创建的主题 › Python › django 作为 web 服务器为什么线上部署的时候要用到 uwsgi 和 nginx 啊

@zhengxiaowai 多谢讲解的这么细致及相关资源链接，我这种小白学到了不少。话说回复确实不支持 markdown，我之前也好奇为啥回复不支持 markdown 啊

2017-06-30 17:36:21 +08:00

回复了 revotu 创建的主题 › Python › Python 如何从 css 文件中提取所有 ID 名和 CLASS 名

idValues = re.findall(r'#([\w_-]+)',content)

我想知道我这种匹配 id 的时候怎样能排除那种后面紧跟着着分号的：

background-color: #fff;

排除了这种我的匹配 id 应该就准确了吧

2017-06-30 15:09:22 +08:00

回复了 revotu 创建的主题 › Python › Python 如何从 css 文件中提取所有 ID 名和 CLASS 名

@ShindouHIkaru 注释可以不考虑，可是派生选择器得考虑所以我是宁可多了一些没有少

还是没有准确得到我想要的，但也很感谢了提供的思路

2017-06-30 13:32:49 +08:00

回复了 revotu 创建的主题 › Python › Python 如何从 css 文件中提取所有 ID 名和 CLASS 名

@ShindouHIkaru

classValues = re.findall(r'\.([\w_-]+)',content)

idValues = re.findall(r'#([\w_-]+)',content)

但是会多出好多并不属于 ID 和 class 的值，

比如下面情况：

background-color: #fff;
-webkit-box-shadow: 0 0 2px 0 rgba(31, 31, 31, 0.07);

2017-06-30 13:10:49 +08:00

回复了 revotu 创建的主题 › 程序员 › 百度的 spider 有啥策略么

@operafans 多谢解释哈哈嘿嘿！！！

2017-06-30 13:05:07 +08:00

回复了 revotu 创建的主题 › 程序员 › 百度的 spider 有啥策略么

@operafans 在百度站长那提交了 sitemap，后台显示抓取也正常

但是，为啥 site:www.revotu.com 还是只有首页？

2017-06-29 18:54:27 +08:00

回复了 donglongtu 创建的主题 › Python › Python 检测文件夹为空则删除

Python 文件操作相关问题：www.revotu.com/python-file-operation-related-issues.html

```Python
try:
os.rmdir(directory)
except OSError:
pass
```

2017-06-29 09:57:30 +08:00

回复了 donglongtu 创建的主题 › MySQL › MySQL 如何从 datetime 类型的字段选择 date

MySQL 时间处理相关函数 : http://www.revotu.com/mysql-date-and-time-functions.html

WHERE DATE(created_at) = '2017-06-29'

或是

WHERE created_at LIKE '2017-06-29%'

2017-06-28 22:39:34 +08:00

回复了 donglongtu 创建的主题 › Python › Scrapy 如何得到原始的 start_url

Scrapy 爬虫常见问题总结 : http://www.revotu.com/scrapy-reptile-faq.html

利用 Request 中的 meta 参数传递信息

def start_requests(self):
start_url = 'your_scrapy_start_url'
yield Request(start_url, self.parse, meta={'start_url':start_url})

def parse(self, response):
item = YourItem()
item['start_url'] = response.meta['start_url']
yield item

2017-06-28 19:18:37 +08:00

回复了 donglongtu 创建的主题 › Python › Scrapy 中 xpath 用到中文报错

参见文章：[解决 Scrapy 中 xpath 用到中文报错问题][1]

## 解决方法 ##
方法一：将整个 xpath 语句转成 Unicode
```Python
links = sel.xpath(u'//i[contains(@title,"置顶")]/following-sibling::a/@href').extract()
```
方法二：xpath 语句用已转成 Unicode 的 title 变量
```Python
title = u"置顶"
links = sel.xpath('//i[contains(@title,"%s")]/following-sibling::a/@href' %(title)).extract()
```
方法三：直接用 xpath 中变量语法(`$`符号加变量名)`$title`, 传参 title 即可
```Python
links = sel.xpath('//i[contains(@title,$title)]/following-sibling::a/@href', title="置顶").extract()
```

[1]: http://www.revotu.com/solve-unicode-erros-using-xpath-in-scrapy.html

2017-06-28 09:34:21 +08:00

回复了 donglongtu 创建的主题 › Python › Python 获取 HTTP 请求的状态码(200,404 等)

Python 实用脚本清单 : http://www.revotu.com/python-practical-script-list.html

http 不只有 get 方法（请求头部+正文），还有 head 方法，只请求头部。

import httplib

def get_status_code(host, path="/"):
""" This function retreives the status code of a website by requesting
HEAD data from the host. This means that it only requests the headers.
If the host cannot be reached or something else goes wrong, it returns
None instead.
"""
try:
conn = httplib.HTTPConnection(host)
conn.request("HEAD", path)
return conn.getresponse().status
except StandardError:
return None

print get_status_code("www.v2ex.com") # prints 200
print get_status_code("www.v2ex.com", "/nonexistant") # prints 404

2017-06-27 22:48:33 +08:00

回复了 donglongtu 创建的主题 › Linux › Ubuntu apt-get 时出现 Segmentation faultsts... 0%错误

http://www.revotu.com/apt-get-command-ends-with-segmentation-fault.html

执行如下命令，即可解决此问题：

sudo rm -rf /var/cache/apt/*.bin

2017-06-27 17:39:33 +08:00

回复了 donglongtu 创建的主题 › Python › Python 统计某一文件夹下文件数量

Python 文件操作相关问题： http://www.revotu.com/python-file-operation-related-issues.html

>>> import os
>>> DIR = '/tmp'
>>> print len([name for name in os.listdir(DIR) if os.path.isfile(os.path.join(DIR, name))])

如统计文件夹数量，用 os.path.isdir(path)做判断语句。

1 2

❮

❯