V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
xiaxichen
V2EX  ›  Python

关于 lxml.HTML 下的一个问题

  •  
  •   xiaxichen ·
    xiaxichen · 2019-04-25 16:43:03 +08:00 · 1213 次点击
    这是一个创建于 2066 天前的主题,其中的信息可能已经有所发展或是发生改变。

    关于 lxml.HTML 相关的问题

    <dl class="dl-horizontal ip_list">&#13;\n
    <dt>&#22806;&#35266;&#19982;&#24615;&#29366;&#65306;</dt>
    <dd><b>&#36879;&#26126;&#26080;&#33394;&#33267;&#38750;&#24120;&#30053;&#40644;&#33394;&#28082;&#20307;</b></dd>&#13;\n
    <dt>&#23494;&#24230;&#65306;</dt>
    <dd><b>1.027&#160;g/mL&#160;at 25&#160;&#176;C(lit.)</b></dd>&#13;\n
    <dt>&#29076;&#28857;&#65306;</dt>
    <dd><b>187&#176;C</b></dd>&#13;\n
    <dt>&#27832;&#28857;&#65306;</dt>
    <dd><b>187&#160;&#176;C(lit.)</b></dd>&#13;\n
    <dt>&#38378;&#28857;&#65306;</dt>
    <dd><b>200&#160;&#176;F</b></dd>&#13;\n
    <dt>&#25240;&#23556;&#29575;&#65306;</dt>
    <dd><b>n20/D 1.458(lit.)</b></dd>&#13;\n
    <dt>&#33976;&#27773;&#21387;&#65306;</dt>
    <dd><b>0.216mmHg at 25&#176;C</b></dd>&#13;\n
    <dt>&#33976;&#27773;&#23494;&#24230;&#65306;</dt>
    <dd><b>4.02 (vs air)</b></dd>&#13;\n
    <dt>&#23384;&#20648;&#26465;&#20214;/&#23384;&#20648;&#26041;&#27861;&#65306;</dt>
    <dd><b/>
    <p>&#13;\n\t\t\t\t \t</p>
    <div>&#20648;&#23384;&#20110;&#38452;&#20937;&#12289;&#36890;&#39118;&#30340;&#24211;&#25151;&#12290;&#36828;&#31163;&#28779;&#31181;&#12289;&#28909;&#28304;&#12290;&#20445;&#25345;&#23481;&#22120;&#23494;&#23553;&#12290;&#24212;&#19982;&#27687;&#21270;&#21058;&#20998;&#24320;&#23384;&#25918;&#65292;&#20999;&#24524;&#28151;&#20648;&#12290;&#37197;&#22791;&#30456;&#24212;&#21697;&#31181;&#21644;&#25968;&#37327;&#30340;&#28040;&#38450;&#22120;&#26448;&#12290;&#20648;&#21306;&#24212;&#22791;&#26377;&#21512;&#13;\n
    <dt>&#31283;&#23450;&#24615;&#30456;&#20851;&#65306;</dt>
    <dd><b/>
    <p>&#13;\n\t\t\t\t \t</p>
    <p>&#36991;&#20813;&#19982;&#27687;&#21270;&#29289;&#25509;&#35302;&#12290;</p>\t\t\t\t
    </dd>&#13;\n
    <dt>&#20854;&#23427;&#20449;&#24687;&#65306;</dt>
    <dd><b/>
    <p>&#13;\n\t\t\t\t \t</p>
    <p>1.&#160;&#160;&#160;&#160;&#160; &#24615;&#29366;&#65306;&#26410;&#30830;&#23450;</p>
    <p>2.&#160;&#160;&#160;&#160;&#160; &#23494;&#24230;&#65288;g/mL,20&#8451;&#65289;&#65306;1.027</p>
    <p>3.&#160;&#160;&#160;&#160;&#160; &#30456;&#23545;&#33976;&#27773;&#23494;&#24230;&#65288;g/mL,&#31354;&#27668;=1&#65289;&#65306;4.02</p>
    <p>4.&#160;&#160;&#160;&#160;&#160; &#29076;&#28857;&#65288;&#186;C&#65289;&#65306;&lt;-70</p>
    <p>5.&#160;&#160;&#160;&#160;&#160; &#27832;&#28857;&#65288;&#186;C,&#24120;&#21387;&#65289;&#65306;187</p>
    <p>6.&#160;&#160;&#160;&#160;&#160; &#27832;&#28857;&#65288;&#186;C,
    kPa&#65289;&#65306;&#26410;&#30830;&#23450;</p>
    <p>7.&#160;&#160;&#160;&#160;&#160; &#25240;&#23556;&#29575;&#65306;1.458</p>
    <p>8.&#160;&#160;&#160;&#160;&#160; &#38378;&#28857;&#65288;&#186;C&#65289;&#65306;93</p>
    <p>9.&#160;&#160;&#160;&#160;&#160; &#27604;&#26059;&#20809;&#24230;&#65288;&#186;&#65289;&#65306;&#26410;&#30830;&#23450;</p>
    <p>10.&#160;&#160; &#33258;&#29123;&#28857;&#25110;&#24341;&#29123;&#28201;&#24230;&#65288;&#186;C&#65289;:
    &#26410;&#30830;&#23450;</p>
    <p>11.&#160;&#160; &#33976;&#27668;&#21387;&#65288;mmHg,20&#186;C&#65289;&#65306;0.4</p>
    <p>12.&#160;&#160; &#39281;&#21644;&#33976;&#27668;&#21387;&#65288;kPa, &#186;C&#65289;&#65306;&#26410;&#30830;&#23450;</p>
    <p>13.&#160;&#160; &#29123;&#28903;&#28909;&#65288;KJ/mol&#65289;&#65306;&#26410;&#30830;&#23450;</p>
    <p>14.&#160;&#160; &#20020;&#30028;&#28201;&#24230;&#65288;&#186;C&#65289;&#65306;&#26410;&#30830;&#23450;</p>
    <p>15.&#160;&#160; &#20020;&#30028;&#21387;&#21147;&#65288;KPa&#65289;&#65306;&#26410;&#30830;&#23450;</p>
    <p>16.&#160;&#160; &#27833;&#27700;&#65288;&#36763;&#37255;/&#27700;&#65289;&#20998;&#37197;&#31995;&#25968;&#30340;&#23545;&#25968;&#20540;&#65306;&#26410;&#30830;&#23450;</p>
    <p>17.&#160;&#160; &#29190;&#28856;&#19978;&#38480;&#65288;%,V/V&#65289;&#65306;&#26410;&#30830;&#23450;</p>
    <p>18.&#160;&#160; &#29190;&#28856;&#19979;&#38480;&#65288;%,V/V&#65289;&#65306;&#26410;&#30830;&#23450;</p>
    <p>19.&#160;&#160; &#28342;&#35299;&#24615;&#65306;&#26410;&#30830;&#23450;</p>\t\t\t\t
    </dd>&#13;\n\t &#13;\n  </div>&#13;\n</dd>
    </dl>
    
    
    这是一个 html 格式 正常我用 //div[@id='phyChem']/h2[text()='物化性质']../div[@class='ip_box']/dl//dt 能拿到 11 个 dt 标签
    但是用 //div[@id='phyChem']/h2[text()='物化性质']../div[@class='ip_box']/dl/dt
    只能拿到 9 个 dt 标签 请问这个问题是因为什么原因呢?是不是 lxml 的一个 bug 呢?
    
    1 条回复    2019-04-25 16:57:50 +08:00
    xiaxichen
        1
    xiaxichen  
    OP
       2019-04-25 16:57:50 +08:00
    已经找到问题了 此贴终结。我犯傻气了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1005 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 22:49 · PVG 06:49 · LAX 14:49 · JFK 17:49
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.