首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > perl python >

scrapy HtmlXpathSelector解决思路

2013-05-02 
scrapyHtmlXpathSelector最近开始用scrapy 跑爬虫。a hrefhttp://blog.sina.com.cn/u/a646ebd001019559

scrapy HtmlXpathSelector
最近开始用scrapy 跑爬虫。

<a href="http://blog.sina.com.cn/u/a646ebd001019559" target="_blank">
    一句广告词引发的官司&nbsp;广药<span style="color:#C03">加多宝</span>
    之争何时休
</a>
当我title = blog.select("./div/h2/a/text()").extract() 确实是能找到标题 ,但是标红了的<span>标签里面的加多宝3个字 没有弄下来。要怎么做。单独在来一个 blog.select("./div/h2/a/span/text()").extract() ??? scrapy
[解决办法]
是的。
你的想法是正确的。
因为本身对于

<a href="http://blog.sina.com.cn/u/a646ebd001019559" target="_blank">
    一句广告词引发的官司&nbsp;广药<span style="color:#C03">加多宝</span>
    之争何时休
</a>

其text,只包含,除了各个子节点之外的,不带标签的,那些文本text,即:

    一句广告词引发的官司&nbsp;广药
    之争何时休

而很明显,此处的子节点,就一个span:
<span style="color:#C03">加多宝</span>

要获得其内容,也就是对应的,你所说的:
blog.select("./div/h2/a/span/text()").extract()

了。

而实际上这个概念,都是通用的。
即,用其他工具,比如
BeautifulSoup
去处理,也是同样的逻辑的。

热点排行