首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > perl python >

新手请问python一个爬虫有关问题

2012-02-16 
新手请教python一个爬虫问题http://datalib.ent.qq.com/star/97/index.shtml这网页里的明星个人资料我想爬

新手请教python一个爬虫问题
http://datalib.ent.qq.com/star/97/index.shtml

这网页里的明星个人资料我想爬取下来。。里面的源码大概是这样的。。
这些td我都能获取出来。。我只知道怎么获取标签的属性值。。。里面的内容不知道如何获取。。
请大家给个思路


HTML code
 <table width="300" border="0" cellspacing="0" cellpadding="0">                     <tr>                      <td height="28">&nbsp;</td>                    </tr>                    <tr>                      <td height="23" align="left" background="http://mat1.gtimg.com/ent/datalib/ent/xu22.gif"><strong>姓名:</strong>周杰伦</td>                    </tr>                    <tr>                        <td height="23" align="left" background="http://mat1.gtimg.com/ent/datalib/ent/xu22.gif"><strong>原名:</strong></td>                    </tr><tr id="banddisp"><td height="23" style="line-height:23px;" align="left" background="http://mat1.gtimg.com/ent/datalib/ent/xu22.gif"><strong>组合成员:</strong></td></tr><script> if(""=="") $("banddisp").style.display="none";</script>                    <tr>                      <td height="23" align="left" background="http://mat1.gtimg.com/ent/datalib/ent/xu22.gif"><strong>性别:</strong>男</td>                    </tr>                    <tr>                      <td height="23" align="left" background="http://mat1.gtimg.com/ent/datalib/ent/xu22.gif"><strong>英文名:</strong>Jay Chou</td>                    </tr>                    <tr>                      <td height="23" align="left" background="http://mat1.gtimg.com/ent/datalib/ent/xu22.gif"><strong>出生年:</strong>1979年</td>                    </tr>                    <tr>                      <td height="23" align="left" background="http://mat1.gtimg.com/ent/datalib/ent/xu22.gif"><strong>生日:</strong><a href="/cgi-bin/search?libid=1&keyvalue=1月18日&attr=6&stype=2&tname=star_second.shtml" target="_blank" style="text-decoration:underline;" class="fs_yeloow">1月18日</a></td>                    </tr>                    <tr>                      <td height="23" align="left" background="http://mat1.gtimg.com/ent/datalib/ent/xu22.gif" id="xingzuo"><strong>星座:</strong><a href="/cgi-bin/search?libid=1&keyvalue=摩羯座&attr=7&tname=star_second.shtml" target="_blank" style="text-decoration:underline;" class="fs_yeloow">摩羯座</a></td>                    </tr>                    <tr>                      <td height="23" align="left" background="http://mat1.gtimg.com/ent/datalib/ent/xu22.gif"><strong>国籍:</strong><a href="/cgi-bin/search?libid=1&keyvalue=中国&attr=8&tname=star_second.shtml" target="_blank" style="text-decoration:underline;" class="fs_yeloow">中国</a></td>                    </tr>                    <tr>                      <td height="23" align="left" background="http://mat1.gtimg.com/ent/datalib/ent/xu22.gif"><strong>地域:</strong><a href="/cgi-bin/search?libid=1&keyvalue=港台&attr=9&tname=star_second.shtml" target="_blank" style="text-decoration:underline;" class="fs_yeloow">港台</a></td>                    </tr>                    <tr>                      <td height="23" align="left" background="http://mat1.gtimg.com/ent/datalib/ent/xu22.gif"><strong>职业:</strong><a href="/cgi-bin/search?libid=1&keyvalue=歌手&attr=133&tname=star_second.shtml" target="_blank" style="text-decoration:underline;" class="fs_yeloow">歌手</a> <a href="/cgi-bin/search?libid=1&keyvalue=演员&attr=134&tname=star_second.shtml" target="_blank" style="text-decoration:underline;" class="fs_yeloow">演员</a> <a href="/cgi-bin/search?libid=1&keyvalue=作曲&attr=135&tname=star_second.shtml" target="_blank" style="text-decoration:underline;" class="fs_yeloow">作曲</a></td>                    </tr>                    <tr>                      <td height="23" align="left" background="http://mat1.gtimg.com/ent/datalib/ent/xu22.gif" id="shengao"><strong>身高:</strong><a href="/cgi-bin/search?libid=1&keyvalue=173cm&attr=10&tname=star_second.shtml" target="_blank" style="text-decoration:underline;" class="fs_yeloow">173cm</a> </td>                    </tr>                    <tr>                      <td height="23" align="left" background="http://mat1.gtimg.com/ent/datalib/ent/xu22.gif" id="xuexing"><strong>血型:</strong><a href="/cgi-bin/search?libid=1&keyvalue=O型&attr=11&tname=star_second.shtml" target="_blank" style="text-decoration:underline;" class="fs_yeloow">O型</a></td>                    </tr>                    <tr>                      <td height="23" align="left" background="http://mat1.gtimg.com/ent/datalib/ent/xu22.gif" style="display:none;"><strong>三围:</strong></td>                    </tr>                    <tr>                      <td height="40" align="left"><span style="width:80px;overflow:hidden;text-overflow:ellipsis;white-space:nowrap;"><strong>周杰伦简介</strong></span></td>                    </tr>                    <tr>                      <td align="left" class="line22" style="word-break:break-all;display:none;" id="intro1">周杰伦(1979年1月18日—),绰号“周董”或“小天王周杰伦”,是来自台湾(台北)的歌手、作曲人、作词人、导演。他在很大程度上提升了词曲原创人在华人音乐界的地位,而周杰伦自己也与另外数位知名的华语音乐制作人如王力宏和陶喆等并列成为近五年来影响华语音乐最深的新人之一。周杰伦自己作曲和主唱的作品,多数由方文山作词,内容比一般流行曲勇于涉猎前所未见的题材,如《爸我回来了》的家庭暴力、《双截棍》的武术、《爱在西元前》的世界历史、《梯田》的环保、《四面楚歌》的狗仔队等,这为当代华语乐坛造成冲击。一些说法认为周杰伦是受罗大佑及歌神张学友的影响而开始喜欢并创作流行音乐,这两位华语歌坛的重量级人物在无形当中成为了周杰伦进入流行歌坛的启蒙老师。<br/><br/>周杰伦的的音乐风格亦十分多样化,他的专长是节奏蓝调(R&amp;B)和饶舌(Rap)。他创新地在歌曲里使用西方古典音乐:如在“双截棍”中的莫扎特奏鸣曲风格的过场;在“蓝色风暴”开端的格列高利圣咏(Gregorian chant),也有富中国武术(如《双截棍》、《龙拳》和《霍元甲》)或中国音乐特色的(在《娘子》中,过场的吉他就用了琵琶的轮指奏法;使用民乐乐器:《乱舞春秋》、《发如雪》等)。周杰伦融合中西音乐的风格创造了一种新鲜的声音,这和台湾的主流音乐很不同。他有些歌曲掺入了自然环境或日常物件的录音,这加强了音乐的故事性(例如《将军》的下棋情景、《四面楚歌》的照相机咔察声、“蓝色风暴”的电话拨号声、《三年二班》的乒乓球撞击声)。在编曲方面,他的歌曲和音丰富:很多时候主旋律、和音、饶舌、对旋律会一层一层的加上,并在结尾时逐层淡出,颇有层次感;同一旋律录两条音轨同时在左右耳播放,很有立体的合唱效果。他刻意不清楚的咬字使歌曲的说唱部份更有节奏感。<br/><br/>周杰伦自小父母离异,在母亲含辛茹苦的抚养之下长大。<br/><br/>小学时,周杰伦对音乐情有独钟,表现出了惊人的天赋。望子成龙的母亲日积月累,凑钱为他买了一架钢琴。“玩”着琴,他挖掘着潜力,慢慢积聚着自己的音乐“资本”。<br/>高中毕业后,Jay没有考上大学,只能到餐馆当服务生,被老板暴骂过,克扣过薪水。<br/>后来,一个偶然的机会,周杰伦被台湾乐坛老大吴宗宪“相中”,进入吴的公司作音乐制片助理。其间,他不停的写歌,结果都被吴宗宪搁置一旁,有的甚至当面扔进纸篓。<br/>周杰伦没有泄气,吴宗宪被其努力感动了,答应歌手唱他的歌。但是,许多著名歌手都不愿意一展歌喉,因为他写的歌太稀奇、太古怪有一天,吴宗宪抛给他一个机会:10天,写50首歌,然后挑选10首,自己唱,出专辑。终于,他的第一张专辑问世,立即轰动歌坛。紧接着的第二张专辑《范特西》又风靡流行音乐界。<br/><br/></td>                     </tr>                    <tr>                      <td height="30" align="right"><a target="_blank" href="starinfo.shtml" class="haveline">更多详细资料&gt;&gt;</a></td>                    </tr>                  </table></td>                </tr>              </table> 



[解决办法]
我想,你的问题属于网页解析的问题,而不是关于爬虫的问题。

对于网页解析,有现成的类,你找找。根据标记可以提取你想要的内容。
[解决办法]
对,都是人借助语言去理解HTML,或者叫把人对HTML的理解借助程序语言体现出来
有现成的类还是省心一些,本身解析文本是个“苦”差事,并没有太多技术可言,巧妙加细心吧应该是
我最近做个程序也是大量的解析文本,而且格式要自己定,整天操作字符串,头大
[解决办法]
探讨

楼主可参考此代码:
Python code

#!/usr/bin/env python
#coding=utf-8
"""
http://datalib.ent.qq.com/star/97/index.shtml

这网页里的明星个人资料我想爬取下来。。里面的源码大概是这样的。。
这些td我都能获取出来。。我只知道怎么获取标签的属性值。。。里面的内容不知道如何获取。。
请大家给个思路

……

热点排行