PHP头条
热点:

PHP实现采集抓取淘宝网单个商品信息


调用淘宝的数据可以使用淘宝提供的api,如果只需调用淘宝商品图片名称等公开信息在自己网站上,使用php中的 file_get_contents 函数实现即可。

思路:

file_get_contents(url) 该函数根据 url 如 http://www.baidu.com 将该网页内容(源码)以字符串形式输出(一个整字符串),然后配合preg_match,preg_replace等这些正则表达式操作就可以实现获取该url特定p,img等信息了。当然前题是淘宝在单个商品页面的结构是固定的,如500图的img中id就是J_ImgBooth!

具体实现方法:(获取500图,名称,价格,属性及商品描述)

代码如下:


$text=file_get_contents("http://item.taobao.com/item.htm?id=2380347279"); //将url地址上页面内容保存进$text

A.获取500图:

代码如下:


preg_match('/]*id="J_ImgBooth"[^r]*rc=\"([^"]*)\"[^>]*>/', $text, $img);
//运用正则抓取img标签中id为J_ImgBooth的img,$img[0]为该500图img标签,$img[1]为500图的图片地址;

B. 获取名称:

代码如下:


preg_match('/([^<>]*)<\/title>/', $text, $title); <br /> //因为正文中的商品名称标签没有特殊class或id正则不好抓取,就抓<title>标签中的内容了,一般来说title中内容就是商品名称了(实际有些出入),$title[0]整个title标签 $title[1]标签中内容;<br /> $title=iconv('GBK','UTF-8',$title);<br /> //如果你的网站是utf8编码,那么需要进行一下转码(淘宝是gbk编码)<br /> </p></p> <p>C.获取价格:</p> <p><p class="codetitle"> 代码如下:</p><p class="codebody" id="code85999"><br /> preg_match('/<([a-z]+)[^i]*id=\"J_StrPrice\"[^>]*>([^<]*)<\/\\1>/is', $text, $price);<br /> //同理获取id为J_StrPrice的标签内容$price[2], $price[0]是整个标签, $price[1]为strong标签名;<br /> $price=floatval($price);//放入数据库估计还有转一下变量类型<br /> </p></p> <p>D.获取属性:</p> <p>这之前获取的内容都是在单标签中相对只需一个正则就可搞定,然而如果要获取如</p> <p><p class="codetitle"> 代码如下:</p><p class="codebody" id="code67436"><br /> …<br /> <br /> <p id=”xxx”><br /> <br /> …<br /> <br /> <ul><br /> <br /> …<br /> <br /> </ul><br /> <br /> <p>…<br /> <br /> <p>…<br /> <br /> </p><br /> <br /> </p><br /> <br /> </p><br /> <br /> …<br /> </p></p> <p>这样特定p中有未知n个<>标签,获取该特定p将会非常的困难,搜了下网上,最接近的也只是”/<([a-z]+)[^>]*>([^<>]|(?R))*<\/\\1>/”这样使用递归抓取标签对,但是他不能抓特定标签,所以想要轻松抓取class=”attributes”的p我是没法办到了。但是淘宝网页有其特殊性,就是它的各个标签结构基本是固定的…<p>…</p>标签后面不是</p><p id=”description”>就是</p><p>,所以我们可以采用变通法达到获取属性标签内容的目的。</p> <p><p class="codetitle"> 代码如下:</p><p class="codebody" id="code49683"><br /> preg_match('/<(p)[^c]*class=\"attributes\"[^>]*>.*<\/\\1>/is', $text, $text0);<br /> //这个正则会抓取<p开始到整个页面最后一个</p>标签,当然我们属性标签就在这个的前面部分。<br /> <br /> $text1=preg_replace("/<\/p>[^<]*<(p)[^c]*id=\"description\"[^>]*>.*<\/\\1>/is","",$text0);<br /> //匹配到</p ><p id=”description”>至最后</p>然后用””代替(就是把匹配的删除了),所以如果attributes的p后面紧跟的是description那么我们已经达到目的了。<br /> <br /> $attributes=preg_replace("/<\/p>[^<]*<(p)[^c]*class=\"box J_TBox\"[^>]*>.*<\/\\1>/is","",$text1);<br /> //如果attributes后面紧跟box J_Tbox标签,那么我们还需要使用以上这步来剔除box J_Tbox标签,当然如果attributes的p后面紧跟的是description,这一步将不会匹配到任何即什么都不会做。<br /> </p></p> <p>E.获取描述:</p> <p>通过上面方法你肯定觉得淘宝页面上任何标签都可以很简单获取了吧(我之前也是这么想的),但是使用这个方法获取描述时得到的内容将会是“描述加载中”,是的,这个描述内容不是在源码中的,它是打开页面加载进一大堆js后,不知道从淘宝的哪个角落中加载进来的。</p> <p>好吧,那么我们也可以模仿它放一些js进去。不知道哪些对加载描述有用?没事,全加载进来肯定没错。不知道需要放那些特定p上去有作用?抓一个源码,删掉一些p一步步试试看,你会发现“<p id=”detail”> </p></p> <p><p class="codetitle"> 代码如下:</p><p class="codebody" id="code76386"><br /> <p id="description"><br /> <br /> <p id="J_DivItemDesc">描述加载中</p><br /> <br /> </p><br /> </p></p> <p>这几个p是加载描述所必须的,那么下面就是写代码了:</p> <p><p class="codetitle"> 代码如下:</p><p class="codebody" id="code96276"><br /> preg_match_all('/<script[^>]*>[^<]*<\/script>/is', $text, $content);//页面js脚本<br /> $content=$content[0];<br /> $description='<p id="detail"> </p><br /> <p id="description"><br /> <p id="J_DivItemDesc">描述加载中</p><br /> </p>';<br /> foreach ($content as &$v){$description.=iconv('GBK','UTF-8',$v);};<br /> //将这个$description放进页面,描述就会自动的加载进来了,当然多个商品描述在同一个页面也会只有一个描述会被加载的。</p> <p align="left"><div style="display:none;"><span id="url" itemprop="url">/phpyy/33875.html</span><span id="indexUrl" itemprop="indexUrl">www.phpzy.com</span><span id="isOriginal" itemprop="isOriginal">true</span><span id="isBasedOnUrl" itemprop="isBasedOnUrl">/phpyy/33875.html</span><span id="genre" itemprop="genre">TechArticle</span><span id="description" itemprop="description">PHP实现采集抓取淘宝网单个商品信息 调用淘宝的数据可以使用淘宝提供的api,如果只需调用淘宝商品图片名称等公开信息在自己网站上,使用php中的 file_get_contents 函数实现即可。 思路...</span></div></p></div> <div class="art_confoot"><script src='http://www.phpzy.com/ad/art_confoot.js' type="text/javascript"></script></div> <div class="page"></div> <div class="post-related"> <h3 class="tit_3">相关文章</h3><div class="clearfix m_5"> <ul> <li><a href='/php/33874.html' title='php生成随机密码的自定义函数(转载分享),php自定义' target='_blank'>php生成随机密码的自定义函数(转载分享</a></li><li><a href='/php/33871.html' title='php读取xml的方法二---simplexml读取xml-PHP源码' target='_blank'>php读取xml的方法二---simplexml读取xml-PHP源码</a></li><li><a href='/phprm/33870.html' title='php在计算机上运行正常在linux终端机上却不正常求解头疼当中' target='_blank'>php在计算机上运行正常在linux终端机上却</a></li><li><a href='/phprm/33869.html' title='有没有PHP代码生成器工具?解决思路' target='_blank'>有没有PHP代码生成器工具?解决思路</a></li><li><a href='/phprm/33868.html' title='php下载amazons3上的资料' target='_blank'>php下载amazons3上的资料</a></li><li><a href='/phprm/33867.html' title='对于初学PHP的学者,买那本书比较合适呢' target='_blank'>对于初学PHP的学者,买那本书比较合适呢</a></li></ul></div> </div> <div class="option-btns"> <div class="art_confoot"><script src='http://www.phpzy.com/ad/xgart_confoot.js' type="text/javascript"></script></div> </div> <div id="related_reading" class="haman-box"> <ul class="xgyd clearfix"> <div class="xgyd_new"><span class="fast-nav-bar"><a href="http://www.phpzy.com/fenlei/list-11-1.html">今日最新</a></span><strong>相关阅读:</strong></div> <li><a href="/php/33874.html">php生成随机密码的自定义函数(转载分享),</a></li> <li><a href="/php/33871.html">php读取xml的方法二---simplexml读取xml-PHP源码</a></li> <li><a href="/phprm/33870.html">php在计算机上运行正常在linux终端机上却不正</a></li> <li><a href="/phprm/33869.html">有没有PHP代码生成器工具?解决思路</a></li> <li><a href="/phprm/33868.html">php下载amazons3上的资料</a></li> <li><a href="/phprm/33867.html">对于初学PHP的学者,买那本书比较合适呢</a></li> </ul></div> <footer><div class="hot_c"><span><b>相关频道:</b> <a href="/fenlei/list-1-1.html" >php教程</a>  <a href="/fenlei/list-2-1.html" >php安全</a>  <a href="/fenlei/list-3-1.html" >php面试题</a>  <a href="/fenlei/list-4-1.html" >php框架</a>  <a href="/fenlei/list-6-1.html" >php入门</a>  <a href="/fenlei/list-7-1.html" >php问答</a>  <a href="/fenlei/list-8-1.html" >php应用</a>  <a href="/fenlei/list-10-1.html" >php职业规划</a>  <a href="/fenlei/list-11-1.html" >今日最新</a>  <a href="/fenlei/list-5-1.html" >php资讯</a>  </span></div> </footer> </div> <div class="info_more" id="info_more"></div> <div class="clearfix mt10 art_commentstop" id="commentTopAd"><script src='http://www.phpzy.com/ad/art_commentstop.js' type="text/javascript"></script></div> <div id="hm_t_46468"></div> <a name="comment"></a><div class="comment" id="commentTopAd" itemprop="comment"><h3>PHP之友评论</h3></div> <div class="wb_comment_box" id="commentsiframe"><script type="text/javascript" src='http://www.phpzy.com/ad/comments.js'></script></div> </article> <div class="syzp mt10" style="overflow:hidden;"><div class="tit_7">今天推荐</div><script type="text/javascript" src="http://www.phpzy.com/ad/left_foot_ad.js"></script></div> </div> <aside class="right" id="main_right"> <div class="art_rightad1"><script src='http://www.phpzy.com/ad/art_rightad1.js' type="text/javascript"></script></div> <div class="r_bd mt10 pb10"> <div class="tit_5 tit_6">php应用最近更新</div> <ul id="bbsRank_1" class="rank_ul2 rank_dot" style="border-top:1px solid #AAC5F2;margin-top: -1px;"> <li><a href="/phpyy/33875.html">PHP实现采集抓取淘宝网单个商品信息</a> </li> <li><a href="/phpyy/33856.html">php绘图之在图片上写中文和英文的方法</a> </li> <li><a href="/phpyy/33855.html">通过php删除xml文档内容的方法</a> </li> <li><a href="/phpyy/33854.html">jQuery+PHP实现的掷色子抽奖游戏实例</a> </li> <li><a href="/phpyy/33853.html">php读取远程gzip压缩网页的方法</a> </li> </ul></div> <div class="art_rightad2 mt10"><script src='http://www.phpzy.com/ad/art_rightad2.js' type="text/javascript"></script></div> <div class="r_bd mt10 pb10"> <div class="tit_5 tit_6">热门推荐</div> <ul id="bbsRank_1" class="rank_ul2 rank_dot" style="border-top:1px solid #AAC5F2;margin-top: -1px;"> <li><a href="/phpyy/1722.html">关于php的cookie???</a> </li> <li><a href="/phpyy/20852.html">深入了解PHP类Class的概念</a> </li> <li><a href="/phpyy/4926.html">php中登录后跳转回原来要访问的页面实例</a> </li> <li><a href="/phpyy/24869.html">PHP删除HTMl标签的三种解决方法</a> </li> <li><a href="/phpyy/23060.html">php安全开发添加随机字符串验证,防止伪</a> </li> </ul> </div> <div class="r_bd mt10 pb10"><div style="margin-top: 0pt;" class="tit_5 tit_6">有意思</div> <script type="text/javascript" src="http://www.phpzy.com/ad/right_ad5.js"></script></div> <div class="art_rightad3"><script src='http://www.phpzy.com/ad/art_rightad3.js' type="text/javascript"></script></div> <div id="focus_look" class="instant-focus mt10"><div class="instant-focus-header clearfix"><h3>实时看点</h3><span>看啥好</span></div> <script type="text/javascript" src="http://www.phpzy.com/ad/right_ad6.js"></script></div> <div class="art_rightad4 mt10"><script src='http://www.phpzy.com/ad/art_rightad4.js' type="text/javascript"></script></div> </aside></div></div> <footer id="footer" class="div_body"> <script type="text/javascript" src="http://www.phpzy.com/ad/arc_foot_ad.js"></script> <script type="text/javascript" src="http://www.phpzy.com/templets/js/foot.js"></script> <div style="display:none;"><script src='http://www.phpzy.com/ad/tongji.js' type="text/javascript"></script></div> <div id="roll"></i><a title="回顶部" id="roll_top" href="#top" style="opacity: 0.7;" target="_self" rel="nofllow"></a></div> </footer> <script type="text/javascript" src="http://www.phpzy.com/ad/maintop.js?131231"></script> </body> </html>