去年寫過一篇文章《解析HTML最好的類還是微軟自己的》(http://www.cnblogs.com/rupeng/archive/2010/06/26/1765840.html),回復(fù)中有朋友提到可以使用HtmlAgilityPack來進(jìn)行HTML的解析。當(dāng)時(shí)只是匆匆的測(cè)試了一下,發(fā)現(xiàn)HtmlAgilityPack得到的InnerText中有很多的不干凈的script、樣式內(nèi)容,就斷定“不是很滿意,解析DiscuzNT!論壇的帖子頁面的時(shí)候有問題,沒法正確得到Body.InnerText的內(nèi)容,有很多殘留html、js代碼夾雜在其中,解析的不是很好。”
傳智播客.net培訓(xùn)學(xué)院內(nèi)部有一個(gè)工具是我開發(fā)的,其中的HTML解析部分就是我使用MSHTML完成的,但是今天發(fā)現(xiàn)這個(gè)軟件一個(gè)Bug,是MSHTML的HTMLDocumentClass在多線程并發(fā)時(shí)候有時(shí)候會(huì)造成死鎖。MSHTML是工作在UI線程中的(如果不把DesignMode設(shè)置為On,則HTML中的javascript會(huì)被執(zhí)行就是證明),并不是一個(gè)干凈的、獨(dú)立的HTML解析組件,因此出現(xiàn)這樣的問題很難調(diào)試。因此決定還是換用MSHTML實(shí)現(xiàn)。
代碼如下: foreach(var script in doc.DocumentNode.Descendants("script").ToArray()) script.Remove(); foreach(var style in doc.DocumentNode.Descendants("style").ToArray()) style.Remove(); string innerText = doc.DocumentNode.InnerText; 原來這樣簡(jiǎn)單呀,就是把所有的script、style標(biāo)簽從dom樹中去掉(為了解決迭代器在工作時(shí)不能從集合中Remove元素的問題,使用ToArray()轉(zhuǎn)換為數(shù)組再遍歷)。 這樣操作發(fā)現(xiàn)還是有殘留的script: <!--[if IE]> <script language="JavaScript"> var objmain = document.getElementById("main"); function updatesize(){ var bodyw = window.document.body.offsetWidth; var w=(bodyw<=790?"790px":"100%"); objmain.style.width=w; } updatesize(); window.onresize = updatesize; </script> <![endif]-->
仔細(xì)一看原來是帶條件注釋的script,因此用下面的方法去掉所有的注釋節(jié)點(diǎn): 代碼如下: foreach(var script in doc.DocumentNode.Descendants("script").ToArray()) script.Remove(); foreach(var style in doc.DocumentNode.Descendants("style").ToArray()) style.Remove(); foreach (var comment in doc.DocumentNode.SelectNodes("//comment()").ToArray()) comment.Remove();//新增的代碼 string innerText = doc.DocumentNode.InnerText;
解釋:HtmlAgilityPack是使用XPath語法,"http://comment()"在XPath中表示“所有注釋節(jié)點(diǎn)”,關(guān)于XPath的詳細(xì)用法請(qǐng)參考XPath的資料。 其他可能有用的技術(shù)點(diǎn):
解釋:"http://input[@name='kw']"也是XPath的語法,表示:name屬性等于kw的input標(biāo)簽。
經(jīng)過這次使用HtmlAgilityPack得出結(jié)論:還是HtmlAgilityPack強(qiáng)大?。?!再見MSHTML! |
|