向HtmlAgilityPack道歉：解析HTML還是你好用

命運(yùn)之輪 2012-02-10

展開全文

去年寫過一篇文章《解析HTML最好的類還是微軟自己的》（http://www.cnblogs.com/rupeng/archive/2010/06/26/1765840.html），回復(fù)中有朋友提到可以使用HtmlAgilityPack來進(jìn)行HTML的解析。當(dāng)時(shí)只是匆匆的測(cè)試了一下，發(fā)現(xiàn)HtmlAgilityPack得到的InnerText中有很多的不干凈的script、樣式內(nèi)容，就斷定“不是很滿意，解析DiscuzNT！論壇的帖子頁面的時(shí)候有問題，沒法正確得到Body.InnerText的內(nèi)容，有很多殘留html、js代碼夾雜在其中，解析的不是很好。”

傳智播客.net培訓(xùn)學(xué)院內(nèi)部有一個(gè)工具是我開發(fā)的，其中的HTML解析部分就是我使用MSHTML完成的，但是今天發(fā)現(xiàn)這個(gè)軟件一個(gè)Bug，是MSHTML的HTMLDocumentClass在多線程并發(fā)時(shí)候有時(shí)候會(huì)造成死鎖。MSHTML是工作在UI線程中的（如果不把DesignMode設(shè)置為On，則HTML中的javascript會(huì)被執(zhí)行就是證明），并不是一個(gè)干凈的、獨(dú)立的HTML解析組件，因此出現(xiàn)這樣的問題很難調(diào)試。因此決定還是換用MSHTML實(shí)現(xiàn)。

那么如何解決HtmlAgilityPack得到的InnerText中有殘留的script、樣式的問題呢，在google上搜索“HtmlAgilityPack script innerText”找到了stackoverflow上的這篇文章《C#: HtmlAgilityPack extract inner text》http:///questions/2785092/c-htmlagilitypack-extract-inner-text

代碼如下：

foreach(var script in doc.DocumentNode.Descendants("script").ToArray())
    script.Remove();
foreach(var style in doc.DocumentNode.Descendants("style").ToArray())
    style.Remove();

string innerText = doc.DocumentNode.InnerText;

原來這樣簡(jiǎn)單呀，就是把所有的script、style標(biāo)簽從dom樹中去掉（為了解決迭代器在工作時(shí)不能從集合中Remove元素的問題，使用ToArray()轉(zhuǎn)換為數(shù)組再遍歷）。

這樣操作發(fā)現(xiàn)還是有殘留的script：

<!--[if IE]>
<script language="JavaScript"> var objmain = document.getElementById("main"); function updatesize(){ var bodyw = window.document.body.offsetWidth; var w=(bodyw<=790?"790px":"100%"); objmain.style.width=w; } updatesize(); window.onresize = updatesize; </script>
<![endif]-->

復(fù)制代碼

仔細(xì)一看原來是帶條件注釋的script，因此用下面的方法去掉所有的注釋節(jié)點(diǎn)：

代碼如下：

foreach(var script in doc.DocumentNode.Descendants("script").ToArray())
    script.Remove();
foreach(var style in doc.DocumentNode.Descendants("style").ToArray())
    style.Remove();

foreach (var comment in doc.DocumentNode.SelectNodes("//comment()").ToArray())
    comment.Remove();//新增的代碼

string innerText = doc.DocumentNode.InnerText;

解釋：HtmlAgilityPack是使用XPath語法，"http://comment()"在XPath中表示“所有注釋節(jié)點(diǎn)”，關(guān)于XPath的詳細(xì)用法請(qǐng)參考XPath的資料。

其他可能有用的技術(shù)點(diǎn)：
1、獲取網(wǎng)頁title：doc.DocumentNode.SelectSingleNode("http://title").InnerText;
解釋：XPath中“//title”表示所有title節(jié)點(diǎn)。SelectSingleNode用于獲取滿足條件的唯一的節(jié)點(diǎn)。

2、獲取所有的超鏈接：doc.DocumentNode.Descendants("a")

3、獲取name為kw的input，也就是相當(dāng)于getElementsByName()：
var kwBox = doc.DocumentNode.SelectSingleNode("http://input[@name='kw']");

解釋："http://input[@name='kw']"也是XPath的語法，表示：name屬性等于kw的input標(biāo)簽。

經(jīng)過這次使用HtmlAgilityPack得出結(jié)論：還是HtmlAgilityPack強(qiáng)大?。?！再見MSHTML！

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：命運(yùn)之輪 > 《C# and ASP.NET》

舉報(bào)/認(rèn)領(lǐng)