提取HTML代码中文字的C#函数
/// <summary>
/// 去除HTML标记
/// </summary>
/// <param name="strHtml">包括HTML的源码 </param>
/// <returns>已经去除后的文字</returns>
public static string StripHTML(string strHtml)
{
string [] aryReg ={
@"<script[^>]*?>.*?</script>",
@"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""@#])(\\[""@#tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>",
@"([\r\n])[\s]+",
@"&(quot|#34);",
@"&(amp|#38);",
@"&(lt|#60);",
@"&(gt|#62);",
@"&(nbsp|#160);",
@"&(iexcl|#161);",
@"&(cent|#162);",
@"&(pound|#163);",
@"&(copy|#169);",
@"&#(\d+);",
@"-->",
@"<!--.*\n"
};
string [] aryRep = {
"",
"",
"",
"\"",
"&",
"<",
">",
" ",
"\xa1",//chr(161),
"\xa2",//chr(162),
"\xa3",//chr(163),
"\xa9",//chr(169),
"",
"\r\n",
""
};
string newReg =aryReg[0];
string strOutput=strHtml;
for(int i = 0;i<aryReg.Length;i++)
{
Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );
strOutput = regex.Replace(strOutput,aryRep[i]);
}
strOutput.Replace("<","");
strOutput.Replace(">","");
strOutput.Replace("\r\n","");
return strOutput;
}
- · 百万程序员的苦恼-选择VB.NET还是C#
- · 利用C#进行AutoCAD的二次开发(一)
- · 给大家一个新的加密方法,C#的
- · C#代表元及事件触发
- · 用Visual C#来清空回收站(2)
- · 用Visual C#来清空回收站(1)
- · 用Visual C#中实现DB2数据库编程
- · Visual C#的SQL Server编程
- · 使用C#开发用户控制
- · 用C#代码生成一个简单的PDF文件
- · 利用c#制作简单的留言板(4)
- · 利用c#制作简单的留言板(3)
- · 利用c#制作简单的留言板(2)
- · C#操作技巧的数据类型之间的转换
- · C#中的函数重载
- · 用浏览器来接收C# 的程序返回的时间
- · 用c#写的asp+域名查询程序
- · C#中方法参数的四种类型
- · switch语句的“不准遍历”
- · C#中的checked、unchecked操作符
- · C#中的“装箱”(boxing)与“拆箱”(unboxing)
- · C#中的数组和C++中数组的区别
- · C#中的代理(delegate)
- · 数据结构与算法(C#实现)系列---广义树(二)
- · 数据结构与算法(C#实现)系列---广义树(一)
- · 数据结构与算法(C#实现)系列-----前言
- · C#就是Java只不过差了一点点
- · 基于C#的接口基础教程之七
- · C#中构造函数和析构函数的用法
- · C#,深入浅出全接触(五)
- · C#,深入浅出全接触(四)
- · C#,深入浅出全接触(三)
- · C#学习笔记(4)
- · C#学习笔记(3)
- · C#学习笔记(2)
- · C#,深入浅出全接触(二)
- · C#,深入浅出全接触(一)
- · c#里面的namespace基础(二)
