去掉html文本的html标记

  1. re.sub('<[^<]+?>|(&nbsp;)|(&ldquo;)|(&rdquo;)|(&middot;)|(&rarr;)|(&mdash;)', '', text).replace('\n', '').strip()