Python2.7 把英文文档中的所有标点符号转为空格(或删除)

  • Post author:
  • Post category:python


有时候做词频统计或者文档相似度时,首先我们需要过滤掉文件中的标点符号,然后根据空格来转化为一个个单词,以下我总结出两种方法:

方法一:

 for p in string.punctuation:
        txt = txt.replace(p ," ")

方法二:

translation = string.maketrans(string.punctuation+string.uppercase,
                               " "*len(string.punctuation)+string.lowercase)

txt = txt.translate(translation)


如果对你有帮助的话,给我点个赞,让我分享一些技术的时候更有动力。


另外我建了一个公众号,会不时分享前端的一些技术,或者遇到的难题和解决办法,欢迎大家关注。


搜索:钱端工程师       或        Money-end-engineer      或       扫描下方图片



版权声明:本文为weixin_42063071原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。