有时候做词频统计或者文档相似度时,首先我们需要过滤掉文件中的标点符号,然后根据空格来转化为一个个单词,以下我总结出两种方法:
方法一:
for p in string.punctuation:
txt = txt.replace(p ," ")
方法二:
translation = string.maketrans(string.punctuation+string.uppercase,
" "*len(string.punctuation)+string.lowercase)
txt = txt.translate(translation)
如果对你有帮助的话,给我点个赞,让我分享一些技术的时候更有动力。
另外我建了一个公众号,会不时分享前端的一些技术,或者遇到的难题和解决办法,欢迎大家关注。
搜索:钱端工程师 或 Money-end-engineer 或 扫描下方图片
版权声明:本文为weixin_42063071原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。