今天出现了一个问题:我要对不同格式的时间进行解析。
大概问题是:
我写了一个SQL语句:
select * from T1 where time_ = '2021-9-10 11:12:11';
然后,其中这个时间是我传入的参数,这个SQL只能识别特定的时间格式。
但是:别人的时间格式和我的时间格式不一致。
我内心是崩溃的。
然后就是各种手撕正则。
你能想象我的日常:每写一个脚本,就要通过正则匹配来修改获取到的时间格式……
如果格式不规范,还要写TRY模块一个一个匹配……
然后,我上网一查,发现dateutil可以模糊匹配时间格式。
很厉害。基本上不管多模糊的时间都能匹配……
但是有个问题:dateutil是国外的软件,不支持中文。
需要将中文转化为英文 ……
总的来说:我啥都不用做,只要兼容中文格式,就大功告成。
现在PYTHON最好的时间处理模块应该是arrow。
然后整合、添加中文。
新增了一些功能:
支持中文(凑合着用吧)
支持了中文符号(把中文字符替换为英文字符)
import arrow
import datetime
from dateutil.parser import parse
import re
time_ = '2021 11 11 11:11:11'
# 替换中文符号
time_ = time_.replace(':', ':').replace(',', ',').replace('\\', '/').replace('。', ': ')
# 将时间转化为标准格式
time_ = time_.replace('年', '-').replace('月', '-').replace('日', ' ').replace('时', ':').replace('点', ':').replace('分', ':').replace('秒', ' ')
# 对时间进行转化
time_ = time_.replace('五十九', '59').replace('五十八', '五十八').replace('五十七', '57').replace('五十六', '56').replace('五十五', '55')\
.replace('五十四', '54').replace('五十三', '53').replace('五十二', '52').replace('五十一', '51').replace('五十三', '53')\
.replace('五十二', '52').replace('五十一', '51').replace('五十', '50').replace('四十九', '49').replace('四十八', '四十八').replace('四十七', '47').replace('四十六', '46').replace('四十五', '45')\
.replace('四十四', '44').replace('四十三', '43').replace('四十二', '42').replace('四十一', '41').replace('四十三', '43')\
.replace('四十二', '42').replace('四十一', '41').replace('四十', '40').replace('三十九', '39').replace('三十八', '38').replace('三十七', '37').replace('三十六', '36').replace('三十五', '35')\
.replace('三十四', '34').replace('三十三', '33').replace('三十二', '32').replace('三十一', '31').replace('三十三', '33')\
.replace('三十二', '32')
time_ = time_.replace('三十一', '31').replace('三十', '三十').replace('二十九', '二十九').replace('二十八', '28').replace('二十七', '27')\
.replace('二十六', '26').replace('二十五', '25').replace('二十四', '24').replace('二十三', '23').replace('二十二', '22')\
.replace('二十一', '21').replace('二十', '20').replace('十九', '19').replace('十八', '18').replace('十七', '17').replace('十六', '16')\
.replace('十五', '15').replace('十四', '14').replace('十三', '13').replace('十二', '12').replace('十一', '11').replace('十', '10')
# 替换周
time_ = time_.replace('周一', 'Mon').replace('星期一', 'Mon').replace('周二', 'Tue').replace('星期二', 'Tue').replace('周三', 'Wed')\
.replace('星期三', 'Wed').replace('周四', 'Thu').replace('星期四', 'Thu').replace('周五', 'Fri').replace('星期五', 'Fri')\
.replace('周六', 'Sat').replace('星期六', 'Sat').replace('星期日', 'Sun').replace('周日', 'Sun')
time_ = time_.replace('一', '1').replace('零', '0').replace('〇', '0').replace('二', '2').replace('三', '3').replace('四', '4')\
.replace('五', '5').replace('六', '6').replace('七', '7').replace('八', '8').replace('九', '9')
# 补齐少时间的格式
time_ = re.sub('-$', '-1', time_)
time_ = re.sub(':$', ':0', time_)
# 上午下午必须添加到最后似乎才准确
if time_.find('上午') > 0 or time_.find('凌晨') > 0:
time_ = time_ + 'am'
if time_.find('下午') > 0 or time_.find('晚上') > 0 or time_.find('深夜') > 0:
time_ = time_ + 'pm'
time_ = re.sub('[\u4e00-\u9fa5()]', ' ', time_)
print(time_)
time_ = parse(time_)
time_ = arrow.get(time_, tzinfo='Asia/Shanghai')
print(time_.format('YYYY-MM-DD HH:mm:ss'))
我测试了下,支持的时间格式(包括dateutil自带的):
2020-12-05T05:33:19
2020-12-05T05:33:19+08:00
支持时间格式
2021-05-26 21:08:22
2021-5-5 15:40:00
2021-5-5 15:40
2021-5-5 15
2021-5-5
2021 5 5
2021 05 05
支持不规范的时间格式
21-12-11 11:11:11
支持年月日和月日年
9-12-2021 11:11:11
支持中文标点符号
2021:5:12 11:11:11
2021/5/12 11:11:11
2021\5\12 11:11:11
2021.5.12 11:11:11
2021。5。12 11。11。11
2021 5 12 11 11 11
支持国外的日期格式
Tue, 8 Jun 2021 11:27:09 +0800
支持中英文混用
二零二八年九月三日 11:12:12下午
支持中文格式
2007年2月6日
支持纯中文日期
二零零八年九月九日
二零三七年十二月八日
二〇二一年八月三日
三月六号上午三点
二零三七年三月五日凌晨三点五分
二零三七年三月五日下午三点五分二十八秒
支持带周的日期
2007年2月6日 星期二
2021年6月8日 (周二) 15:30
支持年月日粘连。
20170205
2(nd) May, 1988
没解决的:
2021 11 11 11 11 11
版权声明:本文为weixin_45642669原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。