对多种时间格式进行解析

  • Post author:
  • Post category:其他

今天出现了一个问题:我要对不同格式的时间进行解析。

大概问题是:
我写了一个SQL语句:

select * from T1 where time_ = '2021-9-10 11:12:11';

然后,其中这个时间是我传入的参数,这个SQL只能识别特定的时间格式。
但是:别人的时间格式和我的时间格式不一致。

我内心是崩溃的。
然后就是各种手撕正则。

你能想象我的日常:每写一个脚本,就要通过正则匹配来修改获取到的时间格式……
如果格式不规范,还要写TRY模块一个一个匹配……


然后,我上网一查,发现dateutil可以模糊匹配时间格式。
很厉害。基本上不管多模糊的时间都能匹配……

但是有个问题:dateutil是国外的软件,不支持中文。
需要将中文转化为英文 ……

总的来说:我啥都不用做,只要兼容中文格式,就大功告成。

现在PYTHON最好的时间处理模块应该是arrow。
然后整合、添加中文。

新增了一些功能:
支持中文(凑合着用吧)
支持了中文符号(把中文字符替换为英文字符)

import arrow
import datetime
from dateutil.parser import parse
import re


time_ = '2021 11 11 11:11:11'
# 替换中文符号
time_ = time_.replace(':', ':').replace(',', ',').replace('\\', '/').replace('。', ':    ')
# 将时间转化为标准格式
time_ = time_.replace('年', '-').replace('月', '-').replace('日', ' ').replace('时', ':').replace('点', ':').replace('分', ':').replace('秒', ' ')
# 对时间进行转化
time_ = time_.replace('五十九', '59').replace('五十八', '五十八').replace('五十七', '57').replace('五十六', '56').replace('五十五', '55')\
    .replace('五十四', '54').replace('五十三', '53').replace('五十二', '52').replace('五十一', '51').replace('五十三', '53')\
    .replace('五十二', '52').replace('五十一', '51').replace('五十', '50').replace('四十九', '49').replace('四十八', '四十八').replace('四十七', '47').replace('四十六', '46').replace('四十五', '45')\
    .replace('四十四', '44').replace('四十三', '43').replace('四十二', '42').replace('四十一', '41').replace('四十三', '43')\
    .replace('四十二', '42').replace('四十一', '41').replace('四十', '40').replace('三十九', '39').replace('三十八', '38').replace('三十七', '37').replace('三十六', '36').replace('三十五', '35')\
    .replace('三十四', '34').replace('三十三', '33').replace('三十二', '32').replace('三十一', '31').replace('三十三', '33')\
    .replace('三十二', '32')
time_ = time_.replace('三十一', '31').replace('三十', '三十').replace('二十九', '二十九').replace('二十八', '28').replace('二十七', '27')\
    .replace('二十六', '26').replace('二十五', '25').replace('二十四', '24').replace('二十三', '23').replace('二十二', '22')\
    .replace('二十一', '21').replace('二十', '20').replace('十九', '19').replace('十八', '18').replace('十七', '17').replace('十六', '16')\
    .replace('十五', '15').replace('十四', '14').replace('十三', '13').replace('十二', '12').replace('十一', '11').replace('十', '10')
# 替换周
time_ = time_.replace('周一', 'Mon').replace('星期一', 'Mon').replace('周二', 'Tue').replace('星期二', 'Tue').replace('周三', 'Wed')\
    .replace('星期三', 'Wed').replace('周四', 'Thu').replace('星期四', 'Thu').replace('周五', 'Fri').replace('星期五', 'Fri')\
    .replace('周六', 'Sat').replace('星期六', 'Sat').replace('星期日', 'Sun').replace('周日', 'Sun')
time_ = time_.replace('一', '1').replace('零', '0').replace('〇', '0').replace('二', '2').replace('三', '3').replace('四', '4')\
    .replace('五', '5').replace('六', '6').replace('七', '7').replace('八', '8').replace('九', '9')
# 补齐少时间的格式
time_ = re.sub('-$', '-1', time_)
time_ = re.sub(':$', ':0', time_)
# 上午下午必须添加到最后似乎才准确
if time_.find('上午') > 0 or time_.find('凌晨') > 0:
    time_ = time_ + 'am'
if time_.find('下午') > 0 or time_.find('晚上') > 0 or time_.find('深夜') > 0:
    time_ = time_ + 'pm'
time_ = re.sub('[\u4e00-\u9fa5()]', ' ', time_)
print(time_)
time_ = parse(time_)
time_ = arrow.get(time_, tzinfo='Asia/Shanghai')
print(time_.format('YYYY-MM-DD HH:mm:ss'))

我测试了下,支持的时间格式(包括dateutil自带的):

2020-12-05T05:33:19
2020-12-05T05:33:19+08:00

支持时间格式

2021-05-26 21:08:22
2021-5-5 15:40:00
2021-5-5 15:40
2021-5-5 15
2021-5-5
2021 5 5
2021 05 05

支持不规范的时间格式

21-12-11 11:11:11

支持年月日和月日年

9-12-2021 11:11:11

支持中文标点符号

2021:5:12 11:11:11
2021/5/12 11:11:11
2021\5\12 11:11:11
2021.5.12 11:11:11
2021512 111111
2021 5 12 11 11 11

支持国外的日期格式

Tue, 8 Jun 2021 11:27:09 +0800

支持中英文混用

二零二八年九月三日 11:12:12下午

支持中文格式

200726

支持纯中文日期

二零零八年九月九日
二零三七年十二月八日
二〇二一年八月三日
三月六号上午三点
二零三七年三月五日凌晨三点五分
二零三七年三月五日下午三点五分二十八秒

支持带周的日期

200726日 星期二
202168(周二) 15:30

支持年月日粘连。

20170205
2(nd) May, 1988

没解决的:

2021 11 11 11 11 11 

版权声明:本文为weixin_45642669原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。