使用 Python 对文本内容进行信息的提取,我第一个想到的方法便是使用正则表达式,借助于re
模块强大的findall
函数可以很轻松地拿到想要的结构化文本信息。
但在某些场景下,findall
函数也无法帮助我们完美地提取到想要的信息,例如下面这段包含多个 SQL 的文本内容,我们很难编写一个匹配模式来获取到--[sql*]
块内的内容。
--[sql1]
-- test1
SELECT * FROM test.t1
;
--test2
CREATE TABLE IF NOT EXSISTS test.t1
STORED AS PARQUET
SELECT * FROM test.studuents
;
--[sql2]
--test3
SELECT * FROM test.t2
对于上面这段文本内容,我们期望提取的结果如下:
{
"sql1": "SELECT * FROM test.t1\n;\nCREATE TABLE IF NOT EXSISTS test.t1\n STORED AS PARQUET\nSELECT * FROM test.studuents\n;\n\n",
"sql2": "SELECT * FROM test.t2\n"
}
怎么样,还是有点难度的吧?编写匹配模式的难点有 2 个,一是我们虽然知道想要提取的内容是在--[sql1]
和--[sql2]
标识下面,但是--[sql*]
是变化的,二是无法找到匹配模式结束的标识。幸运的是,**re**
模块还提供了一个**split**
函数,可以帮助我们完成信息的提取。当然,有兴趣的同学可以想一下,是否可以编写复杂一点的匹配模式,借助于findall
函数也能完成信息的提取。
本质上,re.split
函数与内置split
函数使用方法差不多,唯一区别在于split
只能接收固定分隔符进行切割,而re.split
可以接受一个匹配模式的分隔符来进行切割。
下面我们使用re.split
函数提取想要的信息:
import re
with open("code.sql", "r") as f:
content = f.read()
titles = re.findall("--\[(.*?)\]\n", content)
sqls = [re.sub('\n{2,}', '\n', re.sub('--.*?\n', '', s)) for s in re.split("--\[.*?\]\n", content) if s != ""]
info = dict(zip(titles, sqls))