使用 Python 对文本内容进行信息的提取,我第一个想到的方法便是使用正则表达式,借助于re模块强大的findall函数可以很轻松地拿到想要的结构化文本信息。

    但在某些场景下,findall函数也无法帮助我们完美地提取到想要的信息,例如下面这段包含多个 SQL 的文本内容,我们很难编写一个匹配模式来获取到--[sql*]块内的内容。

    1. --[sql1]
    2. -- test1
    3. SELECT * FROM test.t1
    4. ;
    5. --test2
    6. CREATE TABLE IF NOT EXSISTS test.t1
    7. STORED AS PARQUET
    8. SELECT * FROM test.studuents
    9. ;
    10. --[sql2]
    11. --test3
    12. SELECT * FROM test.t2

    对于上面这段文本内容,我们期望提取的结果如下:

    1. {
    2. "sql1": "SELECT * FROM test.t1\n;\nCREATE TABLE IF NOT EXSISTS test.t1\n STORED AS PARQUET\nSELECT * FROM test.studuents\n;\n\n",
    3. "sql2": "SELECT * FROM test.t2\n"
    4. }

    怎么样,还是有点难度的吧?编写匹配模式的难点有 2 个,一是我们虽然知道想要提取的内容是在--[sql1]--[sql2]标识下面,但是--[sql*]是变化的,二是无法找到匹配模式结束的标识。幸运的是,**re**模块还提供了一个**split**函数,可以帮助我们完成信息的提取。当然,有兴趣的同学可以想一下,是否可以编写复杂一点的匹配模式,借助于findall函数也能完成信息的提取。

    本质上,re.split函数与内置split函数使用方法差不多,唯一区别在于split只能接收固定分隔符进行切割,而re.split可以接受一个匹配模式的分隔符来进行切割。

    下面我们使用re.split函数提取想要的信息:

    1. import re
    2. with open("code.sql", "r") as f:
    3. content = f.read()
    4. titles = re.findall("--\[(.*?)\]\n", content)
    5. sqls = [re.sub('\n{2,}', '\n', re.sub('--.*?\n', '', s)) for s in re.split("--\[.*?\]\n", content) if s != ""]
    6. info = dict(zip(titles, sqls))