论语电子版的内容如下所示:
    论语.txt

    1. 【原文】
    2. 子曰(1):“学(2)而时习(3)之,不亦说(4)乎?有朋(5)自远方来,不亦乐(6)乎?人不知(7),而不愠(8),不亦君子(9)乎?”
    3. 【注释】
    4. (1)子:中国古代对于有地位、有学问的男子的尊称,有时也泛称男子。《论语》书中“子曰”的子,都是指孔子而言。
    5. (2)学:孔子在这里所讲的“学”,主要是指学习西周的礼、乐、诗、书等传统文化典籍。
    6. (3)时习:在周秦时代,“时”字用作副词,意为“在一定的时候”或者“在适当的时候”。但朱熹在《论语集注》一书中把“时”解释为“时常”。“习”,指演习礼、乐;复习诗、书。也含有温习、实习、练习的意思。
    7. (4)说:音yuè,同悦,愉快、高兴的意思。
    8. (5)有朋:一本作“友朋”。旧注说,“同门曰朋”,即同在一位老师门下学习的叫朋,也就是志同道合的人。
    9. (6)乐:与说有所区别。旧注说,悦在内心,乐则见于外。
    10. (7)人不知:此句不完整,没有说出人不知道什么。缺少宾语。一般而言,知,是了解的意思。人不知,是说别人不了解自己。
    11. (8)愠:音yùn,恼怒,怨恨。
    12. (9)君子:《论语》书中的君子,有时指有德者,有时指有位者。此处指孔子理想中具有高尚人格的人。
    13. 【原文】
    14. 有子(1)曰:“其为人也孝弟(2),而好犯上者(3),鲜(4)矣;不好犯上,而好作乱者,未之有也(5)。君子务本(6),本立而道生(7)。孝弟也者,其为人之本与(8)?”
    15. 【注释】

    将其中【原文】下面的部分提取出去,同时去除空白行,括号和括号中的数字,再写入到新的文件中。

    1. with open("../data/txt/论语.txt", "r", encoding="utf-8") as fr: # 读模式打开文件
    2. with open("论语-原文.txt", "w", encoding="utf-8") as fo: # 写模式创建新文件
    3. text_flag = False # 原文起始行的标志,值为True时表示是原文起始行
    4. for line in fr: # 遍历论语
    5. # text_flag值为True表示当前处理的是【原文】下面的行
    6. if text_flag and "【注释】" not in line and "【原文】" not in line:
    7. line = line.strip().replace('(', '').replace(')', '') # 去除行首尾的空白字符和括号
    8. for c in '0123456789': # 遍历数字
    9. line = line.replace(c, '') # 循环去除当前行中所有数字
    10. if line: # line不是空字符串时执行此分支下的代码,即跳过空行
    11. fo.write(line+'\n') # 当前行开加换行符并写入文件
    12. elif "【原文】" in line: # 如果当前行中有【原文】字样,标志位置True
    13. text_flag = True
    14. elif "【注释】" in line: # 如果当前行中有【原文】字样,标志位置False
    15. text_flag = False

    新文件内容示例:
    论语-原文.txt

    1. 子曰:“学而时习之,不亦说乎?有朋自远方来,不亦乐乎?人不知,而不愠,不亦君子乎?”
    2. 有子曰:“其为人也孝弟,而好犯上者,鲜矣;不好犯上,而好作乱者,未之有也。君子务本,本立而道生。孝弟也者,其为人之本与?”
    3. 子曰:巧言令色,鲜仁矣。”
    4. 曾子曰:“吾日三省吾身。为人谋而不忠乎?与朋友交而不信乎?传不习乎?”
    5. 子曰:“道千乘之国,敬事而言,节用而爱人,使民以时。”