算法

白天 夜间 首页 下载 阅读记录
  我的书签   添加书签   移除书签

NLP数据来源

浏览 201 扫码 分享 2023-03-29 16:48:07

    wiki n-grams数据
    https://nlp.cs.nyu.edu/wikipedia-data/

    若有收获,就点个赞吧

    0 人点赞

    上一篇:
    下一篇:
    • 书签
    • 添加书签 移除书签
    • 数学统计知识
      • 数据分析之方法论
      • Python数据分析之技术要点思维导图汇总
      • Python数据分析之技术要点思维导图汇总2
      • 假设检验(二)
      • 假设检验的应用(一)
      • 假设检验的应用(二:A/B Test)
      • 假设检验的应用(三:特征选择)
      • 单因素方差分析与线性回归的关系
      • 统计学常用的数据分析方法总结
      • 横截面数据、时间序列数据、面板数据
    • 算法与机器学习
      • 模型参数记录
      • 工具
        • 手动安装tensorflow
        • tensorflow serving使用记录
        • docker搭建tensorflow与keras环境
          • windows搭建gpu tensorfolw
          • tensorflow2 小工具
          • tensorflow-gpu报错处理
        • 模型的保存和导入
          • tensorflow checkpoint 转saveModel
        • sklearn总结
        • tensorflow2使用
      • 机器学习基本概念
        • 基础
          • 特征工程
            • 特征工程概述
            • 特征工程——方差筛选
            • 特征工程--过滤法(方差分析、假设检验)
            • 特征选择——基于模型的选择
          • 标准化与归一化的区别
          • 极大似然估计
          • softmax函数和sigmoid函数
          • 目标函数、损失函数、代价函数的区别
            • 损失函数对比1
          • 优化算法
            • 梯度下降
          • 模型评价指标
            • 二分类详细指标
            • 多分类策略
            • 二分类、多分类与多标签问题的区别,对应损失函数的选择
            • 二分类与多分类评价指标
            • 学习曲线
        • 机器学习入门模型
          • 贝叶斯模型
          • LogisticRegression
            • LR 并行化
          • PCA
            • PCA数学理论
            • PCA实践案例
          • SVM
            • SVM原理
            • 补充(基于libsvm)
            • KKT条件
            • 核函数
          • KMeans
            • 聚类个数的确定
          • 决策树家族
            • 决策树(上)——ID3、C4.5、CART
            • 决策树(中)——Random Forest、Adaboost、GBDT
            • 决策树(下)——XGBoost、LightGBM
          • Rank
            • TF-IDF与TextRank
            • PageRank
          • 模型融合
            • 模型融合之Stacking技术
        • 常用的组件
          • 知识蒸馏
      • 第三方协助算法
        • faiss
          • faiss 快速求向量相似度的工具
          • faiss详解
          • faiss实战
        • trie tree 字典树(前缀树)模糊搜索用
      • NLP
        • 主题建模
          • LDA建模
        • NLP预训练概述
          • 工具库
          • NLP数据来源
          • NLP模型概况
          • 残差网络
          • LR、Sigmoid、softmax
        • 预训练/模型
          • 预训练模型概述
          • fasttext文本分类器
          • TextCNN
          • RNN
            • RNN基本结构
            • 双向语言模型
          • attention模型
          • transformer (attention is all you need)
            • Transformer 英文原本
          • BERT
            • BERT:一切过往, 皆为序章
            • Bert模型下载使用
            • (必读)自然语言模型预训练的发展翔史
            • 图示详解BERT模型的输入与输出
            • TinyBERT模型(理论)
            • TinyBERT模型(实战)
          • transformers语言模型
        • 下游具体任务
          • 序列标注
            • 序列标注
            • 实例(BiLSTM CRF)
            • viterbi算法
            • Bi-LSTM CRF(命名实体识别)
          • 知识图谱
            • 知识图谱概述
          • 文本分类
            • 文本分类代码
      • 统计学算法与智能算法
        • 蒙特卡罗算法
      • 用户画像
        • 用户画像的作用
        • 用户画像概念
        • 构建框架
      • 社区发现(Community detection)
        • pyspark使用graphframes
        • 社区发现概述
      • 推荐系统
        • 推荐系统概述
        • 推荐算法发展里程碑
        • 参考文档
        • surprise实现推荐算法
        • SVD算法
        • 1. 基于用户的协同过滤算法
        • 2. 基于项目的协同过滤算法
        • Wide 与 Deep
        • Youtobe推荐系统模型
      • 异常检测
        • PCA异常检测
    • 面试
      • 非技术问题、HR问题
    • 项目实例
    暂无相关搜索结果!

      让时间为你证明

      展开/收起文章目录

      分享,让知识传承更久远

      文章二维码

      手机扫一扫,轻松掌上读

      文档下载

      请下载您需要的格式的文档,随时随地,享受汲取知识的乐趣!
      PDF文档 EPUB文档 MOBI文档

      书签列表

        阅读记录

        阅读进度: 0.00% ( 0/0 ) 重置阅读进度

          思维导图备注