讨论者:@DD6181S03(dd6181s03)和他的同学(了解Web开发、机器学习、NLP、模型生产化部署)

关于能够获取问卷信息的个体

下称“取数据者”(希望有人能想个更好的名字)
谁能够从我们的平台获取问卷结果,我们要不要对取数据者的身份和用途进行审查
是否允许商业公司从我们的平台取得数据
假设我们的平台存有的样本量很大(例如:一万人)根据取数据者项目的大小,要不要只允许其取得一部分数据,比如一个课程设计,原则上只需要200人的样本量,那我们是不是只给他200人的数据就够了
是否允许取数据者在取得数据前对数据的部分属性进行筛选,例如:只要浙江大学的学生,只要2020级的学生,只要男性,只要18岁以上……

关于主观题的答案

是否可以使用NLP等技术,提取主观题题目的语义,提取主观题答案中的关键词和情感倾向。
给一般的取数据者返回主观题答案时,只返回我们提取出来的信息,不让他们取得原本的答案。
想到这一点有以下几个原因:

  • 如果允许取数据者申请添加主观题,可能会带来主观题的重复,实现主观题语义识别后,取数据者在设计主观题的时候,用自己需要的问题去既有问题里搜索,如果有类似的,就可以直接取用
  • 由于第一点原因,用户回答主观题时的原本答案可能和提问者的原本问题在表达方式上不能完全符合,返回提取结果更有利于提问者处理数据
  • 不提供用户的主观题答案更保护用户隐私?

当然,对于可信的、有处理能力的取数据者,我们也可以开放主观题答案原文的获取。

关于用户个人信息授权的合规性

根据我们两个的印象,中国的数据保护法律法规要求收集个人信息时需要详细说明收集哪些信息、收集信息的用途、收集的信息会被共享给的对象等。在我们的使用场景中,用户在提交问卷结果时,不能完全得知自己的信息在将来可能被分享给谁。我们应该如何向用户说明这个情况,这种情况下收集并共享个人信息是否在法律允许的范围之内。