【指标】
含义:衡量关键词热度和新颖度的综合指标,核心由 关键词搜索量 和 搜索相对增长量组成
算法:见下文 【关于 KL_Score得分】
含义:该词语 每次 被搜索后,结果有多少次被点击;PV层的搜索结果点击的概率
算法: searchx_result_pv / search_pv
<结果点击人均>
含义:搜索该词后,人均点击结果数量
算法: searchx_result_pv / searchx_result_uv
含义:该词语搜索量
算法:searchx 动作统计
含义:搜索结果点击量
算法: searchx_result 动作统计
含义:过去7天最大搜索结果点击量(前4个字母是Maximum 7days Searchx Result)
算法:对每个词 从过去7天的 searchx_result_pv 中选取最大值
含义:该词语被搜索后,有多少占比的人会点击结果 ;UV层的搜索结果点击的概率
算法: searchx_result_uv / search_uv
含义:搜索该词的用户数量
算法: searchx 用户统计
< searchx_result_uv>
含义:点击该词的搜索结果的用户数量
算法: searchx_result 用户统计
【关于 KL_Score得分 —— 用数学符号描述热门事件】
· 终极目标:挖掘有价值的信息,并及时传递给用户
· 何为有新闻价值?
新闻价值是新闻事实本身所包含的满足社会需求的素质的总和。社会需求素质包括: ①公众的利益、 ②人体感官诉求。
所以,拆分成两点:
其一是公众利益 包括: 经济利益,也包括安全、公正、道德、荣誉、审美等社会价值利益;
其二是 感官诉求: 好奇、趣味、从众 等的心理满足
社会利益这个和社会经济、文化有关不同的国家有不同的国情,但是人的感觉是相通的,人都有猎奇、从众的心理,热门新闻除了对社会价值讨论外,无外乎命中了人的心理诉求。在刨除社会利益利益,如何用用户数据纯粹地挖掘热门事件是下文的主要内容。
· 不讨论利益,纯粹的挖掘热门事件
案例:#王宝强 #共享单车 #机器学习与人工智能
一个热门标签应该是一个比平常使用的更多的标签,是发生在某一时刻的特殊事件。

· 热门通常会包含三个要素:
人气(Popularity)——热门应该是让我们社会中的很多人都感兴趣的。
新奇度(Novelty)——热门应该是关于新的东西的。人们并没有在之前发布过,或是发布的数量不多。
时效性(Timeliness)——当真实的事件发生的那一瞬间。
· 量化热门的三个维度
人气值:用户搜索量,搜索结果点击量
新奇度:实际与预期的比较
时效性:最近发生的数据
· 关于新奇度的数学描述
围绕着一个成语展开:出乎意料
多大程度上出乎意料:实际观察指标 / 预测指标
为了与人气值拟合:这样算出来的数会有两个影响因子,一是实际与预测本身的差额,另外一个是本身数量级,为了让函数在数量级高的时候收敛,对出乎意料的程度取对数,使人气值与之有足够抗衡的力量,最后与人气值相乘,形成综合指标
为了降低算法复杂度同时排除非热门周期性事件的噪音干扰,选择过去发生中的最大值作为预测指标
为了筛掉搜索命中率低的词,选择搜索结果pv作为观察与预测指标
实际计算模型 P(h, t)为单位时间的观察值的函数处理(单个词搜索结果与总量的占比 即 人气值) P’(h, t)为过去七天的最大值作为预测,K为常数使头部结果为大于100的数:
S(h, t) = K × P(h, t) ln(P(h, t)/P’(h, t))

=———————————————————- 分 割 线 ——————————————————————————
———————————————- 以下纯属学(瞎)术(扯) —————————————————————=
【拓展与延伸】
· 关于社会价值 —— 人性的延伸
马斯洛关于人的需要的分层理论,他在《动机与人格》一书中提出,人的需要分为五个层次:首先是生理的需要,其次是安全的需要,再次是社交的需要,第四是心理需要,第五是自我实现的需要,五种需要的层次是越来越高,人们在满足了较低层次的需要后会依次提出较高层次的需要,也可以说人的需要是分为生理与心理需要的。那么我们可以按照马斯洛的需求理论认为新闻价值应该包括以下几个方面:
- 生理
因为,一般只有人们在满足了衣、食、住、行等生理需要后,才会谈到其他的需要。若新闻越能满足人们急切需要的物质生存资料,那么它的新闻价值就越大,特别是在物资紧缺的年代,这种表现就更明显。这也能够解释为什么在经济发展落后的地区,有关有关柴米油盐供应的新闻就,更能满足老百姓的需要,而在经济发展比较发达的地区,有关柴米油盐供应的新闻就少受受众的青睐。当然,这不是绝对的,它与一个地区人们的文化素质和人们的心态是紧密联系的。若人们的基本需要已满足,人们又不思进取,那么这种新闻便会失去它的吸引力。但是人们的基本的需求是不一样的,例如在经济发达的地区,有关房地产的新闻会更吸引受众的兴趣。在不同的地区,基本需求各不相同。
- 安全
受众对事关自己利益的事特别关注,它于第一点是紧密相连的,但是它并没有第一点那么关系到生存的问题。如比较关注有关权益保护的问题。新闻的阶级性问题可以在这一部分得到说明,人们处于一定的阶级中,为了求得一定的安全感,人们必须对于阶级问题有个态度,或支持,或反对。
- 社交
人们比较关注的是归属感,突出表现在人们对于与自己接近性的问题比较感兴趣,包括心理与地理的接近。
- 心理
满足自己的自尊、尊重、权威与地位等的需要,如对于国家及个人荣誉的问题比较感兴趣。中国地位提升的新闻会受到受众的注意。对于有关自己的荣誉的新闻,受众会更加关注。
- 自我实现
对于提升自己的人生价值的新闻的需要,如,对于培训机会的获得的新闻的关注等等。
· 关于信息熵 —— 信息量的度量
在信息论中,熵是接收的每条消息中包含的信息的平均量,又被稱為信息熵、信源熵、平均自信息量。这里,“消息”代表来自分布或数据流中的事件、样本或特征。(熵最好理解为不确定性的量度而不是确定性的量度,因为越随机的信源的熵越大。)来自信源的另一个特征是样本的概率分布。这里的想法是,比较不可能发生的事情,当它发生了,会提供更多的信息。
· 关于热词引导 —— 产品模型

