人类身高吧 关注:14,208贴子:227,196
  • 10回复贴,共1

黑子总拿正态分布来定义数据质量,但是正态分布和样本量强相关!

取消只看楼主收藏回复





数据转自新身高吧,
@飞机引擎直径却3米多
设该地区18岁男平均175标准差6,女平均162标准差5.5。不同规模随机取样直方图。
有的黑子总喜欢拿几万人样本的大学体测数据(再以各种理由篡改原始数据)绘制钟型正态分布,再以其他样本没有这么大的数据不符合正态分布为由,进行“打假”。比如北京理工附中,台北成渊中学,分性别500~600样本,样本规模接近图2,平滑性当然不可能像图3,图4一样。
这一点大家可能没有太关注,总结一下黑子的伎俩:用混有外地人的体测数据来黑某地身高、(尤其是黑山东,黑龙江等省),比如齐鲁工业大学,只有77%的本省户籍,哈尔滨工程大学只有19%本省户籍。再把数据论证为穿鞋,并且把平均2.5厘米左右的实增效果夸张到3厘米+。
除了大学体测,其他很多几百人样本的数据尽管测量严格,但是因为样本量不够海量,因此不可能像图3图4一样,所以“XX数据不符合正态分布,因此数据造假“这句话是典型的掩耳盗铃,阿Q心理。


IP属地:山东1楼2024-09-13 12:27回复
    好狗不如喵、阿弥陀佛20186、TRLVOSER. . . 被楼主禁言,将不能再进行回复
    四个图的样本量分别为:
    班级规模 vs 年级规模 vs 万级样本量 vs 十万级样本量


    IP属地:山东2楼2024-09-13 12:29
    收起回复

      班级规模样本量的正态分布


      IP属地:山东3楼2024-09-13 13:00
      回复

        年级规模样本量的正态分布


        IP属地:山东5楼2024-09-13 13:00
        回复

          万人规模样本量的正态分布


          IP属地:山东6楼2024-09-13 13:01
          回复

            十万人规模样本量的正态分布


            IP属地:山东7楼2024-09-13 13:01
            回复
              IP属地:山东来自Android客户端9楼2024-09-20 16:35
              回复
                IP属地:山东来自Android客户端13楼2024-12-17 11:46
                回复
                  IP属地:山东来自Android客户端14楼2025-02-12 02:04
                  回复


                    IP属地:山东来自Android客户端15楼2025-02-19 21:15
                    回复
                      如果轻微的出现在170,175,180堆积,属于正常现象,因为人工读数会习惯性 往整数上看齐,比如180.1和179.9都很容易被读数成180.0(机器读数不会,无论是超声波还是电动轨道压头皮)
                      如果样本量可观,但是仍然在170.175.180等特殊特殊堆积特别严重,则最有可能的产生原因为数据非实测,而是自报。
                      因此,只要是机器读数,都不会出现数值堆积。
                      数据符合正态分布与否,样本量的充足是必要条件。一个测量严格的数据,如果样本量在一万以下,也不可能符合完美正态分布曲线。反之,一个完美符合正态分布的数据,也未必测量严格!


                      IP属地:山东来自Android客户端18楼2025-02-19 21:26
                      回复