人类身高吧 关注:14,106贴子:221,729
  • 17回复贴,共1

黑子总拿正态分布来定义数据质量,但是正态分布和样本量强相关!

只看楼主收藏回复





数据转自新身高吧,
@飞机引擎直径却3米多
设该地区18岁男平均175标准差6,女平均162标准差5.5。不同规模随机取样直方图。
有的黑子总喜欢拿几万人样本的大学体测数据(再以各种理由篡改原始数据)绘制钟型正态分布,再以其他样本没有这么大的数据不符合正态分布为由,进行“打假”。比如北京理工附中,台北成渊中学,分性别500~600样本,样本规模接近图2,平滑性当然不可能像图3,图4一样。
这一点大家可能没有太关注,总结一下黑子的伎俩:用混有外地人的体测数据来黑某地身高、(尤其是黑山东,黑龙江等省),比如齐鲁工业大学,只有77%的本省户籍,哈尔滨工程大学只有19%本省户籍。再把数据论证为穿鞋,并且把平均2.5厘米左右的实增效果夸张到3厘米+。
除了大学体测,其他很多几百人样本的数据尽管测量严格,但是因为样本量不够海量,因此不可能像图3图4一样,所以“XX数据不符合正态分布,因此数据造假“这句话是典型的掩耳盗铃,阿Q心理。


IP属地:山东1楼2024-09-13 12:27回复
    阿弥陀佛20186、TRLVOSER、秃鹫vs灰狼. . . 被楼主禁言,将不能再进行回复
    四个图的样本量分别为:
    班级规模 vs 年级规模 vs 万级样本量 vs 十万级样本量


    IP属地:山东2楼2024-09-13 12:29
    收起回复

      班级规模样本量的正态分布


      IP属地:山东3楼2024-09-13 13:00
      回复

        年级规模样本量的正态分布


        IP属地:山东5楼2024-09-13 13:00
        回复

          万人规模样本量的正态分布


          IP属地:山东6楼2024-09-13 13:01
          回复

            十万人规模样本量的正态分布


            IP属地:山东7楼2024-09-13 13:01
            回复
              正态分布和质量无关,都穿鞋,样本量大也符合正态分布,质量再,好样本量少,也不符合正态分布,所以正态分布不能作为质量好不好的标准


              IP属地:江西来自Android客户端8楼2024-09-13 17:47
              回复
                IP属地:山东来自Android客户端9楼2024-09-20 16:35
                回复
                  但是身高在170,175,180,185明显突出肯定有问题。


                  IP属地:辽宁来自Android客户端10楼2024-09-21 08:47
                  收起回复


                    IP属地:山东来自Android客户端12楼2024-12-17 11:32
                    回复
                      IP属地:山东来自Android客户端13楼2024-12-17 11:46
                      回复