El problema está en la lectura de esa probabilidad de 0,5. Significa, como bien dices, que en un suceso independiente, la probabilidad de sacar cara o de sacar cruz es 0,5, pero no significa que en 1000 tiradas, la mitad sean cara y la mitad sean cruz, aunque determina la probabilidad de que eso sea así. Existe una probabilidad de que las 1000 sean cara o cruz, que es 0,5 elevado a 1000 (un número muy pequeño).
Usando menos tiradas como ejemplo, si haces 5 tiradas, la probabilidad de que salgan todas caras o cruces es 0,5^5=0,03125 (3,125%). La probabilidad de que salga 1 cara y 4 cruces es la misma, pero hay 5 formas de conseguirlo (H=cara, T=cruz): H-T-T-T-T, T-H-T-T-T, T-T-H-T-T, T-T-T-H-T, T-T-T-T-H, por lo que la probabilidad es 5x0,5^5=0,15625 (15,625%).
Cuando nos llevamos el tema a un número de tiradas grande, la distribución se acerca a una normal, que es una curva gaussiana centrada en n/2 (mismo número de caras que de cruces), pero la probabilidad de que no sean mitad y mitad no es nula, ni para 1000 ni para un millón de tiradas.
Llevándolo a vuestro ejemplo, como bien dice Knownuthing, el experimento de tirar 950 veces tiene más probabilidad de ocurrencia 475 de cada, lo que no significa que vaya a ocurrir de esa forma. Lo importante es, de hecho, que al ser completamente independientes, lo que haya ocurrido antes no tiene absolutamente ninguna influencia en tiradas posteriores, así que "descontar las 50 primeras caras" realmente no tiene sentido. Esto es propio de procesos sin memoria.
Es posible calcular la probabilidad de ocurrencia de X caras y Y cruces, pero que anteriormente haya habido X' caras y Y' cruces no influye en dicha probabilidad.