Zadania z histogramem: jak wyznaczać liczebności i gęstości

0
28
Rate this post

Spis Treści:

Czym jest histogram i po co go używać w zadaniach?

Histogram jako narzędzie do liczenia liczebności

Histogram to jeden z najpraktyczniejszych wykresów w statystyce opisowej. Pokazuje, jak rozkładają się wartości zmiennej liczbowej, dzieląc oś na przedziały i zliczając, ile obserwacji wpada do każdego z nich. W zadaniach z histogramem najczęściej chodzi o wyznaczanie liczebności (ile obserwacji) oraz gęstości (jaka część lub procent danych w danym przedziale w przeliczeniu na szerokość przedziału).

Na osi poziomej znajdują się przedziały klasowe (np. wzrost 160–165 cm, 165–170 cm itd.), na osi pionowej – wysokości słupków. Interpretacja tych wysokości zależy od rodzaju histogramu: w jednych zadaniach słupki reprezentują liczebności, w innych – częstości, a w bardziej zaawansowanych – gęstości. To rozróżnienie jest kluczowe dla poprawnego rozwiązywania zadań.

Histogram łączy więc graficzną prezentację danych z konkretnymi obliczeniami: z jego pomocą można odczytać liczbę obserwacji w określonych zakresach, obliczyć prawdopodobieństwo zajścia zdarzenia (np. „losowo wybrana osoba ma wzrost między 170 a 180 cm”) czy oszacować parametry rozkładu. W wielu ćwiczeniach zadanie brzmi pozornie prosto („odczytaj z histogramu…”), a trudność polega na zrozumieniu, czy chodzi o liczebności, czy o gęstości.

Różnica między histogramem a wykresem słupkowym

W wielu materiałach pojawia się zamieszanie między histogramem a zwykłym wykresem słupkowym (bar chart). Tymczasem z punktu widzenia rozwiązywania zadań z histogramem, rozróżnienie jest fundamentalne. Histogram dotyczy zmiennych ciągłych lub przedziałowych i opiera się na przedziałach, a nie na pojedynczych kategoriach. Słupki w histogramie stykają się ze sobą, bo zakresy są ciągłe.

Na wykresie słupkowym prezentuje się zwykle zmienne jakościowe lub dyskretne (np. liczba osób w grupach: A, B, C), słupki są rozdzielone i nie ma pojęcia szerokości przedziału. W zadaniach z histogramem szerokość przedziału jest natomiast nieodzowna, bo:

  • wpływa na pole słupka,
  • od niej zależy sposób obliczania gęstości,
  • umożliwia porównywanie słupków o różnych szerokościach.

W ćwiczeniach egzaminacyjnych często pojawia się histogram z nierównymi przedziałami. Wtedy zwykłe „odczytanie wysokości słupka” nie wystarcza, bo porównywać należy pola, a nie same wysokości. To typowa pułapka dla osób, które traktują histogram jak bar chart.

Histogram w ujęciu liczebnościowym a w ujęciu gęstościowym

W zadaniach ze statystyki szkolnej histogram bywa rysowany tak, że wysokość słupka odpowiada po prostu liczbie obserwacji w danym przedziale. Wtedy mówimy o histogramie liczebnościowym. Szerokości przedziałów są zwykle równe, więc pole słupka jest proporcjonalne do liczebności, ale rzadko jest to akcentowane.

W bardziej zaawansowanych zadaniach (matura rozszerzona, studia, analityka danych) pojawia się histogram gęstości. W takim przypadku wysokość słupka to gęstość, a liczebność (lub częstość) odczytuje się jako pole słupka. Suma pól wszystkich słupków bywa wtedy równa 1 (jeśli mamy histogram rozkładu prawdopodobieństwa) lub całkowitej liczbie obserwacji (jeśli mówimy o gęstości przeskalowanej do liczebności).

Rozwiązując zadania z histogramem, trzeba umieć szybko rozpoznać, czy oś pionowa opisuje:

  • liczebność – wtedy pole słupka ma mniej istotne znaczenie, a kluczowa jest jego wysokość,
  • częstość (relatywną) – wysokość słupka mówi, jaki to ułamek całej próby,
  • gęstość – wtedy pole słupka = częstość w tym przedziale.

Zmiana tego punktu widzenia decyduje o sposobie liczenia liczebności i gęstości na podstawie histogramu oraz o interpretacji zadań probabilistycznych.

Kluczowe pojęcia: liczebność, częstość, gęstość w histogramie

Liczebność: ile obserwacji przypada na przedział

Liczebność (oznaczana często symbolem n lub f) to po prostu liczba jednostek w danym przedziale. Jeżeli mamy 100 osób i 25 z nich ma wzrost między 170 a 175 cm, liczebność dla przedziału [170, 175) wynosi 25. W histogramie liczebnościowym wysokość słupka dla tego przedziału jest równa 25 (lub jest z nim liniowo powiązana, np. w innej skali).

W typowych zadaniach można spotkać dwa problemy z liczebnością:

  • odczytanie liczebności z histogramu (gdy skala jest podana),
  • odtworzenie histogramu, gdy podana jest tabela liczebności.

Liczebność jest zwykle najprostsza do zrozumienia, ale gdy tylko przedziały są nierówne, trzeba uważać. Histogram potrafi wprowadzić w błąd, jeśli weźmiemy pod uwagę tylko wysokość słupka bez szerokości przedziału. Sama liczebność nie uwzględnia tego, jak „rozciągnięty” jest zakres zmiennej, a gęstość już tak.

Częstość i częstość względna: krok pośredni do gęstości

to liczebność podzielona przez całkowitą liczbę obserwacji. Częstość względna mówi, jaki ułamek lub procent wszystkich danych mieści się w danym przedziale. Jeśli w przedziale mamy 20 obserwacji, a całkowita liczba obserwacji wynosi 100, częstość względna to 0,2 (czyli 20%).

W wielu zadaniach z histogramem prosi się o:

  • obliczenie udziału danych w danym przedziale,
  • porównanie częstości między przedziałami,
  • sprawdzenie, czy suma częstości jest równa 1 lub 100%.

Częstość nie uwzględnia jednak szerokości przedziału. Dwa przedziały mogą mieć taką samą częstość, ale zupełnie różne długości na osi X. Gdy potrzebne jest porównywanie „zagęszczenia” obserwacji na jednostkę długości, wchodzi do gry pojęcie gęstości.

Gęstość: częstość na jednostkę szerokości przedziału

Gęstość w histogramie to miara mówiąca, jak bardzo „skupione” są obserwacje w danym przedziale, w przeliczeniu na jednostkę długości przedziału. W najprostszej postaci:

gęstość = liczebność / (całkowita liczba obserwacji × szerokość przedziału)

Gdy histogram jest znormalizowany tak, aby pole pod wykresem wynosiło 1, wysokość słupka to właśnie gęstość prawdopodobieństwa. W zadaniach szkolnych częściej spotyka się wersję:

gęstość przeskalowana do liczebności = liczebność / szerokość przedziału

W tej interpretacji pole słupka to nadal liczebność, ale wysokość informuje, ile obserwacji przypada na jednostkę długości przedziału. Jest to podstawowy mechanizm przy histogramach z nierówną szerokością klas.

Gęstość bywa mylona z częstością, bo obie związane są z „udziałem” danych. Różnica jest jednak zasadnicza:

  • częstość odnosi się do proporcji obserwacji w całej próbie,
  • gęstość dodatkowo dzieli tę proporcję przez szerokość przedziału.
Polecane dla Ciebie:  Jak Netflix używa statystyki, by polecać Ci filmy

Bez zrozumienia tej różnicy trudno sensownie rozwiązywać zadania, w których porównuje się „zagęszczenie” danych na różnych odcinkach osi.

Wykresy warstwowe i dane statystyczne wydrukowane na kartkach
Źródło: Pexels | Autor: RDNE Stock project

Jak krok po kroku wyznaczać liczebności z histogramu

Odczytywanie liczebności przy równych przedziałach

Najprostsza sytuacja to histogram z równymi przedziałami, gdzie oś pionowa przedstawia liczebności. Wtedy liczebność w danym przedziale jest po prostu wysokością słupka (z dokładnością do jednostek skali na osi Y). Procedura jest bardzo prosta:

  1. Zidentyfikuj interesujący przedział (np. [10, 20)).
  2. Odczytaj wysokość słupka z osi pionowej.
  3. Uwzględnij jednostki skali (np. jeśli jedna działka to 5 osób, a słupek ma wysokość 3 działek, liczebność = 15).

Przykład praktyczny: raport z firmy przedstawia histogram czasów realizacji zamówień w godzinach, w przedziałach co 2 godziny. W przedziale 4–6 godzin słupek ma wysokość 40. Oznacza to, że 40 zamówień zrealizowano w czasie od 4 do 6 godzin. Łączna liczba zamówień to suma wysokości wszystkich słupków.

Wyznaczanie liczebności z histogramu gęstościowego

Gdy oś pionowa pokazuje gęstość, liczebność w przedziale nie jest równa wysokości słupka. Wtedy trzeba skorzystać z faktu, że pole słupka = liczebność (lub częstość). Jeżeli histogram jest znormalizowany do częstości (suma pól = 1), liczebność otrzymamy po przemnożeniu przez całkowitą liczbę obserwacji.

Schemat obliczeń jest wtedy następujący:

  1. Odczytaj wysokość słupka (gęstość) z osi pionowej.
  2. Odczytaj szerokość przedziału na osi poziomej.
  3. Oblicz pole słupka: pole = wysokość × szerokość.
  4. Jeśli suma pól wszystkich słupków wynosi 1, to:

    • pole = częstość w tym przedziale,
    • liczebność = częstość × całkowita liczba obserwacji.
  5. Jeśli suma pól wszystkich słupków wynosi N (liczbę obserwacji), to:

    • pole = liczebność bezpośrednio.

W zadaniach trzeba uważnie czytać opis: często jest tam zdanie typu „Suma pól wszystkich słupków jest równa 1” lub „Powierzchnia całego histogramu odpowiada 200 badanym osobom”. Na tej podstawie ustala się sposób przeliczenia pola na liczebność.

Zadania z nierównymi przedziałami: rola pola słupka

Nierówne przedziały to klasyczna pułapka w zadaniach z histogramem. Jeśli przedziały mają różną szerokość, to nie wolno porównywać samych wysokości słupków jako liczebności, bo wtedy szerszy przedział „łapie” więcej danych po prostu dlatego, że obejmuje większy zakres.

W takim przypadku:

  • dla histogramu liczebnościowego – wysokość słupka nadal odpowiada liczebności, ale pola nie są ustandaryzowane (większe przedziały mają większe pole tylko dlatego, że są szersze),
  • dla histogramu gęstościowego – wysokość słupka jest tak dobrana, aby pole odzwierciedlało proporcje liczebności w całej próbie.

W zadaniach porównawczych („w którym przedziale jest największa liczba obserwacji?”) dla histogramu gęstościowego należy porównywać pola słupków, a nie ich wysokość. Dla histogramu liczebnościowego, przy danych na osi Y, wystarczy odczytać wysokości, ale przy braku opisanej skali można operować względnymi wysokościami (np. widać, że słupek dla [10, 20) jest dwa razy wyższy niż dla [20, 30), więc ma dwa razy większą liczebność).

Wyznaczanie gęstości na podstawie liczebności i histogramu

Prosta definicja gęstości na histogramie

W najbardziej praktycznym ujęciu, gdy w zadaniu mamy podane liczebności w przedziałach oraz ich szerokości, gęstość w i-tym przedziale można obliczyć jako:

gęstośći = liczebnośći / (N × szerokośći)

gdzie:

  • liczebnośći – liczba obserwacji w i-tym przedziale,
  • N – łączna liczba obserwacji,
  • szerokośći – długość przedziału na osi X.

Tak zdefiniowana gęstość ma tę własność, że suma pól wszystkich słupków jest równa 1, czyli histogram reprezentuje rozkład prawdopodobieństwa w postaci dyskretnej aproksymacji. W zadaniach na prawdopodobieństwo z histogramu (np. z matur rozszerzonych) gęstość często rozumiana jest w tym sensie.

Gęstość przeskalowana do liczebności

Przeliczanie między gęstością a liczebnością

W zadaniach bardzo często trzeba „przeskakiwać” między różnymi opisami tego samego histogramu: raz podana jest gęstość, innym razem liczebność lub częstość. Dobrze mieć pod ręką kilka prostych wzorów przeliczeniowych.

Przyjmijmy, że:

  • hi – wysokość i-tego słupka (gęstość),
  • wi – szerokość i-tego przedziału,
  • ni – liczebność w i-tym przedziale,
  • N – łączna liczba obserwacji.

Najważniejsze relacje są wtedy następujące:

  • Jeśli histogram jest znormalizowany (suma pól = 1):

hi · wi = częstość względnai
ni = N · hi · wi

  • Jeśli histogram ma gęstość przeskalowaną do liczebności (pole = liczebność):

hi · wi = ni
hi = ni / wi

Różnicę między tymi dwoma przypadkami daje tylko to, czy pole słupka interpretujemy jako częstość (ułamek całości), czy bezpośrednio jako liczebność.

Jak rozpoznać, z jakim typem histogramu mamy do czynienia

Opis zadania rzadko mówi wprost „to jest histogram gęstościowy”. Zazwyczaj trzeba to odczytać pośrednio. Kilka podpowiedzi pomaga uniknąć pomyłek.

  • Jeśli w treści występuje zdanie w stylu: „Pole całego histogramu jest równe 1”, „Pole słupków odpowiada prawdopodobieństwom” – mamy histogram znormalizowany.
  • Jeśli oś pionowa jest podpisana jako „gęstość”, „prawdopodobieństwo na jednostkę”, „frequency density” – również chodzi o gęstość.
  • Jeśli oś pionowa opisuje „liczba osób”, „liczba pomiarów”, „liczebność” – to histogram liczebnościowy.
  • Jeżeli w zadaniu pojawia się informacja „suma pól wszystkich słupków odpowiada 200 uczniom” – oś pionowa pokazuje gęstość przeskalowaną do liczebności.

W razie wątpliwości można zrobić szybki test: policzyć przybliżoną sumę pól słupków:

  • jeśli wychodzi około 1 – pola oznaczają częstości względne,
  • jeśli wychodzi w okolicach podanej liczby badanych – pola oznaczają liczebności.

Pułapki przy nierównych przedziałach i jak ich unikać

Najwięcej trudności sprawiają zadania, w których przedziały mają różne szerokości, a pytanie dotyczy porównań typu „w którym przedziale jest największe zagęszczenie danych?” albo „w którym przedziale prawdopodobieństwo jest największe?”.

W takich przypadkach przydatne są dwa proste nawyki:

  1. Zawsze zapisuj szerokości przedziałów.
    Nawet jeśli z wykresu „na oko” coś jest dwa razy szersze, warto to symbolicznie nazwać (np. 2, 4, 5 jednostek). Bez tego trudno poprawnie liczyć pola.
  2. Rozróżniaj pytanie o „liczbę obserwacji” od pytania o „gęstość” lub „prawdopodobieństwo na jednostkę”.
    To są inne rzeczy:

    • „Gdzie jest najwięcej obserwacji?” → porównujemy liczebności (lub pola słupków).
    • „Gdzie dane są najbardziej skoncentrowane?” → porównujemy gęstości (wysokości słupków w histogramie gęstościowym).

Typowy błąd: uczniowie patrzą tylko na wysokość słupka w histogramie liczebnościowym z nierównymi przedziałami i uznają, że najwyższy słupek oznacza „największy udział danych”, choć szerszy, niższy słupek może mieć większe pole (a więc większą liczebność).

Przykładowe zadanie z nierównymi przedziałami

Rozważmy zadanie tekstowe, jakie pojawia się w arkuszach egzaminacyjnych. Podany jest histogram czasów spędzanych dziennie w internecie przez grupę osób. Przedziały mają szerokości 1 godzina, 2 godziny i 3 godziny, a na osi pionowej znajduje się gęstość przeskalowana do liczebności. Bez szczegółowej grafiki można opisać schemat rozwiązania.

  1. Odczytaj z osi X przedziały, np. [0, 1), [1, 3), [3, 6).
  2. Odczytaj wysokości słupków: h1, h2, h3.
  3. Policz szerokości: w1 = 1, w2 = 2, w3 = 3.
  4. Oblicz pola słupków:
    • pole1 = h1 · 1,
    • pole2 = h2 · 2,
    • pole3 = h3 · 3.
  5. Jeśli z opisu wiadomo, że pola oznaczają liczebności, to:
    • ni = polei,
    • N = n1 + n2 + n3.
  6. Jeżeli natomiast suma pól ma być równa 1, to każde pole jest częstością względną, a liczebności liczymy jako ni = N · polei.

Pytanie „w którym przedziale najwięcej osób spędza czas w internecie?” prowadzi wtedy do porównania ni, a pytanie „w którym przedziale czas spędzany w internecie jest najbardziej skoncentrowany?” – do porównania samych hi.

Wyznaczanie łącznej liczby obserwacji z histogramu gęstościowego

Częsty typ zadania: podany jest histogram z gęstością (podpis na osi Y), wiadomo, że odpowiada on pewnej nieznanej liczbie pomiarów N, a w treści pojawia się informacja o rzeczywistej liczbie obserwacji w jednym z przedziałów. Na tej podstawie trzeba odtworzyć N.

Schemat bywa zawsze podobny:

  1. Dla przedziału, w którym znana jest liczebność nk, odczytaj wysokość słupka hk i szerokość wk.
  2. Pole słupka w histogramie znormalizowanym to hk · wk i jednocześnie częstość względna, czyli nk / N.
  3. Zapisz równanie: hk · wk = nk / N.
  4. Przekształć: N = nk / (hk · wk).

Po wyznaczeniu N można już obliczyć liczebności w pozostałych przedziałach, korzystając z tej samej zależności ni = N · hi · wi.

Konstruowanie histogramu z tabeli liczebności

Zdarza się, że w poleceniu trzeba samodzielnie narysować histogram na podstawie tabeli z przedziałami klasowymi i liczebnościami. Kiedy wszystkie przedziały są równe, jest to proste: wystarczy na osi Y nanieść liczebności. Gdy jednak szerokości się różnią, trzeba zdecydować, jaki typ osi pionowej przyjąć.

Polecane dla Ciebie:  Algorytmy rekomendacji – statystyka w tle YouTube i Spotify

Najczęściej w zadaniach z nierównymi przedziałami przyjmuje się wykres gęstościowy (normalizowany lub przeskalowany). Wtedy postępuje się tak:

  1. Wyznacz szerokość każdego przedziału wi na podstawie jego krańców.
  2. Odczytaj liczebności ni z tabeli i policz sumę N.
  3. Jeżeli histogram ma przedstawiać gęstość przeskalowaną do liczebności, oblicz:

    hi = ni / wi

    i nanoś na osi Y wartości hi. Wtedy pole każdego słupka jest równe ni.

  4. Jeżeli ma to być histogram znormalizowany (pole całkowite = 1), oblicz:

    hi = ni / (N · wi)

    i znowu zaznacz odpowiednie wysokości.

W praktyce nauczyciel lub treść zadania często podają, czy pole ma odpowiadać liczebności, czy prawdopodobieństwu. Nawet bez tego, po obliczeniu można szybko sprawdzić, czy suma pól wychodzi 1, czy N.

Porównywanie rozkładów na podstawie dwóch histogramów

Niektóre zadania przedstawiają dwa histogramy (np. dwóch klas, dwóch produktów, dwóch lat) i proszą o porównanie rozkładów. Często jeden z wykresów ma równe przedziały, drugi nierówne, a skale osi pionowej różnią się między sobą. Klucz leży w powrocie do definicji pola.

Aby porównać udziały danych w odpowiadających sobie zakresach:

  1. Sprowadź oba histogramy do tego samego „języka”. Najwygodniej pracować na:
    • częstościach względnych, jeśli interesują tylko proporcje,
    • liczebnościach, jeśli ważna jest rzeczywista liczba obserwacji.
  2. Jeżeli masz dostęp do tablicy liczebności – operujesz na niej. Jeśli nie, licz pola słupków (gęstość × szerokość) i interpretuj je w zgodzie z opisem osi pionowej.
  3. Patrz na pole w danym przedziale, a nie tylko na wysokość. Przedziały o różnej szerokości potrafią mieć podobne wysokości, ale zupełnie inne pola.

Prosty przykład z praktyki: analiza sprzedaży dwóch sklepów w przedziałach cenowych. W jednym histogramie użyto przedziałów co 10 zł, w drugim – szerokich przedziałów, łączących po kilka zakresów. Aby porównać udział sprzedaży np. w przedziale 50–100 zł, trzeba zsumować pola słupków tego przedziału w obu histogramach, a dopiero potem porównywać proporcje.

Interpretacja „pola pod histogramem” w kontekście prawdopodobieństwa

Przy histogramach znormalizowanych gęstość ma interpretację probabilistyczną. Ma to bezpośrednie przełożenie na zadania z rachunku prawdopodobieństwa.

  • Jeżeli histogram jest znormalizowany (suma pól = 1), to:
    • pole pod słupkami nad zakresem A oznacza P(X ∈ A),
    • pole pojedynczego słupka nad przedziałem [a, b) oznacza P(a ≤ X < b).
  • Jeżeli histogram odpowiada liczebnościom, to po przeskalowaniu przez N (podzieleniu wszystkiego przez liczbę obserwacji) uzyskujemy przybliżenie rozkładu prawdopodobieństwa.

Stąd wynika często spotykany w zadaniach krok: „oblicz prawdopodobieństwo, że zmienna losowa przyjmie wartość z przedziału [a, b)”, gdy dane są w postaci histogramu. Procedura jest zawsze ta sama:

  1. Wyznacz pole słupków leżących w przedziale [a, b).
  2. Jeśli histogram jest już znormalizowany – to jest szukane prawdopodobieństwo.
  3. Jeśli histogram przedstawia liczebności – podziel sumę liczebności w tym zakresie przez N.

Typowe błędy w zadaniach z histogramem

Kilka nawyków obliczeniowych pozwala znacząco ograniczyć liczbę błędów:

  • Ignorowanie szerokości przedziału.
    Uczniowie często zakładają, że wyższy słupek oznacza „więcej danych”, nawet jeśli jest dwukrotnie węższy. Antidotum: wpisywanie nad każdym słupkiem nie tylko wysokości, ale i pola.
  • Pomylenie liczebności z gęstością.
    Zadania: „Ilu uczniów ma wynik z przedziału [x, y)?” – odpowiedź nie może być w jednostkach „gęstości”, trzeba policzyć pole i ewentualnie przemnożyć przez N.
  • Dodatkowe pułapki i nieporozumienia przy odczytywaniu histogramu

    • Suma wysokości zamiast sumy pól.
      Przy szacowaniu udziału danych w kilku przedziałach część osób dodaje same wysokości słupków hi, zamiast ich pól hi · wi. Daje to przypadkowe wyniki, szczególnie gdy szerokości są mocno zróżnicowane.
    • Ignorowanie opisu osi Y.
      Na egzaminach często pojawia się podpis „gęstość”, „prawdopodobieństwo na jednostkę” albo „liczba osób na jednostkę przedziału”. Każdy z tych napisów oznacza inny sposób interpretacji wysokości. Zanim zacznie się liczyć, trzeba sprawdzić tę etykietę.
    • Mylenie jednostek na osi X.
      Gdy oś X jest opisana np. w minutach, a treść zadania mówi o godzinach, szerokości przedziałów trzeba przeliczyć. W przeciwnym razie gęstości wyjdą zniekształcone, bo w mianowniku są inne jednostki niż w tekście zadania.
    • Zaokrąglanie „na oko”.
      Przy odczytywaniu wysokości z rysunku kusi, żeby przyjąć „mniej więcej półtora”, „trochę ponad 3”. Gdy zadanie ma rozwiązanie liczbowe z klucza, lepiej oprzeć się na podziałce i punktach pomocniczych na osi Y, niż zgadywać.

    Strategia rozwiązywania zadań krok po kroku

    W zadaniach egzaminacyjnych kluczowe bywa nie tyle samo liczenie, co porządek działań. Przydatny schemat, który można stosować w większości przypadków:

    1. Odczytaj typ osi pionowej.
      Sprawdź, czy podpis mówi o:

      • liczebności,
      • gęstości (być może znormalizowanej),
      • częstości procentowej.
    2. Zapisz symbole.
      Dla każdego przedziału oznacz:

      • szerokość wi,
      • wysokość słupka hi,
      • pole Pi = hi · wi.

      Kilka liter na kartce często ratuje przed myleniem gęstości z liczebnością.

    3. Przekonwertuj wszystko do jednego „języka”.
      Decydujesz, czy dalej operujesz:

      • liczebnościami ni,
      • czy częstościami względnymi fi = ni/N.

      Potem już trzymasz się tej decyzji do końca zadania.

    4. Buduj równania z pól.
      Prawie wszystkie relacje typu „tyle procent danych w tym przedziale”, „dwa razy więcej osób niż w innym przedziale”, „suma dwóch przedziałów daje 60% obserwacji” da się zapisać jako:

      ∑ Pi = … lub Pi : Pj = …

      Gdy histogram jest znormalizowany – pola od razu są prawdopodobieństwami.

    5. Na końcu dopiero odpowiadaj na pytanie z treści.
      Po obliczeniach sprawdź, czy pytanie dotyczy liczby osób, procentu, czy może samego kształtu rozkładu (gdzie jest najwięcej, gdzie najmniej, jak się zmienia gęstość).

    Szacowanie wartości średniej i mediany z histogramu

    Częste zadanie: „Oszacuj średni czas…”, „Porównaj mediany rozkładów”, „Wskaż, czy mediana jest większa czy mniejsza niż…”. Histogram pozwala to zrobić przybliżeniowo, bez pełnej tabeli danych.

    Przybliżona średnia z histogramu

    Standardowe przybliżenie opiera się na traktowaniu wszystkich obserwacji w danym przedziale tak, jakby leżały w jego środku. Postępowanie:

    1. Dla każdego przedziału [ai, bi) policz środek:

      mi = (ai + bi) / 2

    2. Wyznacz liczebności ni. Jeśli ich nie ma, użyj:

      ni = N · hi · wi (dla histogramu znormalizowanego)

      lub wprost ni = hi · wi (gdy pole = liczebność).

    3. Oblicz przybliżoną średnią:

      średnia ≈ (∑ mi · ni) / N

    W zadaniach egzaminacyjnych często nie trzeba liczyć dokładnie. Wystarczy porównać, czy średnia będzie powyżej, czy poniżej określonej wartości. Wtedy wystarczy ocena „na oko”, po której stronie tej granicy leży większa część pola.

    Mediana na podstawie pola pod histogramem

    Mediana to punkt, dla którego połowa pola (liczebności) jest po lewej, a połowa po prawej. Praktyczna procedura:

    1. Policz (dokładnie lub przybliżenie z rysunku) sumy pól słupków od lewej strony, aż przekroczą 50% całości (lub N/2 przy liczebnościach).
    2. Znajdź przedział, w którym następuje „przeskoczenie” przez 50%.
    3. Jeżeli zadanie wymaga tylko wskazania przedziału mediany, odpowiedź jest gotowa.
    4. Jeżeli potrzebne jest przybliżenie liczby, można zlinearyzować rozkład w tym przedziale:

      załóż, że gęstość w tym przedziale jest w przybliżeniu stała, więc mediana leży w takim punkcie, aby pole po jego lewej stronie w tym przedziale „uzupełniło” brak do 50%.

    W praktyce egzaminacyjnej zwykle wystarcza wskazanie, że mediana należy do określonego przedziału albo że jest mniejsza/większa od jakiejś granicy (np. 30 punktów testowych).

    Jak z histogramu odczytać przedziały o największej koncentracji danych

    Gdy przedziały są równe, pytania typu „w którym przedziale wartości występują najczęściej?” sprowadzają się do porównania wysokości słupków. Przy nierównych przedziałach pojawiają się dwa różne, choć podobnie brzmiące pytania:

    • „W którym przedziale jest najwięcej obserwacji?” – porównujemy pola, czyli ni lub hi · wi.
    • „W którym przedziale wartości są najbardziej skoncentrowane (największa gęstość)?” – porównujemy same wysokości hi.

    Różnica jest istotna np. przy analizie zarobków: szeroki przedział „5–15 tys.” zł może mieć bardzo duże pole (dużo osób), ale średnia gęstość w nim bywa mniejsza niż w węższym przedziale „3–4 tys.” zł. W pierwszym dominuje liczba osób, w drugim – ich „zagęszczenie”.

    Histogram a wykres słupkowy – porównanie w kontekście zadań

    W zadaniach maturalnych i konkursowych oba typy wykresów lubią się pojawiać obok siebie. Mylenie ich prowadzi do złych wniosków.

    • Histogram:
      • oś X – ciągła lub quasi-ciągła (przedziały liczbowe),
      • słupki stykają się,
      • informacja o liczebności tkwi w polu słupka.
    • Wykres słupkowy:
      • oś X – kategorie jakościowe (np. klasy, kolory, marki),
      • między słupkami są przerwy,
      • wysokość słupka bezpośrednio odpowiada liczebności lub procentowi.

    Jeśli zadanie mówi o „przedziałach temperatur” lub „czasie w minutach”, zwykle będzie chodziło o histogram. Gdy pojawiają się nazwy miast czy modeli urządzeń, to sygnał, że mamy do czynienia ze zwykłym wykresem słupkowym i nie używa się tam pojęcia gęstości.

    Ćwiczenie: od histogramu do tabeli i z powrotem

    Dobrym sposobem na opanowanie zadań z histogramem jest regularne zamienianie go na tabelę liczebności i odwrotnie. Taki trening szybko ujawnia, na którym etapie pojawia się zamieszanie z szerokościami przedziałów.

    Przykładowy schemat ćwiczenia:

    1. Weź dowolny histogram z podręcznika lub arkusza.
    2. Dla każdego słupka spisz:
      • początek i koniec przedziału [ai, bi),
      • wysokość hi z osi Y.
    3. Wyznacz:
      • szerokość wi = bi − ai,
      • pole Pi = hi · wi.
    4. Na podstawie opisu osi Y zdecyduj, czy:
      • Pi to liczebność,
      • czy Pi to częstość względna i należy ją przemnożyć przez N,
      • czy wysokość hi jest już w jednostkach „osób” (wtedy liczebność ≈ wysokość).
    5. Zbuduj tabelę z kolumnami „przedział – szerokość – liczebność – częstość względna”.
    6. Użyj tej tabeli, by narysować ponownie histogram, ale już świadomie wybierając, czy będzie:
      • normalizowany (suma pól = 1),
      • czy przeskalowany do liczebności (suma pól = N).

    Po kilku takich rundach „tam i z powrotem” zależności typu ni = N · hi · wi przestają być abstrakcją – stają się odruchem.

    Histogram w zadaniach o rozkładzie zmiennej losowej

    W teorii prawdopodobieństwa histogram pojawia się jako przybliżenie rozkładu ciągłego. W praktycznych zadaniach to nadal ten sam obiekt, tylko opisany językiem zmiennej losowej X.

    • Gdy treść mówi: „Rozkład zmiennej losowej X jest przybliżony za pomocą histogramu”, to gęstość na osi Y bywa traktowana jako przybliżenie funkcji gęstości f(x).
    • Prawdopodobieństwo zdarzenia P(a ≤ X < b) oblicza się jako pole pod słupkami nad [a, b), identycznie jak przy danych empirycznych.
    • Jeśli w histogramie suma pól jest równa 1, nie trzeba już dzielić przez N, bo dane są od razu w skali probabilistycznej.

    Przykładowe typy pytań:

    • „Oszacuj P(X > c)” – sumuje się pola wszystkich słupków całkowicie na prawo od c, ewentualnie częściowo, jeśli c dzieli przedział.
    • „Oszacuj wartość oczekiwaną E(X)” – stosuje się tę samą technikę co przy średniej z danych grupowanych: środki przedziałów i ich pola.

    Praktyczne wskazówki do rozwiązywania zadań egzaminacyjnych

    Kilka prostych nawyków znacząco przyspiesza pracę na arkuszu:

    • Oznaczaj na rysunku dane pomocnicze.
      Delikatnie ołówkiem zaznacz środki przedziałów, ich szerokości i wartości pól. Nie trzeba od razu liczyć – sam szkic ułatwia późniejsze rachunki.
    • Sprawdzaj sumę pól.
      Po jednym, dwóch słupkach szybko orientujesz się, czy suma wszystkich pól będzie równa 1, czy raczej kilkudziesięciu / kilkuset. To natychmiast ujawnia skalę wykresu.
    • Porównuj, zanim liczysz dokładnie.
      W pytaniach typu „w którym przedziale jest więcej…” często wystarczy porównanie pól „na oko”, szczególnie gdy różnice są wyraźne. Szczegółowe rachunki zostaw na pytania z odpowiedzią liczbową.
    • Nie mieszaj skali absolutnej i względnej.
      Jeżeli na jednym wykresie masz procenty, a na drugim liczby osób – przed porównaniem koniecznie przelicz je do wspólnej postaci (np. wszędzie procenty).

    Najczęściej zadawane pytania (FAQ)

    Co to jest histogram i czym różni się od zwykłego wykresu słupkowego?

    Histogram to wykres używany do prezentacji rozkładu zmiennej liczbowej. Oś pozioma jest podzielona na przedziały (klasy), a dla każdego przedziału rysuje się słupek pokazujący, ile obserwacji wpada do tego zakresu. Słupki w histogramie stykają się, bo przedziały tworzą ciągły zakres wartości.

    Wykres słupkowy (bar chart) służy do prezentowania kategorii (np. A, B, C) lub wartości dyskretnych. Słupki są rozdzielone, a nie ma pojęcia szerokości przedziału. W histogramie szerokość przedziału ma kluczowe znaczenie, bo wpływa na pole słupka i obliczanie gęstości.

    Jak z histogramu odczytać liczebność w przedziale?

    Jeśli oś pionowa opisuje liczebność, to liczebność w danym przedziale jest równa wysokości słupka (z uwzględnieniem skali). Wystarczy:

    • znaleźć interesujący przedział na osi X,
    • odczytać wartość z osi Y dla wierzchołka słupka,
    • uwzględnić jednostkę skali (np. jedna działka = 5 osób).

    Gdy przedziały są równej szerokości, porównywanie liczebności między nimi jest proste: wyższy słupek oznacza większą liczebność.

    Jak obliczyć gęstość z histogramu i czym różni się ona od częstości?

    Gęstość w histogramie opisuje, jak „zagęszczone” są obserwacje w danym przedziale w przeliczeniu na jednostkę jego szerokości. Dla prostego histogramu często używa się wzoru:

    • gęstość przeskalowana do liczebności = liczebność / szerokość przedziału,
    • gęstość prawdopodobieństwa = liczebność / (całkowita liczba obserwacji × szerokość przedziału).

    Częstość względna to po prostu liczebność podzielona przez całkowitą liczbę obserwacji i nie uwzględnia szerokości przedziału. Gęstość dodatkowo dzieli tę proporcję przez długość przedziału, dzięki czemu pozwala porównywać „zagęszczenie” danych w przedziałach o różnej szerokości.

    Co oznacza, że histogram przedstawia gęstość, a nie liczebność?

    Jeżeli oś pionowa histogramu opisuje gęstość, to wysokość słupka nie jest bezpośrednio liczebnością. Liczebność (lub częstość) w przedziale odpowiada wtedy polu słupka, czyli wysokość × szerokość przedziału.

    W takim histogramie suma pól wszystkich słupków jest zwykle równa 1 (dla rozkładu prawdopodobieństwa) lub całkowitej liczbie obserwacji (dla gęstości przeskalowanej do liczebności). Rozwiązując zadania, trzeba więc zawsze sprawdzić opis osi Y: czy mamy „liczebność”, „częstość” czy „gęstość”.

    Jak liczyć liczebność z histogramu z nierównymi przedziałami?

    Przy nierównych przedziałach sama wysokość słupka nie wystarcza do porównań. Jeśli oś pionowa przedstawia gęstość, to liczebność w przedziale obliczamy jako:

    • liczebność = gęstość × szerokość przedziału × (ewentualnie całkowita liczba obserwacji, gdy gęstość jest zapisana względnie).

    Do porównywania przedziałów używamy wtedy pola słupka, a nie ich wysokości. Słupki o różnej szerokości mogą mieć różne wysokości, ale podobne pola, co oznacza zbliżoną liczebność.

    Jak z histogramu oszacować prawdopodobieństwo zdarzenia?

    Jeżeli histogram jest zbudowany na podstawie danych i znamy łączną liczbę obserwacji, to prawdopodobieństwo, że losowo wybrana obserwacja wpadnie do danego przedziału, można oszacować jako:

    • P(zmienna w przedziale) ≈ (liczebność w tym przedziale) / (całkowita liczba obserwacji).

    W histogramie gęstości prawdopodobieństwo odpowiada polu słupka nad tym przedziałem. Dla kilku sąsiednich przedziałów sumujemy odpowiednie pola. Dzięki temu histogram jest wygodnym narzędziem do przybliżonego liczenia prawdopodobieństw w zadaniach.

    Skąd mam wiedzieć, czy mój histogram pokazuje liczebność, częstość czy gęstość?

    Informację o tym zwykle znajdziesz w opisie osi pionowej lub treści zadania. Zwróć uwagę na oznaczenia typu: „liczba obserwacji”, „liczebność”, „częstość”, „%”, „gęstość”, „density”, „f(x)”.

    Jeżeli suma wysokości słupków nie ma sensu, ale suma pól słupków wynosi 1 lub całkowitą liczbę obserwacji, to najpewniej jest to histogram gęstości. W zadaniach egzaminacyjnych często wprost zaznacza się, że jest to histogram liczebnościowy albo gęstości, więc warto czytać nagłówki i podpisy wykresu bardzo uważnie.

    Esencja tematu

    • Histogram służy do przedstawiania rozkładu zmiennej liczbowej przez dzielenie osi na przedziały i zliczanie obserwacji w każdym z nich, co pozwala odczytywać liczebności, częstości i gęstości.
    • Kluczowa różnica między histogramem a wykresem słupkowym polega na tym, że histogram dotyczy zmiennych ciągłych/przedziałowych (stykające się słupki, istotna szerokość przedziałów), a bar chart zmiennych jakościowych/dyskret­nych (rozdzielone słupki, brak szerokości przedziału).
    • W histogramie liczebnościowym wysokość słupka bezpośrednio odpowiada liczbie obserwacji w przedziale, a szerokości przedziałów zwykle są równe, przez co pole słupka jest proporcjonalne do liczebności.
    • W histogramie gęstościowym wysokość słupka oznacza gęstość, a liczebność lub częstość w przedziale odczytuje się z pola słupka; suma pól może być równa 1 (rozkład prawdopodobieństwa) lub całkowitej liczbie obserwacji.
    • Przy nierównych przedziałach nie wolno porównywać samych wysokości słupków – poprawne wnioski otrzymuje się dopiero z porównania pól, co wymaga uwzględnienia szerokości przedziału.
    • Liczebność mówi, ile obserwacji przypada na przedział, częstość względna – jaki to ułamek/procent całej próby, natomiast gęstość pozwala porównywać „zagęszczenie” danych na jednostkę szerokości przedziału.