Artykuły
Cechy ukryte i ich wykorzystanie w wycenie nieruchomości
Na Ogólnopolskiej Liście Dyskusyjnej Rzeczoznawców Majątkowych, w poście dotyczącym mojego tekstu p.t. Cechy ukryte i ich wykorzystanie w wycenie nieruchomości pytanie zadał mi nasz dobry kolega Paweł Maniakowski rzeczoznawca z Jaworzna:
"Witam!
Tomku, na Swoim blogu napisałeś "I dopiero ze względu na te reszty modelu, a nie na dane surowe, dokonaliśmy procedury opisanej przez Zbyszka. Dla ułatwienia sobie pracy zastosowałem kwartyle, ale sądzę że w ogólności powinno się raczej zastosować liczności zgodne z rozkładem a nie równy podział kwantylowy, ale to w tej chwili nie ma znaczenia, idzie tylko o ideę analizy".
Przetestowałem z sukcesem sposób opisany przez Zbyszka.
Proszę jednak napisz więcej na temat Twojego pomysłu tj. zastosowanie liczności zgodnie z rozkładem!
Czekam z niecierpliwością i dziękuję."
Paweł
O co chodzi?
Spójrzmy jeszcze raz na rozkład reszt modelu pozostałych po jego zastosowaniu bez uwzględnienia cech „stan techniczny”:
Jak widać pozostałe w wyniku analizy reszty między -1500 zł/m2 a +1250 zł/m2 nie rozkładają się w zakresie swojej zmienności równo. Rozkład reszt ma charakter normalny, najwięcej reszt ma wartość ok. 0, im dalej od zera in plus i in minus tym mniej jest takich reszt. Interpretacja tego stanu jest dość oczywista: dane, dla których występują reszty zbliżone do 0 reprezentują lokale o nieuwzględnionych cechach, zidentyfikowanych ze stanem techniczno-funkcjonalnym, który bezpośrednio empirycznie nie jest nam dostępny, zbliżonych do stanów typowych, średnich. Takich jest, jak zwykle, najwięcej. Dane z resztami in minusin plus o stanach technicznych lepszych niż przeciętna. Im stan techniczny lokali bardziej odbiega od średniej, tym mniej jest takich lokali. reprezentują lokale o stanach technicznych gorszych a z resztami
Problem polega na tym, w jaki sposób przełożyć teraz ten rozkład reszt na oceny stanów technicznych?
To, co napisałem w poprzednim poście, że „dla ułatwienia sobie pracy zastosowałem kwartyle” (a czego jednak nie zrobiłem) polegałby mniej więcej na tym, że spośród 36 danych, 9 najniższym resztom przydzielono by pierwszy stopień stanu technicznego, następnym 9 drugi stopień i tak dalej. Mielibyśmy do czynienia z sytuacją taką, że wszystkie stopnie stanu technicznego byłyby równo reprezentowane. Co oczywiście nie jest zgodne z rozkładem.
Ja zastosowałem podział zakresu zmienności występujących reszt zunitaryzowanego w skali <0;1>, w ten sposób, że reszty zunitaryzowane od 0 do 0,25 stanowią stopień 1, od 0,25 do 0,5 stopień 2 itd. Oczywiście dla reszt zunitaryzowanych między 0 a 0,25 jest inna liczba lokali niż dla reszt od 0,25 do 0,5 itd. Czyli mamy do czynienia z przydzieleniem stopni cechy „stan techniczny” zgodnie z liczebnością odpowiednich reszt, co widać na tym wykresie, gdzie zaznaczono przedziały po 0,25:
W efekcie liczebność lokali o różnym stanie technicznym jest różna, co widać na poniższym histogramie:
Ale można by zastosować też trochę inne podejście. Tu jako podstawę dystrybucji cechy przyjęliśmy wartości zunitaryzowane, czyli zamknięte w przedziale jednostkowym. Ma to tę zaletę, że odpowiada dokładnie sytuacji, w której stosujemy zamkniętą skalę przedziałową dla określenia stanu technicznego.
Ale sytuacja byłaby trochę inna, gdybyśmy zamiast wartości zunitaryzowanbych wzięli do analizy wartości reszt zestandaryzowanych, czyli będących różnicą między wartością reszty i średniej reszt podzielonej przez wartość ich odchylenia standardowego. Ta skala jest skalą otwartą, ze średnią 0 i typowym przedziałem wartości gdzieś między -3 a +3, wartości większe zdarzają się niezmiernie rzadko. Gdybyśmy jako podstawę wzięli wartości zestandaryzowane rozkład reszt wyglądałby tak:
Gdyby teraz dokonać określenia stanu technicznego poprzez przesunięcie skali o 3 i zaokrąglenie do pełnych liczb, uzyska się następujący rozkład stanu technicznego lokali:
Zauważmy, że rozkład ten ma charakter bardziej „otwarty”, mniej spłaszczający. Wartości zestandaryzowane niejako „wymusiły” wprowadzenie stopnia dodatkowego „-1” dla jednego lokalu i dodatkowego stopnia „+4” dla jednego lokalu.
Jaki jest efekt takiej dystrybucji powiązanej ze standaryzacją reszt w porównaniu z ich unitaryzacją?
Nie będzie zapewne zaskoczeniem, że taka procedura, dokładniej odwzorowująca rozkład reszt da rezultaty lepsze, co można zobaczyć po wynikach modelu multiplikatywnego.
Aby móc wygodnie na tych danych pracować dokonałem kilku przekształceń, które ułatwiają mi pracę.
Po pierwsze: dokonałem stymulacji destymulant. W arkuszu danych Janina posługuje się dla zmiennych opisanych w skali przedziałowej odwrotną gradacją stopni, czyli systemem 4-3-2-1, gdzie 4 – najgorszy, 1 najlepszy. Nie ma to wpływu na wynik ale, dla mnie jest nieintuicyjne, pokazuje stymulanty jako destymulanty. Dlatego odwróciłem kierunek stopni cech z destymulującego na stymulujący 1-2-3-4. Dodatkowo dokonałem przesunięcia skali o 1 w dół, tak, aby zaczynała się jako stopniem najgorszym „0”. Znowu, nie ma to wpływu na obliczenia, dla skali przedziałowej nie istnieje zero naturalne i można ją dowolnie przesuwać, ale jest bardziej poglądowe, pokazując stopień najniższy cechy jako brak waloru. Czyli w efekcie zastosowałem skalę przedziałową typu: 0-1-2-3.
Po drugie: cechę „data” zamieniłem na cechę „czas” poprzez obliczenie kolejnych dni, jakie mięły od 01.01.2008 r. Znowu, nie ma to wpływu na obliczenia ale jest wygodniejsze. Dla systemu Excela, w którym daty liczy się od 01.01.1900 r. mamy teraz daty rzędu ok. 40.000, co jest niewygodne zwłaszcza dla nieintuicyjnie wysokich wyrazów wolnych, które są konieczne dla wyrównania tak dużych dat. Po przekształceniu uzyskaliśmy zmienną „czas” o wartościach od 57 do 667.
Jako że już w poprzednim poście stwierdziliśmy, że efektywniejszy dla analizowanego przez Janinę rynku od modelu addytywnego jest model multiplikatywny, postanowiliśmy zastosować go do naszej analizy, przy zastosowaniu ceny średniej jako stałej modelu. Wymagało to, oczywiście przekształcenia cech modelu w taki sposób, że dla każdej cechy przedstawiana jest ona jako różnica między stanem tej cechy i wartością średnią dla tej cechy, więc dane przygotowane do zbudowania modelu multiplikatywnego, czyli inaczej mówiąc właściwie zbudowanego modelu szacowania metodą korygowania ceny średniej, wyglądać będą tak:
Należy też zauważyć, że średnia, którą bierzemy do zbudowania modelu korygowania ceny średniej nie jest średnią arytmetyczną ale średnią GEOMETRYCZNĄ, czyli odwróconą średnią logarytmów cen: exp(7,7053) = 2.220 zł. Taką właśnie średnią należy stosować przy metodzie korygowania ceny średniej, ze względu na właściwości wykorzystywanego modelu multiplikatywnego.
Po zestymowaniu parametrów modelu korygowania ceny średniej możemy się przekonać, że wszystkie analizowane cechy, także czas, którego istotności nie udawało się do tej pory uzyskać, stają się istotne, co można zaobserwować na tym grafie:
Uzyskujemy też wyraźnie lepszy model, co do jego sprawności: R2 – 94,9%, MAPE – 4,9%.
Wykres sprawności modelu, już w wartościach odwróconych (przekształconej z logarytmów) przedstawia poniższy wykres:
Możemy także określać dzięki temu wartość lokali metodą korygowania ceny średniej - poprawną pod względem metodologicznym, rachunkowym oraz zgodną z obowiązującym prawem:
cena zł/m2 = 2220 zł/m2 * 0,9999^Czas * 0,987^Pow. użytkowa * 1,104^Kondygnacja * 1,236^Funkcjonalność * 0,942^Otoczenie * 1,272^Stan. techniczny
Jaki wniosek z naszych dzisiejszych rozważań? Myślę, że taki – jeżeli uda się nam dokonać dystrybucji reszt modelu zgodnie z rozkładem wartości cechy ukrytej, wtedy uzyskać możemy bardzo dobre wyniki.
Wszystkie obliczenia i konstrukcję modelu korygowania ceny średniej do dzisiejszego postu można przejrzeć w pliku jj_lokale_dane_nowy.xls
źródło: Realexperts Sp. z o.o.













