to home   Deco

Diss

Abstract

The present dissertation introduces a new approach in the context of the generalization of statistical surfaces. The proposed method consists in a spatial filtering of irregularly shaped polygons. The objective of this approach is to overcome some known disadvantages of traditional generalization schemes and related visualization methods. Thus, this work will address both geographical and cartographic issues.

The polygon filtering method is adapted to statistical surfaces, which are very fundamental geographical phenomena widely handled by spatial research. Especially in the context of geographical information systems such surfaces are a common result of spatial modeling procedures. The increasing amount of detailed spatial information and the various analysis tools in these systems will strengthen the need for a flexible and automated treatment of statistical surfaces. One of the main objectives in this area is a reliable visualization after an adequate generalization.

The dominant type of statistical surfaces is based on irregular polygons. Whereas raster structures are usually smooth, these polygon-based models are of stepped nature. Each basic areal unit holds a common z-value - which is normally of high measurement level - for its whole territory. Related modeling operations include the interpolation of missing values and the estimation of different areal reference systems. For these purposes a variety of procedures has been developed, some of which have close relations to the proposed filtering method. Choropleth maps are the common cartographic visualization method for polygon-based discrete surfaces. Avoiding an unnecessary loss of information, we decided to use the unclassed variant of choropleth maps. Dasymetric maps would be a promising alternative, conceptual problems and the lack of automated models make them seldomly used.

Various problems incur both with statistical surfaces and choropleth maps. Beyond different sources of error introduced in the different stages of acquiring and preprocessing the information, the so-called modifiable areal unit problem, i.e. the dependence of the specific shape of the surface on size, shape, and location of the base map units, has considerable impacts on the accuracy of a specific surface model. Thus, raw surfaces are often affected by a considerable amount of erroneous information. Statistically, they must be considered as samples of an unknown population which should be approached by modeling operations. Additional statistical problems arise through the small-number-problem: The fine spatial and thematic resolution of the information leads to areal units which have such a small data weight that the realized z-value is normally very unreliable. In addition, the divergence between area and data weight of individual areal units leads to misinterpretations. This effect can be reduced - at the cost of perception problems - by the use of area cartograms. Nevertheless, the need for generalization is still evident.

Therefore, the generalization of the raw surface will be prerequisite to a meaningful visualization. This generalization must be a thematic, conceptual generalization, mere graphical treatment would lead to senseless results. Traditional approaches in this field are aggregations of the base map units to larger regions. Such regionalization procedures tend to reduce the negative effects of the fundamental problems mentioned without completely eliminating these shortcomings. In similar situations filtering methods are an often used strategy to smooth out such random noise. We can show that such a process can take into account the specific qualities of specific surfaces. Furthermore, traditional regionalizations can be viewed - and implemented - as a special case of polygon filtering using a filter with a particular neighborhood definition.

The empirical study uses the 3000 odd Swiss communes as geometrical base and different descriptor data sets. Because of their well-known statistical characteristics and widespread use we work with proportion data as z-values. With decreasing knowledge about the underlying population we use a) a mathematically computed surface (a cone), b) a surface with partially unreliable regions (percentage of commuters), c) a sample drawn from a reliable surface (votation results), and d) an unreliable surface with an assumed high spatial autocorrelation (the area of influence of a university, measured by the proportion of students choosing a specific university).

In order to evaluate the proposed method we have implemented an experimental system in which traditional methods, specific variants of our basic filter model and additional refinements can be tested - both visually by maps and quantitatively through various statistics. The basic filter is averaging the values of an areal unit and its neighbor polygons and is iteratively applied. First of all, the relative weight of the filtered area and its neighbors of first order (and eventually of higher order) have to be selected (topological weighting). Beyond the data weight the length of the common boundary between the filtered areal unit and its individual neighbors is being used (geometrical weighting). In this basic model different major components can be varied: a) The number of iterations is directly related to the degree of generalization. The progress of generalization continuously diminishes, but by an infinite number of applications the surface would degenerate into a plane; b) The kind of interaction between the examined area and its neighboring polygons: Either filtering based on the influence exerted by neighboring polygons is used or a Markov process modeling emigration from the examined areal unit into the neighborhood can be constructed. Both the sound conceptual base and the results of the latter makes it an interesting alternative; c) Use of different data weighting schemes; d) Definition of neighborhood: Besides the topological definition of neighborhood (neighbors of first and higher order) different variants may be used, e.g. a constant number of nearby areas, the nearest areal units containing a given number of individuals, or an exclusive use of adjacent polygons having a traffic link. For each of these options different variants are examined and compared to the results of the basic filter model; e) The topological weighting factors, which have an influence on the speed of generalization progression; f) The geometrical weighting scheme (e.g. distance or the length of the common boundary); g) Integration of accuracy information: If additional information on the reliability of the value of each individual areal unit is available it should be used to restrict the amount of change. The accuracy of the proportions can be estimated from statistical theory and the generalization constraints can be defined.

In a general conclusion we can state that in most cases the polygon filtering method - even in its simple form - leads to adequately generalized maps. Only few prerequisites are needed: the original values as well as the geometry and topology of the base map units. The method is robust and several parameters have only minor influence on the results. Based on the acquired knowledge about the behavior of a few relevant parameters - combined with visual evaluation - a system user will normally be able to achieve satisfactory cartographic results. Some shortcomings of traditional choropleth generalization are overcome and the resulting products are closely related to dasymetric maps. They might even be used as an analytical tool in spatial science. Future perception analysis could give additional reference to the usefulness of the proposed cartographic concept.

Zusammenfassung

In der vorliegenden Arbeit wird mit der Polygonfilterung eine neuer Ansatz für die automatische Generalisierung von statistischen Oberflächen vorgeschlagen und evaluiert. Ziel dabei ist die Entwicklung eines zuverlässigen Verfahrens, das solche Oberflächen von feiner räumlicher und thematischer Auflösung adäquat für eine kleimnassstäbige kartographische Umsetzung aufbereitet.

Die in dieser Arbeit behandelten statistischen Oberflächen nehmen in der geographischen Forschung eine wichtige Stellung ein. Mit der zunehmenden Verbreitung von geographischen Informationssystemen, in denen räumliche Information gesammelt und bearbeitet wird, fallen derartige Oberflächen vermehrt als Resultate von Analysen an. Neben anderen Typen stellen dabei die polygonbezogenen Oberflächen die wichtigste Form dar. Diese werden in der Regel als Choroplethenkarten visualisiert: deren konzeptionelle Einfachheit und gute Lesbarkeit lassen andere Möglichkeiten (z.B. dreidimensionale Diagramme) deutlich in den Hintergrund treten.

Statistische Oberflächen mit Polygonbezug bzw. ihre kartographische Umsetzung sind mit verschiedenen Problemen behaftet. Aus einer geographischen Sicht betrachtet muss zunächst das modifiable areal unit problem angesprochen werden. Dieser Effekt führt dazu, dass die konkrete Ausprägung der Oberfläche in bezug auf die interne Gebietsaufteilung nicht invariant ist: Grösse, Lage, Form der Gebietseinheiten und die räumliche Variation dieser Merkmale beeinflussen das Resultat in einem nicht unwesentlichen Grad. Die Zuverlässigkeit der Einzelinformationen kann regional stark variieren, wobei vor allem bei räumlich fein aufgelösten Oberflächen das "Problem der kleinen Zahlen" hinzukommt: Der Variablenwert in einer einzelnen Gebietseinheit ist statistisch nicht gesichert und hat deshalb häufig eine sehr zufällige und auch extreme Ausprägung. Für eine kartographische Umsetzung derartiger Ausgangsinformationen ist deshalb eine Generalisierung unerlässlich. Als weitere Problematik kommt hinzu, dass die Daten- und Flächengewichte der einzelnen Gebiete nicht kongruent sind. Eine geometrische Transformation der Kartenbasis im Sinne einer mengentreuen Projektion (Kartogramm) kann für dieses Problem partiell Abhilfe schaffen, eine Generalisierung im Datenraum bleibt allerdings trotzdem unerlässlich.

Im Falle der statistischen Oberflächen würde eine rein graphische Generalisierung zu völlig falschen Resultaten führen; notwendig ist hier eine thematische Generalisierung, die das unterschiedliche Datengewicht der einzelnen Gebietseinheiten als wesentliche Komponente mitberücksichtigt. Das traditionelle Generalisierungsverfahren in diesem Bereich ist die Aggregation der Einzelgebiete zu grösseren Regionen. Eine solche Regionalisierung reduziert zwar durch ihren glättenden Effekt die Probleme mit den Gebieten von sehr kleinem Datengewicht und damit einer unzuverlässigen Variablenausprägung, die wesentlichen Effekte des modifiable areal unit problem werden dadurch aber nur abgeschwächt, nicht aber überwunden.

Ausgangspunkt für jede Generalisierung von statistischen Oberflächen ist zunächst die Grundannahme des Vorhandenseins von räumlicher Autokorrelation, welche es erst erlaubt, benachbarte Gebietseinheiten in der hier vorgeschlagenen Art miteinander in Beziehung zu setzen. Ein dazu geeignetes - und in ähnlichem Kontext erfolgreiches Verfahren ist die räumliche Filterung. Diese wurde bisher im zweidimensionalen Fall beinahe ausschliesslich in Rasterstrukturen eingesetzt, das Konzept wird hier für unregelmässige Polygone verallgemeinert. Mit einer solchen Polygonfilterung wird ein Vorschlag für eine allgemeinere Generalisierungsmethodik für statistische Oberflächen gemacht, die nicht nur die Regionalisierung als Spezialfall umfasst, sondern welche auch den spezifischen Eigenschaften einer Ausgangsoberfläche adäquater werden sollte.

Das aufgebaute System erlaubt es, den Generalisierungsprozess durch wenige Parameter zu steuern und weitgehend automatisiert ablaufen zu lassen. Im Unterschied zur in der Literatur bereits ausführlich untersuchten - Bearbeitung von Linien, bei denen normalerweise der geometrisch richtige Verlauf bekannt ist, ist hier die wahre Oberfläche (statistisch betrachtet die Grundgesamtheit) nicht bekannt: die konkret zu bearbeitende Oberfläche verhält sich deshalb als eine mögliche Realisierung (d.h. als Stichprobe) eines Zufallsprozesses. In diesem Kontext führt so die Generalisierung nicht zwangsläufig vom "Ideal" weg, vielmehr kann gezeigt werden, dass die resultierenden Oberflächen normalerweise den "wahren" bedeutend ähnlicher sind als die Ausgangsoberflächen. Konkrete geometrische Basis bilden die schweizerischen Gemeinden. Als z-Werte werden Proportionen verwendet, die bei statistischen Oberflächen eine dominante Stellung einnehmen und über deren Zuverlässigkeit statistisch eindeutige Aussagen gemacht werden können. Dabei werden verschiedene Datensätze untersucht, die sich im Grad des Wissens über die zugehörige Grundgesamtheit unterscheiden.

Der vorgeschlagene allgemeine Filter beruht auf einer iterativ angewendeten Mittelung der Variablenwerte einer Gebietseinheit und ihrer Nachbarn. Dabei werden verschiedene Komponenten modelliert: a) die Zahl der Iterationen als wichtigstes Steuerungselement für die Stärke der Generalisierung; b) die Art der Verknüpfung der Werte (ein Einfluss der Nachbarn auf das Zentrumsgebiet oder ein Markoff-Modell mit Migration aus dem zu bearbeitenden Gebiet in die Nachbarpolygone); c) die Gewichtung der beteiligten Gebietseinheiten aufgrund ihres Datengewichts; d) die Definition der Nachbarschaft (topologische Nachbarn erster und höherer Ordnung, eine feste Zahl der nächstgelegenen Gebietseinheiten, die nächsten Gebiete bis zu einem festgelegten Datengewicht, administrative Regionalisierungen); e) die geometrische Gewichtung der Nachbarn (z.B. Länge der gemeinsamen Grenze, Entfernung der Ortszentren); f) das "topologische" Gewichtungsverhältnis zwischen der zu filternden Gebietseinheit und ihren Nachbarn; g) Verfeinerung durch den Miteinbezug von Information über die Zuvedässigkeit der Ausgangswerte. Diese Varianten bzw. die entsprechenden Parameter werden ceteris paribus in ihrer Wirkung analysiert. Die Kontrolle der Resultate erfolgt einerseits quantitativ durch verschiedene statistische Masse, andererseits hilft die visuelle Evaluation mittels unklassierten Choroplethenkarten bei der Festlegung der Parameter, welche die spezifischen Eigenschaften der Generalisierung bzw. deren Stärke steuern. Um die Resultate in einen Kontext bringen zu können, werden die traditionellen Verfahren in gleicher Weise evaluiert.

Es zeigt sich, dass mit der Polygonfilterung eine Generalisierungsmethode entwickelt worden ist, mit der mit minimem Vorwissen (die Ausgangsdaten und ev. zugehörige Fehlerinformationen, Geometrie und Topologie der Gebietsaufteilung) auf einfache Art sehr brauchbare Ergebnisse erzielt werden können. Das Verfahren erweist sich zudem als sehr robust; verschiedene untersuchte Verfeinerungen beeinflussen die Resultate in geringerem Ausmass als angenommen, positive Auswirkungen können wohl vermutet aber nicht statistisch belegt werden. Mit Hilfe der Polygonfilterung wird eine neuartige Art von Karten erzielt, bei denen - durch ihre Nähe zu dasymetrischen Karten - wesentliche Unzulänglichkeiten traditionell generalisierter Choroplethenkarten überwunden sind. Sie dürften für die räumliche Forschung ein brauchbares Hilfsmittel sein; eine abschliessende Beurteilung wird allerdings erst möglich sein, wenn dieses Kartenmodell in verschiedenen Situationen eingesetzt worden ist und zusätzliche Untersuchungen zur Kartennutzung vorliegen.

Previous page: News || Next page: MAPressoJS