Transcription

SYMPOSIUM WIRTSCHAFTSINFORMATIKNeue Entwicklungen in der WirtschaftsinformatikRuhr-Universität Bochum14. November 2014Neue Entwicklungen im Business IntelligenceUniv.-Prof. Dr. Peter ChamoniDie Zukunft der Datenanalyse?Mercator School of ManagementLehrstuhl für Wirtschaftsinformatik, insb. Business IntelligenceProf. Dr. Peter Chamoni

Agenda 1Einleitung 2Big Data 3Empirische Studien 4Markt, Tools und Anwendungen 5Zusammenfassung und AusblickProf. Dr. Peter Chamoni – Big Data2

1 Evolution der MSSProf. Dr. Peter Chamoni – Big Data3

1 Data Warehouse / BIManagementCockpitOLAPAnalysenPlanung und bankRetraktionnach AbschlussClosedLoopBasisdatenbank(Core Data Warehouse)Staging AreaERPERPSystemSystemPPSSystem Administrations- und nExterne erichts- und AnalysesystemeIntegrationLayerQuellsysteme[nach Gansor et al., 2010]17.11.20144Prof. Dr. Peter Chamoni – Big Data4

1 BI MaturityFachliche ätKomplexitätData WarehousePerformance17.11.20145Prof. Dr. Peter Chamoni – Big Data5

1 Top-down vs. Bottom-up BI[Eckerson 2011]Prof. Dr. Peter Chamoni – Big Data6

1 TDWI TrendthemenQuantfied MeBI in derBig Dataund BIBI und Industrie 4.0Prof. Dr. Peter Chamoni – Big Data7

Agenda 1Einleitung 2Big Data 3Empirische Studien 4Markt, Tools und Anwendungen 5Zusammenfassung und AusblickProf. Dr. Peter Chamoni – Big Data8

BIGDATADie Zukunft der Datenanalyse?

2 AnekdoteDie von EMC gesponserte „Digital Universe Study“ beziffert die 2012 erzeugteDatenmenge weltweit auf 2,8 Zetabytes.Das entspricht 2,8 Billionen Gigabytes und damit 754.000 Jahren Filmen in DVD-Qualität oder aber [Digital Universe Study 2012], Zahlen: Eigene RechercheProf. Dr. Peter Chamoni – Big Data10

2 Anekdote etwa 560.000.000.000.000.000 (560 Billiarden) Seiten Roman.Aufeinander gestapelt ergäbe das eine Strecke, die 373 mal zur Sonne reichen würdeund außerdem [Digital Universe Study 2012], Zahlen: Eigene RechercheProf. Dr. Peter Chamoni – Big Data11

2 Anekdote müsste zur Produktion dafür ein Wald abgeholzt werden, der vollständig Europa,Nordamerika, Südamerika und Afrika bedecken würde (jedenfalls bis Ende 2012, dannwäre er verbraucht).[Digital Universe Study 2012], Zahlen: Eigene RechercheProf. Dr. Peter Chamoni – Big Data12

2 Gartner‘s Hype CycleProf. Dr. Peter Chamoni – Big Data13

2 Die häufigsten SuchkombinationenDie 25 meistgesuchten Begriffe im Zusammenhang mit „Big Data“, sortiert nachihrer relativen Häufigkeitbig data analyticsdata analyticshadoopbig data hadoopbig data cloudibm big datagoogle big dataoracle big databig data pdfbig data conferencebig data analysiswiki big databigdatabig data trainingbig data technologybig data companiesbig data jobsbig data softwarebig data managementbig data universitydata sciencebig data toolsdefinition big dataIndex0102030405060708090100[Google Trends, eigene Recherche, 12.09.2013]Prof. Dr. Peter Chamoni – Big Data14

2 Big Data Analytics (Definition)The three Vs of big dataVOLUME Terabytes Records Transactions Tables,files3 Vs of BatchBig Data Structured Neartime Unstructured Realtime Semistructured Streams Allthe aboveVELOCITYVARIETY[TDWI 2011]Prof. Dr. Peter Chamoni – Big Data15

2 Big Data Analytics (Definition)„Big Data bietet Methoden und Technologien für dasErfassen, Speichern und Analysieren poly-strukturierterDaten genau dort, wo klassische analytische Informationssysteme heute an ihre Grenzen stoßen.“[BARC in Computerwoche (09/12)]]Prof. Dr. Peter Chamoni – Big Data16

2 Big Data und VolumenProf. Dr. Peter Chamoni – Big Data17

2 Big Data und VielfaltStructured dataSemi-structured dataUnstructured dataDate of BirthPeople to people:virtual communities, socialnetworks, web logs, NameAddressfrom:Amountsto:cc:bcc:Subject:People to machine:medical devices, e-commerce,archives, mobiles, computers, TransactionsBodyMachine to machine:Loyalty points, etc sensors, GPS devices, surveillancecameras, scientific research, StructureddataUnstructureddata[Klein et al. 2013]Grafiken: [http://www.martinprint.com.au, www.clker.com]Prof. Dr. Peter Chamoni – Big Data18

2 Big Data und VertrauenSchroeck et al. (2012) – IBM Institute for Business ValueProf. Dr. Peter Chamoni – Big Data19

2 Big Data NutzerProf. Dr. Peter Chamoni – Big Data20

2 Big Data Enabling TechnologiesProf. Dr. Peter Chamoni – Big Data21

2 Schwerpunkte analytischer Systeme und Big DataAnalytische SystemeBig DataZentrale Datenhaltung, alle Datenmüssen exakt zueinander passenDaten existieren an mehreren Stellen,Ungenauigkeiten sind akzeptabelQualitativ hochwertige DatenEinfachheit der NutzungStrukturierte, bereinigte und aggregierteDatenVerarbeitung der Rohdaten mit vielenunterschiedlichen FormatenWiederkehrende BerichteInteraktion in EchtzeitPeriodische ErstellungOptimiert für FlexibilitätZentralistische OrganisationHeterogene, dezentrale Organisation[BITKOM 2013]Prof. Dr. Peter Chamoni – Big Data22

2 BI und Big DataProf. Dr. Peter Chamoni – Big Data23

2 Integrierte Anwendungslandschaft[BITKOM 2013]Prof. Dr. Peter Chamoni – Big Data24

2 Types of analytical platforms (1/2)TechnologyDescriptionVendor/ProductMassively parallelprocessing analyticsdatabasesRow-based databases designed to scaleout on a cluster of commodity servers andrun complex queries in parallel againstlarge valumes of dataTeradata Active Data Warehouse,Greenplum (EMC), Microsoft Parallel DataWarehouse, Aster Data (Teradata),Kognitio, DataupiaColumnar databasesDatabase management systems that storedata in columns, not rows, and supporthigh data compression ratiosParAccel, Infobright, Sand technology,Sybase IQ (SAP), Vertica (HewlettPackard), 1010data, Exasol, CalpontAnalyticalappliancesPreconfigured hardware-software systemsdesigned for query processing andanalytics that require little tuningNetezza (IBM), Teradata appliances,Oracle Exadata, Greenplum DataComputing Appliance (EMC)Analytical bundlesPredefined hardware and softwareconfigurations that are certified to meetspecific performance criteria, butcustomers must purchase and configurethemselvesIBM SmartAnalytics, Microsoft FastTrack[Eckerson 2011]Prof. Dr. Peter Chamoni – Big Data25

2 Types of analytical platforms atabasesSystems that load data into memory toexecute complex queriesSAP HANA, Cognos TM1 (IMB), QlikView,MembaseDistributed filebased systemsDistributed file systems designed forstoring, indexing, manipulating andquerying large volumes of unstructuredand semi-structured dataHadoop (Apache, Cloudera, MapR, IBM,HortonWorks), Apache Hive, Apache PigAnalytical servicesAnalytical platforms delivered as hosted orpublic-cloud-based services1010data, KognitionNonrelationalNonrelational databases optimized forquerying unstructured data as well asstructured dataMarkLogic Server, MongoDB, Splunk,Attivio, Endeca, Apache Cassandra,Apache Hbase[Eckerson 2011]Prof. Dr. Peter Chamoni – Big Data26

2 HadoopWas ist Hadoop? Freies, Java-basiertes Framework Skalierbare, verteilt arbeitende Software Basiert auf MapReduce-Algorithmus vonGoogle und Google-Dateisystem Ermöglicht Rechenprozesse aufverteilten Computersystemen Existiert in verschiedenen Distributionenvon verschiedenen Herstellern (ähnlichUnix/Linux) Hadoop wurde nach demSpielzeugelefanten des Sohns desEntwicklers benannt. Der Elefant istheute das Symbol von Hadoop.Prof. Dr. Peter Chamoni – Big Data27

Agenda 1Einleitung 2Big Data 3Empirische Studien 4Markt, Tools und Anwendungen 5Zusammenfassung und AusblickProf. Dr. Peter Chamoni – Big Data28

3 Unternehmenseinschätzungen (nach TDWI)Options for Big DataAnalyticsPlotted by PotentialGrowth andCommitment[TDWI 2011]17.11.2014 Copyright IBM Corporation 2012Prof. Dr. Peter Chamoni – Big Data2929

3 Unternehmenseinschätzungen (nach TDWI)[Russom 2011]Prof. Dr. Peter Chamoni – Big Data30

3 Unternehmenseinschätzungen (nach TDWI)[Russom 2011]Prof. Dr. Peter Chamoni – Big Data31

3 Unternehmenseinschätzungen (nach TDWI)[Russom 2011]Prof. Dr. Peter Chamoni – Big Data32

3 Unternehmenseinschätzungen (nach IBM)Welche Analysetools stehen Ihnen für eine Big-Data-Initiative zur Verfügung?Abfragen und ReportingData ungSimulationText in natürlicher SpracheGeodatenanalyseAnalyse von 0%50%60%70%80%90%100%[IBM 2012]Prof. Dr. Peter Chamoni – Big Data33

3 Unternehmenseinschätzungen (nach IDC)Aus welchen Datenquellen nutzen Sie Daten fürBig Data Analytics?Transaktionsdaten ausBusinessanwendungen (ERP, etc.)55%Unstrukturierter Content ausMails, Officedokumenten etc.47%Maschinendaten44%Wissenschaftliche Date41%Clickstream RFId, etc.31%Daten aus Social Media Anwendungen28%Graphische Daten25%Geodaten23%Weiß nicht3%0%10%20%30%40%50%60%[n 150, IDC 2012]Prof. Dr. Peter Chamoni – Big Data34

3 Unternehmenseinschätzungen (nach IDC)Welches Datenvolumen im Businesscase betrachten Sie als Big Data? 1 PB13%100 TB - 1 PB51%10 TB - 100 TB29% 10 TB3%Weiß nicht4%0%10%20%30%40%50%60%[n 150, IDC 2012]Prof. Dr. Peter Chamoni – Big Data35

3 Unternehmenseinschätzungen (nach IDC)Welchen Nutzen erwarten Sie durch den Einsatz von Big Data Analytics?Kosteneinsparungen in denGeschäftsprozessen61%Kosteneinsparungen in der IT57%Mehr Umsatz durch dieGeschäftsmodelle35%Wettbewerbsvorteile35%Weiß nicht3%0%10%20%30%40%50%60%70%[n 150, IDC 2012]Prof. Dr. Peter Chamoni – Big Data36

3 Unternehmenseinschätzungen (nach IDC)Welche Argumente sprechen gegen den Einsatz von Big Data Analytics n39%Technische Herausforderungen(Integration, Schnittstellen)36%Operationale Risiken32%Zu geringe Datenmengen11%Keine "neue" Technologie für unserenBusiness Case vorhanden11%Weiß nicht11%0%5%10%15%20%25%Prof. Dr. Peter Chamoni – Big Data30%35%40%45%[n 150,IDC 2012]50%37

3 Unternehmenseinschätzungen (nach BARC)Welche Probleme sehen Sie beim Einsatz von Big Data ?Fehlendes technisches Know-howFehlendes fachliches Know-howFehlende überzeugende EinsatzszenarienTechnische ProblemeKostenDatenschutzBig Data nicht für Fachanwender im Unternehmen nutzbar0%5%10%15%20%25%30%35%40%45%50%[BARC, 2013]Prof. Dr. Peter Chamoni – Big Data38

3 Unternehmenseinschätzungen (nach PwC)Prof. Dr. Peter Chamoni – Big Data39

3 Unternehmenseinschätzungen (nach PwC)Prof. Dr. Peter Chamoni – Big Data40

Agenda 1Einleitung 2Big Data 3Empirische Studien 4Markt, Tools und Anwendungen 5Zusammenfassung und AusblickProf. Dr. Peter Chamoni – Big Data41

4 Anbieter-Entwicklung bei Big DataJe nach Herkunft bewegen sich die Anbieter von unterschiedlichen Richtungen hin zueiner integrierten LösungBis 2012 wurden ca. 15 Milliarden Dollar für den Kauf von spezialisiertenInformationsdienstleistern aufgewendetHardware-Anbieter undCloud-DienstleisterSoftware-Hersteller undApplikationsdienstleister Ausbau des Kerngeschäfts Erweiterung um spezielleDatenbanktypen oder DateisystemeMarktpenetration mit spezialisierterSoftware Zukauf von Analysesoftware undAufbau von SoftwareDienstleistungenAnbindung an bestehendeDatenbank- und Datei-Systeme(insbesondere Hadoop) Verwendung von StandardHardware als Basis [vgl. Storage Consortium]Prof. Dr. Peter Chamoni – Big Data42

4 Anbieter-Entwicklung bei Big DataDer Ausbau der Big-Data-Sparte findet sich bei allen großen Anbietern, beispielhaftgenannt seien hier:IBM InfoSphere BigInsights, Netezza Data Warehouse Appliances, u.a.: IntegrierteLösungen, verschiedene Wahlmöglichkeiten für Hard- und Software, diverseAnalysesoftwareOracle Big Data Appliance: Integrierte Lösung aus Hard- und Software (OracleLinux/NoSQL, Apache Hadoop, Cloudera Manager)EMC Atmos, Isilon, Greenplum, Pivotal HD u.a.: Hardware- und SoftwareKomponenten, spezialisierte Datenbanken und AnalysesoftwareEigene Recherche nach Anbieter-InformationenProf. Dr. Peter Chamoni – Big Data43

4 AnwendungenProf. Dr. Peter Chamoni – Big Data44

4 AnwendungenProf. Dr. Peter Chamoni – Big Data45

4 rvatoSystems /DeutschlandCardarvatoSystemsGmbH Neue Teilnehmer imDeutschlandCard-Programmführen zu mehr als 4 GB/sDatendurchsatz im DWH. Die bisherige Landschaft sollnur ergänzt werden. Datenwachstum imdreistelligen GB-Bereich proMonat Auswertungen immertagesaktuell und maximal imMinutenbereichdm,Geschäftsführung ITBlue YonderGmbH &Co. KG Mitarbeiterkapazitäten konntenin Sondersituationen nichtimmer korrekt errechnetwerden Ermittlung aller Umsätze aufTagesebene Bis zu 450.000 Prognosen jeTag für alle FilialenSASInstitute Anpassung von 270 MillionenPreispunkten (Artikel, Filiale,Umfeldkonstellation) Nur wöchentliche Rechnungenmöglich Mehr als 2 TB je AnalyseRohdateneinsatz Mehrfach untertägliche,filialindividuelle Preisermittlung Erhöhung derLieferbereitschaft Bestandsmanagementsoptimierung Prognoseerstellung Täglich bis zu 135 GB Jährlich über eine MilliardePrognosen Auswertung in EchtzeitMacy'sOtto,Angebotsund CategoryManagementSupportBlue YonderGmbH &Co. KGProf. Dr. Peter Chamoni – Big Data[Microsoft, 2012][BITKOM 2013]46

4 AnwendungenAnwenderPaymint AGToll CollectGmbHVaillant,Group ITConsultingXING AGAnbieterProblemstellungVolumen Weltweite Kosten beiKreditkartenbetrug liegen beimehr als 10 Mrd. Euro Fraud Management mussmöglichst schnell werden Mehrere MilliardenTransaktionen pro Monat jeUnternehmen Mustererkennung in Real-Time Schnelle Reaktion aufgeänderte BetrugsstrategienToll CollectGmbH Service-Level von 99,9%korrekter Mauttransaktionen Fehlerhafte Geräte müssenaus großen Datenmengengefiltert werden 700.000 On-Board-Units imEinsatz 25 Mrd. gefahrene km/Jahr Mustererkennung in EchtzeitSAP AG Verwendung eines globalen,integrierten SystemsInformationen aufEinzelproduktebene 1.200 Anwender 1 Mrd. Datensätze in DWH Geschwindigkeitserhöhung mitFaktor 4 bis 60 Zeit für Datenverarbeitungeines Tages tlw. 24 h Datenbanksystem heterogenund nicht skalierbar FraunhoferIAISExasol AGProf. Dr. Peter Chamoni – Big Data12 Mio. Mitglieder10 Mrd. Datensätze30 TB DatenEchtzeit-Auswertungenmöglich[Microsoft, 2012][BITKOM 2013]47

Agenda 1Einleitung 2Big Data 3Empirische Studien 4Markt, Tools und Anwendungen 5Zusammenfassung und AusblickProf. Dr. Peter Chamoni – Big Data48

5 Intelligent Business OperationsProf. Dr. Peter Chamoni – Big Data49

5 Herausforderungen für Big Data Eine Geschäftsfallidentifizierung mit zweifelsfreier Big-Data-Rechtfertigung fällt schwer, daQualität und Nutzen der Analyseergebnisse oft kaum absehbar sind Die Grenze zwischen Big-Data und traditionellen BI-/DW-Szenarien ist fließend Eine Big-Data-Strategie kann Teil der BI-Strategie sein oder komplett neu entwickelt werden,falls sich neue Geschäftsfelder um die Daten auftun Zur Analyse poly-strukturierter Daten muss ein Datenaustausch mit herkömmlichen Analysenkonzeptionell, architektonisch und technisch realisiert werden Es fehlt an geeigneten Big-Data-Entwicklern und –Analysten, für die sich im englischen derBegriff „Data Scientist“ herausbildet, zur Analyse und Visualisierung der Daten Insbesondere in Deutschland müssen die Implikationen durch Datenschutz und Ethikberücksichtigt werden, z.B. bei der Auswertung sozialer Netzwerke Skalierbarkeit, Performance, Realtime-Bereitstellung und Wartung müssen trotz mangelnderReife der Produkte sichergestellt werden[vgl. Barc, in: Computerwoche 09/12]Prof. Dr. Peter Chamoni – Big Data50

5 Analytics der neuen ine-AnalyticsAnalysehistorischerDatenAnalyse vonEchtzeitdaten,VorhersagenAnalysestrukturierter undeinfacher DatenAuswertungkomplexerInformationenund FormateWachstum in drei DimensionenProf. Dr. Peter Chamoni – Big Data[IDC 2012]51

5 WI & RGDanke Roland !Prof. Dr. Peter Chamoni – Big Data53

5 Literatur Bange, Carsten/Grosser Timm (2012): Daten-Management: Big Data – BI der nächsten Generation. 05617/. Abruf: 17.04.2012. BARC (2013): Big Data Survey Europe, BARC-Institut, Würzburg BITKOM (2013): Big Data im Praxiseinsatz – Szenarien, Beispiele, Effekte Eckerson, Wayne (2011): Big Data Analytics: Profiling the Use of Analytical Platforms in User Organizations. In: TDWI WhitePapers. Franks, Bill (2012): Taming the big data tidal wave. Hoboken, New Jersey: John Wiley & Sons Inc. Gansor et al. (2010): Von der Strategie zum Business Intelligence Competency Center (BICC), München: Hanser Gantz, John/Reinsel David (2011): 2011 Digital Universe Study: Extracting Value from Chaos. IBM Global Business Services (2012): Analytics: Big Data in der Praxis, IBM Institute for Business Value Klein, Dominik/Tran-Gia, Phuoc/Hartmann, Matthias (2013): Big Data. In: Informatik Spektrum 36 (3), S. 319-323. LaValle, Steve et al. (2010): Big data, analytics and the path from insights to value. In: MIT sloan management review 52, S. 21–32. Proffitt, Brian (2012): Big data tools and vendors. URL: ata-tools-andvendors?page 0,0, Abruf am 24.04.2012. Russom, Philip (2011): Big Data Analytics, TDWI Best Pratices Report Storage Consortium: Big Data und die Anforderungen aus Infrastruktursicht. 099, Abruf am 24.04.2012. Wartala, Ramon (2012): Hadoop. München: Open Source Press. White, Tom (2011): Hadoop, 2. Aufl. Beijing [u.a.]: O'Reilly. Zacher, Matthias (2012): Big Data Analytics in Deutschland 2012. In: SAS IDC White Paper Zikopoulos, Paul (2012): Understanding big data. New York: McGraw-Hill.Prof. Dr. Peter Chamoni – Big Data54

Analytical bundles Predefined hardware and software configurations that are certified to meet specific performance criteria, but customers must purchase and configure themselves . Atmos, Isilon, Greenplum, Pivotal HD u.a.: Hardware- und Software-Kompon