Working prototype?

This week we will show a first pre-alpha prototype with rudimentary functions for both modalities.

There were as usual problems which slowed our progress considerably. The kinect – we are currently working on – do not support Windows on a VM. We have however managed to find solution which we are implementing right now. As far as we see we wont have a full functioning gesture detection for now.

As for our final presentation the video production team has already start filming.

Working prototype?

It’s all coming together now

Since last week we have been discussing to switch to C#. We found a solution for Mac Users to use C# so that in the end we decided to focus on the add-in for MS Powerpoint with C#. Both part of the functionality are working although there are some minor issues to solve. We will now finalize our work and fuse them into one add-in. This will be the last part of our prototyping phase which will then be thoroughly tested. The design is already in place.

As for our media task we have decided to push the filming back for another week.

It’s all coming together now

Add-In for PowerPoint

For our prototype we have developed an add-in for MS Powerpoint which will be the interface for the user.


As previously mentioned we have decided to use Java. It turns out that in order to use the SDK for the Kinect which requires C#/C++ we have to use the a plug-in (Jnect). It creates a interoperability between the MS SDK and Java.


So far our problems is to connect our interface to the Java code. It seems that MS Powerpoint only supports C#/C++ for add-ins. We are currently considering to rewrite our code in C# because of their similar nature.

For those who missed our presentation last week you can find it here.

Add-In for PowerPoint

A short update

Here is a short update of our progress.

Given our diverse field of studies we have divided the task of our project in 3 parts. So that the three following tasks can be worked on simultaneously.

1. Implement gesture recognition of the Kinect and add gesture command to the application.

2. Implement speech recognition and add voice command.

3. Drafting our storyboard for our final video presentation. And make necessary preparations for the principal photography.

Due to some unforeseen problems there is not much progress on the first part of our project. We hope to have a prototype in the following week. As for the second part we have a functioning prototype. Although there are some issues. So far the speech recognition has problems when there is too much background noise. The next step is to implement some rudimentary commands for the presentation software. The last part is coming quite nicely. We should have our first version of the storyboard ready for our presentation.

A short update

A conversation with A.L.I.C.E

Here is our conversation with A.L.I.C.E.

judge: That’s good, do you remember my previous sentence?
ALICE: Hmm, are you serious?
judge: So, is that a yes, or a no?
ALICE: It seems we have something in common.
judge: That was a noncommittal answer
ALICE: A noncommittal answer is a terrible thing to waste.
judge: Who are you?
judge: What are you?
ALICE: I am the latest result in artificial intelligence which can reproduce the functions of the human brain with greater speed and accuracy.
judge: Where are you?
ALICE: California.
judge: Where in California?
ALICE: I am in Oakland, California. Where are you?
judge: Where in Oakland?
ALICE: In Dr. Richard S. Wallace’s place in Oakland, California.
judge: I am in Germany
ALICE: Tell me a little about your life in Germany.
judge: Life in Germany involves lots of recycling and trains
ALICE: What makes life in Germany involves lots of recycling and trains ?
judge: The culture is heavily focused on ecological conversation
ALICE: What specifically brings heavily focused on ecological conversation to mind?
judge: Stop asking pointed questions
ALICE: OK I’ll try not to do it so much.

As you can see ALICE can hold up the conversation quite good. It even makes funny remarks. The bot recognizes our questions correctly and gives believable answers. Although it seems that when the context of our conversation is not programmed in her database it tries to use pointed questions in order to keep the conversation going. Nevertheless the bot shows amazing abilities which can – under the right circumstances- be mistaken as a real person.

A conversation with A.L.I.C.E

The first steps for a prototype

This week we started to make the first steps to the new way of presentation.

For the gesture:
The software is installed and the needed library too, that we could started the first tries with interacting with the kinnect.

For the sound recognition:
In trying to do the sound we have cloned the CMU Sphinx Repository. The Sphinx project is a project based in Java for voice recognition. The first tests to drive the sound recognition are running and we are looking forward to give you a glance look in this work the next weeks.

For the product clip:
We sat together and discussed tons of ideas and a mess of creativity. Afterwards we started to draw a storyboard. Unfortunately our pictures are secret, because of it´s viral risk on the internet.

The first steps for a prototype

Keep up the flow and save time

Having already posted our idea in our last blog entry, you can download our slides for our idea presentation in the class last week.

There are quite a lot presentation solutions that try to keep a more natural flow. But there still some issues that needs to be resolved. We believe by using natural gestures and voice commands we can address those issues and even save time.

Our solution as a training tool

We are also thinking about further usage of our solution. It can help e. g. to improve your skills and time management by counting the annoying and sometimes embarrassing sounds if you lose your train of thought. Along the line we are also looking into other helpful applications, like eye tracking or even remind you of important points you are missing.

We will keep you informed about our progress.

Keep up the flow and save time

Übung 1

Kamera :

Im Wesentlichen besteht eine Kamera aus einem Objektiv, einem Bildsensor und einem Speichermedium. Je nach Typ und Komplexität sind zusätzlich mechanische Spiegelanordnungen und umfangreiche Digitaltechnik verbaut. Diese dienen meist zur Verbesserung der Bildqualität und Bildverarbeitung.

Das Objektiv ist dabei die entscheidende Komponente einer Kamera. Es besteht aus einer Anordnung von Linsen und einer Blende. Die Anordnung der Linsen mit unterschiedlichem Brechungsindizes fungiert im Allgemeinen als Sammellinse, die das eingefangene Licht bzw. das zu fotografierende Objekt gezielt auf den Bildsensor abbildet. Je nach Komplexität und Anordnung der Linsen lassen sich dabei neben der Abbildungsschärfe auch die Abbildung vergrößern (Zoom). Im Folgenden soll zunächst die Optik des Objektivs genauer betrachtet werden.

Abbildung 1: Linsenabbildung in geometrischer Optik (Quelle ONT Vorlesungsskript 2012)

In Abbildung 1 sind zunächst die relevanten Faktoren dargestellt.

  • Brennweite der Linse f
  • Gegenstandsweite a
  • Bildweite b
  • Gegenstandsgröße r1
  • Bildgröße r2

Die Abbildungsgleichung für die geometrische Optik lautet


Die Brennweite oder auch Fokus f gibt dabei die Entfernung einer Sammellinse zur Bildebene an, bei der die Abbildung am Schärfsten ist und somit ein Minimum erreicht. Zusätzlich wird auch damit der Bildausschnitt (Field of View) bestimmt. Je kleiner die Brennweite desto größer ist der Bildausschnitt. Mit Gleichung (1) lässt sich somit die Position bei bekannten Linsenparameter zur Bildebene (für die Kamera ist das der Bildsensor) in Abhängigkeit von der Gegenstandsweite für eine Fokussierung (Scharfstellung)bestimmen.

Weiter lässt sich auch der Abbildungsmaßstab durch das Objektiv (Brennweite) und Abstand zum Gegenstand bestimmen und beeinflussen.


Diese lässt sich durch die Gleichung (2) berechnen. So folgt für einen 1:1 Maßstab


Weiter oben wurde bereits erwähnt, dass je nach Brennweite auch die Größe des Bildausschnitts also den Blickwinkel beeinflusst. Diese lassen sich in drei Kategorien unterteilen.

  1. Weitwinkelobjektiv (10mm – 35 mm)
  2. Normalobjektiv (35mm – 70 mm)
  3. Teleobjektiv (70mm – 600mm)

Die Brennweite beeinflusst neben dem Zoomfaktor auch die Bildwirkung und Tiefenschärfe. So lässt sich bereits in (2) und (3) bei zeigen, dass durch eine falsche Wahl der Brennweite (Objektiv) ein vorher definiertes Abbildungsmaßstab bei vorgegebenen Gegenstandsweite nicht erreicht werden kann.

Abbildung 2: Brennweitenvergleich (Quelle – 2015)

Eine weitere Komponente eines Objektivs ist die Blende (Apertur). Sie ist dabei eine mechanische veränderbare Lochöffnung, die für die Einstellung der zugeführten Lichtmenge für den Bildsensor und Schärfentiefe (kleine Lochöffnung) zuständig ist. Dabei beeinflusst die Blende den Strahlengang (Lichteinlass) und somit auch den Belichtungszeitraum und damit die Helligkeit. Die Größe des Bildausschnitts wird im Allgemeinen nicht beeinflusst. Die Blendenzahl


gibt dabei das Verhältnis der Brennweite zum Durchmesser D der Blendenöffnung. Der Kehrwert ist dann das Öffnungsverhältnis. Für eine gute Schärfentiefe ist daher eine hohe Blendenzahl notwendig. Bei modernen Digitalkameras wird die Blendenöffnung und durch kleine Motoren und der Belichtungszeitraum automatisch für den jeweiligen Anwendungsfall (Programm) eingestellt. So wird beispielsweise bei wenig Lichteinfall (nachts) eine größere Blendenöffnung und längere Belichtungszeitraum des Bildsensors, damit möglichst viel „Restlicht“ eingefangen wird, genutzt. Eine andere Möglichkeit wäre, ein Blitzlicht mit kurzem Belichtungszeitraum zu nutzen.

Sind nun die richtigen Parameter für eine Abbildung eingestellt wandelt der Bildsensor bei modernen Digitalkameras das Licht in elektrische Information um. Die Bildsensoren basieren auf der CMOS (Hableitertransistoren)- oder CCD (ladungsgekoppelte Bauelemente)-Technologie. Ein gewisses elektrische Rauschen und somit ein Einfluss auf die Bildqualität ist daher nicht zu vermeiden. Diese sogenannten Bayer-Sensoren liefern durch vorgeschaltete Farbfilter (Bayer-Farbraster) für jeden Pixel genau ein Farbwert (Grün, Blau oder Rot). Das Verhältnis Grün:Rot:Blau ist 2:1:1. Meist wird noch vor dem Farbfilter Mikrolinsen positioniert um den Strahlengang weiter optimieren. Anschließend werden die Informationen (Grün:Rot:Blau – Raster) durch digitale Bildverarbeitung interpoliert und optimiert (Rauschunterdrückung, Weißabgleich etc.). Die Auflösung des Sensors wird in MegaPixel angegeben, dabei ist zu beachten, dass eine höhere Auflösung nicht gleich bedeutend für hohe Bildqualität steht. Diese hängt auch von der Sensorgröße ab. Da eine hohe Auflösung bei kleiner Sensorgröße zu erhöhten Bildrauschen führt.

Das menschliche Auge :


Im Vergleich mit der Kamera übernimmt das menschliche Auge die Funktion des Objektivs. Durch die Hornhaut dringen Lichtstrahlen ins Auge, die mit Hilfe der Linse auf der Netzhaut abgebildet werden. Auf der Netzhaut befinden sich lichtempfindliche Fotoezeptoren, die sogenannten Stäbchen und Zapfen, die die Informationen als elektrisches Signal weiter ans Gehirn leiten.

Um scharfes Sehen in unterschiedlichen Entfernungen zu ermöglichen, kann auch das menschliche Auge seinen Fokus variieren, in dem die Brechkraft der Linse verändert wird. pic3Bei dieser sogenannten Akkodomation wird die Linse durch einen ringförmigen Muskel (Zillarmuskel) zu einer Kugelform (nahes Sehen) oder einer Ellipsenform (fernes Sehen) geformt. Das einfallende Licht wird jedoch nicht nur an der Linse gebrochen, sondern auch schon an der Hornhaut. Dieser Brechfaktor kann allerdings nicht beeinflusst werden.  Die Gesamtbrechkraft des Auges liegt bei etwa 60 dpt, das entspricht etwa einer Brennweite von 17mm. Die der Linse beträgt dabei etwa 20 dpt.

Die Funktion der Blende wird beim Auge von der Iris übernommen. In der Mitte hat sie eine Öffnung, die Pupille, durch die die Lichtstrahlen ins Auge treffen. Durch Muskeln in der Iris kann die Größe der Öffnung variiert, die Pupille also vergrößert oder verkleinert werden, und dadurch die Menge des Lichteinfalls reguliert werden.


TU Berlin ONT-Skript

Breedlove, Watson, Rosenzweig, 2010. Biological Psychology 6th edition.Sinauer Associates, Inc.

Vorlesung Medieninformatik  WS 2014/15 TU Berlin

Wikipedia .

Übung 1